A Mineração de Dados está proibida de falhar?

Pois é, parece que sim. Ao menos de acordo com a Nature.

Para quem não sabe o que aconteceu, alguns pesquisadores realizaram análises no Google Flu Trends e encontraram problemas em relação ao modelo.

Os resultados estão nos artigos abaixo:

Nature News – When Google got flu wrong

The Parable of Google Flu: Traps in Big Data Analysis 
In February 2013, Google Flu Trends (GFT) made headlines but not for a reason that Google executives or the creators of the flu tracking system would have hoped. Nature reported that GFT was predicting more than double the proportion of doctor visits for influenza-like illness (ILI) than the Centers for Disease Control and Prevention (CDC), which bases its estimates on surveillance reports from laboratories across the United States (1, 2). This happened despite the fact that GFT was built to predict CDC reports. Given that GFT is often held up as an exemplary use of big data (3, 4), what lessons can we draw from this error?

The Mystery of the Exploding Tongue

Why Google Flu Trends Will Not Replace the CDC Anytime Soon

Toward a more useful definition of Big Data

 

Se alguém quiser saber como funciona o (‘brilhante’) sistema de Peer-Review da Nature (assim como de muitas revistas) o Sydney Brenner fala um pouco sobre o assunto.

A Mineração de Dados está proibida de falhar?

Tendências de Gripe com o Google Flutrends

Uma iniciativa relativa à análise de dados relativos à tendência da gripe é realizada pela Google. O Google Flutrends permite realizar um acompanhamento da gripe ao longo do ano em diversos países. Isso é feito através de agregação dos dados em redes sociais e dados do mecanismo de busca.

Tendências de Gripe com o Google Flutrends

O real perigo da privacidade não é a mineração de dados das grandes corporações ou a vigilância governamental, mas sim ambos

Entre os posts que saem na grande mídia, provavelmente essa é a opinião mais fundamentada e que tem uma maior visão sobre a questão da privacidade e a mineração de dados, na qual faz a relação entre o que as grandes empresas sabem sobre nós, a vigilância governamental; e como essas organizações estão intrinsecamente ligadas e porque isso é uma ameaça a privacidade como um todo.

O artigo inicia com uma declaração na qual para quem realiza mineração de dados pode ser trivial, mas para pessoas comuns chega a ser assustador em termos de como corporações tem total conhecimento dos nossos dados pessoais:

It is said that a Visa executive – as in Visa, the credit card system – can predict your divorce one year ahead of yourself, based on your buying habits. There’s a recent telling anecdote where Target, the chain of stores, knew that a teenage woman was pregnant before her parents knew. If our purchase habits give away our life and privacy to this degree – imagine what Google or Facebook would be able to predict, if they wanted to?

Sob o aspecto governamental, como já foi postado anteriormente sobre a TIA (Total Information Awareness) na qual após uma parceria entre a Google e a CIA (Uma típica parceria publico privada) esse programa foi estranhamente colocado na geladeira pelo governo americano.

Esse quote mostra bem sobre o que o governo é capaz de fazer com as suas informações:

So let’s instead jump to what governments can do. Many enough countries now have blanket wiretapping laws in place that let them wiretap all their own citizens’ net traffic, all other citizens’ traffic, or both. (This would have been absolutely unthinkable just a decade ago.) Additionally, the security services generally share raw data between them – so just because you’re not tapped in your home country, that doesn’t mean your local security service doesn’t have a copy of everything you’ve ever typed or sent online; it can be tapped anywhere.

Governments are not only able to knock down your door when you behave in a way they don’t approve of. They even like doing exactly that, and see it as their job. This is something of a problem, and quite a severe one.

 

Dentro dessa abordagem que o autor propõe, cabe ressaltar que em alguns anos haverá a necessidade de uma regulação a respeito da aquisição/controle/comercialização das informações pelas empresas bem como maiores controles por parte do setor governamental. A discussão é boa e o artigo coloca um interessante ponto de vista. Vale a leitura.

O real perigo da privacidade não é a mineração de dados das grandes corporações ou a vigilância governamental, mas sim ambos