A Mineração de Dados está proibida de falhar?

Pois é, parece que sim. Ao menos de acordo com a Nature.

Para quem não sabe o que aconteceu, alguns pesquisadores realizaram análises no Google Flu Trends e encontraram problemas em relação ao modelo.

Os resultados estão nos artigos abaixo:

Nature News – When Google got flu wrong

The Parable of Google Flu: Traps in Big Data Analysis 
In February 2013, Google Flu Trends (GFT) made headlines but not for a reason that Google executives or the creators of the flu tracking system would have hoped. Nature reported that GFT was predicting more than double the proportion of doctor visits for influenza-like illness (ILI) than the Centers for Disease Control and Prevention (CDC), which bases its estimates on surveillance reports from laboratories across the United States (1, 2). This happened despite the fact that GFT was built to predict CDC reports. Given that GFT is often held up as an exemplary use of big data (3, 4), what lessons can we draw from this error?

The Mystery of the Exploding Tongue

Why Google Flu Trends Will Not Replace the CDC Anytime Soon

Toward a more useful definition of Big Data

 

Se alguém quiser saber como funciona o (‘brilhante’) sistema de Peer-Review da Nature (assim como de muitas revistas) o Sydney Brenner fala um pouco sobre o assunto.

A Mineração de Dados está proibida de falhar?

Deixe o seu comentário inteligente e educado! :o)

Preencha os seus dados abaixo ou clique em um ícone para log in:

Logotipo do WordPress.com

Você está comentando utilizando sua conta WordPress.com. Sair / Alterar )

Imagem do Twitter

Você está comentando utilizando sua conta Twitter. Sair / Alterar )

Foto do Facebook

Você está comentando utilizando sua conta Facebook. Sair / Alterar )

Foto do Google+

Você está comentando utilizando sua conta Google+. Sair / Alterar )

Conectando a %s