Lição de Aprendizado de Máquina do Dia – Classificação e Regressão

Uma explicação que cabe uma reflexão:

“[...]Thus, regression in statistics is different from regression in supervised learning.
In statistics,
• regression is used to model relationships between predictors and targets, and the targets could be continuous or categorical.
• a regression model usually includes 2 components to describe such relationships:
o a systematic component
o a random component. The random component of this relationship is mathematically described by some probability distribution.
• most regression models in statistics also have assumptions about thestatistical independence or dependence between the predictors and/or between the observations.
• many statistical models also aim to provide interpretable relationships between the predictors and targets.
o For example, in simple linear regression, the slope parameter, , predicts the change in the target, , for every unit increase in the predictor, .
In supervised learning,
• target variables in regression must be continuous
• regression has less or even no emphasis on using probability to describe the random variation between the predictor and the target
o Random forests are powerful tools for both classification and regression, but they do not use probability to describe the relationship between the predictors and the target.
• regression has less or even no emphasis on providing interpretable relationships between the predictors and targets.
o Neural networks are powerful tools for both classification and regression, but they do not provide interpretable relationships between the predictors and the target.
[…]”

Etiquetado ,

Análise de Whiskies usando K-Means

Uma ótima análise usando K-Means com o R. Mais do que a análise, esse post é uma aula de como proceder com uma análise de cluster usando a determinação arbitrária de clusters como o K-means exige.

Com isso a geração dos resultados e da análise ficam muito mais ‘walk-thru’ e muito menos black-box.

O resultado final?

“[...]The results indicate that there is a lot of variation in flavor profiles within the different scotch whisky regions. Note that initial cluster centers are chosen at random. In order to replicate the results, you will need to run the following code before your analysis.
set.seed(1) Further data analysis would be required to determine whether proximity to types of water sources or terrain types drive common flavor profiles. This could be done by obtaining shape files and adding them as an additional layer to the ggmap plot.
For me, I have identified my next to-try single malt. Talisker is still within the familiar realm of cluster 4 but a little more malty, fruity and spicy. Sounds like the perfect holiday mix. [...]”

Etiquetado , , ,

A Mineração de Dados está proibida de falhar?

Pois é, parece que sim. Ao menos de acordo com a Nature.

Para quem não sabe o que aconteceu, alguns pesquisadores realizaram análises no Google Flu Trends e encontraram problemas em relação ao modelo.

Os resultados estão nos artigos abaixo:

Nature News – When Google got flu wrong

The Parable of Google Flu: Traps in Big Data Analysis 
In February 2013, Google Flu Trends (GFT) made headlines but not for a reason that Google executives or the creators of the flu tracking system would have hoped. Nature reported that GFT was predicting more than double the proportion of doctor visits for influenza-like illness (ILI) than the Centers for Disease Control and Prevention (CDC), which bases its estimates on surveillance reports from laboratories across the United States (1, 2). This happened despite the fact that GFT was built to predict CDC reports. Given that GFT is often held up as an exemplary use of big data (3, 4), what lessons can we draw from this error?

The Mystery of the Exploding Tongue

Why Google Flu Trends Will Not Replace the CDC Anytime Soon

Toward a more useful definition of Big Data

 

Se alguém quiser saber como funciona o (‘brilhante’) sistema de Peer-Review da Nature (assim como de muitas revistas) o Sydney Brenner fala um pouco sobre o assunto.

Etiquetado , ,

Ainda sobre a Reprodutibilidade: Alguns sites

Aqui no blog eu tenho abordado alguns temas relativos à reprodutibilidade devido ao fato de que, ao meu ver, grande parte dos resultados científicos das áreas aplicadas soa mais como exercícios de ficção do que ciência de fato.

Abaixo alguns recursos para quem deseja saber um pouco mais sobre iniciativas de reprodutibilidade nas áreas de Ciência da Computação.

Página do Shriram Krishnamurthi (Vencedor do Robin Milner Young Researcher Award de 2012)

Post no Embedded in Academia

Página na Universidade de Brown

Página da Universidade do Arizona

Etiquetado

Correlação: o que ela não diz?

Eu sei que é um assunto batido aqui no blog, mas o Prof. Cláudio chega com mais um post matador sobre o tema.

 

 

Etiquetado , ,

Dados x Teoria

Neste post do Noahpinion mais uma vez tem o debate sobre Dados x Teoria. O autor até colocou uma frase do Paul Krugman:

But you can’t be an effective fox just by letting the data speak for itself — because it never does. You use data to inform your analysis, you let it tell you that your pet hypothesis is wrong, but data are never a substitute for hard thinking. If you think the data are speaking for themselves, what you’re really doing is implicit theorizing, which is a really bad idea (because you can’t test your assumptions if you don’t even know what you’re assuming.)

No final o autor literalmente escorrega no tomate com essa frase:

In the past, data-laziness was probably more of a threat to humanity. Since systematic data was scarce, people had a tendency to sit around and daydream about how stuff might work. But now that Big Data is getting bigger and computing power is cheap, theory-laziness seems to be becoming more of a menace. The lure of Big Data is that we can get all our ideas from mining for patterns, but A) we get a lot of false patterns that way, and B) the patterns insidiously and subtly suggest interpretations for themselves, and those interpretations are often wrong.

Três notas rápidas sobre esse artigo:

1 – O sucesso do Nate Silver que através do seu site e também de seu  livro simplesmente acabou com todos os comentaristas políticos nos EUA e fizeram a opinião pública questionar os ‘especialistas’ e os vieses de suas opiniões. E até o Paul Krugman está incomodado com isso;

2 – Nos dias de hoje contamos com aparatos estatísticos muito mais avançados que na antiguidade para analisar os dados. Isso significa que se antigamente não haviam os dados não significa necessariamente que as teorias eram válidas por não serem testáveis. Logo, a análise quantitativa nos dias de hoje representa uma condição de que a teoria pode ser testada e submetida ao falseamento constante, o que é um requisito básico da análise científica; e

3 – A era de ouro no qual economistas, sociólogos, estatísticos, jornalistas e tutti quanti simplesmente deitavam-se sobre aspectos formais e estruturais da teoria usando amostragem (sem revelar, logicamente, vieses e metodologia) está acabando. E isso é ótimo.

Pra quem quer saber um pouco mais o porque da raiva com o Nate Silver e sobre a sua abordagem está aqui.

Etiquetado , , ,

Reprodutibilidade em Mineração de Dados e Aprendizado de Máquina

Esse post do Geomblog coloca esse assunto de uma maneira bem particular. Abaixo um pequeno relato:

So one thing I often look for when reviewing such papers is sensitivity: how well can the authors demonstrate robustness with respect to the parameter/algorithm choices. If they can, then I feel much more confident that the result is real and is not just an artifact of a random collection of knob settings combined with twirling around and around holding one’s nose and scratching one’s ear. 

 

Aqui no site falamos um pouco sobre isso neste post.

Etiquetado ,

Definições sobre Mineração de Dados, Estatística, e Aprendizado de Máquina

Esse post do Geomblog de maneira bem simples (beirando a genialidade) define bem essas disciplinas da seguinte forma:

  • Mineração de Dados é a arte de encontrar padrões nos dados;
  • Estatística é a ciência matemática associada com o desenho de inferências de dados com ruído; e
  • Aprendizado de Máquina é [uma ramificação da Ciência da Computação] que desenvolve tecnologia para inferência automatizada (sua caracterização original era como uma ramificação da engenharia).
Etiquetado , ,

O erro de análise: Contrafactual

Nesse artigo da MSNBC fica mais que claro que o jornalismo ainda precisa evoluir no que tange a dar uma ‘opinião’ sobre os fatos.

O artigo fala sobre um relatório da New America Fundation no qual de acordo com a instituição a coleta de dados feita pela NSA não apresenta impactos disserníveis na prevenção dos atos de terrorismo.

É destacado que grande parte das informações de inteligência utilizam-se de métodos tradicionais como informantes, entre outros.

O que o artigo não destaca é que, dentro do espectro de análise de dados as informações e o conhecimento implícito em sua combinação e compreensão mais importante do que a informação é o que é feito de fato com a mesma.

Etiquetado ,
%d blogueiros gostam disto: