Estatística x Mineração de Dados

Esse post do Piatetsky-Shapiro resume a discussão sobre essas duas disciplinas.

Statistics x Data Mining

 

“Estatística Vs Mineração de Dados: A Estatística começa após a conclusão da limpeza de dados, enquanto a Mineração de Dados incluí a limpeza de dados e a engenharia dos dados” (Tradução Livre)

Estatística x Mineração de Dados

A Morte dos Estatísticos

Neste post do Vincent Grandville, ele apresenta alguns dados do Google Trends no qual ele induz que o cientista de dados está em alta e os estatísticos estão em baixa de acordo com o número de anúncios de oportunidades de emprego.

A discussão rende boas horas de filosofia, debates acalorados que vão desde estruturas de reserva de mercado para A ou B categorias profissionais até mesmo a defesa de caixas-pretas que são alguns algoritmos/técnicas de mineração de dados e aprendizado de máquina.

No entanto, o ponto principal é que essa dicotomia existe de forma virtual, já que da mesma forma que um estatístico não é um especialista em linguagens de programação para análise de dados, um cientista da computação não tem instrumental analítico/matemático para desempenhar alguns tipos de análises.

Vale a pena verificar os comentários.

 

A Morte dos Estatísticos

Reproducible Research with R and RStudio – Livro sobre Pesquisa Reprodutível

Ainda sobre o assunto da reprodução de pesquisas, está em vias de ser lançado um livro sobre o assunto chamado Reproducible Research with R and RStudio escrito por Christopher Gandrud.

No enxerto do livro o autor disponibiliza 5 dicas práticas para criação/reprodução de pesquisas que são:

  1. Document everything!,
  2. Everything is a (text) file,
  3. All files should be human readable,
  4. Explicitly tie your files together,
  5. Have a plan to organize, store, and make your files available.

 

 

Reproducible Research with R and RStudio – Livro sobre Pesquisa Reprodutível

Replicação em Pesquisa Acadêmica em Mineração de Dados

Lendo este post do John Taylor sobre a replicação da pesquisa econômica publicada até em journals de alto impacto lembrei de uma prática bem comum em revistas acadêmicas da área de Engenharia de Produção e Mineração de Dados que é a irreprodutibilidade dos artigos publicados.

Essa irreprodutibilidade se dá na forma em que se conseguem os resultados, em especial, de técnicas como Clustering, Regras de Associação, e principalmente Redes Neurais.

Um trabalho acadêmico/técnico/experimental que não pode ser reproduzido é a priori 1) metodologicamente fraco, e 2) pessimamente revisado. Trabalhos com essas características tem tanto suporte para o conhecimento como a chamada evidência anedótica.

Depois de ler mais de 150 papers em 2012 (e rumo aos 300 em 2013) a estrutura não muda:

  • Introdução;
  • Revisão Bibliográfica;
  • Aplicação da Técnica;
  • Resultados; e
  • Discussão na qual fala que teve  ganho de 90% em redes neurais.

Há um check-list bem interessante para analisar um artigo acadêmico com um péssimo DOE, e mal fundamentado metologicamente:

Artigos de Clustering 

  • Qual foi o tamanho da amostra?;
  • Qual é o tamanho mínimo da amostra dentro da população estimada?
  • Foram realizados testes estatísticos sobre a população como teste-Z ou ANOVA?
  • Qual é o P-Valor?
  • Qual foi a técnica para a determinação da separação dos clusters?
  • Quais os parâmetros foram usados para a clusterização?
  • Porque foi escolhido o algoritmo Z?

Artigos de Regras de Associação

  • Qual foi o suporte mínimo?
  • Qual é o tamanho da amostra e o quanto ela é representativa estatisticamente de acordo com a população?
  • O quanto o SUPORTE representa a POPULAÇÃO dentro do seu estudo?
  • Como foi realizado o prunning as regras acionáveis?
  • A amostra é generalizável? Porque não foi realizado o experimento em TODA a população?

Redes Neurais

  • Qual é a arquitetura da rede?
  • Porque foi utilizada a função de ativação Tangente e não a Hiperbólica (ou vice-versa)?
  • A função de ativação é adequada para os dados que estão sendo estudados? Como foi feito o pré-processamento e a discretização dos dados?
  • Porque foi escolhida o número de camadas internas?
  • Tem taxa de aprendizado? Qual foi e porque foi determinada essa taxa?
  • Tem decaímento (Decay)? Porque?
  • E o momentum? Foi utilizado? Com quais parâmetros?
  • Qual estrutura de custos está vinculada nos resultados? Qual foi a quantidade de erros tipo I e II que foram realizados pela rede?
  • E o número de épocas? Como foi determinada e em qual momento a rede deixou de convergir? Você acha que é um erro mínimo global ou local? Como você explica isso no resultado do artigo

Pode parecer algo como o desconstrucionismo acadêmico fantasiado de exame crítico em um primeiro momento mas para quem vive em um meio no qual estudos mais do que fraudulentos são pintados como revolucionários é um recurso como um escudo contra besteiras (Bullshit Shield).

Em suma, com 50% das respostas das perguntas acima o risco de ser um paper ruim com resultados do tipo “caixa-preta” já caí para 10% e aí entra o verdadeiro trabalho de análise para a reprodução do artigo.

Abaixo um vídeo bem interessante sobre papers que nada mais passam de evidência anedótica.

Replicação em Pesquisa Acadêmica em Mineração de Dados

A maioria das analises estatísticas não é realizada por estatísticos

Neste post do Jeff Leek ele aborda de maneira bem lúcida a crescente tendência de que a maioria das análises estatísticas são realizadas por pessoas que sabem somente o ‘instrumental’ em estatística.

Na blogosfera de estatística, física e matemática o tema trás muita discussão com opiniões divididas em pessoas que acham que essas pessoas não são capazes de realizar tais análises e outros que vem esse uso instrumental da estatística como a vitória dos métodos quantitativos.

Uma visão estreita tem sido compartilhada por diversas pessoas oriundas destas disciplinas na qual estes defendem que somente pessoas com formação acadêmica em métodos quantitativos são capazes de realizar análises devido ao fato que a formação é baseada na execução de tarefas desta natureza. Um erro lógico proveniente de pessoas que não poderiam abrir mão da lógica por definição acadêmica, quase beirando o rent-seeking. Mais do que um erro um estatístico que acha que deve trabalhar com análise descritiva (que é o que ocorre em 95% do tempo) é algo como um engenheiro desejar trabalhar como ajudante de alvenaria.

Uma visão bem mais positiva e correta é colocada por Leek:

What does this mean for statistics as a discipline? Well it is great news in that we have a lot more people to train. It also really drives home the importance of statistical literacy. But it also means we need to adapt our thinking about what it means to teach and perform statistics. We need to focus increasingly on interpretation and critique and away from formulas and memorization (think English composition versus grammar). We also need to realize that the most impactful statistical methods will not be used by statisticians, which means we need more fool proofing, more time automating, and more time creating software. The potential payout is huge for realizing that the tide has turned and most people who analyze data aren’t statisticians.

Os métodos quantitativos venceram e com mais pessoas performando estas análises todo o ambiente de negócios melhora como um todo.

A maioria das analises estatísticas não é realizada por estatísticos

Visualização de Dados: Incerteza, e Ambigüidade

Neste artigo da Nature escrito por Vivien Marx ela traça bons paralelos com a atividade de visualização de dados e as incertezas e ambiguidades dessa forma de análise de dados.

A visualização de dados tornou-se uma disciplina muito estudada em especial nos últimos 20 anos, com especial destaque para os trabalhos do Edward Tufte. Entretanto um dos fatos que é pouco salientado até mesmo no estudo desta disciplina é que a visualização de dados obrigatoriamente implica na perda de informação. Ponto.

Essa perda refere-se a questões ligadas a modelagem gráfica na qual o analista de dados deve por obrigação realizar a abstração de dados para posteriormente enquadrar os mesmos em um formato orientado à visualização destes dados.

Não há nada de errado nisso, mas como a Sra. Marx coloca em ser artigo, nunca deve ser esquecido que:

“Being sure is good; being uncertain is not necessarily bad.”

Um dos pontos interessantes do artigo é sem dúvidas no aspecto da incerteza nos modelos de visualização de dados no qual a passagem abaixo representa muito bem isso:

“Uncertainty comes in many flavors. It can arise upon data capture, during analysis or during visualization. It may be due to missing, noisy or imprecise data or to filters that could skew calculations, or there may be too few data to begin with, says Heidrun Schumann, a computer scientist at the University of Rostock who studies uncertainty visualization in many research areas, including the life sciences”

O ponto principal do artigo e que pode servir para analistas de dados é que muitas das vezes um modelo de visualização mesmo com as suas abstrações de dados e com o seu grau de incerteza pode auxiliar na tomada de decisão por dois aspectos básicos que são 1) o tempo disponível para a análise dos dados e 2) forma de abstração e agregação da informação relevante que neste caso assume-se a incerteza e os riscos atrelados nela.

nmeth.2530

Visualização de Dados: Incerteza, e Ambigüidade

Flávio Barros – flaviobarros.net

Um ótimo site que está também na estrada da mineração de dados e análise de dados em geral é o do Flávio Barros. O site tem diversas postagens sobre mineração de dados em especial no R, e já conta com dois ótimos posts no R Bloggers (ANOVA and Tukey’s test on RCompiling R 3.0.1 with MKL support). Outro fato interessante é que o autor do site tem um background bem interessante quando falamos em análise de dados (Física;Engenharia) no qual podemos esperar posts com qualidade.

 

 

Flávio Barros – flaviobarros.net

Futebol Americano: Estatística e Análises com o Football Outsiders

Dentro do segmento esportivo tão importante quanto os aspectos táticos e técnicos envolvidos na prática esportiva, é o entendimento dos padrões e tendências por trás dos dados. Transformar esses dados em conhecimento para construção de estratégias nos dias de hoje com o aumento da competitividade esportiva já é um fator fundamental para definir quem vence e quem perde.

Com a proposta de prover análises estatísticas e o Football Outsiders sem sombra de dúvidas é o melhor site esportivo no segmento de análises ligadas ao futebol americano; que com algumas adaptações podem ser aplicadas ao nosso futebol (Soccer).

 

Futebol Americano: Estatística e Análises com o Football Outsiders

A Tirania das Médias

O William Briggs nos brinda com mais um “causo” sobre a tirania das médias.

It might be that the average man grieves (say) 8 months after the death of his wife (one of Coontz’s example), but that doesn’t mean that a man who stops crying at 2 months is heard-hearted, nor that a man who wears sackcloth for two years is insane.

Using just the average to define “normal” in people is dangerously close to the fallacy of defining moral truths by vote. Come to think of it, isn’t that what the Diagnostic and Statistical Manual of Mental Disorders does? Plus, even “extremes” might not be “abnormal” in the sense of undesirable or harmful; it all depends on the behavior and our understanding of biology and morality.

A Tirania das Médias

Estatística x Data Science x Business Intelligence

Neste post do David Smith no R Bloggers ele apresenta um paralelo bem interessante sobre essas três disciplinas. Isso mostra que cada vez mais analistas de dados serão necessários para compreensão do ambiente de negócios com uma complexidade em franco crescimento.

Estatística x Data Science x Business Intelligence

FAQ sobre Aprendizado de Máquina, Data Mining e afins…

Este post do William Briggs mostra de maneira bem humorada a visão dele sobre Aprendizado de Máquina, Estatística, Análise de Risco, Data Mining e assuntos do tipo.

FAQ sobre Aprendizado de Máquina, Data Mining e afins…

A NFL saindo da idade da pedra

Este post do Derrick Harris mostra que há uma tendência crescente de que os times de futebol americano da NFL estão cada vez mais contratando estatísticos, e que finalmente estão “tirando o atraso” em relação as outras ligas como a NBA ou a MLB.

Para quem assistiu o filme Moneyball e conhece os bastidores do futebol aqui no Brasil sabe que o processo de seleção dos times e remuneração de atletas é um tema espinhoso no qual sempre o “instinto” acaba prevalecendo sobre os aspectos técnicos e de custo e benefício.

Essa declaração abaixo da reportagem deixa o tema ainda mais interessante, no que diz respeito a seleção dos atletas no Draft:

As one anonymous source put it when discussing the difficulty of evaluating players before the NFL draft: “At the end of the day, the tape is going to be our first choice. They have to look good on film.”

His point and those of others with whom Battista spoke are fair. For example:

  • Offensive line play can be difficult to gauge because the line is a five-person unit designed to work well together, not as a collection of individuals.
  • How do you statistically assess a middle linebacker who doesn’t make a lot of tackles but who’s always in the mix and disrupting the offense?
  • When it comes to calling plays, there might be limited data on any given situation (e.g., a particular down and distance to go from a particular spot on the field), and the outcomes might be very much influenced by the players on the field in each of those prior situations.

Para quem deseja saber mais sobre a intersecção entre esportes e mineração de dados, basta consultar a resenha do livro Sports Data Mining que foi realizado aqui.

A NFL saindo da idade da pedra

Truques Estúpidos em Mineração de Dados – Overfitting no índice S&P500

Neste artigo do David Leinweber (o qual já foi tema do site aqui e aqui) ele coloca algumas considerações a respeito do fato de que muito do que se fala sobre Mineração de Dados está fartamente relacionado a relações absurdas que podem acontecer pelo fato de “torturar os dados” como a predição do índice Standard & Poor’s 500 através de correlações (estúpidas) como o modelo de regressão no qual a produção de manteiga em Bangladesh (Coeficiente de Determinação R2 de 0.75); produção de manteiga em Bangladesh e produção de queijo nos EUA (R2 = 0.95) e a fantástica correlação entre a produção de manteiga em Bangladesh, a produção de queijo nos EUA e a população de ovelhas em Bangladesh que apresenta o coeficiente de determinação de incríveis 99%.

É claro que o artigo escorrega um pouco ao radicalizar a questão, no qual o autor confunde quase que de maneira primária os conceitos de correlação (relação conjunta de uma ou mais váriaveis dentro de um contexto de análise) e casualidade (fatos que acontecem de acordo com um dado grau de sincronissidade, enretanto isolados em contextos distintos) para dar substância ao que está sendo defendido em sua tese; mas isso de nenhuma forma invalida o estudo no qual deixa claro que a “técnica de torturar os dados até que eles falem” é uma péssima abordagem e que pode gerar aberrações em análise de dados iguais aos casos citados.

De maneira geral o autor apresenta uma boa prática na qual sempre que haja esse tipo de análise, deve-se realizar testes sobre dados fora da amostragem para que sejam produzidos resultados mais fidedignos.

Stupid Data Miner Tricks – Overfitting The S&P 500

Truques Estúpidos em Mineração de Dados – Overfitting no índice S&P500

Resenha: Data Mining Methods and Models

Esse é o segundo livro da série sobre mineração de dados do Daniel Larose, no qual diferentemente do primeiro livro; ele começa a entrar de fato nas técnicas de mineração de dados.

Nesta obra, Daniel Larose explica algumas técnicas de mineração de dados através da sua técnica de redação: abordagens com passagens passo a passo, texto claro, estudos de caso didáticos, exemplos e exercícios.

O livro tem como principal característica uma abordagem mais estatística dentro do segmento da mineração de dados, o que significa que o livro é baseado no principio de descrever as técnicas e após isso colocar o que foi apresentado em prática com as validações necessárias; o que torna o livro extremamente válido para quem deseja entrar nos porquês de cada técnica.

O livro aborda técnicas como redução da dimensionalidade (com uma ótima explicação sobre PCA), modelagem em regressão, estimação nayve bayes, algoritmos genéticos, e um estudo de caso sobre email marketing no qual ele utiliza o CRISP-DM.

O livro é um verdadeiro manual, how-to sobre mineração de dados e tem como software de suporte o WEKA, no qual os capítulos do livro são baseados; o que pode ajudar muito quem pretende iniciar os estudos em mineração de dados e não tem uma ferramenta especifica para tal.

Para quem utiliza o WEKA como ferramenta de mineração de dados o livro conta com exemplos bem elaborados e com exercícios que podem ser transcritos para qualquer curso de mineração de dados; desde o básico até o avançado.

 Pontos Positivos: Exemplos práticos bem relevantes de mineração de dados com o WEKA, abordagem estatística muito didática, abordagem dos assuntos totalmente white-box.

 Pontos Negativos: Para quem deseja uma abordagem mais teórica o livro pode não ser a melhor escolha, e também para quem não tem intimidade com uma abordagem de mineração de dados mais estatística pode sentir um pouco mais de dificuldade na fixação de conceitos.

Resenha: Data Mining Methods and Models