Previsão dos Resultados da Temporada Regular da NFL

No blog do Vik’s ele está realizando um bom trabalho para realizar a predição dos jogos da NFL na temporada regular utilizando uma série histórica com os resultados e algumas informações da partida.

Previsão dos Resultados da Temporada Regular da NFL

Reproducible Research with R and RStudio – Livro sobre Pesquisa Reprodutível

Ainda sobre o assunto da reprodução de pesquisas, está em vias de ser lançado um livro sobre o assunto chamado Reproducible Research with R and RStudio escrito por Christopher Gandrud.

No enxerto do livro o autor disponibiliza 5 dicas práticas para criação/reprodução de pesquisas que são:

  1. Document everything!,
  2. Everything is a (text) file,
  3. All files should be human readable,
  4. Explicitly tie your files together,
  5. Have a plan to organize, store, and make your files available.

 

 

Reproducible Research with R and RStudio – Livro sobre Pesquisa Reprodutível

Simpósio de Visualização em Big Data

O  Symposium on the Emerging Science of Big Data Visualization ocorreu em Maio desse ano na Caltech e teve como objetivo realizar um panorama de como andam os estudos e as perspectivas em relação à visualização de dados nesta época de Big Data. Abaixo a descrição do evento:

Nearly every scientific and engineering endeavor faces a fundamental challenge to see and extract insights from data. Effective Data Science and Visualization can lead to new discoveries. Together, we at Caltech, NASA JPL, and Art Center represent the same convergence of science, engineering and design that drives new Big Data-powered discovery. Industry leaders came together for a series of talks to inspire, unite, and challenge our community to re-examine our practices, and our perspectives.

O evento foi registrado e tem a participação da brasileira Fernanda Viegas que trabalhou no Many Eyes e atualmente está no MIT.

  • Introduction – Scott Davidoff, Hillary Mushkin, and Maggie Hendrie
  • Interactive Data Analysis – Jeffrey Heer
  • Reduction/Revelation – Jer Thorp
  • When Art and Analytics Overlap – Golan Levin
  • Communicating Science to the Public – Eric Rodenbeck
  • Visualizing Natural and Cultural Phenomena – Fernanda Viegas & Martin Wattenberg
  • Objects and Data Collections in Early Scientific Disciplines – Anja-Silvia Goeing
Simpósio de Visualização em Big Data

Replicação em Pesquisa Acadêmica em Mineração de Dados

Lendo este post do John Taylor sobre a replicação da pesquisa econômica publicada até em journals de alto impacto lembrei de uma prática bem comum em revistas acadêmicas da área de Engenharia de Produção e Mineração de Dados que é a irreprodutibilidade dos artigos publicados.

Essa irreprodutibilidade se dá na forma em que se conseguem os resultados, em especial, de técnicas como Clustering, Regras de Associação, e principalmente Redes Neurais.

Um trabalho acadêmico/técnico/experimental que não pode ser reproduzido é a priori 1) metodologicamente fraco, e 2) pessimamente revisado. Trabalhos com essas características tem tanto suporte para o conhecimento como a chamada evidência anedótica.

Depois de ler mais de 150 papers em 2012 (e rumo aos 300 em 2013) a estrutura não muda:

  • Introdução;
  • Revisão Bibliográfica;
  • Aplicação da Técnica;
  • Resultados; e
  • Discussão na qual fala que teve  ganho de 90% em redes neurais.

Há um check-list bem interessante para analisar um artigo acadêmico com um péssimo DOE, e mal fundamentado metologicamente:

Artigos de Clustering 

  • Qual foi o tamanho da amostra?;
  • Qual é o tamanho mínimo da amostra dentro da população estimada?
  • Foram realizados testes estatísticos sobre a população como teste-Z ou ANOVA?
  • Qual é o P-Valor?
  • Qual foi a técnica para a determinação da separação dos clusters?
  • Quais os parâmetros foram usados para a clusterização?
  • Porque foi escolhido o algoritmo Z?

Artigos de Regras de Associação

  • Qual foi o suporte mínimo?
  • Qual é o tamanho da amostra e o quanto ela é representativa estatisticamente de acordo com a população?
  • O quanto o SUPORTE representa a POPULAÇÃO dentro do seu estudo?
  • Como foi realizado o prunning as regras acionáveis?
  • A amostra é generalizável? Porque não foi realizado o experimento em TODA a população?

Redes Neurais

  • Qual é a arquitetura da rede?
  • Porque foi utilizada a função de ativação Tangente e não a Hiperbólica (ou vice-versa)?
  • A função de ativação é adequada para os dados que estão sendo estudados? Como foi feito o pré-processamento e a discretização dos dados?
  • Porque foi escolhida o número de camadas internas?
  • Tem taxa de aprendizado? Qual foi e porque foi determinada essa taxa?
  • Tem decaímento (Decay)? Porque?
  • E o momentum? Foi utilizado? Com quais parâmetros?
  • Qual estrutura de custos está vinculada nos resultados? Qual foi a quantidade de erros tipo I e II que foram realizados pela rede?
  • E o número de épocas? Como foi determinada e em qual momento a rede deixou de convergir? Você acha que é um erro mínimo global ou local? Como você explica isso no resultado do artigo

Pode parecer algo como o desconstrucionismo acadêmico fantasiado de exame crítico em um primeiro momento mas para quem vive em um meio no qual estudos mais do que fraudulentos são pintados como revolucionários é um recurso como um escudo contra besteiras (Bullshit Shield).

Em suma, com 50% das respostas das perguntas acima o risco de ser um paper ruim com resultados do tipo “caixa-preta” já caí para 10% e aí entra o verdadeiro trabalho de análise para a reprodução do artigo.

Abaixo um vídeo bem interessante sobre papers que nada mais passam de evidência anedótica.

Replicação em Pesquisa Acadêmica em Mineração de Dados

Estudante ou Formando em Jornalismo o que você está esperando para aprender sobre visualização?

O jornalismo com o advento dos novos canais de mídia como os veículos que têm a internet como suporte foi obrigado a mudar. Pena que as faculdades de jornalismo e comunicação social ainda não sabem disso.

Em uma rápida pesquisa baseada em uma amostra empírica e evidência anedótica não encontrei nenhum curso no qual tivesse na grade algum tipo de disciplina que trabalha com métodos quantitativos aplicados à visualização de dados.

Hoje a usabilidade é um fator determinante para a comunicação e com o perfil dos leitores com o nível de esclarecimento (acadêmico) mais elevado é necessário que o jornalista que tem como principal missão trazer os fatos tenha além do viés investigativo também tenha habilidade de lidar com números e principalmente na forma de expor esses números aos leitores.

Neste post da Tableau é feita uma análise de como o poderoso Le Monde está se adaptando a esta realidade. 

Data Jornalism é o futuro.

Estudante ou Formando em Jornalismo o que você está esperando para aprender sobre visualização?

A maioria das analises estatísticas não é realizada por estatísticos

Neste post do Jeff Leek ele aborda de maneira bem lúcida a crescente tendência de que a maioria das análises estatísticas são realizadas por pessoas que sabem somente o ‘instrumental’ em estatística.

Na blogosfera de estatística, física e matemática o tema trás muita discussão com opiniões divididas em pessoas que acham que essas pessoas não são capazes de realizar tais análises e outros que vem esse uso instrumental da estatística como a vitória dos métodos quantitativos.

Uma visão estreita tem sido compartilhada por diversas pessoas oriundas destas disciplinas na qual estes defendem que somente pessoas com formação acadêmica em métodos quantitativos são capazes de realizar análises devido ao fato que a formação é baseada na execução de tarefas desta natureza. Um erro lógico proveniente de pessoas que não poderiam abrir mão da lógica por definição acadêmica, quase beirando o rent-seeking. Mais do que um erro um estatístico que acha que deve trabalhar com análise descritiva (que é o que ocorre em 95% do tempo) é algo como um engenheiro desejar trabalhar como ajudante de alvenaria.

Uma visão bem mais positiva e correta é colocada por Leek:

What does this mean for statistics as a discipline? Well it is great news in that we have a lot more people to train. It also really drives home the importance of statistical literacy. But it also means we need to adapt our thinking about what it means to teach and perform statistics. We need to focus increasingly on interpretation and critique and away from formulas and memorization (think English composition versus grammar). We also need to realize that the most impactful statistical methods will not be used by statisticians, which means we need more fool proofing, more time automating, and more time creating software. The potential payout is huge for realizing that the tide has turned and most people who analyze data aren’t statisticians.

Os métodos quantitativos venceram e com mais pessoas performando estas análises todo o ambiente de negócios melhora como um todo.

A maioria das analises estatísticas não é realizada por estatísticos

LIONSolver – Mais uma alternativa para Mineração de Dados

Para quem deseja analisar mais uma opção como ferramenta de mineração de dados o LIONSolver parece ser uma ferramenta bem intuitiva e de fácil uso.

Abaixo, segue uma apresentação da ferramenta.

LIONsolver: Hierarchical Clustering for skimming your data from Lionsolver on Vimeo.

LIONSolver – Mais uma alternativa para Mineração de Dados