Decisões Data-Driven e suas implicações

Neste artigo do Dan Frieberg ele coloca um ponto importante na discussão sobre decisões apoiadas em dados versus contexto dos especialistas no que tange questões voltadas à agronomia e o plantio de milho:

Yet big data analytics is not the crystal ball that removes local context. Rather, the power of big data analytics is handing the crystal ball to advisors that have local context.

Real world agronomy is complex – very complex. It’s where soil science, soil supplied and applied fertility, plant pathology, entomology, weed science, soil and water conservation, all collide with your technology allowing to measure, analyze and deliver site-specific solutions.

Via Econometric Sense.

Decisões Data-Driven e suas implicações

A Análise Data-Driven é uma falha Imaginativa

Este post do R Cereals mostra mais uma vez que a velha guerrinha entre machine learners e estatísticos vai continuar por um longo tempo devido a mais desconhecimento de cada uma das partes com o segmento do outro do que divergências técnicas conceituais.

Em suma o post trata de que o modelo de análise Data-Driven é uma falha imaginativa na qual (na visão do autor), qualquer análise que se chame de “ciência” deve haver uma hipótese.

Oras, se somente a hipótese for o motor da ciência então tudo o que nós mineradores de dados conhecemos como análise exploratória de dados não é ciência de fato?

Essa afirmação por sí só já é absurda.

Então quer dizer que a NASA (a instituição mais científica do mundo) manda a Mars Rover sedimentada apenas por uma hipótese? As viagens espaciais da Challenger e da Discovery foram somente baseadas em uma hipótese?

Certamente o autor nunca leu algum livro sobre KDD ou Mineração de Dados no qual em 80% tempo temos a citação de que o processo de descoberta de conhecimento é the “…non-trivial process of identifying valid, novel, potentially useful and ultimately understandable patterns in data…”.

É um assunto que ainda será pauta aqui do Mineração de Dados.

A Análise Data-Driven é uma falha Imaginativa

Livro – Sports Data Mining: SCHUMAKER, Robert P.; CHEN , Hsinchun; SOLIEMAN, Osama K.

Fazia um bom tempo que o site não trazia algumas novidades sobre livros e tem cerca de 40 papers a serem comentados e uns 12 livros a serem resenhados; mas essa obra é especial porque une dois temas muito interessantes (e de gosto pessoal do moderador do site) que são Mineração de Dados e Esportes.

Esse livro tem como abordagem central a intersecção entre esportes, data collection (ou data gathering), e a mineração de dados aplicada a diversos domínios esportivos, que vão desde Baseball, passando pelo Basquete e Futebol e chegando no Curling.

A forma de linguagem que o livro é escrito e o seu desenvolvimento são bem agradáveis para leitura (literatura) técnica, na qual os autores trabalharam bem a simplicidade das colocações, seja na esfera esportiva ou na mineração de dados; o que torna a leitura bem dinâmica e principalmente instrutiva.

O livro saí do lugar comum entre os livros de mineração de dados aplicada, o qual apresenta a definição e a construção dos conceitos por trás da mineração de dados esportivos bem como os trade-offs dentro de cada esporte de forma bem honesta e transparente.

A obra tem um leve viés para o Baseball, o que é plenamente compreensível já que é o esporte que tem o maior volume de dados estudados atualmente. Entretanto, há o excelente caso do Milan que vale a pena a leitura. Ainda há indicações de ferramentas para data gathering e fontes de dados, além da apresentação de alguns aplicativos.

O ponto fonte sem dúvidas é o capitulo Research in Sports Statistics o qual mostra os primórdios dos estudos sobre as formas de metrificações de atributos esportivos, e claro, faz referência em grande parte do que foi proposto por Bill James (Sabermetrics) em seus abstracts. A forma da conceituação e construção de métricas esportivas já vale o preço do livro devido a simplicidade e a forma de raciocínio por trás dessa elaboração.

Os pontos fracos dessa obra são 1) a falta de maiores exemplos sobre as formas de métricas erradas em outros esportes além do basquete e do baseball, 2) a ausência de datasets de exemplos para quem deseja realizar uma abordagem mais hands-on, e 3) a parte de análise preditiva ficou um pouco vaga; e em esportes com uma alta competitividade e rotatividade de vencedores (atletismo, esportes automotores) pode não se aplicar de fato na forma em que é proposta no livro.

Em geral o livro é ótimo, e mostra que a abordagem data-driven aplicada aos esportes tem muito a evoluir, principalmente no futebol (soccer) e em outros esportes, e que a mineração de dados pode sim ser fator de desequilíbrio no campo estratégico de um time.

Este livro é indicado para: Estudantes de Ciência da Computação, professores de mineração de dados, especialistas em Banco de Dados, estudantes de Educação Física, e educadores físicos.

Não recomendado para: Quem não gosta de esportes.

Livro – Sports Data Mining: SCHUMAKER, Robert P.; CHEN , Hsinchun; SOLIEMAN, Osama K.