Decisões Data-Driven e suas implicações

Neste artigo do Dan Frieberg ele coloca um ponto importante na discussão sobre decisões apoiadas em dados versus contexto dos especialistas no que tange questões voltadas à agronomia e o plantio de milho:

Yet big data analytics is not the crystal ball that removes local context. Rather, the power of big data analytics is handing the crystal ball to advisors that have local context.

Real world agronomy is complex – very complex. It’s where soil science, soil supplied and applied fertility, plant pathology, entomology, weed science, soil and water conservation, all collide with your technology allowing to measure, analyze and deliver site-specific solutions.

Via Econometric Sense.

Decisões Data-Driven e suas implicações

A Análise Data-Driven é uma falha Imaginativa

Este post do R Cereals mostra mais uma vez que a velha guerrinha entre machine learners e estatísticos vai continuar por um longo tempo devido a mais desconhecimento de cada uma das partes com o segmento do outro do que divergências técnicas conceituais.

Em suma o post trata de que o modelo de análise Data-Driven é uma falha imaginativa na qual (na visão do autor), qualquer análise que se chame de “ciência” deve haver uma hipótese.

Oras, se somente a hipótese for o motor da ciência então tudo o que nós mineradores de dados conhecemos como análise exploratória de dados não é ciência de fato?

Essa afirmação por sí só já é absurda.

Então quer dizer que a NASA (a instituição mais científica do mundo) manda a Mars Rover sedimentada apenas por uma hipótese? As viagens espaciais da Challenger e da Discovery foram somente baseadas em uma hipótese?

Certamente o autor nunca leu algum livro sobre KDD ou Mineração de Dados no qual em 80% tempo temos a citação de que o processo de descoberta de conhecimento é the “…non-trivial process of identifying valid, novel, potentially useful and ultimately understandable patterns in data…”.

É um assunto que ainda será pauta aqui do Mineração de Dados.

A Análise Data-Driven é uma falha Imaginativa

As piores práticas na implantação de um modelo de predição

Esse post do ZSL Services mostra em passos bem didáticos as piores práticas no momento da implantação de um modelo preditivo; os quais eles enumeram:

  1. Falta de foco específico no negócio;
  2. Ignorar os steps iniciais;
  3. Desperdício de tempo em avaliação de modelo ;
  4. Alto investimento em ferramentas que representam um Return Of Investment (Retorno do Investimento) ROI baixo ou nulo; e
  5. Falha na operacionalização.

Apesar de serem passos simples, os mesmos requerem muitos cuidados na análise; e em geral é por esses motivos principalmente que os projetos que lidam com predição de dados falham em sua maioria.

A metodologia CRISP-DM é excelente nesse aspecto, na qual ela não engessa o projeto; mas também faz esse equilíbrio entre essas práticas e a implantação do projeto.

PS: O post fez tanto sucesso que os autores escreveram outro com algumas recomendações. http://zslbiservices.wordpress.com/2012/07/27/worst-practices-while-deploying-a-predictive-model-contd/

As piores práticas na implantação de um modelo de predição

Utilização de Teoria de Redes em Análises de Estratégias de Futebol

Esse bom artigo escrito Javier Lopez Pena e Hugo Touchette apresenta a teoria de redes aplicada na análise de estratégia de times de futebol. Através de alguns atributos como Proximidade, Interligação, e “Popularidade” e com dados provenientes da Copa do Mundo de 2010 os autores chegaram em uma análise bem razoável da aplicação da teoria de redes para avaliação de times, e demonstrar por exemplo, o fluxo do time, bem como as relações entre os atletas dentro de campo e sua importância em termos estratégicos.

O trabalho é ótimo em se tratando de análise esportiva; e com uma base um pouco mais refinada pode render muitas frutos bem interessantes nesse domínio.

Rede de passes dos times da Holanda e Espanha antes da Final da Copa do Mundo de 2010, usando dados dos passes e as formações táticas das semi-finais.

A network theory analysis of football strategies

Utilização de Teoria de Redes em Análises de Estratégias de Futebol

Estados Unidos relaxa os limites do uso de dados para prevenção do Terrorismo

Pessoalmente não gosto da gestão do Presidente Barack Obama, devido a inúmeros aspectos que vão desde a falta de comprovação do seu local de nascimento, relações não explicadas entre líderes islâmicos que financiaram a sua carreira estudantil, e em especial e mais preocupante o relaxamento iniciado em sua gestão do departamento de Homeland and Security (algo como Segurança de Estado).

Com esse prólogo, é que entra esse aspecto da segurança nacional que é de extrema importância. A Mineração de Dados aplicada a segurança de estado pode auxiliar de maneira quase que providencial como:

  • Análise de padrões de utilização de consumo de imigrantes;
  • Utilização de Cartões de Crédito em pessoas sob suspeita;
  • Reconhecimento de padrões de incidência criminal em determinadas regiões do país;
  • Mapeamento de rede de conexões de presos por práticas terroristas.

A maior mudança, sem sombra de dúvidas é a redução de Data Gathering (Aquisição, Retenção, Análise, e Armazenamento de Dados) do período de 5 anos para 180 dias; o que é extremamente péssimo em todos os sentidos de análise de dados. Para se ter uma idéia, se um suspeito de atividades terroristas comprar em 1 Jan 700 Kg de Fertilizante (Utilizado para criação de Bombas, como as que geraram o atentado em Oklahoma) em 10 de Jul o mesmo pode simplesmente comprar outros tipos de materiais para formulação da bomba, porém os dados adquiridos em Jan já não estarão disponíveis para análise; o que é sem dúvida uma aberração em termos de análise de dados só para ficar em um exemplo em particular.

Uma péssima medida que não somente fortalece os imimigos externos dos Estados Unidos, bem como fortalece e afrouxa a fiscalização para que não haja o terrorismo doméstico.

Para saber mais:

US Relaxes Limits on Use of Data in Terror Analysis.

National Counterterrorism Center New Guidelines

NCTC – 2012

National Counterterrorism Center Previous Guidelines

NCTC – 2008

Estados Unidos relaxa os limites do uso de dados para prevenção do Terrorismo