As 500 milhas de Indianápolis e a Análise de Dados

Neste post do Doug Laney ele mostra como as equipes de corrida participantes da Formula Indy utilizam a análise de dados para ajustes nos carros, bem como realizar predições relativas ao compostamento do carro com níveis de acurácia de 90%.

Realizando um paralelo com o ambiente de negócios cada vez mais competitivo (como na Indy), analisando a telemetria do negócio (KPIs, etc) o autor coloca algumas questões que reproduzo abaixo:

  1. Are you sufficiently monitoring key business processes, systems and personnel using available sensors and instrumentation?
  2. Are your data streams collected frequently enough for real-time process adjustments (i.e. complex event processing)?
  3. Do your business processes support real-time or near real-time inputs to adjust their operation or performance?
  4. Can you anticipate business process or system failures before they occur, or are you doing too much reactive maintenance?
  5. Do you centrally collect data about business function performance?
  6. Do you make use of advances in high-performance analytics such as in-memory databases, NoSQL databases, data warehouse appliances, etc.?
  7. Do you gather important external data (e.g. weather, economic) to supplement and integrate with your own data?
  8. Do you synchronize, align and integrate data that comes from different streams?
  9. Do you make your data available to key business partners, suppliers and customers to help them provide better products and services to you?
  10. Do you have a common, sophisticated analytics platform that includes the ability to establish new analytic functions, alerts, triggers, visualizations?
  11. Can you run simulations on business systems while they’re operating and also between events to adjust strategies?
  12. Does your architecture support multiple users around the world seeing real-time business performance simultaneously?
  13. Do you have teams of business experts, product/service experts and data scientists collaborating on making sense of the data?
  14. Do you modify your products or services as frequently as you could or should based on available data?
  15. Do you also use data you collect to develop new products or services as frequently as you could or should?

E uma motivação a mais para este tipo de raciocínio que emula a realidade das pistas é colocada pelo próprio Laney:

Racing teams are able to invest in advanced analytics because millions of dollars and euros are on the line from hundreds of sponsors.  Hopefully your own big data project sponsors appreciate that big money is on the line for your business as well. Winning the race in your industry now probably depends on it.

 

As 500 milhas de Indianápolis e a Análise de Dados

Comparações de Modelos

Deep Data Mining Blog neste post aborda um tema interessante que é a comparação e escolha de modelos de classificação. No post os autores realizam comparações sobre alguns métodos de classificação e tomam uma tabela de Lift para comparação de performance.

Os resultados são bem claros: Apesar do método de Gradient Boost Tree ser o mais perfomático a nível de acurácia, o método de seleção do modelo deve levar em conta também a complexidade de realizar o Walk-Through em ambientes de produção.

Comparações de Modelos

Quando a análise não é a resposta

Esse é um tópico bem antigo, e que desperta o que há de pior na Tecnologia da Informação como um todo que é quando ao invés de prover soluções a Tecnologia da Informação se torna amplificadora de problemas.

Esse post poderia falar de como a TI apesar de facilitar os processos empresariais vem se tornando aos poucos o “gargalo” de muitas organizações, mas por questão de escopo falaremos especificamente de mineração de dados.

Neste artigo do Will Dwinnell ele coloca uma reflexão de como algumas vezes a análise em si não é a resposta para o negócio, e que sobretudo a linha de raciocínio a priori na implementação de um projeto de mineração de dados tem como definição principal o estudo de  quando aplicar determinada técnica de maneira sensata, seja em sua parte ou em todo.

O ponto principal aqui é a) se os mineradores de dados estão aplicando as suas técnicas em contextos atraentes, e o mais importante, b) se estão gerando retorno sobre o que foi investido.

Em muitos materiais na internet, e nos livros nacionais, há um apelo que a mineração de dados é o Santo Graal das corporações ou para os computeiros a Bala de Prata.

Se você está pensando como esses acadêmicos e demais “especialistas” de mercado, o seu projeto de mineração de dados está fadado a ganhar um mármore no cemitério de projetos (que ganhará uma sessão especial aqui no site) e provavelmente você já engordou a conta bancária de algum Sales Engineering (Leia: Vendedor) através de comissionamentos, e a empresa provedora do software de análise já estourou o champagne  por manter mais um “cliente” em sua estrutura de aprosionamento.

A bem da verdade, no contexto nacional é razoável dizer que hoje grande parte dos problemas em análise de dados, data mining, e data warehousing são gerados por falta de analise junto à TI; e os motivos são bem específicos a) ausência de comunicação entre canais de TI e Business, b) clientes que não sabem o que querem, c) managers que possuem limitações em gestão de projetos e escalabilidade, e d) o péssimo uso do tempo pelos nossos managers e times de TI/análise de dados.

Todos hoje querem as ferramentas da moda, consolidar grandes bases de dados, e ter vocabulário para que em treinamentos de TI utilizar palavras-gatilho como Big Data, Business Intelligence, Data Mining, Performance Tunning e afins; entretanto, estes esquecem que se a melhor decisão for uma planilha excel com dois gráficos de barra e uma regressão linear simples todo aquele investimento(leia-se: elefante branco) não adiantou nada, pois o fator determinante de todo processo decisório sempre será os 3 aspectos básicos da inteligência  humana que são a cognição, memória e raciocínio O resto é jogo de palavras gatilho e enganação.

A lição desse post do Data Miners é que sempre qualquer idéia de implementação de mineração de dados deve ser avaliado e questionado, e mais que isso o analista de mineração de dados aprenda a avaliar o domínio e a aplicação de cada uma das técnicas; pois, caso contrário, irá continuar engordando o comissionamento e os bônus dos vendedores de ferramentas.

 

 

Quando a análise não é a resposta

Metodologia de Projetos de Mineração de Dados – Cross Industry Standard Process for Data Mining – CRISP-DM

O Cross Industry Standard Process for Data Mining (CRISP-DM) é uma metodologia específica para aplicação em projetos de mineração de dados. Muitas informações sobre a metodologia pode ser encontrada aqui.

De uma maneira bem ampla, os projetos de mineração de dados têm especificidades que reúnem diversos tipos de disciplinas e expertises as quais com uma metodologia própria auxiliam não somente em questões de documentação, como esta última serve como um roteiro para projetos dessa natureza.

PMI, Agile, RUP, e demais metodologias de software e projetos genéricas são boas para SOFTWARE e não ara projetos que envolvem análise de dados propriamente dita, no qual não há requerimentos de complexidade arbitrária; mas sim há extração de informação e conhecimento de forma muito mais determinística, porém com um grau de precisão e validação muito maior; e é ai que CRISP-DM se destaca dos demais, pois ele vem para atender uma demanda muito mais específica dentro do seu ciclo de vida do que qualquer metodologia de software adaptada.

Esses dois documentos nos links abaixo, são os documentos da versão 1.0 do CRISP-DM os quais são padrões de melhores práticas compiladas por profissionais da indústria. A versão 2.0 está em processo de avaliação, devido ao fato de que muitos dos profissionais envolvidos na época estão em outras atividades em suas empresas que não mineração de dados propriamente dita.

crisp-dm 1.0 CRISP-DM No Brand CRISP-DM

Metodologia de Projetos de Mineração de Dados – Cross Industry Standard Process for Data Mining – CRISP-DM

Acadêmicos deveriam considerar os desafios do Kaggle válidos para pesquisas

A algum tempo atrás foi realizada uma postagem neste espaço sobre o Kaggle o qual é um site no qual empresas terceirizam a sua análise de dados, através de competições que podem ser remuneradas ou não.

Neste post há uma boa provocação no sentido de porque os acadêmicos não consideram os desafios do Kaggle como válidos para pesquisas; em especial os famosos Data Scientists da web.

Em especial, e aqui é um mea culpa com uma crítica coletiva; é muito bom de ver diversos livros de mineração de dados em português, e até mesmo a popularização do ensino; entretanto, seria muito válido que os profesores e demais acadêmicos de mineração de dados que tanto escrevem artigos e livros (que só o webmaster desse site e mais duas dúzias de alunos fazem questão de ler) se submetessem com o seu background para esse tipo de disputa; o que colocaria não são em perspectiva a teoria como a prática.

Acadêmicos deveriam considerar os desafios do Kaggle válidos para pesquisas