Chamada de Trabalhos – Data Mining Practice Prize 2013

O Data Mining Practice Prize é uma espécie de concurso de trabalhos acadêmicos e técnicos sobre a implementação de mineração de dados. O principal objetivo é trazer estudos de casos e War Stories (casos de insucesso) no qual a mineração de dados teve papel determinante.

Os melhores papers serão discutidos e apresentados no IEEE International Conference on Data Mining (ICDM) que irá ocorrer em dezembro desse ano.

Chamada de Trabalhos – Data Mining Practice Prize 2013

As 500 milhas de Indianápolis e a Análise de Dados

Neste post do Doug Laney ele mostra como as equipes de corrida participantes da Formula Indy utilizam a análise de dados para ajustes nos carros, bem como realizar predições relativas ao compostamento do carro com níveis de acurácia de 90%.

Realizando um paralelo com o ambiente de negócios cada vez mais competitivo (como na Indy), analisando a telemetria do negócio (KPIs, etc) o autor coloca algumas questões que reproduzo abaixo:

  1. Are you sufficiently monitoring key business processes, systems and personnel using available sensors and instrumentation?
  2. Are your data streams collected frequently enough for real-time process adjustments (i.e. complex event processing)?
  3. Do your business processes support real-time or near real-time inputs to adjust their operation or performance?
  4. Can you anticipate business process or system failures before they occur, or are you doing too much reactive maintenance?
  5. Do you centrally collect data about business function performance?
  6. Do you make use of advances in high-performance analytics such as in-memory databases, NoSQL databases, data warehouse appliances, etc.?
  7. Do you gather important external data (e.g. weather, economic) to supplement and integrate with your own data?
  8. Do you synchronize, align and integrate data that comes from different streams?
  9. Do you make your data available to key business partners, suppliers and customers to help them provide better products and services to you?
  10. Do you have a common, sophisticated analytics platform that includes the ability to establish new analytic functions, alerts, triggers, visualizations?
  11. Can you run simulations on business systems while they’re operating and also between events to adjust strategies?
  12. Does your architecture support multiple users around the world seeing real-time business performance simultaneously?
  13. Do you have teams of business experts, product/service experts and data scientists collaborating on making sense of the data?
  14. Do you modify your products or services as frequently as you could or should based on available data?
  15. Do you also use data you collect to develop new products or services as frequently as you could or should?

E uma motivação a mais para este tipo de raciocínio que emula a realidade das pistas é colocada pelo próprio Laney:

Racing teams are able to invest in advanced analytics because millions of dollars and euros are on the line from hundreds of sponsors.  Hopefully your own big data project sponsors appreciate that big money is on the line for your business as well. Winning the race in your industry now probably depends on it.

 

As 500 milhas de Indianápolis e a Análise de Dados

Comparações de Modelos

Deep Data Mining Blog neste post aborda um tema interessante que é a comparação e escolha de modelos de classificação. No post os autores realizam comparações sobre alguns métodos de classificação e tomam uma tabela de Lift para comparação de performance.

Os resultados são bem claros: Apesar do método de Gradient Boost Tree ser o mais perfomático a nível de acurácia, o método de seleção do modelo deve levar em conta também a complexidade de realizar o Walk-Through em ambientes de produção.

Comparações de Modelos

Metodologia de Projetos de Mineração de Dados – Cross Industry Standard Process for Data Mining – CRISP-DM

O Cross Industry Standard Process for Data Mining (CRISP-DM) é uma metodologia específica para aplicação em projetos de mineração de dados. Muitas informações sobre a metodologia pode ser encontrada aqui.

De uma maneira bem ampla, os projetos de mineração de dados têm especificidades que reúnem diversos tipos de disciplinas e expertises as quais com uma metodologia própria auxiliam não somente em questões de documentação, como esta última serve como um roteiro para projetos dessa natureza.

PMI, Agile, RUP, e demais metodologias de software e projetos genéricas são boas para SOFTWARE e não ara projetos que envolvem análise de dados propriamente dita, no qual não há requerimentos de complexidade arbitrária; mas sim há extração de informação e conhecimento de forma muito mais determinística, porém com um grau de precisão e validação muito maior; e é ai que CRISP-DM se destaca dos demais, pois ele vem para atender uma demanda muito mais específica dentro do seu ciclo de vida do que qualquer metodologia de software adaptada.

Esses dois documentos nos links abaixo, são os documentos da versão 1.0 do CRISP-DM os quais são padrões de melhores práticas compiladas por profissionais da indústria. A versão 2.0 está em processo de avaliação, devido ao fato de que muitos dos profissionais envolvidos na época estão em outras atividades em suas empresas que não mineração de dados propriamente dita.

crisp-dm 1.0 CRISP-DM No Brand CRISP-DM

Metodologia de Projetos de Mineração de Dados – Cross Industry Standard Process for Data Mining – CRISP-DM

Um modelo de aplicação de Mineração de Dados para Score de Crédito – A framework of data mining application process for credit scoring

Esse artigo apresenta um framework muito elaborado no qual Yang Liu passa pelos aspectos básicos da mineração de dados. O artigo conta com uma ótima bibliografia de apoio. De maneira geral o artigo coloca a mineração de dados como um meio de obter análises de portfólios através de métodos indutivos paramétricos e/ou não paramétricos. A diagramação é ótima na qual dá apoio significativo ao que está sendo explicado. Obrigatório para quem trabalha com scoring de crédito em geral.

A Framework of a Data Mining Application Process to a Credit Scoring

Um modelo de aplicação de Mineração de Dados para Score de Crédito – A framework of data mining application process for credit scoring

BioDatamining Site

Recomendado sem nenhum tipo de restrição.

BioDatamining Site

Tempo em Projeto Modelagem de Mineração de Dados

Alguns bons insights Will Dwinnell neste post.

Em se tratando de projetos de modelagem/análise exploratória de dados, vale a pena aplicar parte do que foi colocado no post; até porque em muitas das vezes os padrões por trás dos dados não serão triviais, e virão muito provavelmente em forma de nuggets.

 

 

Tempo em Projeto Modelagem de Mineração de Dados

As piores práticas na implantação de um modelo de predição

Esse post do ZSL Services mostra em passos bem didáticos as piores práticas no momento da implantação de um modelo preditivo; os quais eles enumeram:

  1. Falta de foco específico no negócio;
  2. Ignorar os steps iniciais;
  3. Desperdício de tempo em avaliação de modelo ;
  4. Alto investimento em ferramentas que representam um Return Of Investment (Retorno do Investimento) ROI baixo ou nulo; e
  5. Falha na operacionalização.

Apesar de serem passos simples, os mesmos requerem muitos cuidados na análise; e em geral é por esses motivos principalmente que os projetos que lidam com predição de dados falham em sua maioria.

A metodologia CRISP-DM é excelente nesse aspecto, na qual ela não engessa o projeto; mas também faz esse equilíbrio entre essas práticas e a implantação do projeto.

PS: O post fez tanto sucesso que os autores escreveram outro com algumas recomendações. http://zslbiservices.wordpress.com/2012/07/27/worst-practices-while-deploying-a-predictive-model-contd/

As piores práticas na implantação de um modelo de predição

CRISP-DM Wiki

Para quem deseja iniciar um projeto colaborativo em mineração de dados uma ótima idéia é oferecida pelo CRISP-DM Wiki o qual é um projeto (em andamento) que já possuí a estrutura de um projeto CRISP para ambientes colaborativos, e pode ser uma ótima alterativa de implementaçlão e template para projetos dessa natureza.

CRISP-DM Wiki

Kaggle – Outsourcing de Análise de Dados

Imagine o seguinte cenário

Uma empresa tem uma montanha de dados em csv, txt ou outros formatos; e tem um problema em analisar esses dados e precisa de algumas respostas, que podem vir desses dados que em tese estão subutilizados. Mas como extrair informações e conhecímento de uma base de dados, sem ter que montar uma estrutura de Mineração de Dados com projetos, pessoal e infraestrutura?

Nesse contexto é que entra o Kaggle que é uma suíte no qual as empresas colocam os seus dados, e o seu problema e através de competições premia quem tiver o melhor modelo descritivo ou preditivo; e em troca do modelo para a empresa o vencedor ganha uma determinada quantia em dinheiro.

É um ramo promissor, aos moldes do que já está em curso aqui no Brasil com a Batalha dos Conceitos.

Kaggle – Outsourcing de Análise de Dados

Certificações e Ferramentas em Mineração de Dados

Esse post do Cristian do Text Mining é uma ótima leitura sobre uma opinião sobre o assunto.

Está mais que provado que os Tools Vendors (vendedores de ferramentas) estão com estratégias cada vez mais agressivas para captar o maior número possível de praticantes em Mineração de Dados e colocar esses em uma estrutura de Locking Vendor (Aprisionamento Tecnológico) para que o projeto fique condicionado a sua estrutura de suporte –  e seus especialistas “certificados” –  e qualquer upgrade passe necessariamente por maior gasto pecuniário.

De forma breve abordei uma questão sobre certificações em um post que fiz para o Pós-Graduando; porém, a questão é um pouco maior e mais séria: Estariam os profissionais “certificados” por esses Tools Vendors habilitados para trabalharem em um projeto de mineração de dados, estes que possuem uma alta complexidade em todos os aspectos e que não se limita necessariamente à tecnologia? Sinceramente, tenho certeza que não devido a alguns motivos bem breves:

1) Uma ferramenta não garante um ótimo projeto, como disse nesse post é raro algumas empresas se preocuparem com o pós-venda; é aquela velha história no qual o carro zero Km quando saí da agência perde 10-15% do valor de mercado;

2)Não acredito que a SPSS, a SAS, ou a Microsoft estão engajadas em explicar aos seus consultores o funcionamento de seus algoritmos, até porque em grande parte nem mesmo os consultores fazem idéia do que sejam na prática; e

3) A ferramenta na prática será responsável por no máximo 35% do projeto de mineração em si, a qual não participa ativamente dos processos de backend e análise.

É um tema espinhoso, mas vamos ver até onde vai essa discussão.

Certificações e Ferramentas em Mineração de Dados

Scolopax Project

Para quem interessar, o Projeto Scolopax é uma iniciativa endossada pela National Science Foundation e tem como foco a realização de diversos desafios no campo da análise exploratória de dados; em especial Mineração de Dados. O projeto tem como foco a transformação de dados em conhecimento através de do tratamento de dados, combinação de diversos elementos de dados, e validação de hipóteses através da análise exploratória de dados.

Scolopax Project

Como as empresas aprendem os seus segredos?

Esse especial do New York Times escrito por Charles Duhigg  (Autor do livro The Power of Habit: Why We Do What We Do in Life and Business) tem como foco um tema bastante recorrente em relação a modelagem, e entendimento de domínio de Mineração de Dados que é o estudo de hábitos do consumidor.

Em geral o artigo trata do fato das empresas em especial de varejo buscarem mais dados dos consumidores e realizarem a construção de Personas (Profiles de clientes com determinadas características em comum) para realizar um marketing mais segmentado no qual com uma gama de recursos minimizada obter o máximo de retorno no ato de atingir os consumidores em potencial dos produtos. O caso mais emblemático tratado no artigo é o fato de um varejista realizar um trabalho de construção de personas tão apurado que através dos produtos adquiridos eles conseguem saber se a consumidora está grávida.

Veja essa construção de Persona feita pelo artigo:

A fictional Target shopper named Jenny Ward, 23, lives in Atlanta and in March she bought cocoa-butter lotion, a purse large enough to double as a diaper bag, zinc and magnesium supplements and a bright blue rug. There’s a very high chance that she’s pregnant, and her delivery date is sometime in late August, and Target connects those dots.

Vale a pena a leitura.

Como as empresas aprendem os seus segredos?

O Pós-Venda de uma Ferramenta e o impacto no projeto de Mineração de Dados/BI

Em uma conversa informal durante um almoço, conversei com um consultor de Business Intelligence a respeito da importância do Pós-Venda e acompanhamento do provedor da ferramenta dos projetos de implantação.

Durante esse último ano tive a oportunidade de acompanhar a implantação de alguns projetos de ERP, e Business Intelligence e tenho algumas impressões sobre essa questão de ferramenta.

Na maioria das vezes  em que vejo questões comerciais sendo discutidas, muitos managers discutem todas as possibilidades possíveis em um projeto: Escopo, preço, características da ferramenta, diferenciais em relação a ferramentas de mercado; porém, duas questões que são de uma importância altíssima (Leia-se Risk Management) não são discutidas: Acompanhamento do provedor da ferramenta ao projeto de implementação/suporte; e curva de aprendizado da ferramenta.

Vou dar um pequeno testemunho a respeito da SAP a respeito disso e acho que pode servir de exemplo para as outras distribuidoras de software; ou mesmo pode ajudar na hora de colocar questões contratuais/comerciais junto ao distribuidor/vendedor de software no momento da negociação.

Como funciona:

A SAP no momento do licenciamento de uma permissão e uso de software estabelece dois contratos um com o vendedor (Parceiro responsável pela venda) e um com o cliente que fez a aquisição do licenciamento para trabalhar com o ERP.

No momento desse contrato, para as questões relacionadas à área técnica e suporte (implantação, treinamento, dúvidas, solicitação de atualizações, etc) o cliente é obrigado por força contratual buscar ao parceiro; e este último é responsável pelo atendimento desse cliente.

Se o atendimento não é satisfatório, o cliente aciona primeiro o parceiro solicitando auxílio para algum tipo de questão (erro de implantação, treinamento, questões relacionadas a problemas de suporte, entre outros) e se não for atendido tem o canal para informar diretamente à SAP que entra de forma arbitral para resolução desses conflitos as vezes com advertências aos parceiros com o encaminhamento do cliente a outra consultoria e até descredenciamento do parceiro. Simples assim. Em um momento no passado havia até informações que a SAP realizava o registro do tempo em que o projeto levou para ser concluído e de acordo com o tempo de implantação verificava junto ao Parceiro o motivo do atraso no projeto, e quais variáveis que influenciaram esse atraso para acompanhamento.

Na prática, o que eu tenho visto em conversas com alguns contatos e até mesmo experiências pessoais é que os vendedores de software querem oferecer uma solução totalmente black-box no qual o provedor da ferramenta está pouco se importando com o seu projeto, ou mesmo com a sua necessidade e a curva de aprendizado; há somente o interesse em ‘bater o martelo’ e fechar a negociação no aspecto financeiro.

Dentro disso que foi dito, vale a pena antes de fechar qualquer tipo de contrato questionar o provedor da ferramenta de Mineração de Dados/BI nos seguintes aspectos: Qual é o seu serviço de pós-venda e quais vantagens eu vou ter em relação ao atendimento? Qual é o tipo de suporte que a ferramenta possuí e quais os níveis de chamado e a escalabilidade? Quais algoritmos que essa ferramenta de mineração suporta? Há condições de implementar um algoritmo novo? Quais são os centros de treinamento disponíveis da ferramenta e quais são os treinamentos específicos para os tipos de análises que desejamos? Qual é a forma na qual eu posso implementar inferências estatísticas diversas nessa ferramenta, e quais os níveis de complexidades envolvidos nesse processo de implementação?

São perguntas básicas, que faz toda a diferença na questão de um projeto de mineração, pois podem influir de maneira amplamente negativa no desenvolvimento dos trabalhos de implementação e atraso nos cronogramas como um todo; é aquela velha máxima na qual se tem uma Ferrari para andar a 40 Km/h na cidade de São Paulo, e na maioria do trajeto em ruas de terra.

O Pós-Venda de uma Ferramenta e o impacto no projeto de Mineração de Dados/BI

Indústria Farmacêutica + Mineração de Dados + Dados de Pacientes = Violação de Direitos

Um dos episódios que mostram que ainda não há critérios para a utilização da Mineração de Dados; e porque a privacidade pode ser um fator crítico para o seu desenvolvimento nos próximos anos.

Indústria Farmacêutica + Mineração de Dados + Dados de Pacientes = Violação de Direitos

Mineração de Dados aplicada ao mapeamento demográfico urbano

Um dos projetos que na qual modelei um domínio para políticas públicas é relacionado com o mapeamento demográfico urbano nas grandes cidades, e tem como finalidade apresentar ao poder executivo das cidades e municípios formas de como formularem os seus planos diretores não somente baseados em aspectos políticos; mas também considerando aspectos técnicos relacionado a dinâmica de populações urbanas (razão entre o espaço urbano em relação a quantidade de pessoas que habitam/transitam em um determinado espaço) uso do solo, e  correlação entre o impacto das populações no meio urbano.

Essa reportagem da Folha, expõe o problema da verticalização o bairro de Pinheiros. Apesar da forma despretenciosa na qual a noticia foi formulada, expõe de maneira catedrática o problema na definição de um plano diretor eficiente.

No momento em que há a definição de um plano diretor, além de aspectos políticos e urbanísticos; deve ser levado em conta todo entorno de atividades atuais e potênciais, no qual quando não há essa consideração há situações como a da reportagem em anexo: O que é legal nas formas da lei, não representa necessariamente a situação ideal para o espaço urbano.

A mineração de dados poderia auxiliar na formulação dessas políticas poderiam se dar da seguinte forma:

  • Classificação do volume de tráfego;
  • Agrupamento de Demográfico para verificação do uso do solo;
  • Agrupamento demográfico das populações para formulação de políticas relacionadas ao pagamento de taxas adicionais de serviços públicos.

Toda essa questão de mapeamento que em um determinado momento pode parecer uma questão trivial, na verdade esconde uma questão muito complexa que é de que se há mais pessoas, há mais uso do solo, há mais consumo de recursos urbanos na área (asfalto, esgoto, energia, etc), e há mais tráfego de pessoas/veículos. 

A mineração de dados pode auxiliar na resposta para estas questões relacionadas ao planejamento urbano; mas claro que isso passa obrigatoriamente por incentivos políticos e administrativos, em todo o caso é um domínio interessante de aplicação das técnicas.

Mineração de Dados aplicada ao mapeamento demográfico urbano

Modelo de Domínio + Habilidades em Tratamento de Dados = Data Miner

Este post de Brendan Tierney apresenta uma pequena introdução sobre os skills necessários para ser um Data Miner (Minerador de Dados). Em tempos em que o termo Data Scientist (Cientista de Dados) está cada vez mais popular, Brendan expõe de maneira bem categórica as habilidades envolvidas para esse novo segmento de trabalho, e mostra que grande parte das vezes um PhD em estatística não vale o trabalho de um Data Miner, devido ao fato que as habilidades envolvidas são muito amplas como delimitação de domínio e tratamento de dados.

Modelo de Domínio + Habilidades em Tratamento de Dados = Data Miner

Mineração de Dados Hospitalares

Uma aplicação de mineração de dados sobre dados médicos é um domínio de aplicação que pode auxiliar na análise sobre dados médicos e melhorar questões relacionadas à administração hospitalar bem como auxiliar em campos relacionados ao estudo de casos clínicos através de uma base histórica de dados.

Em geral esse tipo de Projeto de Mineração de Dados pode se dar na aquisição de dados não estruturados sobre diagnósticos, dados históricos de pacientes, reconhecimento de padrões de moléstias, e até mesmo aferição dos tipos de doenças mais graves e a sua duração. A questão de privacidade é fundamental para esse tipo de domínio, já que dependendo do tipo de legislação médica, pode haver restrições em relação à aquisição dessas informações.

Mineração de Dados Hospitalares

Base de Dados – Titanic

Uma das abordagens mais interessantes em Mineração de Dados é realizar análises de dados sobre bases  aparentemente  triviais.

O naufrágio do navio Titanic que gerou uma comoção muito grande na época devido às proporções da tragédia; e nessa base há algumas informações sobre sobre esse acidente que podem ser mineradas. Há informações sobre mortos, sobreviventes, e demais informações a respeito dessa tragédia; e essa base pode ser utilizada para cursos introdutórios sobre mineração de dados e apresentação de algoritmos básicos.

Titanic Database

Para utilizar a base de dados, mude a extensão do arquivo de .xls para .rar e descompacte o arquivo.

Base de Dados – Titanic