As 8 piores técnicas de Predição em Mineração de Dados

Provavelmente esse é um dos posts que melhor retratam a questão de como é realizada a análise de dados em relação ao desenvolvimento de modelos de técnicas de mineração de dados e estatística aplicados à predição.

No artigo do Vincent Granville ele coloca de uma maneira bem pessoal, uma lista que ele considera as 8 piores técnicas de predição de mineração de dados, na qual ele faz a citação da técnica e coloca os famosos drawbacks.

Em especial a pergunta postada nos comentários faz muito sentido, e expõe a forma torta na qual tomamos decisões baseadas em dados:

Alternate question: how many billions of trillions of dollars have been lost over the last 10 years due to using faulty / inappropriate / poor / non-robust statistical models, or misusing / misinterpreting correct models (either on purpose, e.g. due to corruption, or because of incompetence).

Pergunta Alternativa: Quantos bilhões ou trilhões de dólares foram perdidos nos últimos 10 anos devido ao uso de defeituosos / inapropriados / pobres / modelos estatísticos sem robustez, ou mau uso / má interpretação de modelos corretos (ou de propósito, por exemplo, devido à corrupção, ou por causa de incompetência). (Tradução Livre)

Pode-se aceitar ou não a generalização do autor, entretanto, parece que são pontos interessantes para qualquer debate ou estudo sobre o tema, pois coloca contra-pontos razoáveis sobre as técnicas que os textbooks, vendedores de ferramentas, e praticantes de mineração de dados fazem questão de esconder.

 

 

 

As 8 piores técnicas de Predição em Mineração de Dados

Tutoriais de Mineração de Dados

Para quem deseja saber um pouco mais sobre mineração de dados, ou mesmo deseja um overview sobre as mais diversas técnicas esse site do Andrew Moore é excelente para esses fins. Há uma vastidão e materiais, todos eles bem didáticos que serve tanto para os iniciantes, quanto para os mais avançados.

Tutoriais de Mineração de Dados

STUPID DATA MINER TRICK

Para quem leu o excelente livro Nerds On the Wall Street; esse ‘paper’ trata de um caso clássicode  que a premissa muito popular em um passado recente que a mineração de dados era ‘torturar os dados até que eles gritem’  está mais que fora de contexto. Esse paper apresenta a correlação entre o índice da S&P500 com a produção de manteiga em… Bangladesh. Para ver a entrevista com o autor do livro, clique aqui.

STUPID DATA MINER TRICKS: OVERFITTING THE S&P 500

STUPID DATA MINER TRICK

Mineração de Dados Excel 2007/ SQL Server 2008 – Análise de Cenário

Por mais que eu seja um crítico ferrenho da Microsoft quando se trata de suas ferramentas de Mineração de Dados, bem como alguns de seus evangelistas (Escrevi um post aqui sobre isso), há de se reconhecer que para o público de que toma decisões de um nível mais alto sem a necessidade de ter um rigor técnico e mais apurado a ferramenta da Microsoft, em especial o seus plugins para Excel; podem auxiliar na análise de pequenas bases de dados (não mais que 1Mi de registros) o que pode ser bem proveitoso para pequenas empresas; no qual qualquer informação pode ser um diferencial sobre a concorrência.

Esse vídeo foi gravado pelo Mark Tabladillo, que é um dos maiores especialistas em Mineração de Dados na plataforma Microsoft e tras uma análise bem curta sobre uma base de dados utilizando a opção de Scenario Analysis que realiza algumas correlações entre os itens da base de dados.

Mineração de Dados Excel 2007/ SQL Server 2008 – Análise de Cenário

The CRISP-DM Model: The New Blueprint for Data Mining

O Modelo CRISP-DM  (Acrônimo para CRoss-Industry Standard Process for Data Mining, ou Padrões de Processos Inter-Indústrias em Mineração de Dados ) é um framework de boas práticas para projetos de Mineração de Dados; que foi desenvolvido em meados dos anos dos anos 90 por cerca de 200 profissionais que já estavam trabalhando em projetos de mineração e viram que o mercado estava carente de idéias específicas para compreender todos as especificidades de projetos de Mineração de Dados.

Esse artigo, retrata um overview do framework como um todo; e tem como característica principal realizar uma ruptura do projeto de Mineração com os projetos de software em geral, que é muito benéfica quando tratamos de projetos de dados. Bill Inmon em seu livro Building the Datawarehouse especifica que o projeto de dados é muito mais específico e menos tolerante a falhas do que um projeto de software; e que o mesmo tem muitas especificações; e o CRISP-DM leva a risca esse tipo de tratamento com informação, mesmo sem citar diretamente o pai do CIF. Em tempos de ‘gerentes de projetos’ que nunca escreveram uma query ou uma linha de código isso é bem relevante de se dizer; e vale a pena a reflexão de que “será MESMO que o BABOK, PMI, ou outras siglas levam isso em consideração?”. Creio que não.

Em geral o modelo é bem construído e tem uma vantagem de ser de fácil adaptação em relação ao domínio de dados o qual o projeto de mineração de dados é proposto.

The CRISP-DM Model – A Blueprint

The CRISP-DM Model: The New Blueprint for Data Mining

Uma introdução a Mineração de Dados…Em uma Imagem

Um interessante site que desccreve, todas as disciplinas dentro da Mineração de Dados e suas ramificações em uma ÚNICA figura.

Uma introdução a Mineração de Dados…Em uma Imagem