Quando a análise não é a resposta

Esse é um tópico bem antigo, e que desperta o que há de pior na Tecnologia da Informação como um todo que é quando ao invés de prover soluções a Tecnologia da Informação se torna amplificadora de problemas.

Esse post poderia falar de como a TI apesar de facilitar os processos empresariais vem se tornando aos poucos o “gargalo” de muitas organizações, mas por questão de escopo falaremos especificamente de mineração de dados.

Neste artigo do Will Dwinnell ele coloca uma reflexão de como algumas vezes a análise em si não é a resposta para o negócio, e que sobretudo a linha de raciocínio a priori na implementação de um projeto de mineração de dados tem como definição principal o estudo de  quando aplicar determinada técnica de maneira sensata, seja em sua parte ou em todo.

O ponto principal aqui é a) se os mineradores de dados estão aplicando as suas técnicas em contextos atraentes, e o mais importante, b) se estão gerando retorno sobre o que foi investido.

Em muitos materiais na internet, e nos livros nacionais, há um apelo que a mineração de dados é o Santo Graal das corporações ou para os computeiros a Bala de Prata.

Se você está pensando como esses acadêmicos e demais “especialistas” de mercado, o seu projeto de mineração de dados está fadado a ganhar um mármore no cemitério de projetos (que ganhará uma sessão especial aqui no site) e provavelmente você já engordou a conta bancária de algum Sales Engineering (Leia: Vendedor) através de comissionamentos, e a empresa provedora do software de análise já estourou o champagne  por manter mais um “cliente” em sua estrutura de aprosionamento.

A bem da verdade, no contexto nacional é razoável dizer que hoje grande parte dos problemas em análise de dados, data mining, e data warehousing são gerados por falta de analise junto à TI; e os motivos são bem específicos a) ausência de comunicação entre canais de TI e Business, b) clientes que não sabem o que querem, c) managers que possuem limitações em gestão de projetos e escalabilidade, e d) o péssimo uso do tempo pelos nossos managers e times de TI/análise de dados.

Todos hoje querem as ferramentas da moda, consolidar grandes bases de dados, e ter vocabulário para que em treinamentos de TI utilizar palavras-gatilho como Big Data, Business Intelligence, Data Mining, Performance Tunning e afins; entretanto, estes esquecem que se a melhor decisão for uma planilha excel com dois gráficos de barra e uma regressão linear simples todo aquele investimento(leia-se: elefante branco) não adiantou nada, pois o fator determinante de todo processo decisório sempre será os 3 aspectos básicos da inteligência  humana que são a cognição, memória e raciocínio O resto é jogo de palavras gatilho e enganação.

A lição desse post do Data Miners é que sempre qualquer idéia de implementação de mineração de dados deve ser avaliado e questionado, e mais que isso o analista de mineração de dados aprenda a avaliar o domínio e a aplicação de cada uma das técnicas; pois, caso contrário, irá continuar engordando o comissionamento e os bônus dos vendedores de ferramentas.

 

 

Quando a análise não é a resposta

Mineração de Dados e Segurança Aeronáutica

Neste artigo do Venky Rao é utilizado um exemplo bem simples da aplicação de fases da metodologia CRISP-DM em uma modelagem de análise de segurança aeronáutica.

Ele utiliza a fase de entendimento de dados, preparação dos dados e modelagem e coloca no SPSS. Bom para quem deseja saber como funciona essa modelagem de maneira prática.

Mineração de Dados e Segurança Aeronáutica

Metodologia de Projetos de Mineração de Dados – Cross Industry Standard Process for Data Mining – CRISP-DM

O Cross Industry Standard Process for Data Mining (CRISP-DM) é uma metodologia específica para aplicação em projetos de mineração de dados. Muitas informações sobre a metodologia pode ser encontrada aqui.

De uma maneira bem ampla, os projetos de mineração de dados têm especificidades que reúnem diversos tipos de disciplinas e expertises as quais com uma metodologia própria auxiliam não somente em questões de documentação, como esta última serve como um roteiro para projetos dessa natureza.

PMI, Agile, RUP, e demais metodologias de software e projetos genéricas são boas para SOFTWARE e não ara projetos que envolvem análise de dados propriamente dita, no qual não há requerimentos de complexidade arbitrária; mas sim há extração de informação e conhecimento de forma muito mais determinística, porém com um grau de precisão e validação muito maior; e é ai que CRISP-DM se destaca dos demais, pois ele vem para atender uma demanda muito mais específica dentro do seu ciclo de vida do que qualquer metodologia de software adaptada.

Esses dois documentos nos links abaixo, são os documentos da versão 1.0 do CRISP-DM os quais são padrões de melhores práticas compiladas por profissionais da indústria. A versão 2.0 está em processo de avaliação, devido ao fato de que muitos dos profissionais envolvidos na época estão em outras atividades em suas empresas que não mineração de dados propriamente dita.

crisp-dm 1.0 CRISP-DM No Brand CRISP-DM

Metodologia de Projetos de Mineração de Dados – Cross Industry Standard Process for Data Mining – CRISP-DM

Um modelo de aplicação de Mineração de Dados para Score de Crédito – A framework of data mining application process for credit scoring

Esse artigo apresenta um framework muito elaborado no qual Yang Liu passa pelos aspectos básicos da mineração de dados. O artigo conta com uma ótima bibliografia de apoio. De maneira geral o artigo coloca a mineração de dados como um meio de obter análises de portfólios através de métodos indutivos paramétricos e/ou não paramétricos. A diagramação é ótima na qual dá apoio significativo ao que está sendo explicado. Obrigatório para quem trabalha com scoring de crédito em geral.

A Framework of a Data Mining Application Process to a Credit Scoring

Um modelo de aplicação de Mineração de Dados para Score de Crédito – A framework of data mining application process for credit scoring

CRISP-DM Wiki

Para quem deseja iniciar um projeto colaborativo em mineração de dados uma ótima idéia é oferecida pelo CRISP-DM Wiki o qual é um projeto (em andamento) que já possuí a estrutura de um projeto CRISP para ambientes colaborativos, e pode ser uma ótima alterativa de implementaçlão e template para projetos dessa natureza.

CRISP-DM Wiki

Mineração de Dados x Econometria

Uma ótima discussão via LinkedIn sobre um assunto bastante recorrente e importante quando falamos de Mineração de Dados e análises voltadas a predição.

Com o crescimento dos softwares computacionais voltados à análise de dados, bem como a falha dos setores econômicos em relação as suas previsões, ficou a impressão que a máquina em breve substituiria o papel do homem em relação à análise de dados, no qual bastaria apenas uma base de dados que a máquina realizaria todo o trabalho de previsão e os analistas humanos teriam apenas o trabalho de validar os modelos propostos de forma automática.

Entretanto, muito do que se fala hoje sobre modelos de predição não envolve apenas o programa de computador, mas também tem muito da modelagem que é proposta por trás da análise; e nesse campo a Econometria continua soberana (e continuará por muito tempo). E a delimitação desses papéis se faz necessária para compreensão do processo de modelagem e análise de dados.

Primeiro o Data Scientist, ou Minerador de Dados é o responsável por realizar todo o mapeamento do projeto de mineração de dados desde o seu nascedouro como o entendimento do negócio e definição de domínio de atuação, aquisição e entendimento dos dados e métricas, manipulação/transformação de dados, aplicação e estudo de algoritmos de implementação, validação e implementação do projeto; muitas das vezes utilizando a metodologia CRISP-DM, e também a utilização de soft skills sobretudo em questões de relacionamentos interpessoais.

Em segundo lugar vem o Econometrista que é responsável pela utilização ferramentas de estimação/previsão dentro de contextos  político-econômicos, utilização de instrumentos das políticas econômicas e financeiras através de elementos matemáticos, prospecção de modelos econométricos, i.e. combinação de elementos matemáticos para descrever determinados comportamentos da economia, validação de modelos estatísticos para mensuração de recursos; além de contar com um leque de elementos intelectuais bastante vasto para interpretação de elementos da administração, contabilidade,  e economia clássica para conjecturas sistêmicas para construção desses modelos de comportamentos econômicos não observáveis  de forma experimental ou aplicada.

Em linhas gerais vemos que a diferença entre esses papéis são bem claras; enquanto um realiza análises através de conjecturas intelectuais, algo mais ou menos como a montagem de um quebra cabeças; outro tem como foco a elaboração de modelos estruturados dentro de uma teoria consolidada.

Essas profissões mais do que concorrer em questão de qual é a mais eficiente em termos de predições; são complementares e em diversos momentos estão dentro da mesma intersecção; na qual, o Data Scientist não consegue propor um modelo de mineração sem conhecimento do domínio baseado em análise exploratória (abordagem Hit and Run); o Econometrista não consegue realizar predições sem um conjunto de dados que siga um determinado padrão de aquisição e abrangência. Simples assim. Pensar dessas duas formas é no mínimo muita pretensão, para não dizer falta de desconhecimento em análise de dados.

Dentro dos seus segmentos de atuações, a Mineração de Dados e a Econometria se complementam em muitos aspectos, no qual o primeiro contribuí com a aquisição de dados e tratamento além de análises exploratórias de acordo com modelos interdisciplinares e domínios específicos, o segundo contribuí de forma muito significativa com os seus modelos baseados em matemática e forte fundamentação teoria econômica.

Para finalizar, fica essa ótima analogia postada pelo usuário Nethra sobre a diferença entre a Econometria e a Mineração de Dados em relação às suas abordagens:

It reminds me the story of two people on an island, coming together evaluating what the heck happened, having extracted themselves from a fallen plane on the sea – fortunate to have survived but wanted to figure out how to get out of this no-mans land. Fortunately, the plane crashed just after take off. One said, let us start swimming in the direction of where we came from, taking into consideration the starting direction of the plane and the time they spent on the plane. He was smart to come to some quick conclusions and wanted to keep moving. We will adjust and fine tune our swimming patterns on the way based on various clues we might get.

The second one said, well we do not know whether we will get clues on the way or get eaten away. How about we evaluate various possible alternatives including the one you proposed and select the best and then go. In the end, we need to survive, and if it takes to stay here in this island, we should do that too. The first curiously looked at the second and asked, are you hypothesizer? Let us get to work and I am swimming. Obviously he is a great swimmer and he was trained by the best swimmers in the world.

He shouted, “we did enough calculations, the shore is not far we know, come on, lets go”. The second did not believe him; some of his previous reading suggested that these waters are shark infested, but he did not know which direction it was.

One version of the story ends like this: He came back two days later on a helicopter to retrieve the hypothesizer, who was dehydrating and about to die. My son secretly tells me, dad, you do not have to finish the story in this way, just because you are a data miner. He completed the story as follows.

Two days later a helicopter came and retrieved him when he was dehydrating and about to die. The pilot was saying that the coast guard found a swimmer 10 miles further away from the shore, in the wrong direction, and about to die. He was retrieved and recovering at the shore.

My son continued, the pilot said, ‘it seems he misjudged the direction”. May be it helps to have some good idea of planetory sciences and oceanography, I guess dad, my son was telling me, with a twinkle in his eyes.

Mineração de Dados x Econometria

Financial Series

Este site fará a contar de hoje uma série de resenhas sobre alguns papers que tratam especificamente de aplicações práticas de Mineração de Dados  em Finanças.

Há uma muitos bons artigos que são escritos mundo a fora e que infelizmente não temos acesso aqui no Brasil; muito pela a nossa baixa qualidade editorial que prefere trabalhar sobre blockbusters literários ao invés de construir as bases do saber dentro da nossa cultura técnica; mas isso é outra história.

Quem inicia os estudos em Mineração de Dados sempre escuta a mitológica história que Beers and Diepers, entretanto um outro assunto que ronda as discussões sobre essa disciplina é como realizar previsões no mercado de ações utilizando Mineração de Dados? E os papers que serão resenhados aqui de forma muito sucinta terá o objetivo de elucidar essas questões.

O site não tem nenhuma pretensão de ser algum tipo de Readers Digest da Mineração de Dados, mas tem como único objetivo se tornar um repositório de dados e um agregador sobre esse importante campo do saber que vem se desenvolvendo muito nesses últimos anos; e mostrar o que o seu professor na faculdade não vai te ensinar, bem como a sua editora favorita não vai publicar.

Enjoy!

Financial Series

Variáveis, Granularidade e Data Model

No momento do levantamento do Data Model é importante ter em mente quais variáveis devem ser utilizadas, e principalmente qual a sua relevância para as análises que serão realizadas, seja em um DW ou mesmo quando se extraí dados de um OLTP.

Esse post do Dean Abbott é bastante interessante para avaliar quais variáveis que devem ser mapeadas para a análise em mineração de dados e a sua importância.

O Data Model é um passo quase que crucial para determinar se haverá uma boa Análise/DW ou não. Simples assim.

Quem trabalha com arquitetura de DW e ou análise de dados em mineração de dados sabe a importância disso, tanto que não é por acaso que o Bill Innon dedica quase um compêndio inteiro de informações no seu livro Building the Data Warehouse sobre granularidade e a sua importância; e mostra os dois lados que são a) que a falta de uma boa granularidade pode matar a análise e tornar o seu DW uma favelinha (com criação de tabelas auxiliares, coluninhas inofensivas, entre outros) ou b) mesmo tornar o DW um monstro sedento por dados que nunca serão acessados, e gerando transtornos em processamento, e performance de consulta em geral.

Variáveis, Granularidade e Data Model

Livro Discovering Knowledge in Data: An Introduction to Data Mining

É sempre difícil comentar sobre um livro o qual se vê claramente que é um dos textbooks que podem receber a denominação de clássico. O livro do Dr. Daniel Larose Discovering Knowledge in Data: An introduction to Data Mining ( ISBN-10: 0471666572 | ISBN-13: 978-0471666578) é um ótimo livro para quem busca conhecer de forma introdutória a Mineração de Dados; bem como quer fugir do lugar comum no qual dezenas de livros sobre o assunto levam.

O autor inicia o livro realizando uma série de overviews bastante pertinentes em relação a elucidação das tarefas de mineração de dados, até mesmo apresentando o CRISP-DM através de casos de estudos.

Após isso, o livro entra na questão do Pre-processamento de dados, e explica de forma bem concisa o conceito de Análise Exploratória de Dados (Exploratory Data Analysis – EDA) .

Nos capítulos subsequentes o autor desvenda através de abordagens conceituais e práticas as Abordagens Estatísticas para Estimação e Predição, Algoritmo k-Nearest Neighbor , Árvores de Decisão, Redes Neurais, Técnicas de Agrupamento e Regras de Associação.

O mais valioso no livro sem sombra de dúvidas é o capitulo 11-Model Evaluation Techniques (Modelo de Técnicas de Avaliação) no qual mostra alguns dos atributos de um projeto de Mineração de Dados mais negligenciados que são Índice de Erros, Falsos Positivos e Falsos Negativos; que através de exemplos práticos em capitulos anteriores mostram uma forma prática de se avaliar os modelos de mineração.

Este livro é para: Cursos Introdutórios de Mineração de Dados, Interessados em Análise Hands-On em Mineração de Dados, Estudantes de Banco de Dados, Entusiastas de Mineração de Dados, Cursos de Graduação sobre a Disciplina de Banco de Dados/Mineração de Dados.

Este livro NÃO é para: Desenvolvimento de projetos complexos de Mineração de Dados, Aprendizado de Técnicas Avançadas em Mineração de Dados, quem não gosta/entende representações matemáticas.

Pontos Positivos: Facilidade de Leitura, Roteiro de assuntos abordados pelo autor, explicações teóricas sem prolixidade, abordagem prática.

Pontos Negativos: Abordagem matemática do autor em determinadas sessões que pode confundir o leitor menos habituado ao tipo de leitura, Tamanho (pouco mais de 220 páginas).

Livro Discovering Knowledge in Data: An Introduction to Data Mining

The CRISP-DM Model: The New Blueprint for Data Mining

O Modelo CRISP-DM  (Acrônimo para CRoss-Industry Standard Process for Data Mining, ou Padrões de Processos Inter-Indústrias em Mineração de Dados ) é um framework de boas práticas para projetos de Mineração de Dados; que foi desenvolvido em meados dos anos dos anos 90 por cerca de 200 profissionais que já estavam trabalhando em projetos de mineração e viram que o mercado estava carente de idéias específicas para compreender todos as especificidades de projetos de Mineração de Dados.

Esse artigo, retrata um overview do framework como um todo; e tem como característica principal realizar uma ruptura do projeto de Mineração com os projetos de software em geral, que é muito benéfica quando tratamos de projetos de dados. Bill Inmon em seu livro Building the Datawarehouse especifica que o projeto de dados é muito mais específico e menos tolerante a falhas do que um projeto de software; e que o mesmo tem muitas especificações; e o CRISP-DM leva a risca esse tipo de tratamento com informação, mesmo sem citar diretamente o pai do CIF. Em tempos de ‘gerentes de projetos’ que nunca escreveram uma query ou uma linha de código isso é bem relevante de se dizer; e vale a pena a reflexão de que “será MESMO que o BABOK, PMI, ou outras siglas levam isso em consideração?”. Creio que não.

Em geral o modelo é bem construído e tem uma vantagem de ser de fácil adaptação em relação ao domínio de dados o qual o projeto de mineração de dados é proposto.

The CRISP-DM Model – A Blueprint

The CRISP-DM Model: The New Blueprint for Data Mining

Projeto de Mineração de Dados – DMS Project

Esse site de Dragan Gamberger, Tomislav Smuc e Ivan Maric (Cientistas de um projeto do Ministério de Ciência e Tecnologia da Croácia através do Instituto Rudjer Boskovic) tem um bom repositório de Dados para quem deseja iniciar ou ter uma idéia introdutória de como pode ser conduzido um projeto de Mineração de Dados, inclusive com tutoriais bem explicativos sobre as fases do projeto, objetivos e milestones. Há inclusive alguns materiais bastante interessante sobre Multiclass Decision Problems (Problemas de Decisão de Multiplas  Classes). Vale a pena conferir.

Projeto de Mineração de Dados – DMS Project

Taxi!

Essa coluna de Joe Malkevitch (York College (CUNY)) foi publicado na American Mathematical Society e aborda um tema bastante relevante em mineração de dados que é a geometria da medida de distância Taxicab (Manhattan). A coluna coloca em aspectos práticos a definição e aplicação dessa medida de distância apresentando exemplos de como funciona e as suas aplicações. O mais interessante sobre tudo, é que o entendimento dessa parte da matemática abre um grande leque de possibilidades em relação ao sair do lugar comum (leia-se, Distância Euclideana) no desenvolvimento de uma análise de agrupamento; ou mesmo em um projeto de mineração de dados no qual não  todos os dados não são discretizados, ou esses dados sofram uma variação de range muito alta devido a inúmeros outliers.

Feature Column from the AMS

Taxi!