Resenha: Data Mining with R: Learning with Case Studies

 

Este livro de Luiz Torgo é um ótimo exemplo de que se podem escrever bons livros de mineração de dados, sem a forma prolixa dos livros que estão no mercado atualmente, no qual o autor ao mesmo tempo que trata da mineração de dados na ferramenta R, coloca exemplos bem práticos os quais podem ser transpostos para situações corporativas e educacionais com extrema facilidade.

O livro consolida o R como uma ferramenta robusta de mineração de dados, no qual coloca em seu livro de modo bem didático e através de muito código e explicações passo-a-passo como utilizar o R, através do aprendizado na prática, e devido a isso os usuários menos experientes podem sentir falta de explicações sobre a sintaxe do R; mas em termos gerais isso foi um trunfo do livro que se mantêm como um manual prático bem enxuto.

Dentro da mineração de dados, a obra aborda aspectos relativos à predição, detecção de outliers e classificação; no qual que deseja uma abordagem prática e precisa desse tipo de recurso tem neste livro o manual absoluto para aplicação da mineração de dados.

Falar do R como ferramenta de mineração de dados dispensa comentários já que seguramente é a melhor ferramenta para esse tipo de pratica, pois; além de envolver bibliotecas customizáveis, conta com uma parte estatística que ainda não tem nenhum tipo de concorrente.

O livro é seguramente o melhor manual prático de mineração de dados disponível. Ponto.

Apesar do escrito acima não indica que o mesmo é perfeito em todos os aspectos, o qual o autor não menciona em seus estudos de caso nenhum tipo de metodologia, mas naquilo que o livro se propõe a ser, ou seja, um manual de aprendizado de mineração de dados prático, esse objetivo é atingido em sua plenitude.

Pontos Fontes: Para quem deseja conhecer o R já de cara no Data Mining, para quem gosta de aprender com estudos de caso.

Pontos Fracos: Os scripts de implementação não estão muito bem explicados, e a falta de explicação da sintaxe deixa a desejar.

Resenha: Data Mining with R: Learning with Case Studies

Pré-Processamento de Dados: Trabalhando com Outliers

Um dos problemas mais comuns em análise de dados, mas especificamente na fase de pré-processamento de dados numéricos contínuos é a ocorrência de outliers dentro do conjunto de dados.

Muito do que é explicado na literatura de mineração de dados e banco de dados sobre a análise de outilers (que não seja somente a detecção) é que as anomalias dos dados, devem, a priori, ser removidas dos conjuntos de dados; seja com a remoção da instância por completo, ou utilizando técnicas como binning (aproximação pelo vizinho mais próximo em linhas gerais).

Da mesma forma que uma base com anomalias podem enviesar o resultado e conseqüentemente apresentar distorções; a remoção dos mesmos pode também levar a um resultado igualmente tendencioso, no qual trabalha somente com o ‘melhor dos mundos’ em termos de pré-processamento dos dados. Essa pode não ser a abordagem mais inteligente em termos de análise de dados, pois uma anomalia pode ter relação direta com outro conjunto de variáveis (correlação ou casualidade) que poderiam entrar na amostra e que possivelmente poderiam  explicar a sua ocorrência.

Uma alternativa bem interessante nesse sentido seria no momento o pré-processamento realizar a marcação dos dados (e.g. uma flag binária) com as indicações utilizando o seguinte processo:

Rodar estatísticas relativas à análise exploratória dos dados (Média, Desvio Padrão, Variância, Análise de Inter-Quartis, etc);

Com essa informação determinar ranges relativos à base de dados realizando uma atribuição classificatória dentro do espectro de ranges, e aos outliers (Extremo Baixo, Baixo, Médio, Alto, Extremo Alto, e indicações de Outlier (Baixo) e Outlier (Alto)) .

É uma idéia simples na qual, não há a perca de dados; e que deixa o conjunto de dado apto para análise das correlações (se houverem) sobre as anomalias dentro do conjunto dos dados.

Pré-Processamento de Dados: Trabalhando com Outliers

Técnicas de Detecção de Outliers

Essa apresentação de Hans-Peter Kriegel apresenta um pequeno tutorial sobre as técnicas de detecção de anomalias em mineração de dados (Outliers); no qual esses slides apresentam algumas das tecnicas mais populares, indo desde testes estatísticos, até abordagens de detecção de anomalias utilizando modelos com alta dimensionalidade.

Link – http://www.dbs.ifi.lmu.de/~zimek/publications/KDD2010/kdd10-outlier-tutorial.pdf

Outlier Detection Techniques

Técnicas de Detecção de Outliers

Análise de Outliers: Teorema de Chebyschev X Abordagem Baseada e Informação Mútua

Nesse artigo de Cristian Mesiano é realizada a comparação entre o Teorema de Chebyschev e a abordagem baseada em Informação Mútua na questão da detecção de outliers, na qual, o Teorema de Chebyshev é baseado na distância de valores Z-Score de acordo com o Desvio Padrão do valor K, e a Informação Mútua remove interativamente os Z-Scores de forma ordenada até que a informação entre os Z-Scores e os candidatos a outliers aumente; e dessa forma a cada passo interativo do algoritmo o candidato a outliers tem o maior valor absoluto no dataset.

Análise de Outliers: Teorema de Chebyschev X Abordagem Baseada e Informação Mútua

Taxi!

Essa coluna de Joe Malkevitch (York College (CUNY)) foi publicado na American Mathematical Society e aborda um tema bastante relevante em mineração de dados que é a geometria da medida de distância Taxicab (Manhattan). A coluna coloca em aspectos práticos a definição e aplicação dessa medida de distância apresentando exemplos de como funciona e as suas aplicações. O mais interessante sobre tudo, é que o entendimento dessa parte da matemática abre um grande leque de possibilidades em relação ao sair do lugar comum (leia-se, Distância Euclideana) no desenvolvimento de uma análise de agrupamento; ou mesmo em um projeto de mineração de dados no qual não  todos os dados não são discretizados, ou esses dados sofram uma variação de range muito alta devido a inúmeros outliers.

Feature Column from the AMS

Taxi!

Entrevista com o Autor de Nerds on Wall Street

Essa é uma entrevista de 2009 de com David Leinweber, autor de “Nerds on Wall Street; que é um livro que aponta alguns contrastes sobre a atividade de comercialização de ativos em Wall Street e a entrada cada vez maior de estatísticos, matemáticos, e cientistas da computação na atividade de Trading (compra e venda de ativos). O Autor na entrevista faz um paralelo com uma de suas passagens do livro no qual através das correlações matemáticas ele encontrou um padrão interessante que o índice da S&P 500 estaria diretamente vinculado à alguns índices de produção de manteiga em… Bangladesh. Essa crítica que o autor faz, em um primeiro momento pode parecer estúpida e descabida, e quando algum Data Miner  (esse que vos fala foi um deles) faz a leitura da crítica que o livro apresenta, logo pensa: “Que diabos ele está falando?”; mas ao longo do livro muito do que é proposto é extremamente válido e leva a uma reflexão sobre a máxima “Torturar os dados até que eles falem”. É uma boa pedida e o livro é recomendadissímo.

http://online.wsj.com/video/an-interview-with-nerds-on-wall-street-author/5062DA68-FCF6-42AC-AC62-AE6046BA40AC.html

http://s.wsj.net/media/swf/VideoPlayerMain.swf

Entrevista com o Autor de Nerds on Wall Street