Resenha: Data Mining with Rattle and R: The Art of Excavating Data for Knowledge Discovery

 

Essa obra do Graham Williams trás ao cenário da mineração de dados o Rattle que vem cada vez mais se consolidando com uma ferramenta de mineração de dados respeitável, já que tem como internal engine o R; o que garante de antemão a robustez que uma ferramenta de mineração de dados precisa.

Esta obra apresenta os tópicos mais importantes para quem esta aprendendo uma ferramenta de mineração de dados nova: carga de dados, algoritmos básicos, muito how-to e avaliação de modelos; o que forma uma curva de aprendizado baixíssima.

Este livro é fortemente recomendado para quem deseja realizar mudança de tecnologia de mineração de dados, além de migrar para um sistema de retaguarda como R já que todos os seus pacotes estatísticos que já são default.

Um ponto negativo, e aí foge do espectro do livro é que o Rattle ainda não esta tão estável quanto os seus concorrentes open-source (Rapid Miner e WEKA), bem como não possuí uma variedade de técnicas que já estão nessas ferramentas citadas, mas isso é uma questão de tempo para que seja implementado.

Este é um livro estritamente criado para iniciantes no Rattle e principalmente estudantes em mineração de dados; entretanto, o livro possibilita que os mais avançados tirem proveitos da ferramenta, em especial dos sumarizadores estatísticos; além de haver técnicas bem avançadas como SVM e Random Forests que são um primor de didática, how-to e apresentação prática.

Resenha: Data Mining with Rattle and R: The Art of Excavating Data for Knowledge Discovery

Problemas para na instalação do RGtk2 & Rattle no Ubuntu (Resolvido)

Um dos problemas da instalação do Rattle que podem acontecer, é a falta da biblioteca RGtk2 e XML. Esse é um erro conhecido e para solucionar, basta executar os passos abaixo:

1) No terminal e execute o seguinte comando: sudo apt-get install libxml2-dev;

2) Após a instalação, entre no R através do comando: R (somente R maiúsculo);

3) No terminal realize a instalação do Rattle através do comando: install.packages('rattle')

4) Acione a biblioteca do Rattle através do comando library(rattle)

5) Em seguida entre no Rattle com o seguinte comando: rattle()

6) Após isso, o package XML irá ser instalado com sucesso.

Fonte: http://www.seancsb.net/statistical/rattle

Problemas para na instalação do RGtk2 & Rattle no Ubuntu (Resolvido)

Rattle – Uma nova ferramenta de Mineração de Dados

Uma ferramenta que poucos conhecem, mas que vem fazendo um grande barulho na comunidade de mineração de dados é o Rattle.

O Rattle é biblioteca do R que faz a geração de uma interface gráfica para mineração de dados e utiliza a engine e os visualizadores do R como suporte.

Em uma rápida exploração sobre a ferramenta o que eu tenho a dizer que a ferramenta vem para bater de frente com diversas suítes de mineração de dados (inclusive o WEKA) pelos seguintes motivos:

Rattle – Uma nova ferramenta de Mineração de Dados

Mineração de Dados com Software Livre

Com o crescimento no estudo da disciplina de mineração de dados no meio acadêmico, bem como a sua validação e aplicação prática no meio corporativo; surgiu a necessidade da construção de novas ferramentas e suítes, com finalidade exclusiva para mineração de dados, desde o pré-processamento de dados até a visualização.

No mercado há diversas ferramentas proprietárias de excelente qualidade como o SPSS Clementine, SAS, Microsoft Analysis Services, STATISTICA, entre outros.

Entretanto, as ferramentas Open Source vem apresentando muitos recursos e funcionalidades, as quais muitas vezes superam e muito os seus concorrentes pagos com maior flexibilidade devido a possibilidade total de customização em alguns casos, robustez de soluções e bibliotecas, e claro o preço de implementação.

O objetivo desse post é fazer uma pequena explanação sobre cada um dos mais populares softwares de mineração de dados Open Source, e realizar alguns poucos comentários sobre algumas de suas características.

Rhttp://www.r-project.org/ – O Projeto R (ou somente “R”) é software de estatística que contém diversos packages (pacotes com diversas funções estatísticas, matemáticas, e econométricas) e vem em um ritmo de crescimento muito grande, em especial nos últimos 3 anos. Tem uma variedade muito grande de recursos estatístico-computacionais e tem como vantagem a sua difusão, e por ter uma linguagem de programação que tem uma curva de aprendizado média; o que permite que estatísticos, economistas, médicos, e cientistas da computação façam interações sob um mesmo código; além de possuír uma bibliografia invejável em termos de livros e materiais disponíveis na web. A desvantagem é que não há infromações sobre as operações de background e como o software utiliza os recursos de máquina disponíveis, como o funcionamento em relação a termos computacionais e até mesmo formas de customização para rodar em ambientes com alto poder computacional; além de ter uma interface de integração e pré-processamento de dados pobre em recursos de transformação.

Algumas leituras
R for SAS and SPSS Users (Statistics and Computing) – Robert A. Muenchen

The Art of R Programming: A Tour of Statistical Software Design – Norman Matloff

Customer and Business Analytics: Applied Data Mining for Business Decision Making Using R (Chapman & Hall/CRC The R Series) – Daniel S. Putler, Robert E. Krider

RapidMiner – http://sourceforge.net/projects/rapidminer/ – O RapidMiner é uma suíte de mineração de dados que vem se consolidando a algum tempo, e antes do R se tornar o software Open Source mais popular em análise de dados era o software de mineração de dados mais popular. O RapidMiner tem como principais diferenciais a parte de pré-processamento de dados, a baixa curva de aprendizado para início dos trabalhos em mineração de dados, além de produzir gráficos de ótima qualidade. O RapidMiner tem como desvantagem o “travamento” de diversos recursos que são liberados somente com a versão paga, não ter uma comunidade tão ativa, e pouca documentação (livros) dirigidos para o seu uso prático.

Bibliografia

Data Analysis with Open Source Tools – Philipp K. Janert

WEKAhttp://www.cs.waikato.ac.nz/ml/weka/ – O WEKA é uma suíte de mineração de dados desenvolvida pela Universidade de Waikato na Nova Zelândia; e tem como principal diferencial ser uma ferramenta de uso muito simples; o que não significa que seja de menor qualidade em relação as demais ferramentas Open Source. O WEKA é praticamente a ferramenta inicial para quem inicia os estudos em mineração de dados, e sem sombra de dúvidas é a ferramenta que tem a menor curva de aprendizado, chegando as vezes até passar a impressão que a mineração de dados é algo trivial; além de contar com um ótimo livro do FRANK, e WITTEN que é um material muito precioso para trabalhar de forma prática com a ferramenta. A principal desvantagem do WEKA é a difícil implementação de novas bibliotecas, o quase que obrigatório conhecimento avançado em java para implementação de algoritmos, ter algumas limitações sérias em relação à geração de gráficos, e a péssima conexão/integração com bancos relacionais.

Algumas leituras

Data Mining: Practical Machine Learning Tools and Techniques, Third Edition (The Morgan Kaufmann Series in Data Management Systems) – Ian H. Witten , Eibe Frank , Mark A. Hall

Data Mining Methods and Models – Daniel T. Larose

Discovering Knowledge in Data: An Introduction to Data Mining – Daniel T. Larose

Rattlehttp://rattle.togaware.com/ – O Rattle é uma nova suíte de mineração de dados que tem como característica principal incorporar a robustez das blibliotecas e soluções de mineração de dados do R; e conta com uma interface gráfica muito agradável com uma usabilidade excelente. Tem uma comunidade que vem crescendo muito forte, e conta com visuais gráficos que são muito melhores do que por exemplo os gráficos do Analysis Services da Microsoft. Ainda conta com uma literatura escassa, porém; nada que impeça a sua implementação, e tem um grave problema de ser designed para rodar em ambientes linux; o que pode ser fator impeditivo para utilização corporativa.

Bibliografia

Data Mining with Rattle and R: The Art of Excavating Data for Knowledge Discovery (Use R!) – Graham Williams

Diante desse leque de opções, cabe ao responsável técnico escolher a ferramenta que melhor se adapta as necessidades e principalmente que resolva melhor o seu problema, seja no desenvolvimento de pesquisas acadêmicas, ou em aplicações corporativas.

Mineração de Dados com Software Livre