Mineração de Dados com Software Livre

Com o crescimento no estudo da disciplina de mineração de dados no meio acadêmico, bem como a sua validação e aplicação prática no meio corporativo; surgiu a necessidade da construção de novas ferramentas e suítes, com finalidade exclusiva para mineração de dados, desde o pré-processamento de dados até a visualização.

No mercado há diversas ferramentas proprietárias de excelente qualidade como o SPSS Clementine, SAS, Microsoft Analysis Services, STATISTICA, entre outros.

Entretanto, as ferramentas Open Source vem apresentando muitos recursos e funcionalidades, as quais muitas vezes superam e muito os seus concorrentes pagos com maior flexibilidade devido a possibilidade total de customização em alguns casos, robustez de soluções e bibliotecas, e claro o preço de implementação.

O objetivo desse post é fazer uma pequena explanação sobre cada um dos mais populares softwares de mineração de dados Open Source, e realizar alguns poucos comentários sobre algumas de suas características.

Rhttp://www.r-project.org/ – O Projeto R (ou somente “R”) é software de estatística que contém diversos packages (pacotes com diversas funções estatísticas, matemáticas, e econométricas) e vem em um ritmo de crescimento muito grande, em especial nos últimos 3 anos. Tem uma variedade muito grande de recursos estatístico-computacionais e tem como vantagem a sua difusão, e por ter uma linguagem de programação que tem uma curva de aprendizado média; o que permite que estatísticos, economistas, médicos, e cientistas da computação façam interações sob um mesmo código; além de possuír uma bibliografia invejável em termos de livros e materiais disponíveis na web. A desvantagem é que não há infromações sobre as operações de background e como o software utiliza os recursos de máquina disponíveis, como o funcionamento em relação a termos computacionais e até mesmo formas de customização para rodar em ambientes com alto poder computacional; além de ter uma interface de integração e pré-processamento de dados pobre em recursos de transformação.

Algumas leituras
R for SAS and SPSS Users (Statistics and Computing) – Robert A. Muenchen

The Art of R Programming: A Tour of Statistical Software Design – Norman Matloff

Customer and Business Analytics: Applied Data Mining for Business Decision Making Using R (Chapman & Hall/CRC The R Series) – Daniel S. Putler, Robert E. Krider

RapidMiner – http://sourceforge.net/projects/rapidminer/ – O RapidMiner é uma suíte de mineração de dados que vem se consolidando a algum tempo, e antes do R se tornar o software Open Source mais popular em análise de dados era o software de mineração de dados mais popular. O RapidMiner tem como principais diferenciais a parte de pré-processamento de dados, a baixa curva de aprendizado para início dos trabalhos em mineração de dados, além de produzir gráficos de ótima qualidade. O RapidMiner tem como desvantagem o “travamento” de diversos recursos que são liberados somente com a versão paga, não ter uma comunidade tão ativa, e pouca documentação (livros) dirigidos para o seu uso prático.

Bibliografia

Data Analysis with Open Source Tools – Philipp K. Janert

WEKAhttp://www.cs.waikato.ac.nz/ml/weka/ – O WEKA é uma suíte de mineração de dados desenvolvida pela Universidade de Waikato na Nova Zelândia; e tem como principal diferencial ser uma ferramenta de uso muito simples; o que não significa que seja de menor qualidade em relação as demais ferramentas Open Source. O WEKA é praticamente a ferramenta inicial para quem inicia os estudos em mineração de dados, e sem sombra de dúvidas é a ferramenta que tem a menor curva de aprendizado, chegando as vezes até passar a impressão que a mineração de dados é algo trivial; além de contar com um ótimo livro do FRANK, e WITTEN que é um material muito precioso para trabalhar de forma prática com a ferramenta. A principal desvantagem do WEKA é a difícil implementação de novas bibliotecas, o quase que obrigatório conhecimento avançado em java para implementação de algoritmos, ter algumas limitações sérias em relação à geração de gráficos, e a péssima conexão/integração com bancos relacionais.

Algumas leituras

Data Mining: Practical Machine Learning Tools and Techniques, Third Edition (The Morgan Kaufmann Series in Data Management Systems) – Ian H. Witten , Eibe Frank , Mark A. Hall

Data Mining Methods and Models – Daniel T. Larose

Discovering Knowledge in Data: An Introduction to Data Mining – Daniel T. Larose

Rattlehttp://rattle.togaware.com/ – O Rattle é uma nova suíte de mineração de dados que tem como característica principal incorporar a robustez das blibliotecas e soluções de mineração de dados do R; e conta com uma interface gráfica muito agradável com uma usabilidade excelente. Tem uma comunidade que vem crescendo muito forte, e conta com visuais gráficos que são muito melhores do que por exemplo os gráficos do Analysis Services da Microsoft. Ainda conta com uma literatura escassa, porém; nada que impeça a sua implementação, e tem um grave problema de ser designed para rodar em ambientes linux; o que pode ser fator impeditivo para utilização corporativa.

Bibliografia

Data Mining with Rattle and R: The Art of Excavating Data for Knowledge Discovery (Use R!) – Graham Williams

Diante desse leque de opções, cabe ao responsável técnico escolher a ferramenta que melhor se adapta as necessidades e principalmente que resolva melhor o seu problema, seja no desenvolvimento de pesquisas acadêmicas, ou em aplicações corporativas.

Mineração de Dados com Software Livre

2 comentários sobre “Mineração de Dados com Software Livre

  1. Boa tarde!

    O Conteúdo é bem objetivo, me ajudou bastante.
    Estou começando com mineração de dados agora, por conta disso, eu gostaria de uma indicação de quem já fez uso de alguma dessas ferramentas. Claro que tudo vai depender da necessidade da minha pesquisa, mas caso alguém possa dar uma sugestão com base em experiência de uso dentre essas, eu agradeço demais!

Deixe o seu comentário inteligente e educado! :o)

Preencha os seus dados abaixo ou clique em um ícone para log in:

Logotipo do WordPress.com

Você está comentando utilizando sua conta WordPress.com. Sair / Alterar )

Imagem do Twitter

Você está comentando utilizando sua conta Twitter. Sair / Alterar )

Foto do Facebook

Você está comentando utilizando sua conta Facebook. Sair / Alterar )

Foto do Google+

Você está comentando utilizando sua conta Google+. Sair / Alterar )

Conectando a %s