2014 será o ano do fim do SAS e do SPSS? Não exatamente!

Foi publicado no excelente blog r4stats um post sobre uma previsão do fim da utilização do SAS e do SPSS em meados de 2014, no qual o autor chega a essa conclusão através de uma análise de tendências na qual o estudo verificou que estas suítes vêm sofrendo declínio de utilização; e também ressalta com o crescimento da utilização do R como ferramenta estatística.

O ponto que o blog defende a sua previsão é que o R mesmo com os problemas aparentes de usabilidade (ausência de uma GUI, ou mesmo “validade” no mundo corporativo como uma ferramenta confiável) irá se tornar uma ferramenta que irá dominar o mercado.

Em mineração de dados, um dos conceitos fundamentais para qualquer projeto dessa natureza é que não adianta ser o famoso “samba de uma nota só“. O ponto principal é que a melhor ferramenta é aquela que resolve melhor o problema a ser estudado. Ponto.

Tanto o R quanto o SAS, e o SPSS tem o seu publico, e para quem estudou Economia da Informação, sabe de dois conceitos bem básicos que são o Vendor Locking e Base Instalada. A tendência geral é que de modo que a análise de dados aparece como uma peça de fator determinante em uma empresa, os analistas terão que ser mais “híbridos” (desculpem pela palavra-gatilho) e ter que aprender a trabalhar com o maior número possível de ferramentas dentro dos mais distintos cenários.

Ser fanboy de uma determinada ferramenta não somente limita o profissional de mineração de dados, mas também torna o analista totalmente dependente dessa tecnologia; e pior: isso leva pessoas inteligentes a adotarem posturas as quais não conseguem ver os principais defeitos do produto que estão utilizando. Pense pela segunte perspectiva: se o SAS e o SPSS são caros e são “engessados” como alguns alegam, o que dizer do R que por exemplo tem uma extrema dificuldade em conectar em bancos de dados relacionais, ou mesmo não “aguenta” um arquivo .txt com mais de 700 registros?

Com a evolução de segmentos da análise de dados, é natural que novas soluções venham a público e isso é ótimo, já que o analista de dados pode usar essa complexidade do ambiente como barganha seja em termos de tempo de projeto (curva de aprendizado e implementação) mas também como compensação salarial (já que terá um arsenal de armas muito maior que a média do merdado).

 

2014 será o ano do fim do SAS e do SPSS? Não exatamente!

Pesquisa da Rexer Analytics sobre Ferramentas de Mineração de Dados

Todos os anos a Rexer Analytics realiza a maior pesquisa sobre mineração de dados que é a Data Miner Survey.

O objetivo principal é analisar quem são, e  principalmente qual o direcionamento dos praticantes de mineração de dados ao redor do mundo.

Tive o grato prazer de receber o convite para participar dessa pesquisa, e apenas a titulo de informação, segue abaixo o resultado relativo às ferramentas de mineração de dados disponíveis no mercado e a sua penetração em diferentes domínios.

RexerAnalytics2012

Pesquisa da Rexer Analytics sobre Ferramentas de Mineração de Dados

Mineração de Dados com Software Livre

Com o crescimento no estudo da disciplina de mineração de dados no meio acadêmico, bem como a sua validação e aplicação prática no meio corporativo; surgiu a necessidade da construção de novas ferramentas e suítes, com finalidade exclusiva para mineração de dados, desde o pré-processamento de dados até a visualização.

No mercado há diversas ferramentas proprietárias de excelente qualidade como o SPSS Clementine, SAS, Microsoft Analysis Services, STATISTICA, entre outros.

Entretanto, as ferramentas Open Source vem apresentando muitos recursos e funcionalidades, as quais muitas vezes superam e muito os seus concorrentes pagos com maior flexibilidade devido a possibilidade total de customização em alguns casos, robustez de soluções e bibliotecas, e claro o preço de implementação.

O objetivo desse post é fazer uma pequena explanação sobre cada um dos mais populares softwares de mineração de dados Open Source, e realizar alguns poucos comentários sobre algumas de suas características.

Rhttp://www.r-project.org/ – O Projeto R (ou somente “R”) é software de estatística que contém diversos packages (pacotes com diversas funções estatísticas, matemáticas, e econométricas) e vem em um ritmo de crescimento muito grande, em especial nos últimos 3 anos. Tem uma variedade muito grande de recursos estatístico-computacionais e tem como vantagem a sua difusão, e por ter uma linguagem de programação que tem uma curva de aprendizado média; o que permite que estatísticos, economistas, médicos, e cientistas da computação façam interações sob um mesmo código; além de possuír uma bibliografia invejável em termos de livros e materiais disponíveis na web. A desvantagem é que não há infromações sobre as operações de background e como o software utiliza os recursos de máquina disponíveis, como o funcionamento em relação a termos computacionais e até mesmo formas de customização para rodar em ambientes com alto poder computacional; além de ter uma interface de integração e pré-processamento de dados pobre em recursos de transformação.

Algumas leituras
R for SAS and SPSS Users (Statistics and Computing) – Robert A. Muenchen

The Art of R Programming: A Tour of Statistical Software Design – Norman Matloff

Customer and Business Analytics: Applied Data Mining for Business Decision Making Using R (Chapman & Hall/CRC The R Series) – Daniel S. Putler, Robert E. Krider

RapidMiner – http://sourceforge.net/projects/rapidminer/ – O RapidMiner é uma suíte de mineração de dados que vem se consolidando a algum tempo, e antes do R se tornar o software Open Source mais popular em análise de dados era o software de mineração de dados mais popular. O RapidMiner tem como principais diferenciais a parte de pré-processamento de dados, a baixa curva de aprendizado para início dos trabalhos em mineração de dados, além de produzir gráficos de ótima qualidade. O RapidMiner tem como desvantagem o “travamento” de diversos recursos que são liberados somente com a versão paga, não ter uma comunidade tão ativa, e pouca documentação (livros) dirigidos para o seu uso prático.

Bibliografia

Data Analysis with Open Source Tools – Philipp K. Janert

WEKAhttp://www.cs.waikato.ac.nz/ml/weka/ – O WEKA é uma suíte de mineração de dados desenvolvida pela Universidade de Waikato na Nova Zelândia; e tem como principal diferencial ser uma ferramenta de uso muito simples; o que não significa que seja de menor qualidade em relação as demais ferramentas Open Source. O WEKA é praticamente a ferramenta inicial para quem inicia os estudos em mineração de dados, e sem sombra de dúvidas é a ferramenta que tem a menor curva de aprendizado, chegando as vezes até passar a impressão que a mineração de dados é algo trivial; além de contar com um ótimo livro do FRANK, e WITTEN que é um material muito precioso para trabalhar de forma prática com a ferramenta. A principal desvantagem do WEKA é a difícil implementação de novas bibliotecas, o quase que obrigatório conhecimento avançado em java para implementação de algoritmos, ter algumas limitações sérias em relação à geração de gráficos, e a péssima conexão/integração com bancos relacionais.

Algumas leituras

Data Mining: Practical Machine Learning Tools and Techniques, Third Edition (The Morgan Kaufmann Series in Data Management Systems) – Ian H. Witten , Eibe Frank , Mark A. Hall

Data Mining Methods and Models – Daniel T. Larose

Discovering Knowledge in Data: An Introduction to Data Mining – Daniel T. Larose

Rattlehttp://rattle.togaware.com/ – O Rattle é uma nova suíte de mineração de dados que tem como característica principal incorporar a robustez das blibliotecas e soluções de mineração de dados do R; e conta com uma interface gráfica muito agradável com uma usabilidade excelente. Tem uma comunidade que vem crescendo muito forte, e conta com visuais gráficos que são muito melhores do que por exemplo os gráficos do Analysis Services da Microsoft. Ainda conta com uma literatura escassa, porém; nada que impeça a sua implementação, e tem um grave problema de ser designed para rodar em ambientes linux; o que pode ser fator impeditivo para utilização corporativa.

Bibliografia

Data Mining with Rattle and R: The Art of Excavating Data for Knowledge Discovery (Use R!) – Graham Williams

Diante desse leque de opções, cabe ao responsável técnico escolher a ferramenta que melhor se adapta as necessidades e principalmente que resolva melhor o seu problema, seja no desenvolvimento de pesquisas acadêmicas, ou em aplicações corporativas.

Mineração de Dados com Software Livre