Mineração de Dados nos Esportes

Para quem não assistiu o filme Moneyball vale a pena assistir como é um trabalho de um cientista de dados aplicado ao esporte. De forma muito satisfatória mostra a história do Oakland Athletics após a análise estatística sobre os atributos de jogadores que estariam subvalorizados pelo mercado de transações.

Nesta entrevista do professor Jim Albert  é apresentado um panorama muito interessante para quem deseja aplicar métodos estatísticos, bem como mineração de dados no domínio esportivo.

Anúncios
Mineração de Dados nos Esportes

Rattle – Uma nova ferramenta de Mineração de Dados

Uma ferramenta que poucos conhecem, mas que vem fazendo um grande barulho na comunidade de mineração de dados é o Rattle.

O Rattle é biblioteca do R que faz a geração de uma interface gráfica para mineração de dados e utiliza a engine e os visualizadores do R como suporte.

Em uma rápida exploração sobre a ferramenta o que eu tenho a dizer que a ferramenta vem para bater de frente com diversas suítes de mineração de dados (inclusive o WEKA) pelos seguintes motivos:

Rattle – Uma nova ferramenta de Mineração de Dados

WEKA Package Manager

O WEKA nestes últimos meses recebeu diversas atualizações e melhorias graças ao crescimento da comunidade que está apoiando a ferramenta que hoje briga com gigantes como os softwares Closed-Sources (STATISTICA, SAS, Clementine, entre outros) bem como outros tão gigantes quanto (R, Rapid Miner, Orange).

O WEKA em relação à curva de aprendizado dos conceitos e algoritmos de mineração de dados e aprendizado de máquina seguramente é o melhor de todos, haja vista que a sua GUI (Graphical User Interface) é de longe a com o melhor design, o que facilita a vida dos iniciantes e demais praticantes de mineração de dados (O Rattle é um competidor, mas merece um post só para se falar disso.

 Porém um avanço significativo aconteceu: se antes os usuários do WEKA para implementar algum tipo de plug-in precisavam abrir o código fonte da versão Developer, testar e verificar os resultados; hoje com o Package Manager (que está a partir da versão 3.7) esse tipo de problema/Workaround quase não existe mais.

O Package Manager (PM) do WEKA é uma suíte na qual diversos plug-ins podem ser instalados de forma automática, sem que haja nenhum tipo de interferência relacionada a abertura de código e compilação. Além disso, alguns ótimos plug-ins como o Association Rules Visualizer, e o SelfOrganizing Map estão disponíveis para a utilização.

Para acessar o Package Manager no WEKA siga os seguintes passos:

1) Abra o WEKA na versão 3.7 + como na figura 1;

2) No momento da abertura do WEKA aparecerá um aviso sobre a disponibilidade do PM, clique em OK como na Figura 2. Se não quiser que a mensagem apareça toda vez em que tiver que iniciar o WEKA marque a Check-box antes de clicar em OK;

3) Na GUI Chooser vá no menu principal e escolha a opção Tools e em seguida escolha a opção Package Manager como na Figura 3;

4)Em seguida será aberto o PM onde estão algumas áreas que constam informações importantes:

Na área em vermelho há as informações sobre os packages já instalados e os disponíveis, o qual tem também a opção de escolher a instalação ou desinstalação de um package; em verde está a barra de progresso de instalação/desinstalação dos packages; em azul está a listagem dos packages disponíveis com o nome, categoria de tarefa que faz no WEKA (proprocessamento, Clustering, Association Rules, etc ), a versão instalada, e se está carregada ou não no WEKA; e em amarelo há as informações específicas sobre o package escolhido como o desenvolvedor, o que faz o package, etc.

WEKA Package Manager

Padronização de Posts

Tendo como objetivo a melhora da clareza e conformidade com a atualidade dos temas, este site reserva-se no direito de utilizar a linguagem técnica em língua inglesa por três motivos:

1) Falta de literatura consagrada no cenário nacional: Pode parecer implicância, mas ainda há muito para fazer na literatura nacional para que possamos criar um ambiente de pesquisa, prova disso é só buscar nos cursos de graduação disciplinas relacionada à análise de dados e/ou mineração de dados. Grande parte da literatura nacional ainda sofre com as ‘traduções ’ que são realizadas, e há termos que confundem mais do que explicam;

2) Ausência de livros de referência que abordem as práticas mais atuais em mineração de dados: Como consequência do item 1) ainda há poucas referências em formas de edições que tratam de mineração de dados, e essa ausência faz com que termos que já são de conhecimento amplo na literatura europeia e americana (Random Forests, SVM, ROC, Konohen SOFM ) ainda não tenham trabalhos equivalentes aqui no Brasil e a tradução causaria mais confusão; e

3) Dificuldades para pesquisas futuras: uma das maiores frustações e ver aquele ótimo artigo em língua materna e simplesmente não encontrar referencias e ter que realizar uma pesquisa mais aprofundada na qual não há referencias especificas ou as traduções confusas.

Padronização de Posts

As piores práticas na implantação de um modelo de predição

Esse post do ZSL Services mostra em passos bem didáticos as piores práticas no momento da implantação de um modelo preditivo; os quais eles enumeram:

  1. Falta de foco específico no negócio;
  2. Ignorar os steps iniciais;
  3. Desperdício de tempo em avaliação de modelo ;
  4. Alto investimento em ferramentas que representam um Return Of Investment (Retorno do Investimento) ROI baixo ou nulo; e
  5. Falha na operacionalização.

Apesar de serem passos simples, os mesmos requerem muitos cuidados na análise; e em geral é por esses motivos principalmente que os projetos que lidam com predição de dados falham em sua maioria.

A metodologia CRISP-DM é excelente nesse aspecto, na qual ela não engessa o projeto; mas também faz esse equilíbrio entre essas práticas e a implantação do projeto.

PS: O post fez tanto sucesso que os autores escreveram outro com algumas recomendações. http://zslbiservices.wordpress.com/2012/07/27/worst-practices-while-deploying-a-predictive-model-contd/

As piores práticas na implantação de um modelo de predição

Wekatext2Xml – Conversão de Árvores de Decisão do WEKA para XML

Esse plugin para WEKA produzido pelo  francês Luc Sorel chamado Wekatext2Xml tem como finalidade exportar árvores de decisão produzidas pelo algotimo J48 para formatos txt e XML; que podem servir como, por exemplo, em mapas mentais que auxiliam na representação do conhecimento e no entendimento da árvore.

Wekatext2Xml – Conversão de Árvores de Decisão do WEKA para XML

Overfitting e a Expansão Contínua do Modelo

Nesse post do Statistical Modeling, Causal Inference apresenta o conceito de Expansão Contínua; na qual para evitar o Overfitting do modelo ao invés de  realizar escolhas pela média do Cross-Validation, o autor prefere escolher um modelo dentro de uma determinada metodologia e realizar refinamentos sucessivos. É interessante esse conceito, e mostra que o minerador de dados deve ter métodos de se chegar a um resultado bom, mesmo que o modelo inicialmente não seja o ideal e realize a sua expansão de forma iterativa e incremental (como nas metodologias ágeis) seja com a seleção e inserção de novos atributos, ou novas formas de validação.

Overfitting e a Expansão Contínua do Modelo