Minerando grandes bases de dados no WEKA

Um dos maiores problemas quando lidamos com o Weka é a irritante limitação do Java Heap Siza de 2gb, e sendo expansível de acordo com o método descrito aqui até o volume de memória físico da plataforma de ensaios. 

No entanto, nesse excelente comunicado dos desenvolvedores do Weka eles informam que como solução para economia de recursos é sempre preferível usar linha de comando; e que há atualmente bibliotecas que estão trabalhando com subamostragem para tornar mais escalável o uso do Weka para mineração de bases de dados com um alto volume de registros.

Anúncios
Minerando grandes bases de dados no WEKA

Modelagem de Resultado

Neste post do Paul Mineiro (um dos mais reflexivos autores da blogosfera de Analytics) ele coloca em questão os custos e benefícios do trabalho de pesquisa e como o pesquisador profissional deve deixar o seu empregador informado sobre especialmente desses benefícios.

Esse trecho abaixo diz muito sobre o fato de que nós pesquisadores e entusiastas da análise de dados, e principalmente Data Mining não somos tão bons em divulgar os nossos resultados:

Recent events have me thinking again about the viability of privately funded basic research. In my opinion, the history of Xerox PARC is deeply troubling. What?! At it’s peak the output of Xerox PARC was breathtaking, and many advances in computation that became widespread during my youth can be traced to Xerox PARC. Unfortunately, Xerox did not benefit from some of the most world-changing innovations of their R&D department. Now a generation of MBAs are told about the Cisco model, where instead of having your own research department, you wait for other firms to innovate and then buy them.

… it continues to buy small, innovative firms rather than develop new technology from scratch …

To be clear my employer, Microsoft, still shows a strong commitment to basic research. Furthermore, recent research layoffs at Microsoft were not related to research quality, or to the impact of that research on Microsoft products. This post is not about Microsoft, it is about the inexorable power of incentives and economics.

Quite simply, it is irrational to expect any institution to fund an activity unless that organization can realize sufficient benefit to cover the costs. That calculation is ultimately made by people, and if those people only hear stories about how basic research generates benefits to other firms (or even, competitors!), appetite will diminish. In other words, benefits must not only be real, they must be recognizable to decision makers. This is, of course, a deep challenge, because the benefits of research are often not recognizable to the researchers who perform it. Researchers are compelled to research by their nature, like those who feel the need to scale Mount Everest. It so happens that a byproduct of their research obsession is the advancement of humanity.

A discussão poderia ir para o caminho de questões orçamentárias e tudo mais; mas o cerne da questão é que devido a esse péssimo marketing pessoal (sic.) que faz parte de todo o jogo (teatro) corporativo reflete em que técnicas e competências extremamente ultrapassadas estejam reinando; mais especificamente as ferramentas de Business Intelligence e seus analistas que promovem mais entropia nas organizações com a avalanche de relatórios sobre o… passado.

A mineração de dados e a modelagem preditiva como um todo entram em uma arena de complexidade e análise diferente do exemplo citado acima; na qual ao invés de realizar diversas análises conjecturais que muitas das vezes desconsideram os dados e estão literalmente ancoradas e vieses cognitivos (ou cacoetes corporativos para a manutenção do status quo) elas são pautadas em tecnologias que vão segmentam, classificam e recomendam usando informações de bases de dados em problemas tipicamente não lineares no qual um analista humano teria extrema dificuldade de agir.

Uma das soluções para que a Mineração de Dados seja vista como uma alternativa real, face a esta crescente entropia no ambiente de negócios transvestida de ‘Inteligência’ (e principalmente dando dinheiro a charlatães, mas isso será assunto de outro post) as análises devem ter ligação direta com os resultados, sejam financeiros ou mesmo de outra natureza.

O melhor programa de marketing sempre foi, e sempre será a entrega de resultados e superação de metas. Ponto.

Sendo assim quais são as formas de se realizar isso com a mineração de dados? Algumas sugestões aleatórias seriam (i) a utilização de Uplift Modeling para comparar  o a) Status Quo, b) outras análises que estão sendo performadas sem a Mineração de Dados,  c) usando a Mineração de Dados e o posterior contraste dos métodos mostrando tempo empregado, custos e receita líquida final; (ii) estruturação de uma metodologia para a aplicação da Mineração dado que este é o ponto mais sensível quando vai se explicar esse tipo de trabalho para audiência não-técnica; e (iii) ter em mente a seguinte equação “Realidade = Modelo – Erro”; em outras palavras, isso significa que você sempre estará olhando o intangível, isto é, informações que estão aquém da modelagem de dados; e por último (iv) estruture uma apresentação efetiva desses resultados, um ótimo recurso é o livro Real Leaders Don’t Do Power Point que mostra que até o analista mais técnico pode realizar uma apresentação excelente.

Modelagem de Resultado

Novo Blog Brasileiro em Analytics: Brasil Analytics

O Brasil Analytics é mais um excelente recurso da blogosfera de Analytics que vai tratar basicamente do Data Science aqui no Brasil; sempre com posts hands-on e posterior disponibilização do material de apoio.

Obrigatório no RSS de todos que trabalham com Mineração de Dados.

Novo Blog Brasileiro em Analytics: Brasil Analytics

Muitas peças mas nenhum carro

Neste post do Mikio Braun ele lança uma importante reflexão na estruturação de uma solução de infraestrutura em Big Data no qual muito do que está sendo vendido não está em linha com o objetivo final que é a resolução de problemas de negócio.

The bottom line is that all those pieces of Big Data infrastructure which exists today provide you with a lot of pretty impressive functionality, distributed storage, scalable computing, resilience, and so on, but not in a way which solves your data analysis problems out of the box. The analogy I like is that Big Data is a lot like providing you with an engine, a transmission, some tires, a gearbox, and so on, but no car.

Muitas peças mas nenhum carro

Pedindo ajuda sobre o Weka

Como alguns sabem o Weka é uma GUI de código aberto e ao contrário de algumas empresas que ostentam títulos de líderes de mercado (cof, cof, cof) tem uma comunidade ativa em volta da aplicação.

Há duas maneiras de pedir ajuda:

1) Cadastrando-se na lista e enviando a solicitação em e-mail em inglês (sim, o inglês é o novo latim como eu coloquei aqui em 2012) que é algo extremamente rápido.

ou

2) Buscando nos arquivos da lista. Aqui é a melhor chance de achar algo para sanar uma dúvida. E o melhor de tudo: Dá para fazer download de tudo de graça!!!

Agora acabaram-se as desculpas para ficar travado naquele probleminha com a LMT ou com o Naive Bayes.

Pedindo ajuda sobre o Weka

Resenha: Predictive Analytics: The Power to Predict Who Will Click, Buy, Lie, or Die

Uma pequena mea culpa antes da resenha: Tenho lido inúmeros livros de Analytics, Data Mining, e afins no entanto por mera obra de exibicionismo barato acabei postando todos os mini-reviews no meu instagram ao invés de colocar esforço em uma audiência mais apropriada/qualificada que está neste espaço. Sendo assim até o final do mês teremos muitos reviews que estavam represados.

– – –

51xwlO0bTlL

Comprei esse livro para ler de acordo com o a recomendação do KDNuggets que eu postei aqui.

E ao final do livro eu tive uma sensação estranha, mas que eu vou explicar adiante que é não gostei, mas recomendo.

Pode parecer estranho essa ultima frase, mas por incrível que pareça é a mais pura verdade.

O livro é muito bem editorado e tem uma fluência no texto que causa inveja em muitos autores da área, dado que não é um livro estritamente técnico; e tem como principal trunfo consolidar diversas pesquisas e consolidação de diversos cases que saíram ao longo desses últimos dois anos em um material único.

A maior vantagem nesse livro em especial é que o autor tenta colocar um pouco de ordem do que é Análise Preditiva e o que não é, coloca uma coleção de cases que se lidos com atenção, principalmente por diretores/gerentes que estão sentados em uma mina de ouro de dados podem motivar a adoção de programas dessa natureza.

No entanto essa coleção de cases (que para o público com um background mais gerencial pode ser ótimo) é o ponto fraco do livro dentro da perspectiva do Data Miner ou analistas de dados.

Em alguns momentos do livro parece que o autor teve somente o trabalho de copiar o trabalho de alguém e colar no livro como uma maneira de referenciar o trabalho. Contudo, o erro mais grave é o que o autor tenta vender como preditivo na ideia de prever o futuro, mesmo com um disclaimer informando que o autor leu os trabalhos do Nassim Taleb  ele ainda considera a hipótese de previsão, seja lá o que isso signifique em seu plano semântico.

Mesmo assim para quem deseja conhecer como a modelagem preditiva está sim moldando o mundo esse livro é uma boa pedida, mas vamos nas indicações.

É indicado para: Gerentes, Gestores, Diretores, estudantes que não sabem o que é Data Mining, e demais analistas de dados/negócios que desejam saber como a modelagem preditiva vem talhando o mundo e nos influencia na maneira de tomar as nossas decisões (mesmo em um plano de uma pseudo-aleatoriedade)

Não é indicado para: Quem deseja detalhes de implementação dessa modelagem preditiva, cases com detalhes técnicos, quem se interessa por aspectos técnicos, quem acha que Big Data é uma buzz-word de mal gosto, e quem busca um livro técnico.

Resenha: Predictive Analytics: The Power to Predict Who Will Click, Buy, Lie, or Die

Introdução às Técnicas Modernas de Regressão

Por mais que as técnicas de aprendizado de máquina tenham evoluído muito nos últimos tempos, é inegável que as técnicas de regressão ainda têm uma aderência muito grande por parte dos Data Miners, estatísticos, e demais analistas de dados; seja devido à versatilidade ou mesmo por permitir uma abordagem semi-White Box (sic.).

Neste webnar da Salford Systems, há dois vídeos que vale a pena ter no HD sobre a aplicação das técnicas modernas de regressão.

Para quem não conseguir baixar o material no site, basta clicar no link no final do post que o download será iniciado automaticamente.

2014_Modern_Regression_CTW_web

Introdução às Técnicas Modernas de Regressão

Uplift Modeling

Lendo o Predictive Analytics em meados de Maio (que será resenhado aqui no MD) resgatei um dos tópicos mais interessantes quando se fala de aderência de modelos preditivos que é o uplift modeling.

 O Lift pode-se dizer que é a medida (ou índice) da eficácia do modelo em relação os resultados obtidos através do modelo, e se o modelo não fosse aplicado.

Esse conceito é importado da medicina baseada em evidências no qual é conhecido como ensaio clínico randomizado, que tem como principal característica a separação dos grupos de experimento para verificar a eficácia de uma abordagem clínica/medicamentosa.

 Você utiliza essa métrica de aderência de modelo preditivo da seguinte forma:

 1) Criam-se dois grupos, um de (i) tratamento (onde o modelo será aplicado) e (ii) outro de controle (onde o modelo não será aplicado) sempre levando em consideração a randomização das amostras;

2) Aplica diretamente a técnica de classificação ou modelagem preditiva no grupo de tratamento;

3) Realiza o follow-up dos dois grupos anotando os efeitos primários (indicações mais severas após a intervenção), e comportamentos semelhantes e/ou efeitos secundários; e

4) De acordo com o response rate (%) do uplift modeling  você consegue uma análise mais fiel em relação aos impactos da intervenção e se você tiver ‘saco metodológico’ você consegue observar o decay do modelo, ou mesmo realizar ajustes.

Uplift Modeling