2011 Data Miner Survey – Relatório sobre práticas em Mineração de Dados

No ano de 2011 foi realizada uma pesquisa pela Rexer Analytics sobre as principais práticas de mineração de dados, bem como as tendências. De forma geral pelos highlights dá para se perceber que apesar da evolução das técnicas muito do que está em ‘produção’ hoje tem a ver com o básico: Árvore de Decisão, Análise de Cluster e Regressão.

Isso mostra que deve haver um trabalho de base forte para consolidação da mineração de dados no cenário nacional; em especial, na área acadêmica na qual há a apresentação de conceitos avançados sendo que na prática há pouco sendo feito.

 Alguns dos pontos principais elencados pela pesquisa:

 FIELDS & GOALS:  Data miners work in a diverse set of fields.  CRM / Marketing has been the #1 field in each of the past five years.  Fittingly, “improving the understanding of customers”, “retaining customers” and other CRM goals continue to be the goals identified by the most data miners.

 ALGORITHMS:  Decision trees, regression, and cluster analysis continue to form a triad of core algorithms for most data miners.  However, a wide variety of algorithms are being used.   A third of data miners currently use text mining and another third plan to in the future.  Text mining is most often used to analyze customer surveys and blogs/social media.

TOOLS:  R continued its rise this year and is now being used by close to half of all data miners (47%).  R users report preferring it for being free, open source, and having a wide variety of algorithms.  Many people also cited R’s flexibility and the strength of the user community.  In the 2011 survey we asked R users to tell us more about their use of R.  Read the R user comments about why these use R (pros), the cons of using R, why they select their R interface, and how they use R in conjuction with other tools.  STATISTICA is selected as the primary data mining tool by the most data miners (17%).  Data miners report using an average of 4 software tools overall.  STATISTICA, KNIME, Rapid Miner and Salford Systems received the strongest satisfaction ratings in 2011.

TECHNOLOGY:  Data Mining most often occurs on a desktop or laptop computer, and  requently the data is stored locally.  Model scoring typically happens using the same software used to develop models.

VISUALIZATION:  Data miners frequently use data visualization techniques.  More than four in five use them to explain results to others.  MS Office is the most often used tool  for data visualization.  Extensive use of data visualization is less prevalent in the Asia-Pacific region than other parts of the world.

ANALYTIC CAPABILITY & SUCCESS:  Only 12% of corporate respondents rate their company as having very high analytic sophistication.  However, companies with better analytic capabilities are outperforming their peers.  Respondents report analyzing analytic success via Return on Investment (ROI), and analyzing the predictive validity or accuracy of their models.  Challenges to measuring analytic success include client or user cooperation and data availability / quality.  

FUTURE:  Data miners are optimistic about continued growth in data mining adoption and the positive impact data mining will have.  As in previous years, data miners see growth in the number of projects they will be conducting.  And growth in data mining adoption is the number one “future trend” identified.  Participants pointed out that care must be taken to protect privacy when conducting data mining.  Data miners also shared many examples of the positive impact they feel data mining can have to benefit society.  Health / medical advances was the area of positive impact identified by the most data miners. 

2011 Data Miner Survey – Relatório sobre práticas em Mineração de Dados

Tutoriais de Rapidminer

O WEKA é uma excelente ferramenta de mineração de dados principalmente para iniciantes no qual é uma ferramenta que tem uma curva de aprendizado menor comparado ao R.

Entretanto uma ferramenta também open source que vem agradando diversos praticantes de mineração de dados é o Rapidminer que conta com uma suíte bem sugestiva e tem uma curva de aprendizado muito baixa, além de contar com possibilidade de se realizar ETL de alguns dados na própria suíte.

O excelente site do Neural Market Trends tem uma série de tutoriais que pode auxiliar aqueles que desejam conhecer uma nova ferramenta de mineração de dados.

Tutoriais de Rapidminer

O Atirador de Aurora em Perspectiva

Alguns atrás dias postamos algo a respeito desse assunto, indicando que com uma seleção de variáveis simples; e posterior análises o atirador de Aurora poderia ter sido facilmente identificado sob a perspectiva da mineração de dados.

Nessa entrevista do Robert L. Mitchell na qual ele chama um dos ícones da mineração de dados o Dean Abbott (autor do bom artigo An Evaluation of High-end Data Mining Tools for Fraud Detection) o qual o mesmo dá a seguinte declaração:

“While it certainly was the case here that [the shooter] purchased a lot of stuff and that there didn’t appear to be a good, law-abiding reason for him to purchase the gear, it is unclear if his pattern of purchases is unusual”  when examined in the context of the purchases of hundreds of millions of other citizens, he says.  For example, given the universe of more than 400 million people, it might very well be possible that 20,000 people made similar volumes of purchases in the same time period. But how many of those are exhibiting risky behavior?

Não tirando o mérito e tudo o que o Dean já fez pela mineração de dados, mas pegar um especialista em target marketing e projetos ligados à área comercial para tratar de um tema altamente criminal não parece ser algo inteligente, ou bem intencionado quando para se colocar a mineração de dados à mesa.

Há no mínimo três fontes primárias no assunto que são os livros Investigative Data Mining for Security and Criminal Detection do Jesus Mena, Data Mining and Predictive Analysis: Intelligence Gathering and Crime Analysis do Colleen McCue e o Data Mining for Intelligence, Fraud & Criminal Detection: Advanced Analytics & Information Sharing Technologies do Christopher Westphal.

Esses livros (que já estão na fila para serem resenhados aqui no site) tratam exatamente desse tema, dentro de uma perspectiva constitucional para tomada de decisão, seja do poder legislativo com modificações nas leis; seja na esfera executiva/policial com vigilância e prevenção.

Aqui no Brasil uma ótima apresentação foi realizada por André Cavalcante Hora e Zilton Cordeiro Junior sob o acompanhamento do professor Wagner Meira Júnior; no qual os autores utilizaram regras de associação no WEKA para descobrir regras para auxiliar na formulação de políticas e estratégias de policiamento. Até mesmo chegamos a formular uma base de teste chamadas Crimes, na qual é um pequeno mock-up baseado no projeto dos alunos citados.

A mineração de dados pode auxiliar na tomada de decisões relacionadas à esfera criminal e negar isso mostra não só desconhecimento, mas total ignorância com os recursos dessas técnicas que vem crescendo mais e mais ao redor do mundo.

O Atirador de Aurora em Perspectiva

Repositório de Dados Esportivos – Database Sports

Para quem deseja realizar análises de dados com séries olímpicas esse site do Database Sport tem um amplo material, fornecendo dados desde as olímpiadas de 1896 até a Olimpíada de 2008 na China.

Repositório de Dados Esportivos – Database Sports

Big Data já atraí a atenção de escritórios de advocacia

Não era de se esperar, que a clava da regulação e do ajuste de condutas iria se erguer sobre o Big Data; seja no estabelecimento de Guidelines ou mesmo na forma de regulação e legislação específica. Por mais que seja restritivo para alguns analistas é um mal necessário devido ao fato de que sem regulação as empresas (e principalmente os governos) têm o passaporte amplo para realizarem análises e cruzamentos de dados mais diversos para cercear o poder das e principalmente as vidas dos cidadãos. É uma discussão que apesar de ser tratada de forma periférica por muitos analistas de dados, é de suma importância para o desenvolvimento de projetos de Big Data.

Big Data já atraí a atenção de escritórios de advocacia

Previsão do tempo dos 100 Metros Rasos em Londres 2012

Dia 5 de Agosto do corrente ano será um dia histórico independente de quem ganhar o evento mais importante das Olimpíadas de Londres, os 100 metros rasos.

Provavelmente essa modalidade esportiva, perde em termos de complexidade de treinamento e desenvolvimento somente para o tênis e o Golf. Entretanto, o que chama mais atenção nesse evento são as possibilidades e a expectativa sobre se haverá se a quebra do record olímpico de 9.69s de Usain Bolt.

Passando para a parte que interessa que é de análise de dados e mineração de dados, há um post bem interessante do Markus Gesmann, no qual ele apresenta resultados de uma regressão logística e regressão linear sobre os tempos dos 100 metros rasos em uma série histórica. Os resultados são bem plausíveis e o modelo está bem estimado.

Previsão do tempo dos 100 Metros Rasos em Londres 2012

A Mineração de Dados pode parar a matança? – Uma reflexão sobre o episódio do Atirador do Colorado e a Mineração de Dados

Até esse momento diversos sites já estão reportando a situação sobre o atirador do Colorado nos Estados Unidos e estão nesse exato momento acontecendo diversos debates (Controle de Armas, Vídeo Games, Políticas de Restrições de Liberdades, entre outros.) (http://www.nytimes.com/2012/07/21/us/shooting-at-colorado-theater-showing-batman-movie.html) que estão fora do escopo de atuação desse site.

Entretanto, o assunto serve como plano de fundo para uma discussão que envolve Mineração de Dados e desenvolvimento de políticas de acesso á dados e controle governamental sobre dados “privativos”. O artigo do Holman W. Jenkins, Jr do Wall Street Journal coloca a questão à mesa em uma visão sóbria e realista pegando como exemplo o massacre ocorrido.

O artigo realiza uma série de indagações sobre quando a mineração de dados poderá ser usada para  interromper esse tipo de matança (por isso o título original do artigo Can Data Mining Stop the Killing?) e sobre as discussões sobre o programa Total Information Awareness que regula sobre as questões de Data Gathering e Mineração de Dados sobre informações de todos os cidadãos dos EUA.

Mas há dois trechos do artigo que merecem um destaque especial, que são:

[…]The Colorado shooter Mr. Holmes dropped out of school via email. He tried to join a shooting range with phone calls and emails going back and forth. He bought weapons and bomb-making equipment. He placed orders at various websites for a large quantity of ammunition. Aside from privacy considerations, is there anything in principle to stop government computers, assuming they have access to the data, from algorithmically detecting the patterns of a mass shooting in the planning stages? […]

Tradução livre: O atirador do Colorado Sr. Holmes largou a escola via um e-mail. Ele tentou se filiar a um clube de tiro com chamadas telefônicas e e-mails indo e voltando. Ele comprou armas e equipamento para fabricação de bombas. Ele encomendou em diversos sites ampla quantidade de munição. Deixando de lado questões relacionadas à privacidade, há alguma coisa em princípio para interromper os computadores do governo, assumindo que eles têm o acesso aos dados, e detectar algoritmicamente os padrões de planos de chacinas em seus estágios iniciais?

 E esse trecho:

[…]The anguishing thing about mass-shooting incidents is that patterns are indeed present […]

Tradução livre: O angustiante sobre essas chacinas é que os padrões estão sempre presentes.

Utilizando como ponto de partida dessa reflexão, há uma frase que se enquadra bem nesse contexto que é “Quando a arma que mata é a mesma que defende a liberdade, os Santos choram; mas não acusam”. Isso quer dizer que partindo das indagações( justas) do Sr. Jenkins, bem como das diversas manifestações da American Civil Liberties Union (ACLU – Em tradução livre: União das Liberdades Civis Americanas) é possível dar duas respostas sobre essas perguntas: Não, e Sim.

A aplicação efetiva de Mineração de Dados na esfera pública, até mesmo no Brasil provou que é um campo que tem tudo para dar certo, se utilizada para o correto atendimento dos interesses gerais da administração pública; seja na área de economicidade (na qual trata o artigo) seja na área de segurança pública.

O fato é que hoje as empresas estão anos-luz à frente dos governos em relação à aquisição de dados, e principalmente na utilização desses dados para os mais diversos fins comerciais: cobrança, marketing direcionado, marketing político, design de produtos, disponibilização de linhas de crédito, e até mesmo predição de tendências comportamentais de consumo.

Dentro desse panorama, é de se espantar que associações de direitos civis se oponham de maneira ferrenha ao fato do governo poder ter essas informações consolidadas e para utilização para diversos tipos de aplicações para servir ao bem público (isso baseado e legislação específica, e com representantes e pautas de discussões eleitos democraticamente) sendo que informações como padrões de utilização de cartões de crédito, ligações telefônicas, e-mails, correspondências, informações sobre restrições e status de créditos bancários estejam na mão de empresas; as quais que além de tudo comercializam esses tipos de informações, seja via birôs de crédito e de informações; seja a comercialização de malas diretas.

Um praticante de mineração de dados razoável poderia modelar algo no mesmo sentido em que o colunista descreveu com determinada facilidade, contudo; a questão vai um pouco além do que foi descrito, e a mineração não pode tratada como a salvação em se tratando de crimes dessa natureza; pois, além das restrições legais, esse campo penaliza de forma severa erros de interpretação, os quais se hoje são a solução para auxiliar na esfera criminal em questão de prevenção, pode tornar um instrumento para criminalizar mais pessoas através de erros de interpretação.

Uma coisa que sempre este site faz questão de ressaltar é que a mineração de dados são um conjunto de técnicas que auxiliam na tomada de decisão, e que a ação propriamente dita é sempre condicionada, única e exclusivamente pelo agente humano através da interpretação dos padrões recebidos; e esse processo quase que dialético de extrair da expertise (conhecimento tácito) e do background técnico (conhecimento explicito) conhecimento para lidar com qualquer tipo de situação de acordo com os dados. Jogar na mineração de dados essa responsabilidade, é no mínimo preocupante, pois mostra ainda que as pessoas conhecem muito pouco do assunto e procuram uma bala de prata para resolver diversos problemas da sociedade; e é desse tipo de abordagem que a mineração de dados deve se afastar para não virar instrumento de um estado tecnocrático e policial que tem base valores totalitários e restritivos.

A discussão é interessante e está aberta, e cabe ressaltar que ainda haverá muita discussão nesse sentido nos outros países. Pena que ainda, nós brasileiros não acordamos para esse tipo de discussão.

 PARA LER

ACLU. Data Mining. Disponível em << http://www.aclu.org/technology-and-liberty/data-mining >> Acessado em 24 Jul 12 às 22:22hs.

PEÑA, Charles V. Information Awareness Office Makes Us a Nation of Suspects. CATO Institute. Disponível em << http://www.cato.org/research/articles/pena-021122.html  >> Acessado às 24 Jul 12 às 22:23hs.

ACLU. Testimony of Barry Steinhardt, Director of the ACLU Technology and Liberty Program on Government Data Mining Before the House Government Reform Subcommittee on Technology, Information Policy, Intergovernmental Relations and the Census. Disponível em << http://www.aclu.org/national-security/testimony-barry-steinhardt-director-aclu-technology-and-liberty-program-government >> Acessado em 24 Jul 12 às 22:22hs.

DARPA. DARPA’s S&T Privacy Principles. Disponível em << http://www.darpa.mil/About/Initiative/DARPA’s_S_T_Privacy_Principles.aspx >> Acessado em 24 Jul 12 às 22:25hs

ACLU. Total Information Compliance: The TIA’s Burden Under The Wyden Amendment – A Preemptive Analysis of the Government’s Proposed Super Surveillance Program. Disponível em << http://www.aclu.org/files/FilesPDFs/aclu_tia_report.pdf  >> Acessado em 24 Jul 12 às 22:26hs

ACLU. Technology And Liberty Program – A letter to Alex Türk. Disponível em << http://www.aclu.org/files/images/asset_upload_file750_34919.pdf >> Acessado às 22:38hs

SARMENTO SILVA, Carlos Vinícius; RALHA, Célia Ghedini. Detecção de Cartéis em Licitações Públicas com Agentes de Mineração de Dados . Revista Eletrônica de Sistemas de Informação. Disponível em << http://revistas.facecla.com.br/index.php/reinfo/article/view/754/pdf  >> Acessado em 24 Jul 12 às 22:37hs.

NATH, Shyam Varan. Crime Pattern Detection Using Data Mining. Oracle Corporation. Disponível em << http://ieeexplore.ieee.org/xpl/login.jsp?tp=&arnumber=4053200&url=http%3A%2F%2Fieeexplore.ieee.org%2Fxpls%2Fabs_all.jsp%3Farnumber%3D4053200  >> Acessado em 24 Jul 12 às 22:40hs.

A Mineração de Dados pode parar a matança? – Uma reflexão sobre o episódio do Atirador do Colorado e a Mineração de Dados

Mean-Shift

Esse post do Normal Deviate apresenta de uma maneira bem técnica o algoritmo que faz a distribuição da Mean-Shift (algo como mudança de média em tradução literal).

A Mean-Shift é uma técnica de Clustering (agrupamento) na qual tem como objetivo inferir a média dos clusters de acordo com uma função de densidade, na qual em uma janela de interesse (range de dados que compreende o círculo) de faz o cálculo da área em que há mais densidade, e nesse ponto será determinado o ponto central da Mean-Shift e o círculo de interesse se move até esse novo ponto central. Esse processo é realizado de forma sucessiva e só termina quando a Mean-Shift é igual a inferência anterior.

Como bem ressaltado no post, são basicamente 3 passos: (1) estimar a densidade, (2) encontrar a moda da densidade, e (3) associar cada ponto a uma moda.

Esse tipo de função de densidade é mais utilizada em processamento de imagens; mas também pode ser muito útil na análise visual de clusters em qualquer número de dimensões, na qual podem ser feitas análises para 1) detecção de anomalias (outliers), 2) identificação de padrões de outliers, e 3) através de um determinado range (janela de interesse) segmentar e concentrar as análises no ponto de maior densidade  e dentro desse espectro (Mean-Shift e Janela de Interesse) realizar segmentações e ações específicas de acordo com esses dados.

Esse tipo de estudo com Mean-Shift na análise de clusters em mineração de dados, auxilia a determinar espectros de analises em grupos com melhores segmentações e similaridades e com o ‘corte‘ determinado pela janela de interesse.

Um ponto negativo nessa abordagem, é que nem precisa olhar muito para ver que o custo computacional é alto (3 divisões aninhadas e um sigma ali no meio cheira algo de O(g(n))) e se pensarmos em uma análise de cluster trivial (que contenha 100K de registros, essa abordagem pode se tornar inviável.

Uma ótima referência é esse post da pesquisadora Gabriela Bauermann.

Esse vídeo do canal da Gabriela explica de forma visual como é feito o processo do algoritmo Mean-Shift.

PS: Seguem dois códigos para o Main-Shift, um é para Python e outro para Matlab.

Mean-Shift

Utilização de Teoria de Redes em Análises de Estratégias de Futebol

Esse bom artigo escrito Javier Lopez Pena e Hugo Touchette apresenta a teoria de redes aplicada na análise de estratégia de times de futebol. Através de alguns atributos como Proximidade, Interligação, e “Popularidade” e com dados provenientes da Copa do Mundo de 2010 os autores chegaram em uma análise bem razoável da aplicação da teoria de redes para avaliação de times, e demonstrar por exemplo, o fluxo do time, bem como as relações entre os atletas dentro de campo e sua importância em termos estratégicos.

O trabalho é ótimo em se tratando de análise esportiva; e com uma base um pouco mais refinada pode render muitas frutos bem interessantes nesse domínio.

Rede de passes dos times da Holanda e Espanha antes da Final da Copa do Mundo de 2010, usando dados dos passes e as formações táticas das semi-finais.

A network theory analysis of football strategies

Utilização de Teoria de Redes em Análises de Estratégias de Futebol

R e Mineração de Dados

Quem deseja iniciar os estudos em Mineração de Dados com R não pode perder esse excelente site do R Data Mining que vem fazendo um trabalho muito bom em relação a difusão de exemplos e tutoriais; mostrando que o R não é um bicho de 7 cabeças como todo mundo fala.

R e Mineração de Dados

CRISP-DM Wiki

Para quem deseja iniciar um projeto colaborativo em mineração de dados uma ótima idéia é oferecida pelo CRISP-DM Wiki o qual é um projeto (em andamento) que já possuí a estrutura de um projeto CRISP para ambientes colaborativos, e pode ser uma ótima alterativa de implementaçlão e template para projetos dessa natureza.

CRISP-DM Wiki

Mloss – machine learning open Source Software

O Mlooss.org é um ambiente no qual pesquisadores, estatísticos e programadores podem reunir idéias e muito código para compartilhar entre a comunidade e os praticantes de aprendizado de máquina. O site é bem acessível e tem um  visual bem light e além disso conta com diversas implementações de códigos para softwares estatísticos.

Mloss – machine learning open Source Software

The Elements of Statistical Learning

Um ótimo achado da web é este livro que é um clássico sobre Aprendizado de Máquina. O Elements of Statistical Learning é um ótimo livro no qual disponibiliza diversos exemplos práticos e teóricos sobre aprendizado de máquina e tem uma das melhores explicações sobre Cross-Validation no capitulo 7; e o melhor é que o livro está disponível para download de forma gratuíta.

Link – http://www-stat.stanford.edu/~tibs/ElemStatLearn

Elements of Statistical Learning

The Elements of Statistical Learning

Kaggle – Outsourcing de Análise de Dados

Imagine o seguinte cenário

Uma empresa tem uma montanha de dados em csv, txt ou outros formatos; e tem um problema em analisar esses dados e precisa de algumas respostas, que podem vir desses dados que em tese estão subutilizados. Mas como extrair informações e conhecímento de uma base de dados, sem ter que montar uma estrutura de Mineração de Dados com projetos, pessoal e infraestrutura?

Nesse contexto é que entra o Kaggle que é uma suíte no qual as empresas colocam os seus dados, e o seu problema e através de competições premia quem tiver o melhor modelo descritivo ou preditivo; e em troca do modelo para a empresa o vencedor ganha uma determinada quantia em dinheiro.

É um ramo promissor, aos moldes do que já está em curso aqui no Brasil com a Batalha dos Conceitos.

Kaggle – Outsourcing de Análise de Dados

Topological Data Analysis – Análise Topológica de Dados

Para quem deseja conhecer um pouquinho sobre essa área de pesquisa esse post do Normal Deviate apresenta de uma maneira bem técnica o que é o TDA e as suas aplicações, em especial na área de Clustering e aprendizado de máquina.

Topological Data Analysis – Análise Topológica de Dados

Data analysis recipes: Fitting a model to data

Para quem deseja um overview sobre fitting de modelos e entender um pouco sobre questões como variância, esse artigo de David Hogg, Jo Bovy, Dustin Lang é uma leitura bem interessante.

Abstract

We go through the many considerations involved in fitting a model to data, using as an example the fit of a straight line to a set of points in a two-dimensional plane. Standard weighted least-squares fitting is only appropriate when there is a dimension along which the data points have negligible uncertainties, and another along which all the uncertainties can be described by Gaussians of known variance; these conditions are rarely met in practice. We consider cases of general, heterogeneous, and arbitrarily covariant two-dimensional uncertainties, and situations in  which there are bad data (large outliers), unknown uncertainties, and unknown but expected intrinsic scatter in the linear relationship being fit.

Above all we emphasize the importance of having a “generative model” for the data, even an approximate one. Once there is a generative model, the subsequent fitting is non-arbitrary because the model permits direct computation of the likelihood of the parameters or the posterior probability distribution. Construction of a posterior probability distribution is indispensible if there are “nuisance parameters” to marginalize away.

 Data analysis recipes – Fitting a Model to Data

 

Data analysis recipes: Fitting a model to data