Curso de Aprendizado de Máquina por Hal Daumé III

Este curso de aprendizado de máquina é focado em aspectos introdutórios dessa disciplina. O material de apoio conta com um draft do livro do HAl Daumé III e conta com diversos assuntos que vão desde redes neurais artificiais até aprendizado semi-supervisionado.

O livro do curso está disponível no link abaixo.

 
Curso de Aprendizado de Máquina por Hal Daumé III

4 Razões para ler o livro “Predictive Analytics”

No Kgnuggets tem uma lista bem interessante sobre as razões para ler Predictive Analytics: The Power to Predict Who Will Click, Buy, Lie, or Die.

1. New case studies. Find detailed stories you have never before heard from Hewlett-Packard, Chase, and the Obama Campaign. And did you know that John Elder once invested all his own personal money into a blackbox stock market system of his own design? That’s the opening story of Chapter 1.

2. Complete conceptual coverage. Although packaged with catchy chapter titles, the conceptual outline is fundamental:  1) deployment, 2) civil liberties, 3) data, 4) core modeling, 5) ensemble models, 6) IBM’s Jeopardy!-playing Watson, and 7) uplift modeling (aka net lift or persuasion modeling).

3. A cross-industry compendium of 147 cases. This comprehensive collection of mini-case studies serves to illustrate just how wide the field’s reach extends. A color insert, it includes a table for each of the verticals:  Personal Life, Marketing, Finance, Healthcare, Crime Fighting, Reliability Modeling, Government and Nonprofit, Human Language and Thought, and Human Resources. One reviewer said, “The tables alone are worth the price of admission.”

4. Privacy and other civil liberty concerns. The author’s treatise on predictive analytics’ ethical realm, a chapter entitled “With Power Comes Responsibility,” addresses the questions: In what ways does predictive analytics fuel the contentious flames surrounding data privacy, raising its already-high stakes? What civil liberty concerns arise beyond privacy per se? What about predictive crime models that help decide who stays in prison?

4 Razões para ler o livro “Predictive Analytics”

Resenha: Data Mining Methods and Models

Esse é o segundo livro da série sobre mineração de dados do Daniel Larose, no qual diferentemente do primeiro livro; ele começa a entrar de fato nas técnicas de mineração de dados.

Nesta obra, Daniel Larose explica algumas técnicas de mineração de dados através da sua técnica de redação: abordagens com passagens passo a passo, texto claro, estudos de caso didáticos, exemplos e exercícios.

O livro tem como principal característica uma abordagem mais estatística dentro do segmento da mineração de dados, o que significa que o livro é baseado no principio de descrever as técnicas e após isso colocar o que foi apresentado em prática com as validações necessárias; o que torna o livro extremamente válido para quem deseja entrar nos porquês de cada técnica.

O livro aborda técnicas como redução da dimensionalidade (com uma ótima explicação sobre PCA), modelagem em regressão, estimação nayve bayes, algoritmos genéticos, e um estudo de caso sobre email marketing no qual ele utiliza o CRISP-DM.

O livro é um verdadeiro manual, how-to sobre mineração de dados e tem como software de suporte o WEKA, no qual os capítulos do livro são baseados; o que pode ajudar muito quem pretende iniciar os estudos em mineração de dados e não tem uma ferramenta especifica para tal.

Para quem utiliza o WEKA como ferramenta de mineração de dados o livro conta com exemplos bem elaborados e com exercícios que podem ser transcritos para qualquer curso de mineração de dados; desde o básico até o avançado.

 Pontos Positivos: Exemplos práticos bem relevantes de mineração de dados com o WEKA, abordagem estatística muito didática, abordagem dos assuntos totalmente white-box.

 Pontos Negativos: Para quem deseja uma abordagem mais teórica o livro pode não ser a melhor escolha, e também para quem não tem intimidade com uma abordagem de mineração de dados mais estatística pode sentir um pouco mais de dificuldade na fixação de conceitos.

Resenha: Data Mining Methods and Models

Resenha: Data Mining: Concepts and Techniques

Provavelmente esse é um dos melhores livros sobre mineração de dados da literatura atual; devido ao fato que ele faz uma intersecção muito importante pata qualquer leitor dessa área na qual ao mesmo tempo em que está alinhado com os conceitos relativos aos projetos de dados, incluindo OLAP; bem como colocando as técnicas de mineração de dados em perspectiva, mostrando que a mineração pode significar muito mais que uma disciplina isolada em cursos de computação, tomando status de uma ramificação da Inteligência Artificial e Banco de dados.

O livro é um exemplo de organização no qual trafega entre diversos tópicos que não envolvem somente mineração de dados, mas também com tudo o que está envolvido no projeto de mineração de dados como bancos de dados relacionais e analíticos, ferramentas de bancos de dados, matemática, estatística, linguagem de programação para banco de dados; bem como o background de negócios e engenharia de requisitos; e devido a isso é um livro que serve tanto para uma leitura por alguém de negócios quanto para alguém da área técnica.

O livro vai de tópicos desde arquitetura de bancos de dados analíticos, passando pelas técnicas de mineração de dados, chegando até temas muito avançados como mineração de dados em series temporais e web mining, terminando com um bom capitulo sobre as tendências para a mineração de dados.

Pontos Positivos: Provavelmente um dos melhores textbooks do mercado, amplitude de assuntos, abordagem em assuntos que vão do nível básico até o avançado, exemplos práticos no apêndice, além de exemplificações das técnicas bem detalhadas.

Pontos Negativos: No capitulo de clustering as explicações sobre as medidas de distância, em especial as suas particularidades, poderiam ser melhor exploradas; e a técnica de classificação de SVM poderia ser melhor explorada.

Resenha: Data Mining: Concepts and Techniques

Resenha: Introduction to Data Mining

 

Para quem estiver precisando de um livro texto para um curso de mineração de dados (curso livre, ou disciplina de graduação e/ou pós-graduação) este livro é um guia teórico perfeito. Teórico porque dentro da proposta do livro (a introdução À mineração de dados) ele aborda todos os segmentos como pré-processamento de dados, técnicas clássicas de mineração de dados e técnicas avançadas com um texto bem elaborado e destinado ao ensino.

Este livro é um manual de mineração de dados que aborda praticamente todas as técnicas, de uma forma bem estruturada e com um texto clássico sobre os assuntos abordados.

Apesar do livro ser bastante denso (mais de 650 pg.) não há nenhuma abordagem relativa ao processo de mineração de dados em relação à implementação de projetos, entretanto, pelo espectro de assuntos tratados e a profundidade das técnicas esse detalhe passa despercebido.

Um dos pontos altos do livro sem duvida é a parte matemática envolvida, bem como os tópicos voltados a agrupamento (clustering), regras de associação avançadas e classificação na qual o texto consegue ao mesmo tempo ser uma coeso teoricamente, bem como consegue transmitir as nuances que envolvem cada técnica.

Para quem deseja pesquisar seriamente mineração de dados, seja em cursos ou disciplinas de faculdades esse manual é absoluto quando se trata de técnicas e principalmente em questões de amplitude e profundidade.

PS: Para aqueles que desejam comprar a versão em português do livro, apenas uma ressalva em relação a algumas traduções e erros de revisão, mas nada que atrapalhe muito o andamento do livro. E o preço (cerca de R$ 60) é bastante convidativo tratando-se de um texto clássico em mineração de dados.

Resenha: Introduction to Data Mining

Resenha: Data Mining with Microsoft SQL Server 2008

Apesar de haver muitos fanboys ao redor do mundo, a Microsoft ainda está muito longe de ter uma ferramenta de mineração de dados decente em termos de ser levada a sério dentro desse segmento, em especial na ótima ferramenta de OLAP que é o Analysis Services. Na verdade parece que a Microsoft só colocou a opção de mineração de dados para não ficar tão para trás em relação aos concorrentes, mas não adiantou.

Ressalvas feitas ao produto, este livro do Jamie MacLennan (que é sem sombra de dúvidas um dos maiores especialistas no SSAS) é um ótimo (para não dizer melhor e único) manual sobre mineração de dados no Analysis Servces; o qual tem como principal característica uma abordagem orientada a implementação desse tipo de estrutura de mineração de dados em ambientes que já tem bancos de dados OLAP da Microsoft.

Apesar dos pesares da ferramenta, o livro coloca de forma bem oportuna uma abordagem voltada a explorar ao máximo os recursos da mineração de dados através do SSAS, e também contar com o trunfo de ter o Excel como front-end, o qual os resultados podem ser analisados não por um departamento estratégico de mineração de dados, mas também por usuários de negócios.

Esse é um livro orientado a desenvolvedores que desejam mais do que implementar a mineração de dados em bases OLAP, mas também construir plug-ins que permitam a visualização e a implementação de novas técnicas, se for o caso.

Este livro é obrigatório para qualquer tipo de implementação de mineração de dados com o SSAS, já que o Books Online (como a ótima linguagem DMX) não cobre grande parte de informação essencial que esse livro aborda. Para implementações Microsoft, este livro é o recurso mais completo em todo o mercado e com certeza será de muito valor a sua aquisição.

Pontos Fontes: Para quem desejar desenvolver aplicativos compatíveis com o SQL Server bem como criar plug-ins personalizados com um dos melhores SGBDs do mercado.

Resenha: Data Mining with Microsoft SQL Server 2008

Resenha: Principles of Data Mining

Este livro faz parte da excelente série Undergraduate Topics in Computer Science que é uma das melhores séries de livros didáticos em ciência da computação.

 Diferentemente dos livros voltados ao publico que aplica a mineração em problemas de negócios, e tem uma abordagem mais prática; este livro tem como principal finalidade ser um típico textbook americano.

 O livro é bem dividido em sessões na qual tem o foco na apresentação das técnicas, e um entendimento mais conceitual e teórico sobre os mesmos, os quais são em grande parte das vezes negligenciados por muitos autores.

 Os conceitos de information gain, e entropia são muito bem exemplificados no texto; e um capitulo em especial vale a compra do mesmo que é o capitulo 6 que trata da estimativa de acuricidade de um classificador; o qual além do autor buscar o Cross-Validation como uma estratégia, faz experimentos com os mesmos e formula até estratégias de avaliação.

 Pontos Positivos: textbook clássico que mostra os pormenores das técnicas de forma bem detalhada, abordagem em linguagem simples.

 Pontos Negativos: O livro tem como forma de fixação de conceitos utilizando a abordagem matemática, que para alguns talvez não seja tão trivial em um primeiro momento. E como textbook poderia também ter exemplos práticos.

Resenha: Principles of Data Mining

Resenha: Data Mining with Rattle and R: The Art of Excavating Data for Knowledge Discovery

 

Essa obra do Graham Williams trás ao cenário da mineração de dados o Rattle que vem cada vez mais se consolidando com uma ferramenta de mineração de dados respeitável, já que tem como internal engine o R; o que garante de antemão a robustez que uma ferramenta de mineração de dados precisa.

Esta obra apresenta os tópicos mais importantes para quem esta aprendendo uma ferramenta de mineração de dados nova: carga de dados, algoritmos básicos, muito how-to e avaliação de modelos; o que forma uma curva de aprendizado baixíssima.

Este livro é fortemente recomendado para quem deseja realizar mudança de tecnologia de mineração de dados, além de migrar para um sistema de retaguarda como R já que todos os seus pacotes estatísticos que já são default.

Um ponto negativo, e aí foge do espectro do livro é que o Rattle ainda não esta tão estável quanto os seus concorrentes open-source (Rapid Miner e WEKA), bem como não possuí uma variedade de técnicas que já estão nessas ferramentas citadas, mas isso é uma questão de tempo para que seja implementado.

Este é um livro estritamente criado para iniciantes no Rattle e principalmente estudantes em mineração de dados; entretanto, o livro possibilita que os mais avançados tirem proveitos da ferramenta, em especial dos sumarizadores estatísticos; além de haver técnicas bem avançadas como SVM e Random Forests que são um primor de didática, how-to e apresentação prática.

Resenha: Data Mining with Rattle and R: The Art of Excavating Data for Knowledge Discovery

Resenha: Data Mining with R: Learning with Case Studies

 

Este livro de Luiz Torgo é um ótimo exemplo de que se podem escrever bons livros de mineração de dados, sem a forma prolixa dos livros que estão no mercado atualmente, no qual o autor ao mesmo tempo que trata da mineração de dados na ferramenta R, coloca exemplos bem práticos os quais podem ser transpostos para situações corporativas e educacionais com extrema facilidade.

O livro consolida o R como uma ferramenta robusta de mineração de dados, no qual coloca em seu livro de modo bem didático e através de muito código e explicações passo-a-passo como utilizar o R, através do aprendizado na prática, e devido a isso os usuários menos experientes podem sentir falta de explicações sobre a sintaxe do R; mas em termos gerais isso foi um trunfo do livro que se mantêm como um manual prático bem enxuto.

Dentro da mineração de dados, a obra aborda aspectos relativos à predição, detecção de outliers e classificação; no qual que deseja uma abordagem prática e precisa desse tipo de recurso tem neste livro o manual absoluto para aplicação da mineração de dados.

Falar do R como ferramenta de mineração de dados dispensa comentários já que seguramente é a melhor ferramenta para esse tipo de pratica, pois; além de envolver bibliotecas customizáveis, conta com uma parte estatística que ainda não tem nenhum tipo de concorrente.

O livro é seguramente o melhor manual prático de mineração de dados disponível. Ponto.

Apesar do escrito acima não indica que o mesmo é perfeito em todos os aspectos, o qual o autor não menciona em seus estudos de caso nenhum tipo de metodologia, mas naquilo que o livro se propõe a ser, ou seja, um manual de aprendizado de mineração de dados prático, esse objetivo é atingido em sua plenitude.

Pontos Fontes: Para quem deseja conhecer o R já de cara no Data Mining, para quem gosta de aprender com estudos de caso.

Pontos Fracos: Os scripts de implementação não estão muito bem explicados, e a falta de explicação da sintaxe deixa a desejar.

Resenha: Data Mining with R: Learning with Case Studies

Resenha: Handbook of Statistical Analysis and Data Mining Applications

A primeira impressão que qualquer um terá com essa obra, é de que os autores realizaram uma pesquisa ampla em quase todos os assuntos relacionados à mineração de dados. Este livro é muito bem escrito e tem um material de suporte de qualidade no qual conta com um DVD com alguns vídeos de aplicação da ferramenta STATISTICA.

Os autores conseguem com a sua obra colocar a mineração de dados como uma disciplina propriamente dita, a qual traz consigo desde o básico sobre a sua história, passando pelo pré-processamento, e chegando a tópicos avançados como text mining e avaliação de modelos.

O livro tem como principal foco a amplitude de assuntos o que não significa que esses assuntos são tratados em sua profundidade; o que é o principal ponto fraco do livro. É mais do que claro que esse é um livro não indicado para quem deseja abordagens mais profundas em algum tipo de técnica.

Pontos Positivos: Um livro feito para quem deseja uma abordagem prática de mineração de dados, e consolida bem quase todos os tópicos em mineração de dados, é um livro que acompanha um DVD muito bem elaborado, além de ter um material de apoio no STATISTICA.

Pontos Negativos: Como é um livro que atende uma audiência muito distinta a forma na qual o livro é escrito pode não agradar muito, e às vezes chega até ser prolixo; o conteúdo empregado a algumas partes está muito desproporcional; como por exemplo, os autores escrevem mais de 20 páginas sobre pre-processing data e menos de 5 páginas dedicadas ao SVM que é uma das técnicas de classificação mais eficientes atualmente.

Resenha: Handbook of Statistical Analysis and Data Mining Applications

Resenha: Discovering Knowledge in Data: An Introduction to Data Mining

Este livro é o primeiro de uma série de livros editados e publicados por Daniel Larose.

O livro mostra de maneira bem didática os passos que todo projeto de mineração de dados deve ter; no qual coloca de maneira acertada um resumo da metodologia CRISP-DM e também estudos de caso fundamentados no CRISP-DM.

O autor também trata de análise exploratória de dados, e como já de costume de seus livros adota a abordagem estatística na mineração de dados, o qual prove como resultado um livro que não adota qualquer tipo de técnica do tipo caixa preta; o que pode auxiliar os iniciantes e intermediários em mineração de dados.

As técnicas abordadas no livro são Vizinho mais Próximo, árvore de decisão, redes neurais, agrupamento k-means, Kohonen SOM, e regras de associação. Essas técnicas são muito bem descritas e conta com ensinamentos passo a passo pelo autor; e ao final do livro são apresentadas algumas técnicas de avaliação de modelos, o qual conta com um background estatístico bem relevante.

De maneira geral o livro é muito bem escrito e se diferencia na literatura por ter uma abordagem bem write-box (caixa branca) no qual além de apresentar as técnicas de uma forma bem transparente; o que facilita o aprendizado e principalmente o entendimento, este último não tão bem apresentado em outras obras do gênero.

Pontos Positivos: Simplicidade na abordagem, leitura sucinta, coesão do texto como todo dentro de uma abordagem introdutória.

Pontos Negativos: Poderia falar um pouco mais da abordagem de aprendizado de máquina e a influência na mineração de dados, e o formato textbook não pode agradar a muitos.

Resenha: Discovering Knowledge in Data: An Introduction to Data Mining

Resenha: Data Mining Techniques: For Marketing, Sales, and Customer Relationship Management

Este livro do Berry e Linoff é um bom manual de mineração de dados dirigido para managers e analistas de marketing.

O livro é bem estruturado em questão de escolha capítulos para abordagem, os quais através de um texto conciso os autores passam pelas principais técnicas de mineração de dados e passam desde o básico até o avançado.

O texto tem como principal característica uma série de exemplos, e uma parte textual bem densa; o que para alguns pode representar uma determinada prolixidade dos autores. Como em alguns livros da Wiley, o livro tem uma série de caixas de texto auxiliares os quais tem alguns insights muito bons para auxiliar na fixação dos conceitos.

Alguns pontos negativos do livro são a) A prolixidade dos autores quando na descrição das técnicas e principalmente na forma de criar cenários de utilização, o que pode tirar a paciência dos leitores que conhecem ao menos o básico da mineração de dados; b) no ponto de vista técnico o livro carece de um cuidado maior quanto à editoração do texto em si, no qual coloca um leque de possibilidades, e, contudo não fala que para aplicar aqueles conceitos seria necessário no mínimo umas 8 ferramentas e que holisticamente nem todas as técnicas são adequadas para uma análise direcionada a profissionais de marketing; e c) muito overview, onde quem tem os conhecimentos básicos em mineração de dados pode sentir a sensação de tópico requentado.

Os pontos positivos do livro são sem sombra de dúvidas a) a amplitude de assuntos no qual os autores colocam muito bem as técnicas de mineração de dados através de um texto bem elaborado e com uma linguagem acessível, b) os estudos de casos e as caixas de texto ao longo o livro formam um material de apoio muitíssimo elaborado e auxiliam na fixação dos conceitos, c) um livro de domínio de aplicação de mineração de dados com um direcionamento muito claro o que é um recurso muito bom para os profissionais da área e quem não é profissional de marketing pode aproveitar os conceitos, e d) gráficos bem elaborados.

 O livro é muito bom, e é voltado diretamente para o publico de marketing, em especial managers e analistas; entretanto a audiência de mineração de dados pode adquirir o livro sem problemas. Não espere um livro com walkthrough em algoritmos e técnicas, pois há outras obras muito mais interessantes nesse sentido.

Resenha: Data Mining Techniques: For Marketing, Sales, and Customer Relationship Management

Resenha: Introduction to Data Mining in Life Sciences

Esse livro é um dos ótimos achados desse ano de 2012; e apresenta a mineração de dados sob uma perspectiva de domínio bem interessante que são os dados relativos à BioInfo e ciências naturais.

O livro do Rob Sullivan coloca a mineração de dados seus métodos em uma boa junção com a bioinformática, no qual o autor de forma muito bem estruturada coloca os passos da mineração de dados desde os passos do pré-processamento até a visualização.

Um dos pontos fortes do livro são dois capítulos, o primeiro é sobre os métodos estatísticos aplicados na mineração de dados como forma de suporte à análise; e o capitulo sobre Classificação e Predição.

No capitulo sobre métodos estatísticos o autor coloca de maneira elaborada os métodos estatísticos como plotagem, boxplot e outros métodos como forma de sumarização e análise inicial dos dados, no qual a mineração de dados viria em um segundo momento após a análise das sumarizações iniciais. O mais importante neste capitulo é a abordagem na qual essas sumarizações informam a estrutura dos dados na qual pode ajudar o analista de mineração de dados a ter informações pertinentes que podem auxiliar no processo de extração de padrões e conferência de distribuições dos dados; além de ter um ótimo material de suporte (Scripts em R).

O capitulo sobre classificação e predição, apesar da ressalva do autor no início do livro o qual ele atribuiu a tarefa de classificação para dados categóricos; e predição para dados numéricos; no desenrolar do capítulo o autor coloca essas duas tarefas como uma única o que pode trazer confusão em um primeiro momento para um leitor menos atento. Tirando esse pequeno deslize o capítulo está bem estruturado com a descrição das tarefas de maneira bem sucinta e direta.

Dentro do domínio das ciências da vida, (a priori o livro trata de problemas ligados a BioInfo) o livro tem boas descrições dos métodos e principalmente da aplicação na Bioinformática, em especial os capítulos apresentam as descrições do que deve ser minerado. Algum conhecimento básico de Biologia é extremamente recomendado, pois pode não ser tão trivial entender o funcionamento de cadeia enzimática, ou mesmo seqüenciamento genético e a utilização das técnicas para cada tipo de problema.

Um ponto negativo no livro é justamente uma das qualidades do livro que é justamente o espectro de assuntos abordados. Em uma tentativa de não deixar algum aspecto importante de lado, o autor coloca inúmeros métodos, mas de forma bem sintética o que poderia deixar o livro menos denso (um livro de 643 páginas que se fosse feito em 350 já estaria ótimo), mas nada comprometedor). O livro pode decepcionar quem espera um Cookbook desse gênero; porém, no prefácio o autor já faz as devidas ressalvas quanto a isso. Entretanto, o ponto mais negativo é certamente o preço, que são os quase proibitivos U$ 167; um preço salgado para um livro que não é um guia definitivo.

De maneira geral o livro é bem escrito e merece uma atenção principalmente para quem algum for lidar com dados relativos à bioinformática, pois esse campo tem uma porção de particularidades que fazem toda diferença quando chega à parte de analise; e além de contar com o background do autor em sua maneira de escrever (Com exemplos e com walkthrough nos algoritmos) auxilia muito no entendimento. Recomendadissímo.

Resenha: Introduction to Data Mining in Life Sciences

Slides do Livro Data Mining: Practical Machine Learning Tools and Techniques

Para quem adquiriu o livro do Frank e o Witten, este site oferece os slides dos capítulos mais importantes do livro, e pode servir de material de apoio em Disciplinas de mineração de dados.

Slides do Livro Data Mining: Practical Machine Learning Tools and Techniques

Nate Silver, a Mineração de Dados e Modelos Preditivos: E porque você deveria olhar os seus dados?

As 9:37hs do dia 7 Novembro cerca de 90% dos estados já estão com os votos computados; e o Presidente Barack Hussein Obama foi reeleito; e dentro da esfera da análise de dados o grande nome dessa eleição se chama Nate Silver.

Para quem não sabe; Nate Silver é o autor do livro The Signal and the Noise: Why So Many Predictions Fail-but Some Don’t (O Sinal e o Ruído: Porque muitas previsões falham, mas algumas não. Tradução do Autor); no qual em linhas gerais coloca em perspectiva a causa da falha de muitos modelos de predição, onde o autor coloca que aspectos conjunturais são mais importantes do que tendências baseadas em critérios mais técnicos. Particularmente o livro apresenta muitos Rules of Thumb (regras de aplicação geral sem nenhum tipo de explicação exata de fato); mas a idéias do blog do Nate são muito mais consistentes e tem um grau de profundidade maior que o livro; mas isso é outro assunto.

O ponto principal é o que ninguém (fora do campo de análise de dados) conseguiu responder: É como um geek da área de análise de dados (um estatśitico de ofício e blogueiro (como diria o João Manoel Mello))  conseguiu acertar previsões das eleições em TODOS OS ESTADOS? E o mais importante: Como todo o establishment televisivo, acadêmico e político com analistas políticos, cientistas políticos, comentaristas (palpiteiros profissionais como diria Olavo de Carvalho) não conseguiram sequer realizarem projeções com eficácia mínima; chegando ao ponto dos apresentadores do Manhattan Connection (que é um ótimo programa por sinal) parecerem patetas com palpites que mudavam a cada 15 minutos, ao invés de analisarem aquilo que estava evidente para todos que era a conjectura política-econômica e os dados que foi exatamente que o Nate Silver viu e apresentou um resultado bastante consistente baseado nestes dois aspectos.

State by State Probabilities
State by State Probabilities
State By State Results
State By State Results

Dentro desse cenário fica mais que provado que para quem trabalha com análises preditivas deve ser consideradas as seguintes regras de ouro: 1)Olhe os dados; 2) Olhe os dados novamente; 3)Assim que terminar o passo Nr 2 olhe os dados novamente; 4) Considere a conjectura que envolve os dados que você está olhando; 5) Considere as ferramentas que tem disponível e extraia o máximo de conhecimento dos dados; 6) Faça uma análise analítica dos dados; e por final 7) Faça a junção das análises analíticas com as conjecturas e você terá um modelo preditivo.

Nate Silver, a Mineração de Dados e Modelos Preditivos: E porque você deveria olhar os seus dados?

Rápido e Devagar: As duas formas de pensar

Pode parecer até Off-topic, mas esse excelente livro do Daniel Kahneman mostra que mesmo com todos os dados disponíveis para a tomada de decisão, o aspecto humano (Sistema 2 [1]) é o fiel da balança na tomada de decisões tendenciosas e errôneas.

É uma leitura não-técnica, que aplicada à área de mineração de dados prova que o homem ainda é o principal aspecto decisivo, mesmo que ele tenha a sua disposição os dados corretos que qualquer algoritmo possa gerar.

Notas
[1] – Definição do livro para a parte da nossa mente que pensa devagar, e que é responsável pela racionalidade.

Rápido e Devagar: As duas formas de pensar

Livro – Sports Data Mining: SCHUMAKER, Robert P.; CHEN , Hsinchun; SOLIEMAN, Osama K.

Fazia um bom tempo que o site não trazia algumas novidades sobre livros e tem cerca de 40 papers a serem comentados e uns 12 livros a serem resenhados; mas essa obra é especial porque une dois temas muito interessantes (e de gosto pessoal do moderador do site) que são Mineração de Dados e Esportes.

Esse livro tem como abordagem central a intersecção entre esportes, data collection (ou data gathering), e a mineração de dados aplicada a diversos domínios esportivos, que vão desde Baseball, passando pelo Basquete e Futebol e chegando no Curling.

A forma de linguagem que o livro é escrito e o seu desenvolvimento são bem agradáveis para leitura (literatura) técnica, na qual os autores trabalharam bem a simplicidade das colocações, seja na esfera esportiva ou na mineração de dados; o que torna a leitura bem dinâmica e principalmente instrutiva.

O livro saí do lugar comum entre os livros de mineração de dados aplicada, o qual apresenta a definição e a construção dos conceitos por trás da mineração de dados esportivos bem como os trade-offs dentro de cada esporte de forma bem honesta e transparente.

A obra tem um leve viés para o Baseball, o que é plenamente compreensível já que é o esporte que tem o maior volume de dados estudados atualmente. Entretanto, há o excelente caso do Milan que vale a pena a leitura. Ainda há indicações de ferramentas para data gathering e fontes de dados, além da apresentação de alguns aplicativos.

O ponto fonte sem dúvidas é o capitulo Research in Sports Statistics o qual mostra os primórdios dos estudos sobre as formas de metrificações de atributos esportivos, e claro, faz referência em grande parte do que foi proposto por Bill James (Sabermetrics) em seus abstracts. A forma da conceituação e construção de métricas esportivas já vale o preço do livro devido a simplicidade e a forma de raciocínio por trás dessa elaboração.

Os pontos fracos dessa obra são 1) a falta de maiores exemplos sobre as formas de métricas erradas em outros esportes além do basquete e do baseball, 2) a ausência de datasets de exemplos para quem deseja realizar uma abordagem mais hands-on, e 3) a parte de análise preditiva ficou um pouco vaga; e em esportes com uma alta competitividade e rotatividade de vencedores (atletismo, esportes automotores) pode não se aplicar de fato na forma em que é proposta no livro.

Em geral o livro é ótimo, e mostra que a abordagem data-driven aplicada aos esportes tem muito a evoluir, principalmente no futebol (soccer) e em outros esportes, e que a mineração de dados pode sim ser fator de desequilíbrio no campo estratégico de um time.

Este livro é indicado para: Estudantes de Ciência da Computação, professores de mineração de dados, especialistas em Banco de Dados, estudantes de Educação Física, e educadores físicos.

Não recomendado para: Quem não gosta de esportes.

Livro – Sports Data Mining: SCHUMAKER, Robert P.; CHEN , Hsinchun; SOLIEMAN, Osama K.

Rattle – Uma nova ferramenta de Mineração de Dados

Uma ferramenta que poucos conhecem, mas que vem fazendo um grande barulho na comunidade de mineração de dados é o Rattle.

O Rattle é biblioteca do R que faz a geração de uma interface gráfica para mineração de dados e utiliza a engine e os visualizadores do R como suporte.

Em uma rápida exploração sobre a ferramenta o que eu tenho a dizer que a ferramenta vem para bater de frente com diversas suítes de mineração de dados (inclusive o WEKA) pelos seguintes motivos:

Rattle – Uma nova ferramenta de Mineração de Dados

O Atirador de Aurora em Perspectiva

Alguns atrás dias postamos algo a respeito desse assunto, indicando que com uma seleção de variáveis simples; e posterior análises o atirador de Aurora poderia ter sido facilmente identificado sob a perspectiva da mineração de dados.

Nessa entrevista do Robert L. Mitchell na qual ele chama um dos ícones da mineração de dados o Dean Abbott (autor do bom artigo An Evaluation of High-end Data Mining Tools for Fraud Detection) o qual o mesmo dá a seguinte declaração:

“While it certainly was the case here that [the shooter] purchased a lot of stuff and that there didn’t appear to be a good, law-abiding reason for him to purchase the gear, it is unclear if his pattern of purchases is unusual”  when examined in the context of the purchases of hundreds of millions of other citizens, he says.  For example, given the universe of more than 400 million people, it might very well be possible that 20,000 people made similar volumes of purchases in the same time period. But how many of those are exhibiting risky behavior?

Não tirando o mérito e tudo o que o Dean já fez pela mineração de dados, mas pegar um especialista em target marketing e projetos ligados à área comercial para tratar de um tema altamente criminal não parece ser algo inteligente, ou bem intencionado quando para se colocar a mineração de dados à mesa.

Há no mínimo três fontes primárias no assunto que são os livros Investigative Data Mining for Security and Criminal Detection do Jesus Mena, Data Mining and Predictive Analysis: Intelligence Gathering and Crime Analysis do Colleen McCue e o Data Mining for Intelligence, Fraud & Criminal Detection: Advanced Analytics & Information Sharing Technologies do Christopher Westphal.

Esses livros (que já estão na fila para serem resenhados aqui no site) tratam exatamente desse tema, dentro de uma perspectiva constitucional para tomada de decisão, seja do poder legislativo com modificações nas leis; seja na esfera executiva/policial com vigilância e prevenção.

Aqui no Brasil uma ótima apresentação foi realizada por André Cavalcante Hora e Zilton Cordeiro Junior sob o acompanhamento do professor Wagner Meira Júnior; no qual os autores utilizaram regras de associação no WEKA para descobrir regras para auxiliar na formulação de políticas e estratégias de policiamento. Até mesmo chegamos a formular uma base de teste chamadas Crimes, na qual é um pequeno mock-up baseado no projeto dos alunos citados.

A mineração de dados pode auxiliar na tomada de decisões relacionadas à esfera criminal e negar isso mostra não só desconhecimento, mas total ignorância com os recursos dessas técnicas que vem crescendo mais e mais ao redor do mundo.

O Atirador de Aurora em Perspectiva

The Elements of Statistical Learning

Um ótimo achado da web é este livro que é um clássico sobre Aprendizado de Máquina. O Elements of Statistical Learning é um ótimo livro no qual disponibiliza diversos exemplos práticos e teóricos sobre aprendizado de máquina e tem uma das melhores explicações sobre Cross-Validation no capitulo 7; e o melhor é que o livro está disponível para download de forma gratuíta.

Link – http://www-stat.stanford.edu/~tibs/ElemStatLearn

Elements of Statistical Learning

The Elements of Statistical Learning