Resenha: Predictive Analytics: The Power to Predict Who Will Click, Buy, Lie, or Die

Uma pequena mea culpa antes da resenha: Tenho lido inúmeros livros de Analytics, Data Mining, e afins no entanto por mera obra de exibicionismo barato acabei postando todos os mini-reviews no meu instagram ao invés de colocar esforço em uma audiência mais apropriada/qualificada que está neste espaço. Sendo assim até o final do mês teremos muitos reviews que estavam represados.

– – –

51xwlO0bTlL

Comprei esse livro para ler de acordo com o a recomendação do KDNuggets que eu postei aqui.

E ao final do livro eu tive uma sensação estranha, mas que eu vou explicar adiante que é não gostei, mas recomendo.

Pode parecer estranho essa ultima frase, mas por incrível que pareça é a mais pura verdade.

O livro é muito bem editorado e tem uma fluência no texto que causa inveja em muitos autores da área, dado que não é um livro estritamente técnico; e tem como principal trunfo consolidar diversas pesquisas e consolidação de diversos cases que saíram ao longo desses últimos dois anos em um material único.

A maior vantagem nesse livro em especial é que o autor tenta colocar um pouco de ordem do que é Análise Preditiva e o que não é, coloca uma coleção de cases que se lidos com atenção, principalmente por diretores/gerentes que estão sentados em uma mina de ouro de dados podem motivar a adoção de programas dessa natureza.

No entanto essa coleção de cases (que para o público com um background mais gerencial pode ser ótimo) é o ponto fraco do livro dentro da perspectiva do Data Miner ou analistas de dados.

Em alguns momentos do livro parece que o autor teve somente o trabalho de copiar o trabalho de alguém e colar no livro como uma maneira de referenciar o trabalho. Contudo, o erro mais grave é o que o autor tenta vender como preditivo na ideia de prever o futuro, mesmo com um disclaimer informando que o autor leu os trabalhos do Nassim Taleb  ele ainda considera a hipótese de previsão, seja lá o que isso signifique em seu plano semântico.

Mesmo assim para quem deseja conhecer como a modelagem preditiva está sim moldando o mundo esse livro é uma boa pedida, mas vamos nas indicações.

É indicado para: Gerentes, Gestores, Diretores, estudantes que não sabem o que é Data Mining, e demais analistas de dados/negócios que desejam saber como a modelagem preditiva vem talhando o mundo e nos influencia na maneira de tomar as nossas decisões (mesmo em um plano de uma pseudo-aleatoriedade)

Não é indicado para: Quem deseja detalhes de implementação dessa modelagem preditiva, cases com detalhes técnicos, quem se interessa por aspectos técnicos, quem acha que Big Data é uma buzz-word de mal gosto, e quem busca um livro técnico.

Resenha: Predictive Analytics: The Power to Predict Who Will Click, Buy, Lie, or Die

Curso de Aprendizado de Máquina por Hal Daumé III

Este curso de aprendizado de máquina é focado em aspectos introdutórios dessa disciplina. O material de apoio conta com um draft do livro do HAl Daumé III e conta com diversos assuntos que vão desde redes neurais artificiais até aprendizado semi-supervisionado.

O livro do curso está disponível no link abaixo.

 
Curso de Aprendizado de Máquina por Hal Daumé III

Resenha: Data Mining Methods and Models

Esse é o segundo livro da série sobre mineração de dados do Daniel Larose, no qual diferentemente do primeiro livro; ele começa a entrar de fato nas técnicas de mineração de dados.

Nesta obra, Daniel Larose explica algumas técnicas de mineração de dados através da sua técnica de redação: abordagens com passagens passo a passo, texto claro, estudos de caso didáticos, exemplos e exercícios.

O livro tem como principal característica uma abordagem mais estatística dentro do segmento da mineração de dados, o que significa que o livro é baseado no principio de descrever as técnicas e após isso colocar o que foi apresentado em prática com as validações necessárias; o que torna o livro extremamente válido para quem deseja entrar nos porquês de cada técnica.

O livro aborda técnicas como redução da dimensionalidade (com uma ótima explicação sobre PCA), modelagem em regressão, estimação nayve bayes, algoritmos genéticos, e um estudo de caso sobre email marketing no qual ele utiliza o CRISP-DM.

O livro é um verdadeiro manual, how-to sobre mineração de dados e tem como software de suporte o WEKA, no qual os capítulos do livro são baseados; o que pode ajudar muito quem pretende iniciar os estudos em mineração de dados e não tem uma ferramenta especifica para tal.

Para quem utiliza o WEKA como ferramenta de mineração de dados o livro conta com exemplos bem elaborados e com exercícios que podem ser transcritos para qualquer curso de mineração de dados; desde o básico até o avançado.

 Pontos Positivos: Exemplos práticos bem relevantes de mineração de dados com o WEKA, abordagem estatística muito didática, abordagem dos assuntos totalmente white-box.

 Pontos Negativos: Para quem deseja uma abordagem mais teórica o livro pode não ser a melhor escolha, e também para quem não tem intimidade com uma abordagem de mineração de dados mais estatística pode sentir um pouco mais de dificuldade na fixação de conceitos.

Resenha: Data Mining Methods and Models

Resenha: Data Mining: Concepts and Techniques

Provavelmente esse é um dos melhores livros sobre mineração de dados da literatura atual; devido ao fato que ele faz uma intersecção muito importante pata qualquer leitor dessa área na qual ao mesmo tempo em que está alinhado com os conceitos relativos aos projetos de dados, incluindo OLAP; bem como colocando as técnicas de mineração de dados em perspectiva, mostrando que a mineração pode significar muito mais que uma disciplina isolada em cursos de computação, tomando status de uma ramificação da Inteligência Artificial e Banco de dados.

O livro é um exemplo de organização no qual trafega entre diversos tópicos que não envolvem somente mineração de dados, mas também com tudo o que está envolvido no projeto de mineração de dados como bancos de dados relacionais e analíticos, ferramentas de bancos de dados, matemática, estatística, linguagem de programação para banco de dados; bem como o background de negócios e engenharia de requisitos; e devido a isso é um livro que serve tanto para uma leitura por alguém de negócios quanto para alguém da área técnica.

O livro vai de tópicos desde arquitetura de bancos de dados analíticos, passando pelas técnicas de mineração de dados, chegando até temas muito avançados como mineração de dados em series temporais e web mining, terminando com um bom capitulo sobre as tendências para a mineração de dados.

Pontos Positivos: Provavelmente um dos melhores textbooks do mercado, amplitude de assuntos, abordagem em assuntos que vão do nível básico até o avançado, exemplos práticos no apêndice, além de exemplificações das técnicas bem detalhadas.

Pontos Negativos: No capitulo de clustering as explicações sobre as medidas de distância, em especial as suas particularidades, poderiam ser melhor exploradas; e a técnica de classificação de SVM poderia ser melhor explorada.

Resenha: Data Mining: Concepts and Techniques

Resenha: Introduction to Data Mining

 

Para quem estiver precisando de um livro texto para um curso de mineração de dados (curso livre, ou disciplina de graduação e/ou pós-graduação) este livro é um guia teórico perfeito. Teórico porque dentro da proposta do livro (a introdução À mineração de dados) ele aborda todos os segmentos como pré-processamento de dados, técnicas clássicas de mineração de dados e técnicas avançadas com um texto bem elaborado e destinado ao ensino.

Este livro é um manual de mineração de dados que aborda praticamente todas as técnicas, de uma forma bem estruturada e com um texto clássico sobre os assuntos abordados.

Apesar do livro ser bastante denso (mais de 650 pg.) não há nenhuma abordagem relativa ao processo de mineração de dados em relação à implementação de projetos, entretanto, pelo espectro de assuntos tratados e a profundidade das técnicas esse detalhe passa despercebido.

Um dos pontos altos do livro sem duvida é a parte matemática envolvida, bem como os tópicos voltados a agrupamento (clustering), regras de associação avançadas e classificação na qual o texto consegue ao mesmo tempo ser uma coeso teoricamente, bem como consegue transmitir as nuances que envolvem cada técnica.

Para quem deseja pesquisar seriamente mineração de dados, seja em cursos ou disciplinas de faculdades esse manual é absoluto quando se trata de técnicas e principalmente em questões de amplitude e profundidade.

PS: Para aqueles que desejam comprar a versão em português do livro, apenas uma ressalva em relação a algumas traduções e erros de revisão, mas nada que atrapalhe muito o andamento do livro. E o preço (cerca de R$ 60) é bastante convidativo tratando-se de um texto clássico em mineração de dados.

Resenha: Introduction to Data Mining

Resenha: Data Mining with Microsoft SQL Server 2008

Apesar de haver muitos fanboys ao redor do mundo, a Microsoft ainda está muito longe de ter uma ferramenta de mineração de dados decente em termos de ser levada a sério dentro desse segmento, em especial na ótima ferramenta de OLAP que é o Analysis Services. Na verdade parece que a Microsoft só colocou a opção de mineração de dados para não ficar tão para trás em relação aos concorrentes, mas não adiantou.

Ressalvas feitas ao produto, este livro do Jamie MacLennan (que é sem sombra de dúvidas um dos maiores especialistas no SSAS) é um ótimo (para não dizer melhor e único) manual sobre mineração de dados no Analysis Servces; o qual tem como principal característica uma abordagem orientada a implementação desse tipo de estrutura de mineração de dados em ambientes que já tem bancos de dados OLAP da Microsoft.

Apesar dos pesares da ferramenta, o livro coloca de forma bem oportuna uma abordagem voltada a explorar ao máximo os recursos da mineração de dados através do SSAS, e também contar com o trunfo de ter o Excel como front-end, o qual os resultados podem ser analisados não por um departamento estratégico de mineração de dados, mas também por usuários de negócios.

Esse é um livro orientado a desenvolvedores que desejam mais do que implementar a mineração de dados em bases OLAP, mas também construir plug-ins que permitam a visualização e a implementação de novas técnicas, se for o caso.

Este livro é obrigatório para qualquer tipo de implementação de mineração de dados com o SSAS, já que o Books Online (como a ótima linguagem DMX) não cobre grande parte de informação essencial que esse livro aborda. Para implementações Microsoft, este livro é o recurso mais completo em todo o mercado e com certeza será de muito valor a sua aquisição.

Pontos Fontes: Para quem desejar desenvolver aplicativos compatíveis com o SQL Server bem como criar plug-ins personalizados com um dos melhores SGBDs do mercado.

Resenha: Data Mining with Microsoft SQL Server 2008

Resenha: Principles of Data Mining

Este livro faz parte da excelente série Undergraduate Topics in Computer Science que é uma das melhores séries de livros didáticos em ciência da computação.

 Diferentemente dos livros voltados ao publico que aplica a mineração em problemas de negócios, e tem uma abordagem mais prática; este livro tem como principal finalidade ser um típico textbook americano.

 O livro é bem dividido em sessões na qual tem o foco na apresentação das técnicas, e um entendimento mais conceitual e teórico sobre os mesmos, os quais são em grande parte das vezes negligenciados por muitos autores.

 Os conceitos de information gain, e entropia são muito bem exemplificados no texto; e um capitulo em especial vale a compra do mesmo que é o capitulo 6 que trata da estimativa de acuricidade de um classificador; o qual além do autor buscar o Cross-Validation como uma estratégia, faz experimentos com os mesmos e formula até estratégias de avaliação.

 Pontos Positivos: textbook clássico que mostra os pormenores das técnicas de forma bem detalhada, abordagem em linguagem simples.

 Pontos Negativos: O livro tem como forma de fixação de conceitos utilizando a abordagem matemática, que para alguns talvez não seja tão trivial em um primeiro momento. E como textbook poderia também ter exemplos práticos.

Resenha: Principles of Data Mining

Resenha: Data Mining with Rattle and R: The Art of Excavating Data for Knowledge Discovery

 

Essa obra do Graham Williams trás ao cenário da mineração de dados o Rattle que vem cada vez mais se consolidando com uma ferramenta de mineração de dados respeitável, já que tem como internal engine o R; o que garante de antemão a robustez que uma ferramenta de mineração de dados precisa.

Esta obra apresenta os tópicos mais importantes para quem esta aprendendo uma ferramenta de mineração de dados nova: carga de dados, algoritmos básicos, muito how-to e avaliação de modelos; o que forma uma curva de aprendizado baixíssima.

Este livro é fortemente recomendado para quem deseja realizar mudança de tecnologia de mineração de dados, além de migrar para um sistema de retaguarda como R já que todos os seus pacotes estatísticos que já são default.

Um ponto negativo, e aí foge do espectro do livro é que o Rattle ainda não esta tão estável quanto os seus concorrentes open-source (Rapid Miner e WEKA), bem como não possuí uma variedade de técnicas que já estão nessas ferramentas citadas, mas isso é uma questão de tempo para que seja implementado.

Este é um livro estritamente criado para iniciantes no Rattle e principalmente estudantes em mineração de dados; entretanto, o livro possibilita que os mais avançados tirem proveitos da ferramenta, em especial dos sumarizadores estatísticos; além de haver técnicas bem avançadas como SVM e Random Forests que são um primor de didática, how-to e apresentação prática.

Resenha: Data Mining with Rattle and R: The Art of Excavating Data for Knowledge Discovery

Resenha: Data Mining with R: Learning with Case Studies

 

Este livro de Luiz Torgo é um ótimo exemplo de que se podem escrever bons livros de mineração de dados, sem a forma prolixa dos livros que estão no mercado atualmente, no qual o autor ao mesmo tempo que trata da mineração de dados na ferramenta R, coloca exemplos bem práticos os quais podem ser transpostos para situações corporativas e educacionais com extrema facilidade.

O livro consolida o R como uma ferramenta robusta de mineração de dados, no qual coloca em seu livro de modo bem didático e através de muito código e explicações passo-a-passo como utilizar o R, através do aprendizado na prática, e devido a isso os usuários menos experientes podem sentir falta de explicações sobre a sintaxe do R; mas em termos gerais isso foi um trunfo do livro que se mantêm como um manual prático bem enxuto.

Dentro da mineração de dados, a obra aborda aspectos relativos à predição, detecção de outliers e classificação; no qual que deseja uma abordagem prática e precisa desse tipo de recurso tem neste livro o manual absoluto para aplicação da mineração de dados.

Falar do R como ferramenta de mineração de dados dispensa comentários já que seguramente é a melhor ferramenta para esse tipo de pratica, pois; além de envolver bibliotecas customizáveis, conta com uma parte estatística que ainda não tem nenhum tipo de concorrente.

O livro é seguramente o melhor manual prático de mineração de dados disponível. Ponto.

Apesar do escrito acima não indica que o mesmo é perfeito em todos os aspectos, o qual o autor não menciona em seus estudos de caso nenhum tipo de metodologia, mas naquilo que o livro se propõe a ser, ou seja, um manual de aprendizado de mineração de dados prático, esse objetivo é atingido em sua plenitude.

Pontos Fontes: Para quem deseja conhecer o R já de cara no Data Mining, para quem gosta de aprender com estudos de caso.

Pontos Fracos: Os scripts de implementação não estão muito bem explicados, e a falta de explicação da sintaxe deixa a desejar.

Resenha: Data Mining with R: Learning with Case Studies

Resenha: Handbook of Statistical Analysis and Data Mining Applications

A primeira impressão que qualquer um terá com essa obra, é de que os autores realizaram uma pesquisa ampla em quase todos os assuntos relacionados à mineração de dados. Este livro é muito bem escrito e tem um material de suporte de qualidade no qual conta com um DVD com alguns vídeos de aplicação da ferramenta STATISTICA.

Os autores conseguem com a sua obra colocar a mineração de dados como uma disciplina propriamente dita, a qual traz consigo desde o básico sobre a sua história, passando pelo pré-processamento, e chegando a tópicos avançados como text mining e avaliação de modelos.

O livro tem como principal foco a amplitude de assuntos o que não significa que esses assuntos são tratados em sua profundidade; o que é o principal ponto fraco do livro. É mais do que claro que esse é um livro não indicado para quem deseja abordagens mais profundas em algum tipo de técnica.

Pontos Positivos: Um livro feito para quem deseja uma abordagem prática de mineração de dados, e consolida bem quase todos os tópicos em mineração de dados, é um livro que acompanha um DVD muito bem elaborado, além de ter um material de apoio no STATISTICA.

Pontos Negativos: Como é um livro que atende uma audiência muito distinta a forma na qual o livro é escrito pode não agradar muito, e às vezes chega até ser prolixo; o conteúdo empregado a algumas partes está muito desproporcional; como por exemplo, os autores escrevem mais de 20 páginas sobre pre-processing data e menos de 5 páginas dedicadas ao SVM que é uma das técnicas de classificação mais eficientes atualmente.

Resenha: Handbook of Statistical Analysis and Data Mining Applications

Resenha: Discovering Knowledge in Data: An Introduction to Data Mining

Este livro é o primeiro de uma série de livros editados e publicados por Daniel Larose.

O livro mostra de maneira bem didática os passos que todo projeto de mineração de dados deve ter; no qual coloca de maneira acertada um resumo da metodologia CRISP-DM e também estudos de caso fundamentados no CRISP-DM.

O autor também trata de análise exploratória de dados, e como já de costume de seus livros adota a abordagem estatística na mineração de dados, o qual prove como resultado um livro que não adota qualquer tipo de técnica do tipo caixa preta; o que pode auxiliar os iniciantes e intermediários em mineração de dados.

As técnicas abordadas no livro são Vizinho mais Próximo, árvore de decisão, redes neurais, agrupamento k-means, Kohonen SOM, e regras de associação. Essas técnicas são muito bem descritas e conta com ensinamentos passo a passo pelo autor; e ao final do livro são apresentadas algumas técnicas de avaliação de modelos, o qual conta com um background estatístico bem relevante.

De maneira geral o livro é muito bem escrito e se diferencia na literatura por ter uma abordagem bem write-box (caixa branca) no qual além de apresentar as técnicas de uma forma bem transparente; o que facilita o aprendizado e principalmente o entendimento, este último não tão bem apresentado em outras obras do gênero.

Pontos Positivos: Simplicidade na abordagem, leitura sucinta, coesão do texto como todo dentro de uma abordagem introdutória.

Pontos Negativos: Poderia falar um pouco mais da abordagem de aprendizado de máquina e a influência na mineração de dados, e o formato textbook não pode agradar a muitos.

Resenha: Discovering Knowledge in Data: An Introduction to Data Mining

Resenha: Data Mining Techniques: For Marketing, Sales, and Customer Relationship Management

Este livro do Berry e Linoff é um bom manual de mineração de dados dirigido para managers e analistas de marketing.

O livro é bem estruturado em questão de escolha capítulos para abordagem, os quais através de um texto conciso os autores passam pelas principais técnicas de mineração de dados e passam desde o básico até o avançado.

O texto tem como principal característica uma série de exemplos, e uma parte textual bem densa; o que para alguns pode representar uma determinada prolixidade dos autores. Como em alguns livros da Wiley, o livro tem uma série de caixas de texto auxiliares os quais tem alguns insights muito bons para auxiliar na fixação dos conceitos.

Alguns pontos negativos do livro são a) A prolixidade dos autores quando na descrição das técnicas e principalmente na forma de criar cenários de utilização, o que pode tirar a paciência dos leitores que conhecem ao menos o básico da mineração de dados; b) no ponto de vista técnico o livro carece de um cuidado maior quanto à editoração do texto em si, no qual coloca um leque de possibilidades, e, contudo não fala que para aplicar aqueles conceitos seria necessário no mínimo umas 8 ferramentas e que holisticamente nem todas as técnicas são adequadas para uma análise direcionada a profissionais de marketing; e c) muito overview, onde quem tem os conhecimentos básicos em mineração de dados pode sentir a sensação de tópico requentado.

Os pontos positivos do livro são sem sombra de dúvidas a) a amplitude de assuntos no qual os autores colocam muito bem as técnicas de mineração de dados através de um texto bem elaborado e com uma linguagem acessível, b) os estudos de casos e as caixas de texto ao longo o livro formam um material de apoio muitíssimo elaborado e auxiliam na fixação dos conceitos, c) um livro de domínio de aplicação de mineração de dados com um direcionamento muito claro o que é um recurso muito bom para os profissionais da área e quem não é profissional de marketing pode aproveitar os conceitos, e d) gráficos bem elaborados.

 O livro é muito bom, e é voltado diretamente para o publico de marketing, em especial managers e analistas; entretanto a audiência de mineração de dados pode adquirir o livro sem problemas. Não espere um livro com walkthrough em algoritmos e técnicas, pois há outras obras muito mais interessantes nesse sentido.

Resenha: Data Mining Techniques: For Marketing, Sales, and Customer Relationship Management

Resenha: Introduction to Data Mining in Life Sciences

Esse livro é um dos ótimos achados desse ano de 2012; e apresenta a mineração de dados sob uma perspectiva de domínio bem interessante que são os dados relativos à BioInfo e ciências naturais.

O livro do Rob Sullivan coloca a mineração de dados seus métodos em uma boa junção com a bioinformática, no qual o autor de forma muito bem estruturada coloca os passos da mineração de dados desde os passos do pré-processamento até a visualização.

Um dos pontos fortes do livro são dois capítulos, o primeiro é sobre os métodos estatísticos aplicados na mineração de dados como forma de suporte à análise; e o capitulo sobre Classificação e Predição.

No capitulo sobre métodos estatísticos o autor coloca de maneira elaborada os métodos estatísticos como plotagem, boxplot e outros métodos como forma de sumarização e análise inicial dos dados, no qual a mineração de dados viria em um segundo momento após a análise das sumarizações iniciais. O mais importante neste capitulo é a abordagem na qual essas sumarizações informam a estrutura dos dados na qual pode ajudar o analista de mineração de dados a ter informações pertinentes que podem auxiliar no processo de extração de padrões e conferência de distribuições dos dados; além de ter um ótimo material de suporte (Scripts em R).

O capitulo sobre classificação e predição, apesar da ressalva do autor no início do livro o qual ele atribuiu a tarefa de classificação para dados categóricos; e predição para dados numéricos; no desenrolar do capítulo o autor coloca essas duas tarefas como uma única o que pode trazer confusão em um primeiro momento para um leitor menos atento. Tirando esse pequeno deslize o capítulo está bem estruturado com a descrição das tarefas de maneira bem sucinta e direta.

Dentro do domínio das ciências da vida, (a priori o livro trata de problemas ligados a BioInfo) o livro tem boas descrições dos métodos e principalmente da aplicação na Bioinformática, em especial os capítulos apresentam as descrições do que deve ser minerado. Algum conhecimento básico de Biologia é extremamente recomendado, pois pode não ser tão trivial entender o funcionamento de cadeia enzimática, ou mesmo seqüenciamento genético e a utilização das técnicas para cada tipo de problema.

Um ponto negativo no livro é justamente uma das qualidades do livro que é justamente o espectro de assuntos abordados. Em uma tentativa de não deixar algum aspecto importante de lado, o autor coloca inúmeros métodos, mas de forma bem sintética o que poderia deixar o livro menos denso (um livro de 643 páginas que se fosse feito em 350 já estaria ótimo), mas nada comprometedor). O livro pode decepcionar quem espera um Cookbook desse gênero; porém, no prefácio o autor já faz as devidas ressalvas quanto a isso. Entretanto, o ponto mais negativo é certamente o preço, que são os quase proibitivos U$ 167; um preço salgado para um livro que não é um guia definitivo.

De maneira geral o livro é bem escrito e merece uma atenção principalmente para quem algum for lidar com dados relativos à bioinformática, pois esse campo tem uma porção de particularidades que fazem toda diferença quando chega à parte de analise; e além de contar com o background do autor em sua maneira de escrever (Com exemplos e com walkthrough nos algoritmos) auxilia muito no entendimento. Recomendadissímo.

Resenha: Introduction to Data Mining in Life Sciences

Rápido e Devagar: As duas formas de pensar

Pode parecer até Off-topic, mas esse excelente livro do Daniel Kahneman mostra que mesmo com todos os dados disponíveis para a tomada de decisão, o aspecto humano (Sistema 2 [1]) é o fiel da balança na tomada de decisões tendenciosas e errôneas.

É uma leitura não-técnica, que aplicada à área de mineração de dados prova que o homem ainda é o principal aspecto decisivo, mesmo que ele tenha a sua disposição os dados corretos que qualquer algoritmo possa gerar.

Notas
[1] – Definição do livro para a parte da nossa mente que pensa devagar, e que é responsável pela racionalidade.

Rápido e Devagar: As duas formas de pensar

Livro – Sports Data Mining: SCHUMAKER, Robert P.; CHEN , Hsinchun; SOLIEMAN, Osama K.

Fazia um bom tempo que o site não trazia algumas novidades sobre livros e tem cerca de 40 papers a serem comentados e uns 12 livros a serem resenhados; mas essa obra é especial porque une dois temas muito interessantes (e de gosto pessoal do moderador do site) que são Mineração de Dados e Esportes.

Esse livro tem como abordagem central a intersecção entre esportes, data collection (ou data gathering), e a mineração de dados aplicada a diversos domínios esportivos, que vão desde Baseball, passando pelo Basquete e Futebol e chegando no Curling.

A forma de linguagem que o livro é escrito e o seu desenvolvimento são bem agradáveis para leitura (literatura) técnica, na qual os autores trabalharam bem a simplicidade das colocações, seja na esfera esportiva ou na mineração de dados; o que torna a leitura bem dinâmica e principalmente instrutiva.

O livro saí do lugar comum entre os livros de mineração de dados aplicada, o qual apresenta a definição e a construção dos conceitos por trás da mineração de dados esportivos bem como os trade-offs dentro de cada esporte de forma bem honesta e transparente.

A obra tem um leve viés para o Baseball, o que é plenamente compreensível já que é o esporte que tem o maior volume de dados estudados atualmente. Entretanto, há o excelente caso do Milan que vale a pena a leitura. Ainda há indicações de ferramentas para data gathering e fontes de dados, além da apresentação de alguns aplicativos.

O ponto fonte sem dúvidas é o capitulo Research in Sports Statistics o qual mostra os primórdios dos estudos sobre as formas de metrificações de atributos esportivos, e claro, faz referência em grande parte do que foi proposto por Bill James (Sabermetrics) em seus abstracts. A forma da conceituação e construção de métricas esportivas já vale o preço do livro devido a simplicidade e a forma de raciocínio por trás dessa elaboração.

Os pontos fracos dessa obra são 1) a falta de maiores exemplos sobre as formas de métricas erradas em outros esportes além do basquete e do baseball, 2) a ausência de datasets de exemplos para quem deseja realizar uma abordagem mais hands-on, e 3) a parte de análise preditiva ficou um pouco vaga; e em esportes com uma alta competitividade e rotatividade de vencedores (atletismo, esportes automotores) pode não se aplicar de fato na forma em que é proposta no livro.

Em geral o livro é ótimo, e mostra que a abordagem data-driven aplicada aos esportes tem muito a evoluir, principalmente no futebol (soccer) e em outros esportes, e que a mineração de dados pode sim ser fator de desequilíbrio no campo estratégico de um time.

Este livro é indicado para: Estudantes de Ciência da Computação, professores de mineração de dados, especialistas em Banco de Dados, estudantes de Educação Física, e educadores físicos.

Não recomendado para: Quem não gosta de esportes.

Livro – Sports Data Mining: SCHUMAKER, Robert P.; CHEN , Hsinchun; SOLIEMAN, Osama K.

The Elements of Statistical Learning

Um ótimo achado da web é este livro que é um clássico sobre Aprendizado de Máquina. O Elements of Statistical Learning é um ótimo livro no qual disponibiliza diversos exemplos práticos e teóricos sobre aprendizado de máquina e tem uma das melhores explicações sobre Cross-Validation no capitulo 7; e o melhor é que o livro está disponível para download de forma gratuíta.

Link – http://www-stat.stanford.edu/~tibs/ElemStatLearn

Elements of Statistical Learning

The Elements of Statistical Learning

Mineração de Dados com Software Livre

Com o crescimento no estudo da disciplina de mineração de dados no meio acadêmico, bem como a sua validação e aplicação prática no meio corporativo; surgiu a necessidade da construção de novas ferramentas e suítes, com finalidade exclusiva para mineração de dados, desde o pré-processamento de dados até a visualização.

No mercado há diversas ferramentas proprietárias de excelente qualidade como o SPSS Clementine, SAS, Microsoft Analysis Services, STATISTICA, entre outros.

Entretanto, as ferramentas Open Source vem apresentando muitos recursos e funcionalidades, as quais muitas vezes superam e muito os seus concorrentes pagos com maior flexibilidade devido a possibilidade total de customização em alguns casos, robustez de soluções e bibliotecas, e claro o preço de implementação.

O objetivo desse post é fazer uma pequena explanação sobre cada um dos mais populares softwares de mineração de dados Open Source, e realizar alguns poucos comentários sobre algumas de suas características.

Rhttp://www.r-project.org/ – O Projeto R (ou somente “R”) é software de estatística que contém diversos packages (pacotes com diversas funções estatísticas, matemáticas, e econométricas) e vem em um ritmo de crescimento muito grande, em especial nos últimos 3 anos. Tem uma variedade muito grande de recursos estatístico-computacionais e tem como vantagem a sua difusão, e por ter uma linguagem de programação que tem uma curva de aprendizado média; o que permite que estatísticos, economistas, médicos, e cientistas da computação façam interações sob um mesmo código; além de possuír uma bibliografia invejável em termos de livros e materiais disponíveis na web. A desvantagem é que não há infromações sobre as operações de background e como o software utiliza os recursos de máquina disponíveis, como o funcionamento em relação a termos computacionais e até mesmo formas de customização para rodar em ambientes com alto poder computacional; além de ter uma interface de integração e pré-processamento de dados pobre em recursos de transformação.

Algumas leituras
R for SAS and SPSS Users (Statistics and Computing) – Robert A. Muenchen

The Art of R Programming: A Tour of Statistical Software Design – Norman Matloff

Customer and Business Analytics: Applied Data Mining for Business Decision Making Using R (Chapman & Hall/CRC The R Series) – Daniel S. Putler, Robert E. Krider

RapidMiner – http://sourceforge.net/projects/rapidminer/ – O RapidMiner é uma suíte de mineração de dados que vem se consolidando a algum tempo, e antes do R se tornar o software Open Source mais popular em análise de dados era o software de mineração de dados mais popular. O RapidMiner tem como principais diferenciais a parte de pré-processamento de dados, a baixa curva de aprendizado para início dos trabalhos em mineração de dados, além de produzir gráficos de ótima qualidade. O RapidMiner tem como desvantagem o “travamento” de diversos recursos que são liberados somente com a versão paga, não ter uma comunidade tão ativa, e pouca documentação (livros) dirigidos para o seu uso prático.

Bibliografia

Data Analysis with Open Source Tools – Philipp K. Janert

WEKAhttp://www.cs.waikato.ac.nz/ml/weka/ – O WEKA é uma suíte de mineração de dados desenvolvida pela Universidade de Waikato na Nova Zelândia; e tem como principal diferencial ser uma ferramenta de uso muito simples; o que não significa que seja de menor qualidade em relação as demais ferramentas Open Source. O WEKA é praticamente a ferramenta inicial para quem inicia os estudos em mineração de dados, e sem sombra de dúvidas é a ferramenta que tem a menor curva de aprendizado, chegando as vezes até passar a impressão que a mineração de dados é algo trivial; além de contar com um ótimo livro do FRANK, e WITTEN que é um material muito precioso para trabalhar de forma prática com a ferramenta. A principal desvantagem do WEKA é a difícil implementação de novas bibliotecas, o quase que obrigatório conhecimento avançado em java para implementação de algoritmos, ter algumas limitações sérias em relação à geração de gráficos, e a péssima conexão/integração com bancos relacionais.

Algumas leituras

Data Mining: Practical Machine Learning Tools and Techniques, Third Edition (The Morgan Kaufmann Series in Data Management Systems) – Ian H. Witten , Eibe Frank , Mark A. Hall

Data Mining Methods and Models – Daniel T. Larose

Discovering Knowledge in Data: An Introduction to Data Mining – Daniel T. Larose

Rattlehttp://rattle.togaware.com/ – O Rattle é uma nova suíte de mineração de dados que tem como característica principal incorporar a robustez das blibliotecas e soluções de mineração de dados do R; e conta com uma interface gráfica muito agradável com uma usabilidade excelente. Tem uma comunidade que vem crescendo muito forte, e conta com visuais gráficos que são muito melhores do que por exemplo os gráficos do Analysis Services da Microsoft. Ainda conta com uma literatura escassa, porém; nada que impeça a sua implementação, e tem um grave problema de ser designed para rodar em ambientes linux; o que pode ser fator impeditivo para utilização corporativa.

Bibliografia

Data Mining with Rattle and R: The Art of Excavating Data for Knowledge Discovery (Use R!) – Graham Williams

Diante desse leque de opções, cabe ao responsável técnico escolher a ferramenta que melhor se adapta as necessidades e principalmente que resolva melhor o seu problema, seja no desenvolvimento de pesquisas acadêmicas, ou em aplicações corporativas.

Mineração de Dados com Software Livre

Data Mining: Practical Machine Learning Tools and Techniques – Ian H. Witten; Eibe Frank

Esse livro é um ótimo textbook quando se trata de uma abordagem prática sobre mineração de dados; unindo de forma didática os conceitos básicos de mineração de dados (não só as técnicas; mas partes do KDD em si); bem como apresenta a ferramenta WEKA como suporte e aplicação prática do que foi desenvolvido através do livro.

A divisão do livro se dá em duas partes na qual a parte I apresenta uma série de técnicas relacionadas ao aprendizado de máquina e algumas técnicas de mineração de dados; no qual o capitulo 5 merece mais destaque devido a desenvolver de uma maneira bem clara a validação do modelo de predição bem como o conceito geral de Cross-Validation; tópicos intessantes e que geralmente não são tratados em livros de mineração de dados.

Já na parte II é apresentada a ferramenta WEKA na qual durante o desenvolvimento dos capítulos vão entrando de forma gradual exemplos do funcionamento da ferramenta e algumas das suas possibilidades dentro do workbench.

Em suma, o livro é uma boa referencia sobre aplicação prática de mineração de dados e tem como diferencial a utilização de uma ferramenta específica, não deixando no ar os métodos na mineração de dados (há livros, por exemplo, que mostram diversos conceitos; mas nenhuma aplicação prática ou mesmo computacional).

Um contra-ponto do livro é que o número de técnicas apresentadas deveria ser um pouco maior, aos moldes do que foi feito no livro Data Mining Methods and Models do Daniel Larose.

Este livro é indicado para: Estudantes de Ciência da Computação, Professores de mineração de dados, especialistas em banco de dados, e demais pessoas envolvidas com projetos de mineração de dados.

Não recomendado para: Quem deseja um overview sobre o assunto, busca de conceitos base em mineração de dados, fundamentação teórica matemática.

Data Mining: Practical Machine Learning Tools and Techniques – Ian H. Witten; Eibe Frank