Resenha: Data Mining with R: Learning with Case Studies

 

Este livro de Luiz Torgo é um ótimo exemplo de que se podem escrever bons livros de mineração de dados, sem a forma prolixa dos livros que estão no mercado atualmente, no qual o autor ao mesmo tempo que trata da mineração de dados na ferramenta R, coloca exemplos bem práticos os quais podem ser transpostos para situações corporativas e educacionais com extrema facilidade.

O livro consolida o R como uma ferramenta robusta de mineração de dados, no qual coloca em seu livro de modo bem didático e através de muito código e explicações passo-a-passo como utilizar o R, através do aprendizado na prática, e devido a isso os usuários menos experientes podem sentir falta de explicações sobre a sintaxe do R; mas em termos gerais isso foi um trunfo do livro que se mantêm como um manual prático bem enxuto.

Dentro da mineração de dados, a obra aborda aspectos relativos à predição, detecção de outliers e classificação; no qual que deseja uma abordagem prática e precisa desse tipo de recurso tem neste livro o manual absoluto para aplicação da mineração de dados.

Falar do R como ferramenta de mineração de dados dispensa comentários já que seguramente é a melhor ferramenta para esse tipo de pratica, pois; além de envolver bibliotecas customizáveis, conta com uma parte estatística que ainda não tem nenhum tipo de concorrente.

O livro é seguramente o melhor manual prático de mineração de dados disponível. Ponto.

Apesar do escrito acima não indica que o mesmo é perfeito em todos os aspectos, o qual o autor não menciona em seus estudos de caso nenhum tipo de metodologia, mas naquilo que o livro se propõe a ser, ou seja, um manual de aprendizado de mineração de dados prático, esse objetivo é atingido em sua plenitude.

Pontos Fontes: Para quem deseja conhecer o R já de cara no Data Mining, para quem gosta de aprender com estudos de caso.

Pontos Fracos: Os scripts de implementação não estão muito bem explicados, e a falta de explicação da sintaxe deixa a desejar.

Anúncios
Resenha: Data Mining with R: Learning with Case Studies

Resenha: Handbook of Statistical Analysis and Data Mining Applications

A primeira impressão que qualquer um terá com essa obra, é de que os autores realizaram uma pesquisa ampla em quase todos os assuntos relacionados à mineração de dados. Este livro é muito bem escrito e tem um material de suporte de qualidade no qual conta com um DVD com alguns vídeos de aplicação da ferramenta STATISTICA.

Os autores conseguem com a sua obra colocar a mineração de dados como uma disciplina propriamente dita, a qual traz consigo desde o básico sobre a sua história, passando pelo pré-processamento, e chegando a tópicos avançados como text mining e avaliação de modelos.

O livro tem como principal foco a amplitude de assuntos o que não significa que esses assuntos são tratados em sua profundidade; o que é o principal ponto fraco do livro. É mais do que claro que esse é um livro não indicado para quem deseja abordagens mais profundas em algum tipo de técnica.

Pontos Positivos: Um livro feito para quem deseja uma abordagem prática de mineração de dados, e consolida bem quase todos os tópicos em mineração de dados, é um livro que acompanha um DVD muito bem elaborado, além de ter um material de apoio no STATISTICA.

Pontos Negativos: Como é um livro que atende uma audiência muito distinta a forma na qual o livro é escrito pode não agradar muito, e às vezes chega até ser prolixo; o conteúdo empregado a algumas partes está muito desproporcional; como por exemplo, os autores escrevem mais de 20 páginas sobre pre-processing data e menos de 5 páginas dedicadas ao SVM que é uma das técnicas de classificação mais eficientes atualmente.

Resenha: Handbook of Statistical Analysis and Data Mining Applications

Resenha: Discovering Knowledge in Data: An Introduction to Data Mining

Este livro é o primeiro de uma série de livros editados e publicados por Daniel Larose.

O livro mostra de maneira bem didática os passos que todo projeto de mineração de dados deve ter; no qual coloca de maneira acertada um resumo da metodologia CRISP-DM e também estudos de caso fundamentados no CRISP-DM.

O autor também trata de análise exploratória de dados, e como já de costume de seus livros adota a abordagem estatística na mineração de dados, o qual prove como resultado um livro que não adota qualquer tipo de técnica do tipo caixa preta; o que pode auxiliar os iniciantes e intermediários em mineração de dados.

As técnicas abordadas no livro são Vizinho mais Próximo, árvore de decisão, redes neurais, agrupamento k-means, Kohonen SOM, e regras de associação. Essas técnicas são muito bem descritas e conta com ensinamentos passo a passo pelo autor; e ao final do livro são apresentadas algumas técnicas de avaliação de modelos, o qual conta com um background estatístico bem relevante.

De maneira geral o livro é muito bem escrito e se diferencia na literatura por ter uma abordagem bem write-box (caixa branca) no qual além de apresentar as técnicas de uma forma bem transparente; o que facilita o aprendizado e principalmente o entendimento, este último não tão bem apresentado em outras obras do gênero.

Pontos Positivos: Simplicidade na abordagem, leitura sucinta, coesão do texto como todo dentro de uma abordagem introdutória.

Pontos Negativos: Poderia falar um pouco mais da abordagem de aprendizado de máquina e a influência na mineração de dados, e o formato textbook não pode agradar a muitos.

Resenha: Discovering Knowledge in Data: An Introduction to Data Mining

Resenha: Data Mining Techniques: For Marketing, Sales, and Customer Relationship Management

Este livro do Berry e Linoff é um bom manual de mineração de dados dirigido para managers e analistas de marketing.

O livro é bem estruturado em questão de escolha capítulos para abordagem, os quais através de um texto conciso os autores passam pelas principais técnicas de mineração de dados e passam desde o básico até o avançado.

O texto tem como principal característica uma série de exemplos, e uma parte textual bem densa; o que para alguns pode representar uma determinada prolixidade dos autores. Como em alguns livros da Wiley, o livro tem uma série de caixas de texto auxiliares os quais tem alguns insights muito bons para auxiliar na fixação dos conceitos.

Alguns pontos negativos do livro são a) A prolixidade dos autores quando na descrição das técnicas e principalmente na forma de criar cenários de utilização, o que pode tirar a paciência dos leitores que conhecem ao menos o básico da mineração de dados; b) no ponto de vista técnico o livro carece de um cuidado maior quanto à editoração do texto em si, no qual coloca um leque de possibilidades, e, contudo não fala que para aplicar aqueles conceitos seria necessário no mínimo umas 8 ferramentas e que holisticamente nem todas as técnicas são adequadas para uma análise direcionada a profissionais de marketing; e c) muito overview, onde quem tem os conhecimentos básicos em mineração de dados pode sentir a sensação de tópico requentado.

Os pontos positivos do livro são sem sombra de dúvidas a) a amplitude de assuntos no qual os autores colocam muito bem as técnicas de mineração de dados através de um texto bem elaborado e com uma linguagem acessível, b) os estudos de casos e as caixas de texto ao longo o livro formam um material de apoio muitíssimo elaborado e auxiliam na fixação dos conceitos, c) um livro de domínio de aplicação de mineração de dados com um direcionamento muito claro o que é um recurso muito bom para os profissionais da área e quem não é profissional de marketing pode aproveitar os conceitos, e d) gráficos bem elaborados.

 O livro é muito bom, e é voltado diretamente para o publico de marketing, em especial managers e analistas; entretanto a audiência de mineração de dados pode adquirir o livro sem problemas. Não espere um livro com walkthrough em algoritmos e técnicas, pois há outras obras muito mais interessantes nesse sentido.

Resenha: Data Mining Techniques: For Marketing, Sales, and Customer Relationship Management

Resenha: Introduction to Data Mining in Life Sciences

Esse livro é um dos ótimos achados desse ano de 2012; e apresenta a mineração de dados sob uma perspectiva de domínio bem interessante que são os dados relativos à BioInfo e ciências naturais.

O livro do Rob Sullivan coloca a mineração de dados seus métodos em uma boa junção com a bioinformática, no qual o autor de forma muito bem estruturada coloca os passos da mineração de dados desde os passos do pré-processamento até a visualização.

Um dos pontos fortes do livro são dois capítulos, o primeiro é sobre os métodos estatísticos aplicados na mineração de dados como forma de suporte à análise; e o capitulo sobre Classificação e Predição.

No capitulo sobre métodos estatísticos o autor coloca de maneira elaborada os métodos estatísticos como plotagem, boxplot e outros métodos como forma de sumarização e análise inicial dos dados, no qual a mineração de dados viria em um segundo momento após a análise das sumarizações iniciais. O mais importante neste capitulo é a abordagem na qual essas sumarizações informam a estrutura dos dados na qual pode ajudar o analista de mineração de dados a ter informações pertinentes que podem auxiliar no processo de extração de padrões e conferência de distribuições dos dados; além de ter um ótimo material de suporte (Scripts em R).

O capitulo sobre classificação e predição, apesar da ressalva do autor no início do livro o qual ele atribuiu a tarefa de classificação para dados categóricos; e predição para dados numéricos; no desenrolar do capítulo o autor coloca essas duas tarefas como uma única o que pode trazer confusão em um primeiro momento para um leitor menos atento. Tirando esse pequeno deslize o capítulo está bem estruturado com a descrição das tarefas de maneira bem sucinta e direta.

Dentro do domínio das ciências da vida, (a priori o livro trata de problemas ligados a BioInfo) o livro tem boas descrições dos métodos e principalmente da aplicação na Bioinformática, em especial os capítulos apresentam as descrições do que deve ser minerado. Algum conhecimento básico de Biologia é extremamente recomendado, pois pode não ser tão trivial entender o funcionamento de cadeia enzimática, ou mesmo seqüenciamento genético e a utilização das técnicas para cada tipo de problema.

Um ponto negativo no livro é justamente uma das qualidades do livro que é justamente o espectro de assuntos abordados. Em uma tentativa de não deixar algum aspecto importante de lado, o autor coloca inúmeros métodos, mas de forma bem sintética o que poderia deixar o livro menos denso (um livro de 643 páginas que se fosse feito em 350 já estaria ótimo), mas nada comprometedor). O livro pode decepcionar quem espera um Cookbook desse gênero; porém, no prefácio o autor já faz as devidas ressalvas quanto a isso. Entretanto, o ponto mais negativo é certamente o preço, que são os quase proibitivos U$ 167; um preço salgado para um livro que não é um guia definitivo.

De maneira geral o livro é bem escrito e merece uma atenção principalmente para quem algum for lidar com dados relativos à bioinformática, pois esse campo tem uma porção de particularidades que fazem toda diferença quando chega à parte de analise; e além de contar com o background do autor em sua maneira de escrever (Com exemplos e com walkthrough nos algoritmos) auxilia muito no entendimento. Recomendadissímo.

Resenha: Introduction to Data Mining in Life Sciences

O que são as Inferências Bayesianas e Frequencistas?

Este post do Normal Deviate mostra de forma quase que absoluta:

Here are my definitions. You may have different definitions. But I am confident that my definitions correspond to the traditional definitions used in statistics for decades.

But first, I should say that Bayesian and Frequentist inference are defined by their goals not their methods.

The Goal of Frequentist Inference: Construct procedure with frequency guarantees. (For example, confidence intervals.)

The Goal of Bayesian Inference: Quantify and manipulate your degrees of beliefs. In other words, Bayesian inference is the Analysis of Beliefs.

Para quem conhece mineração de dados, sabe que grande parte dos métodos abordam a inferência frequencista, na qual há intervalos, ranges de suporte e confiança, distribuições. Entretanto, vale a pena ressaltar, que como bem descrito no livro do Daniel Larose há uma abordagem de inferência Bayesiana muito interessante quando falamos de cálculo de probabilidade condicional.

O que são as Inferências Bayesianas e Frequencistas?

Agregação de Pesquisas e Previsão Eleitoral

Esse artigo explica muito do modelo adotado pelo Nate Silver. Uma ressalva é que o sistema eleitoral americano é do tipo “O Vencedor leva tudo”; o qual através da probabilidade condicional a tarefa tem menos complexidades, do que se as eleições fossem realizadas aqui no Brasil. Mas vale a Leitura.

Agregação de Pesquisas e Previsão Eleitoral

Economia Computacional e Algorítmica

Esse é um ramo co-irmão da mineração de dados, a qual utiliza as ciências sociais dentro de uma dinâmica computacional na qual realiza a criação de modelos econômicos baseados em simulações computacionais.

Esse site faz um apanhado de links bem interessante sobre o assunto.

Economia Computacional e Algorítmica