Resenha: Introduction to Data Mining in Life Sciences

Esse livro é um dos ótimos achados desse ano de 2012; e apresenta a mineração de dados sob uma perspectiva de domínio bem interessante que são os dados relativos à BioInfo e ciências naturais.

O livro do Rob Sullivan coloca a mineração de dados seus métodos em uma boa junção com a bioinformática, no qual o autor de forma muito bem estruturada coloca os passos da mineração de dados desde os passos do pré-processamento até a visualização.

Um dos pontos fortes do livro são dois capítulos, o primeiro é sobre os métodos estatísticos aplicados na mineração de dados como forma de suporte à análise; e o capitulo sobre Classificação e Predição.

No capitulo sobre métodos estatísticos o autor coloca de maneira elaborada os métodos estatísticos como plotagem, boxplot e outros métodos como forma de sumarização e análise inicial dos dados, no qual a mineração de dados viria em um segundo momento após a análise das sumarizações iniciais. O mais importante neste capitulo é a abordagem na qual essas sumarizações informam a estrutura dos dados na qual pode ajudar o analista de mineração de dados a ter informações pertinentes que podem auxiliar no processo de extração de padrões e conferência de distribuições dos dados; além de ter um ótimo material de suporte (Scripts em R).

O capitulo sobre classificação e predição, apesar da ressalva do autor no início do livro o qual ele atribuiu a tarefa de classificação para dados categóricos; e predição para dados numéricos; no desenrolar do capítulo o autor coloca essas duas tarefas como uma única o que pode trazer confusão em um primeiro momento para um leitor menos atento. Tirando esse pequeno deslize o capítulo está bem estruturado com a descrição das tarefas de maneira bem sucinta e direta.

Dentro do domínio das ciências da vida, (a priori o livro trata de problemas ligados a BioInfo) o livro tem boas descrições dos métodos e principalmente da aplicação na Bioinformática, em especial os capítulos apresentam as descrições do que deve ser minerado. Algum conhecimento básico de Biologia é extremamente recomendado, pois pode não ser tão trivial entender o funcionamento de cadeia enzimática, ou mesmo seqüenciamento genético e a utilização das técnicas para cada tipo de problema.

Um ponto negativo no livro é justamente uma das qualidades do livro que é justamente o espectro de assuntos abordados. Em uma tentativa de não deixar algum aspecto importante de lado, o autor coloca inúmeros métodos, mas de forma bem sintética o que poderia deixar o livro menos denso (um livro de 643 páginas que se fosse feito em 350 já estaria ótimo), mas nada comprometedor). O livro pode decepcionar quem espera um Cookbook desse gênero; porém, no prefácio o autor já faz as devidas ressalvas quanto a isso. Entretanto, o ponto mais negativo é certamente o preço, que são os quase proibitivos U$ 167; um preço salgado para um livro que não é um guia definitivo.

De maneira geral o livro é bem escrito e merece uma atenção principalmente para quem algum for lidar com dados relativos à bioinformática, pois esse campo tem uma porção de particularidades que fazem toda diferença quando chega à parte de analise; e além de contar com o background do autor em sua maneira de escrever (Com exemplos e com walkthrough nos algoritmos) auxilia muito no entendimento. Recomendadissímo.

Resenha: Introduction to Data Mining in Life Sciences

BioDatamining Site

Recomendado sem nenhum tipo de restrição.

BioDatamining Site

Aprendizado de Máquina no Projeto Genoma

O consórcio ENCODE (acrônimo para Encyclopedia Of DNA Elements) foi iniciado em 2003 e tem como missão realizar pesquisas sobre o sequênciamento do genoma humano. Essa página contém informações relevantes sobre o que é chamada a fase tecnológica do projeto na qual há integração de tecnologias, e neste caso, o aprendizado de máquina. Para quem deseja conhecer um pouco mais as aplicações de aprendizado de máquina em domínios relacionados a biomedicina essa página é uma ótima referência.

Aprendizado de Máquina no Projeto Genoma

Projeto Genoma Disponível

Uma ótima noticia para os viciados em Mineração de Dados é a disponibilização do projeto genoma pela Amazon. Para quem não sabe o projeto Genoma tem como finalidade realizar o mapeamento da carga genética e de acordo com a análise desse material realizar estudos que permitam prever uma doença específica, bem como realizar trabalhos de acompanhamento do desenvolvimento dessas doenças para implementação de pesquisas bio-médicas.

Projeto Genoma Disponível