Para os cientistas de Big-Data “Trabalho de Limpeza dos Dados” é principal obstáculo para Insights

Essa matéria do NYT fala a respeito do principal gargalo que os “analistas de Big Data” enfrentam que é a parte de limpeza dos dados.

Quem está acompanhando, estudando ou mesmo comentando a mais de 2 anos sobre as áreas de Mineração de Dados, Machine Learning, e KDD sabe que o trabalho de tratamento dos dados representa 80% de todo esforço em análise de dados.

Por tanto, falando em termos computacionais, aplicar 80% de esforço em uma tarefa não é um problema mas sim uma característica tratando-se de processos sérios de KDD.

Com o fenômeno do “Big Data” muitos dos “analistas de dados” esqueceram-se de que uma das partes mais significativas de todo trabalho de análise está por trás do fato que gerou aquela informação, e não a análise por sí só. Isto é, quem compreende a estrutura e a conceitualização na qual aquele aquela informação é criada e posteriormente persistida, tem por definição lógica mais conhecimento sobre o dado do que quem apenas está fazendo o quarteto Treino – Cross Validation – Teste – Validação.

Realizando um exercício de alegoria, se realizássemos uma transposição de Big Data para Big Food  com os mesmos 3V (Volume, Velocidade, e Variedade), seria algo como falássemos somente sobre as características nutricionais dos alimentos (quantidade proteínas, carboidratos, gorduras) com todo o academicismo para passarmos uma ilusão de erudição; mas esquecendo que essas concentrações estão estritamente relacionadas a forma de criação/plantio desses insumos (e.g. esteroides para bovinos e aves, modificações genéticas para as sementes, etc.) o que obviamente pode indicar que a métrica final de análise (no caso as informações nutricionais) não passam de uma ilusão.

 Para saber mais sobre o porque o Big Data está criando analistas iludidos (como alguns do NYT) leiam essas referências aqui, aqui, aqui, aqui, aqui, aqui, e finalmente aqui.

Para os cientistas de Big-Data “Trabalho de Limpeza dos Dados” é principal obstáculo para Insights

Livro Data Points: Visualization That Means Something

O Nathan Yau do ótimo site Flowing Data a algum tempo vem trazendo a tona que a visualização de dados possuí um papel importante em relação à descoberta de conhecimento.

Ele acaba de lançar um livro bastante interessante chamado Data Points: Visualization That Means Something.

Para quem deseja aplicar os conceitos de análise exploratória de dados via visualização de dados o livro pode ser um ótimo material de partida.

Livro Data Points: Visualization That Means Something

A Análise Data-Driven é uma falha Imaginativa

Este post do R Cereals mostra mais uma vez que a velha guerrinha entre machine learners e estatísticos vai continuar por um longo tempo devido a mais desconhecimento de cada uma das partes com o segmento do outro do que divergências técnicas conceituais.

Em suma o post trata de que o modelo de análise Data-Driven é uma falha imaginativa na qual (na visão do autor), qualquer análise que se chame de “ciência” deve haver uma hipótese.

Oras, se somente a hipótese for o motor da ciência então tudo o que nós mineradores de dados conhecemos como análise exploratória de dados não é ciência de fato?

Essa afirmação por sí só já é absurda.

Então quer dizer que a NASA (a instituição mais científica do mundo) manda a Mars Rover sedimentada apenas por uma hipótese? As viagens espaciais da Challenger e da Discovery foram somente baseadas em uma hipótese?

Certamente o autor nunca leu algum livro sobre KDD ou Mineração de Dados no qual em 80% tempo temos a citação de que o processo de descoberta de conhecimento é the “…non-trivial process of identifying valid, novel, potentially useful and ultimately understandable patterns in data…”.

É um assunto que ainda será pauta aqui do Mineração de Dados.

A Análise Data-Driven é uma falha Imaginativa

Kaggle – Outsourcing de Análise de Dados

Imagine o seguinte cenário

Uma empresa tem uma montanha de dados em csv, txt ou outros formatos; e tem um problema em analisar esses dados e precisa de algumas respostas, que podem vir desses dados que em tese estão subutilizados. Mas como extrair informações e conhecímento de uma base de dados, sem ter que montar uma estrutura de Mineração de Dados com projetos, pessoal e infraestrutura?

Nesse contexto é que entra o Kaggle que é uma suíte no qual as empresas colocam os seus dados, e o seu problema e através de competições premia quem tiver o melhor modelo descritivo ou preditivo; e em troca do modelo para a empresa o vencedor ganha uma determinada quantia em dinheiro.

É um ramo promissor, aos moldes do que já está em curso aqui no Brasil com a Batalha dos Conceitos.

Kaggle – Outsourcing de Análise de Dados

Identificação de Pacientes com Hipertensão: Um caso de auditoria em Registros Médicos Eletrônicos

Este artigo da Health Information Management escrito por  Adam Baus, Michael Hendryx, e Cecil Pollard coloca em plano o estudo relacionado a utilização de dados médicos para análise e descoberta de conhecimento sobre pacientes com hipertensão.

O estudo mostra de maneira muito estruturada a forma em que os pesquisadores realizaram todo o processo de KDD (Knowledge Discovery in Databases – Descoberta de Conhecimento em Bases de Dados) através do Data Gathering, tratamento e cleasing de informações, análise,  resultados e discussão. Em si o artigo não apresenta muitos termos técnicos em mineração de dados, mas coloca em perspectiva o método que é bastante interessante para projetos desse domínio.

Em geral, pensando em projeto de mineração de dados para instituições públicas que poderia utilizar esse domínio (Ministério da Saúde, Secretarias Estaduais e Municipais de Saúde, Hospitais e outros) o artigo é bem completo nesse sentido, não só pelos ótimos resultados encontrados, mas também pelo fato de elencar as principais dificuldades encontradas nesse tipo de projeto.

Identificação de Pacientes com Hipertensão: Um caso de auditoria em Registros Médicos Eletrônicos

A utilização do WEKA como Minerador de Dados

O WEKA (Acrônimo para Waikato Environment for Knowledge Analysis) é um software livre com licença General Public License desenvolvido pela Universidade de Waikato na Nova Zelândia para utilização em tarefas de Mineração de Dados.

Há muito escrito sobre o WEKA na web, e o objetivo desse post não é realizar uma comparação com algumas ferramentas de mercado, mas sim ressaltar algumas das boas características do WEKA.

O WEKA contém uma série de algoritmos que são desenvolvidos pela comunidade que contribuí com a ampliação do Software, já que o mesmo é desenvolvido em Java e o projeto é código aberto, o que significa que dia após dia o projeto aumenta cada vez mais já que não há restrições de bibliotecas, bem como não há nenhum tipo de corporação por trás de uma iniciativa exclusivamente acadêmica.

O WEKA conta também com uma grande flexibilidade na utilização de suas técnicas de mineração, nas quais há uma ampla variedade de algoritmos os quais contém a sua respectiva descrição, bem como de acordo com o conhecimento do analista pode representar um diferencial de acordo com a escolha do algoritmo para a base que será analisada, na qual uma representação de um algoritmo pode ter um resultado distinto de acordo com a técnica escolhida.

Dois grandes diferenciais do WEKA em relação a outras ferramentas, é que há um amplo material de referẽncia através da internet, no qual em poucos minutos já é possível utilizar o software sem nenhum tipo de problema em relação a base de conhecimento e/ou documentação. No site http://www.cs.waikato.ac.nz/ml/weka/ há toda a documentação do projeto e a descrição dos componentes que formam a Engine, e também há dois excelentes livros de referência como Data Mining: Practical Machine Learning Tools and Techniques de Hall, Witten e Frank e o Data Mining Methods and Models do Daniel Larose que são livros técnicos com exemplos práticos em WEKA.

Como pode ser visto o WEKA além de ser uma importante ferramenta de análise de dados e descoberta de conhecimento em bases de dados; possuí muitos recursos que o tornam um minerador de dados robusto, flexível e com um corpo de conhecimento muito grande; o qual pode ser muito útil em aplicações com maior grau de especificação e complexidade.

A utilização do WEKA como Minerador de Dados