Mineração de Dados com Excel

Esse verdadeiro achado é sem sombra de dúvidas um dos melhores manuais Hands-On em Mineração de Dados disponíveis na web. Essa apostila/manual criado por Galit Shmueli, Nitin R. Patel e Peter C. Bruce une o que há de mais completo em relação as técnicas de mineração de dados com explicações bem didáticas e com aplicação direta no Excel; o que torna o seu uso muito interessante para pequenos ambientes analíticos. A apostila é bem densa, porém; engana-se quem acha que isso é sinônimo de prolixidade; o texto é bem conciso e tem diversos cenários interessantes. Vale a pena baixar e estudar.

Data Mining In Excel

Mineração de Dados com Excel

Data Mining: Practical Machine Learning Tools and Techniques – Ian H. Witten; Eibe Frank

Esse livro é um ótimo textbook quando se trata de uma abordagem prática sobre mineração de dados; unindo de forma didática os conceitos básicos de mineração de dados (não só as técnicas; mas partes do KDD em si); bem como apresenta a ferramenta WEKA como suporte e aplicação prática do que foi desenvolvido através do livro.

A divisão do livro se dá em duas partes na qual a parte I apresenta uma série de técnicas relacionadas ao aprendizado de máquina e algumas técnicas de mineração de dados; no qual o capitulo 5 merece mais destaque devido a desenvolver de uma maneira bem clara a validação do modelo de predição bem como o conceito geral de Cross-Validation; tópicos intessantes e que geralmente não são tratados em livros de mineração de dados.

Já na parte II é apresentada a ferramenta WEKA na qual durante o desenvolvimento dos capítulos vão entrando de forma gradual exemplos do funcionamento da ferramenta e algumas das suas possibilidades dentro do workbench.

Em suma, o livro é uma boa referencia sobre aplicação prática de mineração de dados e tem como diferencial a utilização de uma ferramenta específica, não deixando no ar os métodos na mineração de dados (há livros, por exemplo, que mostram diversos conceitos; mas nenhuma aplicação prática ou mesmo computacional).

Um contra-ponto do livro é que o número de técnicas apresentadas deveria ser um pouco maior, aos moldes do que foi feito no livro Data Mining Methods and Models do Daniel Larose.

Este livro é indicado para: Estudantes de Ciência da Computação, Professores de mineração de dados, especialistas em banco de dados, e demais pessoas envolvidas com projetos de mineração de dados.

Não recomendado para: Quem deseja um overview sobre o assunto, busca de conceitos base em mineração de dados, fundamentação teórica matemática.

Data Mining: Practical Machine Learning Tools and Techniques – Ian H. Witten; Eibe Frank

Dados Abertos e Mineração de Dados

Uma das melhores iniciativas governamentais que tem se tornado uma forte tendência nos últimos tempos é a abertura de dados públicos, ou Open Data.

Os dados abertos além de representar transparência dos governantes; pode engajar cidadãos a colaborarem com iniciativas criativas para os problemas de sua comunidade através do estudo desses dados; além de enquadrar-se totalmente no conceito de governo eletrônico no qual o governo não somente será receptador de dados dos cidadãos, mas também será provedor de dados e informações para aumentar a transparência e melhorar a democracia de uma forma mais participativa.

Dados Abertos e Mineração de Dados

Yelp – Bases de dados acadêmica

Uma ótima informação para quem deseja bases de dados reais para implementação de técnicas de mineração de dados, ou desenvolvimento de estudos é a abertura desses dados pela Yelp que é uma rede de acadêmicos que faz a postagem de algumas bases de dados para análises e estudos diversos. O site conta com estudantes de mais de 30 universidades americanas, e além de ter algumas bases de dados interessantes, abre a possibilidade de ampliar o networking com pesquisadores do mundo inteiro.

Yelp – Bases de dados acadêmica

Taxi!

Essa coluna de Joe Malkevitch (York College (CUNY)) foi publicado na American Mathematical Society e aborda um tema bastante relevante em mineração de dados que é a geometria da medida de distância Taxicab (Manhattan). A coluna coloca em aspectos práticos a definição e aplicação dessa medida de distância apresentando exemplos de como funciona e as suas aplicações. O mais interessante sobre tudo, é que o entendimento dessa parte da matemática abre um grande leque de possibilidades em relação ao sair do lugar comum (leia-se, Distância Euclideana) no desenvolvimento de uma análise de agrupamento; ou mesmo em um projeto de mineração de dados no qual não  todos os dados não são discretizados, ou esses dados sofram uma variação de range muito alta devido a inúmeros outliers.

Feature Column from the AMS

Taxi!

Cancer Program Data Sets

Para quem deseja realizar estudos sérios sobre Mineração de Dados aplicado na área da saúde, esse repositório de dados disponibilizado pela Broad Institute é um prato cheio. A muitos modelos a serem explorados, e de acordo com a disposição do pesquisador, ele pode adaptar os modelos e aplicar em sua comunidade, cidade e/ou região. Nota 10 para a iniciativa!

Cancer Program Data Sets

Maximal Information Coefficient (MIC) – Detecting Novel Associations in Large Data Sets

Um dos melhores artigos que li esse ano saiu na Science (a revista com o maior fator de impacto em pesquisa no mundo) que trata um conceito relativamente novo de Maximal Information Coefficient (MIC) (algo como coeficiente máximo de informação) que de uma maneira bem simplista é a habilidade de descrição de uma correlação (ou seja, algo que está diretamente a constante a ser medida) entre diversos tipos de variáveis mesmo se houver relacionamento linear ou não linear entre essas variáveis, no qual seria uma espécie de medida que seria insensível ao ruído nos dados dentro de uma regressão linear por exemplo.

Maximal Information Coefficient (MIC) – Detecting Novel Associations in Large Data Sets

Big crime meets big data

Uma das aplicações que particularmente me chamam mais atenção em relação a Analytics e Mineração de Dados é a aplicação de métodos de aprendizado de máquina e análise para identificar padrões criminais, e com essa ferramenta ter algum tipo de possibilidade de predição e mapeamento para prevenção.

Marc Goodman é o fundador de uma empresa chamada Future Crimes que é uma empresa de análise de dados sobre eventos que envolvem aspectos relacionados à segurança; e nessa entrevista ele chama atenção de como os dados pessoais das pessoas e as redes sociais estão virando cada vez mais dados para combater as atividades criminosas das mais diversas naturezas.

Big crime meets big data

Base para Mineração de Dados – Rafael Santos

Rafael Santos é um dos poucos pesquisadores sobre Mineração de Dados no Brasil e tem em seu site além de bons textos e materiais sobre mineração, um grande e bem completo repositório de dados em ARFF. Vale a pena conferir.

Base para Mineração de Dados – Rafael Santos