Mineração de Dados e Segurança Aeronáutica

Neste artigo do Venky Rao é utilizado um exemplo bem simples da aplicação de fases da metodologia CRISP-DM em uma modelagem de análise de segurança aeronáutica.

Ele utiliza a fase de entendimento de dados, preparação dos dados e modelagem e coloca no SPSS. Bom para quem deseja saber como funciona essa modelagem de maneira prática.

Mineração de Dados e Segurança Aeronáutica

FAQ sobre Aprendizado de Máquina, Data Mining e afins…

Este post do William Briggs mostra de maneira bem humorada a visão dele sobre Aprendizado de Máquina, Estatística, Análise de Risco, Data Mining e assuntos do tipo.

FAQ sobre Aprendizado de Máquina, Data Mining e afins…

O Mito do Cientista de Dados Perdido

Para quem deseja saber um pouco mais sobre o lado B da profissão de Cientista de Dados (Data Scientist) que está em alta no mercado, este post do Brian Lee coloca um ponto de vista bem interessante.

Ele alega que esse buzz do mercado sobre esse tipo de profissional em grande parte do tempo pode esconder diversas limitações nesses profissionais e em suas práticas.

O Mito do Cientista de Dados Perdido

A NFL saindo da idade da pedra

Este post do Derrick Harris mostra que há uma tendência crescente de que os times de futebol americano da NFL estão cada vez mais contratando estatísticos, e que finalmente estão “tirando o atraso” em relação as outras ligas como a NBA ou a MLB.

Para quem assistiu o filme Moneyball e conhece os bastidores do futebol aqui no Brasil sabe que o processo de seleção dos times e remuneração de atletas é um tema espinhoso no qual sempre o “instinto” acaba prevalecendo sobre os aspectos técnicos e de custo e benefício.

Essa declaração abaixo da reportagem deixa o tema ainda mais interessante, no que diz respeito a seleção dos atletas no Draft:

As one anonymous source put it when discussing the difficulty of evaluating players before the NFL draft: “At the end of the day, the tape is going to be our first choice. They have to look good on film.”

His point and those of others with whom Battista spoke are fair. For example:

  • Offensive line play can be difficult to gauge because the line is a five-person unit designed to work well together, not as a collection of individuals.
  • How do you statistically assess a middle linebacker who doesn’t make a lot of tackles but who’s always in the mix and disrupting the offense?
  • When it comes to calling plays, there might be limited data on any given situation (e.g., a particular down and distance to go from a particular spot on the field), and the outcomes might be very much influenced by the players on the field in each of those prior situations.

Para quem deseja saber mais sobre a intersecção entre esportes e mineração de dados, basta consultar a resenha do livro Sports Data Mining que foi realizado aqui.

A NFL saindo da idade da pedra

Aprendizado de Máquina com Python – scikit-learn

Em uma das competições do Kaggle me chamou a atenção o crescimento de usuários que vem utilizando o scikit-learn como ferramenta de aprendizado de máquina.

A linguagem Python tem um grande diferencial que é a comunidade acadêmica por trás de seus desenvolvimentos e em sua comunidade. Muito legal e vale a pena para quem deseja conhecer um pouco mais sobre esse pacote.

Aprendizado de Máquina com Python – scikit-learn

3 formas de implementar um modelo preditvo

Neste post do Dean Abbott, ele coloca de uma maneira bem simples a sua forma de realizar a implementação de modelos preditivos que são: 1) certificar que o principal patrocinador do modelo tenha projetado a implementação do modelo desde o princípio do projeto, 2) certificar que o arquiteto de modelagem entenda o propósito do modelo, e por último 3) que os patrocinadores saibam que os modelos podem e o que não podem fazer.

3 formas de implementar um modelo preditvo

Dados Médicos Eletrônicos e a Evolução da Análise da Saúde

Nessa importante matéria do New York Times é apresentado um pequeno paralelo com a situação dos EUA em relação a análise de dados médicos eletrônicos (EHR Eletronic Health Records) no qual segundo a reportagem pode ser um diferencial para a melhoria do sistema de saúde como um todo, pois além de permitir análises históricas, também pode apresentar vantagens em relação aos métodos tradicionais de diagnósticos nos quais ainda são muito sobjetivos dentro da clínica médica.

Dados Médicos Eletrônicos e a Evolução da Análise da Saúde

Bases de Dados ARFF em BioInformática

Para quem deseja realizar estudos com dados relativos as atividades de BioInformática, esse repositório do BioInformatics Research possuí uma das mais completas bases de dados sobre o assunto.

Há bases de estudos sobre casos de câncer, mapeamento genético e uma gama de assuntos que sempre estão com os papers que deram origem aos estudos.

Bases de Dados ARFF em BioInformática

Dicas para construção de modelos vencedores

Os membros do Deep Data Mining Blog são conhecidos por participarem de diversas competições no Kaggle e de construirem modelos bem robustos para implementações em ambientes “reais”. E com esse background neste post e neste há uma série de dicas sobre como construir modelos vencedores.

Dicas para construção de modelos vencedores

PCA com Tanagra

Esse tutorial do Tanagra mostra de maneira bem didática a utilização da técnica PCA para redução da dimensionalidade. Pena que a base de teste tem poucas instâncias, mas a análise realizada está com uma qualidade bem satisfatória.

PCA com Tanagra