Lições da competição Kaggle inClass

Muito já foi falado do Kaggle aqui, mas um aspecto que eu acho extremamente positivo neste site de competições em aprendizado de máquina é que sempre há algumas formas bem criativas de resolução de problemas ligados à predição e de modelos classificadores.

Neste post do No Free Hunch um time vencedor postou alguns de seus métodos, e a lição principal que fica é a mesma que o Frank Harrell fala em seu excelente livro  que é de sempre olhar os dados.

A seguir alguns pontos fortes da entrevista sobre os métodos utilizados.

Sobre os métodos de processamento inicial dos dados

[…]From the very beginning, our top priority was to develop useful features. Knowing that we would learn more powerful statistical learning methods as our Stanford course progressed, we made sure that we had the features ready so we would be able apply various models to them quickly and easily. […]

[…]When we later applied the boosted decision trees model, we derived additional predictors that expressed the variance in the number of subscriptions bought – theorizing that the decision tree would be more easily able to separate “stable” accounts from “unstable” ones.

We created 277 features in the end, which we applied in different combinations. Surprisingly, our final model used only 18 of them.[…]

Sobre os métodos de aprendizado supervisionado utilizados

[…]Most importantly – and from the very beginning – we used 10-fold cross validation error as the metric to compare different learning methods and for optimization within models.

We started with multiple linear regression models. These simple models helped us become familiar with the data while we concentrated our initial efforts on preparing features for later use.[…]

Sobre o que foi utilizado como técnica

[…]We didn’t have much luck with SVM, BART and KNN. Perhaps we did not put enough effort into that, but since we already had very good results from using boosted trees, the bar was already quite high. Our biggest effort soon turned to tuning the boosted regression tree model parameters.

Using cross validation error, we tuned the following parameters: number of trees, bagfrac, shrinkage, and depth. We then tuned the minobinsnode parameter – we saw significant improvements when adjusting the parameter downwards from its default setting.

Our tuning process was both manual and automated. We wrote R scripts that randomly changed the parameters and set of predictors as then computed the 10-fold cross-validation error on each permutation. But these scripts were usually used only as a guide for approaches that we then further investigated manually. We used this as a kind of modified forward selection process.[…]

Lições da competição Kaggle inClass

Aprendizado de Máquina não é uma competição do Kaggle

Neste post da Julia Evans ela faz um paralelo entre um trabalho real de aprendizado de máquina que envolve conceitualização do projeto, escolha de métricas de desempenho, e alguns aspectos de pré-processamento de dados que são responsáveis pelos 80% do trabalho em análise de dados/aprendizado de máquina; com as competições do Kaggle que muitas vezes os competidores apenas escolhem uma técnica, fazem Cross-Validation e o problema está resolvido.

Aprendizado de Máquina não é uma competição do Kaggle

O Parque de Diversões

Essa semana foi lançado no Kaggle uma modalidade de competição denominada Playground, ou algo como parque de diversões. Esse tipo de competição ao invés de ter o foco em uma resolução específica, têm uma abordagem muito mais voltada à extração de informações previamente desconhecidas das bases de dados.

Geralmente em ambientes de análise de dados não há demandas para abordagens semelhantes, devido não somente pressões para resultados como também um determinado ‘engessamento’ dos setores estratégicos.

Ambientes de sucesso em mineração de dados não são aqueles que procuram uma agulha no palheiro (isto é, torturando os dados, overfitting, padrões espúrios) mas sim aqueles que ‘brincam’ no palheiro até sentirem uma ‘picada’ (isto é, analisando os padrões, tendências, e regras).

 

O Parque de Diversões

Dicas para construção de modelos vencedores

Os membros do Deep Data Mining Blog são conhecidos por participarem de diversas competições no Kaggle e de construirem modelos bem robustos para implementações em ambientes “reais”. E com esse background neste post e neste há uma série de dicas sobre como construir modelos vencedores.

Dicas para construção de modelos vencedores

Data Scientist do Kaggle afirma: Conhecimento de especialistas é inútil

É um tópico polêmico, pois sem os especialistas de domínio a abordagem Black-box reina, e esse é o pior dos mundos para quem toma decisões baseadas em dados.

Data Scientist do Kaggle afirma: Conhecimento de especialistas é inútil

Kaggle e a prospecção de talentos em análise de dados

Esse artigo do New York Times apresenta uma reportagem bem interessante sobre a prospecção de talentos em análise de dados, e como as competições de mineração de dados no Kaggle está ajudando as empresas a crescerem sem ao menos ter um setor de mineração de dados ativo.

Kaggle e a prospecção de talentos em análise de dados

Acadêmicos deveriam considerar os desafios do Kaggle válidos para pesquisas

A algum tempo atrás foi realizada uma postagem neste espaço sobre o Kaggle o qual é um site no qual empresas terceirizam a sua análise de dados, através de competições que podem ser remuneradas ou não.

Neste post há uma boa provocação no sentido de porque os acadêmicos não consideram os desafios do Kaggle como válidos para pesquisas; em especial os famosos Data Scientists da web.

Em especial, e aqui é um mea culpa com uma crítica coletiva; é muito bom de ver diversos livros de mineração de dados em português, e até mesmo a popularização do ensino; entretanto, seria muito válido que os profesores e demais acadêmicos de mineração de dados que tanto escrevem artigos e livros (que só o webmaster desse site e mais duas dúzias de alunos fazem questão de ler) se submetessem com o seu background para esse tipo de disputa; o que colocaria não são em perspectiva a teoria como a prática.

Acadêmicos deveriam considerar os desafios do Kaggle válidos para pesquisas

Kaggle – Outsourcing de Análise de Dados

Imagine o seguinte cenário

Uma empresa tem uma montanha de dados em csv, txt ou outros formatos; e tem um problema em analisar esses dados e precisa de algumas respostas, que podem vir desses dados que em tese estão subutilizados. Mas como extrair informações e conhecímento de uma base de dados, sem ter que montar uma estrutura de Mineração de Dados com projetos, pessoal e infraestrutura?

Nesse contexto é que entra o Kaggle que é uma suíte no qual as empresas colocam os seus dados, e o seu problema e através de competições premia quem tiver o melhor modelo descritivo ou preditivo; e em troca do modelo para a empresa o vencedor ganha uma determinada quantia em dinheiro.

É um ramo promissor, aos moldes do que já está em curso aqui no Brasil com a Batalha dos Conceitos.

Kaggle – Outsourcing de Análise de Dados