Cross-Validation, e a estimativa da estimativa

No ótimo post do blog do Andrew Gelman em que o título é “Cross-Validation != Magic” tem uma observação muito importante sobre a definição do Cross-Validation (Validação Cruzada) que é:

“2. Cross-validation is a funny thing. When people tune their models using cross-validation they sometimes think that because it’s an optimum that it’s the best. Two things I like to say, in an attempt to shake people out of this attitude:

(a) The cross-validation estimate is itself a statistic, i.e. it is a function of data, it has a standard error etc.

(b) We have a sample and we’re interested in a population. Cross-validation tells us what performs best on the sample, or maybe on the hold-out sample, but our goal is to use what works best on the population. A cross-validation estimate might have good statistical properties for the goal of prediction for the population, or maybe it won’t.

Just cos it’s “cross-validation,” that doesn’t necessarily make it a good estimate. An estimate is an estimate, and it can and should be evaluated based on its statistical properties. We can accept cross-validation as a useful heuristic for estimation (just as Bayes is another useful heuristic) without buying into it as necessarily best.

Cross-Validation é um assunto bem espinhoso quando se trata de amostragem e/ou estimação de modelos devido ao fato de que há diversas opiniões a favor e contra.

Conhecer as propriedades de cada método de amostragem e saber as suas propriedades matemáticas/estatísticas, vantagens e desvantagens e principalmente limitações é regra número 1 para qualquer data miner.

Particularmente, eu vejo o Cross-Validation como um método excelente quando se tem um universo de dados restrito (poucas instâncias treinamento), ou mesmo quando faço as validações com método normal de 80-10-10 de amostragem; mas isso é mais uma heurística de trabalho do que uma regra propriamente dita .

Cross-Validation, e a estimativa da estimativa

As piores práticas na implantação de um modelo de predição

Esse post do ZSL Services mostra em passos bem didáticos as piores práticas no momento da implantação de um modelo preditivo; os quais eles enumeram:

  1. Falta de foco específico no negócio;
  2. Ignorar os steps iniciais;
  3. Desperdício de tempo em avaliação de modelo ;
  4. Alto investimento em ferramentas que representam um Return Of Investment (Retorno do Investimento) ROI baixo ou nulo; e
  5. Falha na operacionalização.

Apesar de serem passos simples, os mesmos requerem muitos cuidados na análise; e em geral é por esses motivos principalmente que os projetos que lidam com predição de dados falham em sua maioria.

A metodologia CRISP-DM é excelente nesse aspecto, na qual ela não engessa o projeto; mas também faz esse equilíbrio entre essas práticas e a implantação do projeto.

PS: O post fez tanto sucesso que os autores escreveram outro com algumas recomendações. http://zslbiservices.wordpress.com/2012/07/27/worst-practices-while-deploying-a-predictive-model-contd/

As piores práticas na implantação de um modelo de predição

Overfitting e a Expansão Contínua do Modelo

Nesse post do Statistical Modeling, Causal Inference apresenta o conceito de Expansão Contínua; na qual para evitar o Overfitting do modelo ao invés de  realizar escolhas pela média do Cross-Validation, o autor prefere escolher um modelo dentro de uma determinada metodologia e realizar refinamentos sucessivos. É interessante esse conceito, e mostra que o minerador de dados deve ter métodos de se chegar a um resultado bom, mesmo que o modelo inicialmente não seja o ideal e realize a sua expansão de forma iterativa e incremental (como nas metodologias ágeis) seja com a seleção e inserção de novos atributos, ou novas formas de validação.

Overfitting e a Expansão Contínua do Modelo