O Paradoxo do Overfitting

No site do Dr. Bruce Ratner ele posta um artigo bem interessante sobre Overfitting.

Para quem já teve oportunidade de trabalhar com modelagem preditiva ou classificatória o Overfitting é quase que uma regra em muitos papers picaretas que saem em algumas revistas (em especial papers que realizam análise preditiva sobre indices de bolsas de valores).

Tratando-se de aprendizado de máquina o Overfitting tem algumas características interessantes como:

  1. Péssima amostragem;
  2. Desconhecimento do Cross-Validation;
  3. Holdout que não representa a variância natural dos dados; e
  4. Analistas querendo fazer Data Snooping.

Simples assim.

Veja abaixo um parágrafo relativo o Overfitting:

My Idiomatic Definition of Overfitting to Help Remember the Concept
A model is built to represent training data, not to reproduce training data. Otherwise, a visitor from validation data will not feel at home. The visitor encounters an uncomfortable fit in the model because s/he probabilistically does not look like a typical data-point from the training data. The misfit visitor takes a poor prediction. The model is overfitted.

O Paradoxo do Overfitting

2 comentários sobre “O Paradoxo do Overfitting

Deixe o seu comentário inteligente e educado! :o)

Preencha os seus dados abaixo ou clique em um ícone para log in:

Logotipo do WordPress.com

Você está comentando utilizando sua conta WordPress.com. Sair / Alterar )

Imagem do Twitter

Você está comentando utilizando sua conta Twitter. Sair / Alterar )

Foto do Facebook

Você está comentando utilizando sua conta Facebook. Sair / Alterar )

Foto do Google+

Você está comentando utilizando sua conta Google+. Sair / Alterar )

Conectando a %s