Os perigos da segmentação racial na criação de modelos

Essa á uma nota mais pessoal do que um post propriamente dito, então relevem o âmbito personalista do que será escrito abaixo.

No blog Mathbabe,é apontada uma questão interessante sobre a reportagem da Gillian Tett no Financial Times sobre o fato de que a modelagem preditiva realizada pelo departamento de policia de Chicago dos EUA foi construída através de uma base de dados baseada onde as pessoas estiveram presas no passado.

Até aí nada de interessante, como em qualquer modelo de mineração de dados tem-se as etapas de Treinamento – Teste – Validação.

No entanto o problema é ético, o qual o aprendizado indutivo realizado pelos algoritmos levam a seguinte consideração ética:

“Se um modelo de aprendizado de máquina que realiza uma segmentação baseada em atributos raciais, mostra-se muito efetivo na questão de redução da criminalidade (em especial a taxa de homicídios), vale a pena defender este modelo em face dos potenciais benefícios? ”

A resposta é um sonoro NÃO!

Erros do Tipo I (mandar para a cadeia algum inocente) tem um peso muito maior do que um erro Tipo II (deixar a solta um ‘potencial’ homicida).

Mas a resposta da Cathy foi simplesmente sensacional, dado que a autora do post no FT é também é mulher:

“Se nós permitíssemos um modelo que fosse utilizado para admissão na universidade com dados em 1870, nós teríamos ainda 0.7% de mulheres indo para a universidade. Agradeça a Deus que nós não tínhamos um Big Data para isto”

Fica claro que a questão da modelagem preditiva ainda tem algumas ‘questões em aberto’ quando trata-se do assunto ética, no entanto deve-se ter um cuidado se variáveis que qualifiquem os registros (características religiosas e raciais por exemplo) pois esse tipo de incorporação de dados ao modelo podem trazer vieses de análise no minimo ruins.

Os perigos da segmentação racial na criação de modelos

O Erro sobre o Erro

Nassim Taleb sintetizou muito bem o erro sobre o erro e o porque de que devemos não levar tão a sério medidas de erro, principalmente na representação de modelos que mimetizam parte de uma realidade limitada.

An error rate can be measured. The measurement, in turn, will have an error rate. The measurement of the error rate will have an error rate. The measurement of the error rate will have an error rate. We can use the same argument by replacing “measurement” by “estimation” (say estimating the future value of an economic variable, the rainfall in Brazil, or the risk of a nuclear accident). What is called a regress argument by philosophers can be used to put some scrutiny on quantitative methods or risk and probability. The mere existence of such regress argument will lead to two different regimes, both leading to the necessity to raise the values of small probabilities, and one of them to the necessity to use power law distributions.

O Erro sobre o Erro

Teorema de que “Não há almoço grátis” na construção de modelos.

Um bom artigo do Eric Cai.

Porque sempre a representação de um modelo seguirá a fórmula abaixo:

Modelo = Realidade – Erro

Teorema de que “Não há almoço grátis” na construção de modelos.

Comparações de Modelos

Deep Data Mining Blog neste post aborda um tema interessante que é a comparação e escolha de modelos de classificação. No post os autores realizam comparações sobre alguns métodos de classificação e tomam uma tabela de Lift para comparação de performance.

Os resultados são bem claros: Apesar do método de Gradient Boost Tree ser o mais perfomático a nível de acurácia, o método de seleção do modelo deve levar em conta também a complexidade de realizar o Walk-Through em ambientes de produção.

Comparações de Modelos

O Paradoxo do Overfitting

No site do Dr. Bruce Ratner ele posta um artigo bem interessante sobre Overfitting.

Para quem já teve oportunidade de trabalhar com modelagem preditiva ou classificatória o Overfitting é quase que uma regra em muitos papers picaretas que saem em algumas revistas (em especial papers que realizam análise preditiva sobre indices de bolsas de valores).

Tratando-se de aprendizado de máquina o Overfitting tem algumas características interessantes como:

  1. Péssima amostragem;
  2. Desconhecimento do Cross-Validation;
  3. Holdout que não representa a variância natural dos dados; e
  4. Analistas querendo fazer Data Snooping.

Simples assim.

Veja abaixo um parágrafo relativo o Overfitting:

My Idiomatic Definition of Overfitting to Help Remember the Concept
A model is built to represent training data, not to reproduce training data. Otherwise, a visitor from validation data will not feel at home. The visitor encounters an uncomfortable fit in the model because s/he probabilistically does not look like a typical data-point from the training data. The misfit visitor takes a poor prediction. The model is overfitted.

O Paradoxo do Overfitting

FAQ sobre Aprendizado de Máquina, Data Mining e afins…

Este post do William Briggs mostra de maneira bem humorada a visão dele sobre Aprendizado de Máquina, Estatística, Análise de Risco, Data Mining e assuntos do tipo.

FAQ sobre Aprendizado de Máquina, Data Mining e afins…

Dicas para construção de modelos vencedores

Os membros do Deep Data Mining Blog são conhecidos por participarem de diversas competições no Kaggle e de construirem modelos bem robustos para implementações em ambientes “reais”. E com esse background neste post e neste há uma série de dicas sobre como construir modelos vencedores.

Dicas para construção de modelos vencedores