Escolha de Variáveis

Um dos maiores desafios na construção de modelos de classificação e de modelos preditivos é saber escolher as variáveis corretas para inclusão no modelo.

Como foi falado aqui em inúmeras vezes, antes de cometer o erro clássico de escalar hardware e software antes de analisar os dados, mesmo que superficialmente; veja se as variáveis do modelo estão adequadas.

Neste excelente vídeo de um webnar da Salford Systems sobre importância das variáveis usando CART isso é explicado de maneira bem simples.

O Dan Steinberg neste vídeo fala da importância de se saber importância das variáveis no modelo, no qual não somente essas variáveis vão dar o aspecto de compreensão relativa a qual o espectro de dados são pertinentes para as tarefas do algoritmo; como também, entender essa importância pode dar subsídio para outras análises que por ventura venham a eliminar a fragilidade do modelo.

Um dos aspectos levantados foi que antigamente para levantamento da importância dessas variáveis eram usados técnicas de regressão as quais de acordo os respectivos coeficientes regressores  eram utilizados como maneira de ranquear as variáveis.

Contudo, com as técnicas mais modernas de análise de dados, e em especial com novos algoritmos, e a necessidade de modelos que além de terem um alto poder de classificação e predição devem ser compreensíveis, conhecer a importância de cada uma das variáveis ajuda entender o grau de especificidade do modelo.

Em outras palavras, essa atividade auxilia no entendimento do papel – ou força – de cada uma das variáveis no modelo.

Uma heurística interessante que foi explicada no vídeo é conhecida como Leave-One-Variable-Out (LOVO).

A técnica de LOVO consiste em retirar sistematicamente uma variável por vez do modelo, e após isso o modelo preditivo é gerado sem essa variável e de acordo com a variância, isto é, a degradação dos resultados, esse processo auxilia em medir o quanto o modelo perde se aquela variável sair.

Essa heurística é extremamente válida em casos em que se trabalha com heurísticas como Redes Neurais Artificiais, no qual muitas vezes mesmo com alterações em parâmetros de arquitetura (Hidden Layers, Neurônios de Entrada, Neurônios de Saída, Momentum, Taxa de Aprendizado, etc) não há uma visão tão nítida da influência da variável na convergência do modelo.

Escolha de Variáveis

Variáveis, Granularidade e Data Model

No momento do levantamento do Data Model é importante ter em mente quais variáveis devem ser utilizadas, e principalmente qual a sua relevância para as análises que serão realizadas, seja em um DW ou mesmo quando se extraí dados de um OLTP.

Esse post do Dean Abbott é bastante interessante para avaliar quais variáveis que devem ser mapeadas para a análise em mineração de dados e a sua importância.

O Data Model é um passo quase que crucial para determinar se haverá uma boa Análise/DW ou não. Simples assim.

Quem trabalha com arquitetura de DW e ou análise de dados em mineração de dados sabe a importância disso, tanto que não é por acaso que o Bill Innon dedica quase um compêndio inteiro de informações no seu livro Building the Data Warehouse sobre granularidade e a sua importância; e mostra os dois lados que são a) que a falta de uma boa granularidade pode matar a análise e tornar o seu DW uma favelinha (com criação de tabelas auxiliares, coluninhas inofensivas, entre outros) ou b) mesmo tornar o DW um monstro sedento por dados que nunca serão acessados, e gerando transtornos em processamento, e performance de consulta em geral.

Variáveis, Granularidade e Data Model