Rápido e Devagar: As duas formas de pensar

Pode parecer até Off-topic, mas esse excelente livro do Daniel Kahneman mostra que mesmo com todos os dados disponíveis para a tomada de decisão, o aspecto humano (Sistema 2 [1]) é o fiel da balança na tomada de decisões tendenciosas e errôneas.

É uma leitura não-técnica, que aplicada à área de mineração de dados prova que o homem ainda é o principal aspecto decisivo, mesmo que ele tenha a sua disposição os dados corretos que qualquer algoritmo possa gerar.

Notas
[1] – Definição do livro para a parte da nossa mente que pensa devagar, e que é responsável pela racionalidade.

Anúncios
Rápido e Devagar: As duas formas de pensar

Porque Não-Espionar os Dados

Neste post do Análise Real (lido no dia, mas só revisado hoje) há uma interessante discussão relativa a ‘fitagem’ de modelos e relacionamento e consistência dos resultados. O melhor trecho sem dúvida é a seguinte passagem:

“[…]Qualquer um que seja péssimo em tiro ao alvo pode “melhorar” seu resultado. Basta permitir que se atire antes e em seguida o alvo seja desenhado da maneira que lhe parecer mais favorável.  Perceba que a “evidência” resultante concordará com a hipótese que você quer provar. Entretanto, ela não é nem um pouco severa, pois, mesmo se você não fosse um bom atirador, você poderia ter obtido o mesmo resultado. Sendo incapaz de discriminar entre um caso e outro, na verdade este “teste” – em sua forma bruta – não poderia se considerado evidência genuína de sua habilidade.

Na analogia, os tiros são os “dados” e o desenho o “modelo” ou “hipótese”. Se você fizer seu modelo, ou formular sua hipótese, utilizando as peculiaridades dos dados – e não levar em conta este fato na sua inferência – você pode estar simplesmente desenhando um alvo ao redor dos tiros.
[…]”

Vale a pena a leitura, e as referências.

Porque Não-Espionar os Dados

A Tirania dos Algoritmos

Neste artigo do Evgeny Morozov o qual ele faz um review do livro Automate This do Christopher Steiner, ele coloca um contraponto bem inteligente sobre como os algoritmos aplicados, principalmente a área de finanças vem despertando o fascínio em muitas pessoas; mas também pode ser o principal fator de um prejuízo astronômico como no caso da Knight Capital [1].

Esse post do Junk Charts dá uma posição bem interessante sobre essa crítica:

[…] Almost all such algorithms are inaccurate. They are inaccurate for many reasons, the most important of which is that human behavior is fickle. The inaccuracy could be shockingly high. Take an algorithm that tries to predict what banner ad you would click on. It would not be surprising that the algorithm will direct a million ads to be displayed, and only 30 clicks would be obtained. This outcome will be extremely exciting to the person who designed the algorithm because without the algorithm, there would only be 10 clicks. So the algorithm tripled the click rate. That’s the glass-half-full view that is out there. The glass-half-empty view is that close to a million wrong decisions are ignored while we celebrate 20 right ones.[…]

Notas
[1] –  Esse vídeo deveria ser apresentado de forma obrigatória em qualquer curso de computação.

A Tirania dos Algoritmos

Viés e Tortura de Dados

Esse post do Flavio Comim no Lies, Big Lies, and Statistics mostra que o viés do fator humano   é algo fascinante; ele mostra uma questão bem interessante: Como o governo define uma clásse média, sem considerar o custo de vida médio?

A resposta é: Torture os dados, e eleve a média desconsiderando a variável mais importante do estudo.

Viés e Tortura de Dados

Análise de Concordância – Métrica de Kappa

Para quem utiliza o WEKA no momento em que vemos a tela relacionada ao desempenho dos classificadores já se deparou com uma métrica bem interessante, e que quase ninguém conhece que é a Kappa Statistics (Estatística de Kappa).

Segundo a definição da Faculdade de Medicina do Porto:

A Estatística K é uma medida de concordância usada em escalas nominais que nos fornece uma ideia do quanto as observações se afastam daquelas esperadas, fruto do acaso, indicando-nos assim o quão legítimas as interpretações são.

Em linhas gerais a Estatística de Kappa é uma métrica que avalia o nível de concordância de uma tarefa classificação, na qual através de diferentes técnicas faz-se uma métrica na qual irá considerar somente as concordâncias entre os classificadores, o que indica que aqueles dados classificados tem uma dada coesão.

Em uma aula no Aprenda Virtual do Prof. Grimaldo do BI Vatapá, uma das mais importantes lições em relação as tarefas de classificação é que tão importante quando o número de instâncias corretamente classificadas é a estatística de Kappa a qual indica o quão concordante (e também coeso) aquele dado está classificado dentro da tarefa de classificação.

Uma escala é fornecida á título de parâmetro para indicar se os dados estão concordantes dentro das tarefas de classificação.

Em linhas gerais a Estatística de Kappa é uma métrica que avalia o nível de concordância de uma tarefa classificação, na qual através de diferentes técnicas faz-se uma métrica na qual irá considerar somente as concordâncias entre os classificadores, o que indica que aqueles dados classificados tem uma dada coesão.

Fontes:

 

 

 

 

Análise de Concordância – Métrica de Kappa

Estudo Comparativo entre SVM em Bases de Dados com Alta Dimensionalidade

Estudo Comparativo entre SVM em Bases de Dados com Alta Dimensionalidade

Base de Dados Mundial sobre Terrorismo

O Global Terrorism Database (GTD) é uma base de dados Open-Source que reuni eventos de terrorismo ao redor do mundo em suas modalidades mais puras como sequestros, assassinatos, ataques a instituições. Essencial para quem quer desenvolver trabalhos ou estudos sobre estes tipos de eventos ou mesmo encontrar algumas correlações interessantes.

Base de Dados Mundial sobre Terrorismo

Comparação das técnicas de aprendizado de máquina para previsão de sobrevivência em Câncer de Mama

Um ótimo estudo do BioDataMining que poderia ser reproduzido aqui em terra brasilis. Uma crítica que eu vejo nesse trabalho foi que a seleção de atributos como diria o Daniel Larose foi um pouco black-box e particularmente a abordagem em Algoritmos Genéticos não deve ser tão performática em relação a SVM (o ponto dos autores é que os dados tinha uma dimensionalidade razoável).

A comparison of machine learning techniques for survival prediction in breast cancer

Comparação das técnicas de aprendizado de máquina para previsão de sobrevivência em Câncer de Mama

BioDatamining Site

Recomendado sem nenhum tipo de restrição.

BioDatamining Site

Agrupamento é difícil quando não importa

Esse paper engloba bem os aspectos de como são desenvolvidas métricas para avaliar se um cluster é bom em termos de agrupamento ou não; mas a proposta matemática apresentada está longe de ser trivial.

Clustering is difficult only when it does not matter

Agrupamento é difícil quando não importa

Estudo comparativo entre algoritmos de Análise de Agrupamentos em Data Mining – Fernando Prass

Um dos meus referenciais sobre os estudos em Mineração de Dados foram os trabalhos no blog do Msc. Fernando Prass, no qual ele reuniu dois atributos importantissímos para explicação de uma técnica tão importante 1) simplicidade na abordagem e 2) ausência de ‘lugares comuns’ na abordagem de literatura.

Nessa dissertação de mestrado ele aborda os aspectos comparativos entre os mais diversos algorítmos de agrupamento; e recomendo fortemente a leitura para quem deseja pesquisar mais a fundo essa ramificação da mineração de dados.

Estudo comparativo entre algoritmos de Análise de Agrupamentos em Data Mining – Fernando Prass

Site do Dr. Paulo José Ogliari – Data Mining

Por recomendação do ótimo blog do Fernando Prass segue a recomendação do ótimo site do Dr. Paulo José Ogliari que tem uma série de ótimos materiais para quem deseja aprender um pouco mais sobre Mineração de Dados.

Site do Dr. Paulo José Ogliari – Data Mining

Tempo em Projeto Modelagem de Mineração de Dados

Alguns bons insights Will Dwinnell neste post.

Em se tratando de projetos de modelagem/análise exploratória de dados, vale a pena aplicar parte do que foi colocado no post; até porque em muitas das vezes os padrões por trás dos dados não serão triviais, e virão muito provavelmente em forma de nuggets.

 

 

Tempo em Projeto Modelagem de Mineração de Dados

Aprendizado de Máquina no Projeto Genoma

O consórcio ENCODE (acrônimo para Encyclopedia Of DNA Elements) foi iniciado em 2003 e tem como missão realizar pesquisas sobre o sequênciamento do genoma humano. Essa página contém informações relevantes sobre o que é chamada a fase tecnológica do projeto na qual há integração de tecnologias, e neste caso, o aprendizado de máquina. Para quem deseja conhecer um pouco mais as aplicações de aprendizado de máquina em domínios relacionados a biomedicina essa página é uma ótima referência.

Aprendizado de Máquina no Projeto Genoma

Checagem e Entendimento do Modelo em Aprendizado de Máquina

Uma ótima discussão sobre a diferenciação entre a abordagem estatística e de aprendizado de máquina em relação ao entendimento/checagem do modelo. Para muitos a abordagem estatística está mais ligada ao entendimento do problema; e em contrapartida a abordagem de aprendizado de máquina tem como objetivo a resolução de problemas. Os trade-offs são que na abordagem estatística os métodos são de difíceis aplicação em um primeiro momento; e em aprendizado de máquina os métodos para resolução de determinados problemas não são tão flexíveis para aplicação em problemas de fiferentes natureza daqueles resolvidos.

Esse post do Matt Bogardé um clássico a respeito dessas diferenciações. Este paper do L. Breiman é mais claro a respeito dessa distinção. Statistical Modeling The Two Cultures.

Checagem e Entendimento do Modelo em Aprendizado de Máquina