Abordagem Bayesiana na Mineração de Dados

Um exemplo real, diretamente sobre o programa do NSA de espionagem.

Anúncios
Abordagem Bayesiana na Mineração de Dados

Qualidade de Dados

No WK abaixo é apresentado um método para lidar com dados não-estruturados:

This paper addresses the repeated acquisition of labels for data items when the labeling is imperfect. We examine the improvement (or lack thereof) in data quality via repeated labeling, and focus especially on the improvement of training labels for supervised induction. With the outsourcing of small tasks becoming easier, for example via Rent-A-Coder or Amazon’s Mechanical Turk, it often is possible to obtain less-than-expert labeling at low cost. With low-cost labeling, preparing the unlabeled part of the data can become considerably more expensive than labeling. We present repeated-labeling strategies of increasing complexity, and show several main results. (i) Repeated-labeling can improve label quality and model quality, but not always. (ii) When labels are noisy, repeated labeling can be preferable to single labeling even in the traditional setting where labels are not particularly cheap. (iii) As soon as the cost of processing the unlabeled data is not free, even the simple strategy of labeling everything multiple times can give considerable advantage. (iv) Repeatedly labeling a carefully chosen set of points is generally preferable, and we present a robust technique that combines different notions of uncertainty to select data points for which quality should be improved. The bottom line: the results show clearly that when labeling is not perfect, selective acquisition of multiple labels is a strategy that data miners should have in their repertoire; for certain label-quality/cost regimes, the benefit is substantial.

Qualidade de Dados

Data Science e Predição

Um importante Working Paper da NYU que trata do assunto:

“The world’s data is growing more than 40% annually. Coupled with exponentially growing computing horsepower, this provides us with unprecedented basis for ‘learning’ useful things from the data through statistical induction without material human intervention and acting on them. Philosophers have long debated the merits and demerits of induction as a scientific method, the latter being that conclusions are not guaranteed to be certain and that multiple and numerous models can be conjured to explain the observed data. I propose that ‘big data’ brings a new and important perspective to these problems in that it greatly ameliorates historical concerns about induction, especially if our primary objective is prediction as opposed to causal model identification. Equally significantly, it propels us into an era of automated decision making, where computers will make the bulk of decisions because it is infeasible or more costly for humans to do so. In this paper, I describe how scale, integration and most importantly, prediction will be distinguishing hallmarks in this coming era of Data Science.’ In this brief monograph, I define this newly emerging field from business and research perspectives.”

Data Science e Predição

Flávio Barros – flaviobarros.net

Um ótimo site que está também na estrada da mineração de dados e análise de dados em geral é o do Flávio Barros. O site tem diversas postagens sobre mineração de dados em especial no R, e já conta com dois ótimos posts no R Bloggers (ANOVA and Tukey’s test on RCompiling R 3.0.1 with MKL support). Outro fato interessante é que o autor do site tem um background bem interessante quando falamos em análise de dados (Física;Engenharia) no qual podemos esperar posts com qualidade.

 

 

Flávio Barros – flaviobarros.net

Big “Marketing” Data

Não é somente o Stephen Few que faz a crítica do Big Data:

Vejam uma resposta de uma survey a respeito de Big Data:

“Big data projects are taking far too long, costing too much and not delivering on anticipated ROI because it’s really difficult to pinpoint and surgically extract critical insights without hiring expensive consultants or data scientists in short demand,”

Big “Marketing” Data

Estratégia para a construção de modelos preditivos

Neste post do Mirko Krivanek é apresentada uma estratégia para a construção de modelos preditivos bem interessante. Leitura obrigatória para quem deseja conhecer um pouco mais sobre modelos orientados a realização de previsões.

Estratégia para a construção de modelos preditivos

6 erros em modelos preditivos

Neste post do Data Science Central postado pela Caitlin Garrett aponta seis erros básicos na modelagem preditiva. Em geral são boas análises baseadas no que é conhecido como “rule of thumb“, algo como melhores práticas.

Em geral modelos preditivos apresentam muitos obstáculos, e minimizar aspectos que possam a vir colocar em risco esses modelos é de fundamental importância para o sucesso desse tipo de modelagem.

6 erros em modelos preditivos

Futebol Americano: Estatística e Análises com o Football Outsiders

Dentro do segmento esportivo tão importante quanto os aspectos táticos e técnicos envolvidos na prática esportiva, é o entendimento dos padrões e tendências por trás dos dados. Transformar esses dados em conhecimento para construção de estratégias nos dias de hoje com o aumento da competitividade esportiva já é um fator fundamental para definir quem vence e quem perde.

Com a proposta de prover análises estatísticas e o Football Outsiders sem sombra de dúvidas é o melhor site esportivo no segmento de análises ligadas ao futebol americano; que com algumas adaptações podem ser aplicadas ao nosso futebol (Soccer).

 

Futebol Americano: Estatística e Análises com o Football Outsiders

A Tirania das Médias

O William Briggs nos brinda com mais um “causo” sobre a tirania das médias.

It might be that the average man grieves (say) 8 months after the death of his wife (one of Coontz’s example), but that doesn’t mean that a man who stops crying at 2 months is heard-hearted, nor that a man who wears sackcloth for two years is insane.

Using just the average to define “normal” in people is dangerously close to the fallacy of defining moral truths by vote. Come to think of it, isn’t that what the Diagnostic and Statistical Manual of Mental Disorders does? Plus, even “extremes” might not be “abnormal” in the sense of undesirable or harmful; it all depends on the behavior and our understanding of biology and morality.

A Tirania das Médias

Análise Arquetípica de Dados

Esse e um post antigo do Engaging Market Research, no qual é apresentada a Análise Arquetípica de Dados; que é um estudo sobre bases de dados nas quais os clientes são segmentados de forma que suas características de caráter quantitativos e qualitativos sejam misturadas para fins de maximizar a similaridade intracluster, e possibilitar que esses grupos de clientes sejam, portanto, mais homogêneos.

Esses estudos aplicados ao Marketing e principalmente ao Customer Relationship Management (CRM) dão os responsáveis desses departamentos um raio X sobre as características de seus clientes, e consequentemente subsidiam as estratégias para retenção ou captação de novos clientes, de forma a não somente separar os clientes nos clusters; mas também provisionar uma estratégia de massa que tenha impacto em aspectos particulares desses clientes,  por exemplo campanhas de target-marketing dirigidas a preferências pessoais com alto potencial de RFM como preferência de time de preferência, experiências gastronômicas, entre outros.

 

Análise Arquetípica de Dados

Reverse Clustering

Este artigo trata de um tema bem interessante sobre Reverse Clustering, que apesar do apelo militar do exemplo, pode ser usado por exemplo em tratamento de segmentações as quais os grupos DEVEM ser tratados com distinção absoluta.

Reverse Clustering