Tag Archives: Previsão

Nate Silver, a Mineração de Dados e Modelos Preditivos: E porque você deveria olhar os seus dados?

As 9:37hs do dia 7 Novembro cerca de 90% dos estados já estão com os votos computados; e o Presidente Barack Hussein Obama foi reeleito; e dentro da esfera da análise de dados o grande nome dessa eleição se chama Nate Silver.

Para quem não sabe; Nate Silver é o autor do livro The Signal and the Noise: Why So Many Predictions Fail-but Some Don’t (O Sinal e o Ruído: Porque muitas previsões falham, mas algumas não. Tradução do Autor); no qual em linhas gerais coloca em perspectiva a causa da falha de muitos modelos de predição, onde o autor coloca que aspectos conjunturais são mais importantes do que tendências baseadas em critérios mais técnicos. Particularmente o livro apresenta muitos Rules of Thumb (regras de aplicação geral sem nenhum tipo de explicação exata de fato); mas a idéias do blog do Nate são muito mais consistentes e tem um grau de profundidade maior que o livro; mas isso é outro assunto.

O ponto principal é o que ninguém (fora do campo de análise de dados) conseguiu responder: É como um geek da área de análise de dados (um estatśitico de ofício e blogueiro (como diria o João Manoel Mello))  conseguiu acertar previsões das eleições em TODOS OS ESTADOS? E o mais importante: Como todo o establishment televisivo, acadêmico e político com analistas políticos, cientistas políticos, comentaristas (palpiteiros profissionais como diria Olavo de Carvalho) não conseguiram sequer realizarem projeções com eficácia mínima; chegando ao ponto dos apresentadores do Manhattan Connection (que é um ótimo programa por sinal) parecerem patetas com palpites que mudavam a cada 15 minutos, ao invés de analisarem aquilo que estava evidente para todos que era a conjectura política-econômica e os dados que foi exatamente que o Nate Silver viu e apresentou um resultado bastante consistente baseado nestes dois aspectos.

State by State Probabilities
State by State Probabilities
State By State Results
State By State Results

Dentro desse cenário fica mais que provado que para quem trabalha com análises preditivas deve ser consideradas as seguintes regras de ouro: 1)Olhe os dados; 2) Olhe os dados novamente; 3)Assim que terminar o passo Nr 2 olhe os dados novamente; 4) Considere a conjectura que envolve os dados que você está olhando; 5) Considere as ferramentas que tem disponível e extraia o máximo de conhecimento dos dados; 6) Faça uma análise analítica dos dados; e por final 7) Faça a junção das análises analíticas com as conjecturas e você terá um modelo preditivo.

Etiquetado , , , , , , , ,

Predição e Mineração de Dados

Neste post o Sandro Saitta inicia uma ótima série sobre modelos de predição. Uma ótima série para quem deseja iniciar estudos relativos à modelos de predição em mineração de dados.

Etiquetado , ,

A Naïve Bayes Approach to Classifying Topics in Suicide Notes

Este paper bastante interessante sobre Text Mining (Mineração sobre bases textuais) trata de uma análise sobre cartas de suicídio e foi apresentado na I2B2 Challenge on Sentiment Classification.

O abstract traz informações relevantes sobre o método de trabalho e o resultado, porém; por mais doentio que possa parecer em um primeiro momento devido a morbidade do título; a iniciativa é amplamente válida para estudos relacionados a classificação e identificação de padrões de características que podem ajudar estudos psiquátricos, médicos, e até famacológicos na busca de atenuação desse tipo de comportamento humano.

A Naïve Bayes Approach to Classifying Topics in Suicide Notes

A Naïve Bayes Approach to Classifying Topics in Suicide Notes

Authors: Irena Spasic, Pete Burnap, Mark Greenwood and Michael Arribas-Ayllon
Publication Date: 30 Jan 2012
Journal: Biomedical Informatics Insights
Citation: Biomedical Informatics Insights 2012:5 (Suppl. 1) 87-97

Abstract
The authors present a system developed for the 2011 i2b2 Challenge on Sentiment Classification, whose aim was to automatically classify sentences in suicide notes using a scheme of 15 topics, mostly emotions. The system combines machine learning with a rule-based methodology. The features used to represent a problem were based on lexico–semantic properties of individual words in addition to regular expressions used to represent patterns of word usage across different topics. A naïve Bayes classifier was trained using the features extracted from the training data consisting of 600 manually annotated suicide notes. Classification was then performed using the naïve Bayes classifier as well as a set of pattern–matching rules. The classification performance was evaluated against a manually prepared gold standard consisting of 300 suicide notes, in which 1,091 out of a total of 2,037 sentences were associated with a total of 1,272 annotations. The competing systems were ranked using the micro-averaged F-measure as the primary evaluation metric. Our system achieved the F-measure of 53% (with 55% precision and 52% recall), which was significantly better than the average performance of 48.75% achieved by the 26 participating teams.

Etiquetado , , , , , , , , ,

Governmental Data Mining and its Alternatives

A Mineração de Dados no âmbito governamental tem se tornado uma preocupação bem recente na esfera acadêmica e judiciária. As implicações na aquisição, seleção, e privacidade sobre uma base de dados pública é de uma importância muito grande, e governos ao redor do mundo ainda não estão preparados para lidar com essas questões. Esse paper do pesquisador Tal Zarsky da University of Haifa – Faculty of Law apresenta um plano de trabalho bastante interessante sobre a utilização desses dados, para aplicação em diversas questões do quotidiano estatal como previsões, segurança, detecção de ameaças entre outros. Vale a pena a leitura.

Penn State Law Review, Vol. 116, No. 2, 2011

Abstract:

Governments face new and serious risks when striving to protect their citizens. Data mining has captured the imagination as a tool which can potentially close the intelligence gap constantly deepening between governments and their targets. The reaction to the data mining of personal information by governmental entities came to life in a flurry of reports, discussions, and academic papers. The general notion in these sources is that of fear and even awe. As this discourse unfolds, something is still missing. An important methodological step must be part of every one of these inquires mentioned above – the adequate consideration of alternatives. This article is devoted to bringing this step to the attention of academics and policymakers.

The article begins by explaining the term “data mining,” its unique traits, and the roles of humans and machines. It then maps out, with a very broad brush, the various concerns raised by these practices. Thereafter, it introduces four central alternative strategies to achieve the governmental objectives of security and law enforcement without engaging in extensive data mining and an additional strategy which applies some data mining while striving to minimize several concerns. The article sharpens the distinctions between the central alternatives to promote a full understanding of their advantages and shortcomings. Finally, the article briefly demonstrates how an analysis that takes alternative measures into account can be carried out in two contexts. First, it addresses a legal perspective, while considering the detriments of data mining and other alternatives as overreaching “searches.” Second, it tests the political process set in motion when contemplating these measures. This final analysis leads to an interesting conclusion: data mining (as opposed to other options) might indeed be disfavored by the public, but mandates the least scrutiny by courts. In addition, the majority’s aversion from the use of data mining might result from the fact that data mining refrains from shifting risk and costs to weaker groups.

Governmental Data Mining and its Alternatives

Etiquetado , , , , , ,
%d blogueiros gostam disto: