Why Economics Needs Data Mining – Cosma Shalizi

Essa entrevista do professor Cosma Shalizi (Michigan University) é uma boa prova de uma das aplicações mais emergentes da mineração de dados que é no campo da economia.

A Economia é uma ciência social que tem uma ligação muito forte com as ciências exatas como a matemática e a estatística; e o ponto que o professor Cosma coloca em questão nessa entrevista é que há muitos modelos econômicos que lidam com variáveis dinâmicas, mas que não se comportam assim no momento de sua validação devido à sua complexidade e formas de adequação nem sempre adequadas tomadas pelos economistas, e ele propõe que seja utilizado o aprendizado de máquina e conceitos de estatísticas para melhor definição dos modelos econômicos.

Para quem desejar conhecer um pouco mais, esse é o link do seu programa de Mineração de Dados.

Why Economics Needs Data Mining – Cosma Shalizi

Big crime meets big data

Uma das aplicações que particularmente me chamam mais atenção em relação a Analytics e Mineração de Dados é a aplicação de métodos de aprendizado de máquina e análise para identificar padrões criminais, e com essa ferramenta ter algum tipo de possibilidade de predição e mapeamento para prevenção.

Marc Goodman é o fundador de uma empresa chamada Future Crimes que é uma empresa de análise de dados sobre eventos que envolvem aspectos relacionados à segurança; e nessa entrevista ele chama atenção de como os dados pessoais das pessoas e as redes sociais estão virando cada vez mais dados para combater as atividades criminosas das mais diversas naturezas.

Big crime meets big data

Unsupervised Feature Learning and Deep Learning

Para quem tem interesse em técnicas de mineração de dados utilizando aprendizado não supervisionado, esse é um ótimo site onde há alguns tutoriais sobre o assunto e algumas técnicas bastante interessantes com as representações matemáticas e com a apliação de cada tipo de algoritmo.

Unsupervised Feature Learning and Deep Learning

PMML – Predictive Model Markup Language

O PMML é um padrão de XML voltado para padronização de modelos de mineração de dados que funciona de forma independente de plataformas proprietárias. Essa linguagem é desenvolvida pelo Data Mining Group (DMG)  e através de uma uma comunidade ampla vem se estabelecendo como um padrão bastante aceito pelas plataformas proprietárias.

O projeto é bastante útil para que desejar estudar as técnicas de mineração, independente de plataforma pois o PMML há um corpo de conhecimento bastante amplo e tem uma série de recursos que pode ajudar desde os iniciantes até os mais experientes.

PMML – Predictive Model Markup Language

Visualização de Dados, e o efeito Placebo

Nos dias atuais há uma preocupação latente de todas as empresas em ter o diferencial competitivo (tá eu sei que isso é papo chato de livrinho de administração de faculdade, mas o clichê nesse caso é válido devido a exemplificação do ponto de vista) e sem sombra de dúvidas os dados da empresa são esse diferencial (Alguns falam que é o Marketing, mas é engraçado como o mesmo como instrumento de ampliação de vendas tem que se basear nos… Dados).

Dentro desse contexto, os vendedores de ferramentas de Business Intelligence fazem o possível em termos de marketing para disponibilizar mais ferramentas para simplificar as análises dos gestores, e CEOs ao longo de diversas companhias. Nada de errado nisso; entretanto, o mundo de gráficos, termômetros, Dashboards não só estão estancando a capacidade de análise dos gestores, como tem colocado em posições de decisão pessoas despreparadas para analisar esses dados devido à essa simplicidade que os Dahboards oferecem, pois esses mesmos dashboards não te dão a noção das métricas e de toda a complexidade que está reduzida naquele ícone.

Um bom site com esse tipo de discussão é do Stephen Few, vale a pena conferir.

Visualização de Dados, e o efeito Placebo

Mineração de Dados Públicos – Open Data Projects

Hoje com os eleitores tendo cada vez mais acesso à internet, bem como as iniciativas populares em prol de governos mais eficientes vem tornado os projetos de Open Data (Abertura de dados públicos) cada vez mais importantes na administração de uma cidade. Através desses dados, é possível cidadãos que detêm algum tipo de qualificação para análise desses dados levar ao seu vereador, deputado ou representante legislativo alternativas para os mais diversos problemas de sua cidade ou região utilizando dados que muitas das vezes é descartado pelos orgãos públicos.

Nesse link está uma iniciativa de agregação de dados relacionados a projetos de Open Data, e as cidades participantes nos EUA, Canadá e Europa.

Mineração de Dados Públicos – Open Data Projects

Mineração de Dados aplicada a dados Criminais

Apesar do ótimo trabalho de visualização de dados, o site do Diego Valle é sem dúvidas um ótimo exemplo de como a mineração de dados pode auxiliar na questão do trabalho de mapeamento e desenvolvimento de mancha criminal. Nesse caso ele utilizou os casos criminais do México. Ótimo trabalho.

Mineração de Dados aplicada a dados Criminais

Base para Mineração de Dados – Rafael Santos

Rafael Santos é um dos poucos pesquisadores sobre Mineração de Dados no Brasil e tem em seu site além de bons textos e materiais sobre mineração, um grande e bem completo repositório de dados em ARFF. Vale a pena conferir.

Base para Mineração de Dados – Rafael Santos

A Naïve Bayes Approach to Classifying Topics in Suicide Notes

Este paper bastante interessante sobre Text Mining (Mineração sobre bases textuais) trata de uma análise sobre cartas de suicídio e foi apresentado na I2B2 Challenge on Sentiment Classification.

O abstract traz informações relevantes sobre o método de trabalho e o resultado, porém; por mais doentio que possa parecer em um primeiro momento devido a morbidade do título; a iniciativa é amplamente válida para estudos relacionados a classificação e identificação de padrões de características que podem ajudar estudos psiquátricos, médicos, e até famacológicos na busca de atenuação desse tipo de comportamento humano.

A Naïve Bayes Approach to Classifying Topics in Suicide Notes

A Naïve Bayes Approach to Classifying Topics in Suicide Notes

Authors: Irena Spasic, Pete Burnap, Mark Greenwood and Michael Arribas-Ayllon
Publication Date: 30 Jan 2012
Journal: Biomedical Informatics Insights
Citation: Biomedical Informatics Insights 2012:5 (Suppl. 1) 87-97

Abstract
The authors present a system developed for the 2011 i2b2 Challenge on Sentiment Classification, whose aim was to automatically classify sentences in suicide notes using a scheme of 15 topics, mostly emotions. The system combines machine learning with a rule-based methodology. The features used to represent a problem were based on lexico–semantic properties of individual words in addition to regular expressions used to represent patterns of word usage across different topics. A naïve Bayes classifier was trained using the features extracted from the training data consisting of 600 manually annotated suicide notes. Classification was then performed using the naïve Bayes classifier as well as a set of pattern–matching rules. The classification performance was evaluated against a manually prepared gold standard consisting of 300 suicide notes, in which 1,091 out of a total of 2,037 sentences were associated with a total of 1,272 annotations. The competing systems were ranked using the micro-averaged F-measure as the primary evaluation metric. Our system achieved the F-measure of 53% (with 55% precision and 52% recall), which was significantly better than the average performance of 48.75% achieved by the 26 participating teams.

A Naïve Bayes Approach to Classifying Topics in Suicide Notes

Entrevista com o Autor de Nerds on Wall Street

Essa é uma entrevista de 2009 de com David Leinweber, autor de “Nerds on Wall Street; que é um livro que aponta alguns contrastes sobre a atividade de comercialização de ativos em Wall Street e a entrada cada vez maior de estatísticos, matemáticos, e cientistas da computação na atividade de Trading (compra e venda de ativos). O Autor na entrevista faz um paralelo com uma de suas passagens do livro no qual através das correlações matemáticas ele encontrou um padrão interessante que o índice da S&P 500 estaria diretamente vinculado à alguns índices de produção de manteiga em… Bangladesh. Essa crítica que o autor faz, em um primeiro momento pode parecer estúpida e descabida, e quando algum Data Miner  (esse que vos fala foi um deles) faz a leitura da crítica que o livro apresenta, logo pensa: “Que diabos ele está falando?”; mas ao longo do livro muito do que é proposto é extremamente válido e leva a uma reflexão sobre a máxima “Torturar os dados até que eles falem”. É uma boa pedida e o livro é recomendadissímo.

http://online.wsj.com/video/an-interview-with-nerds-on-wall-street-author/5062DA68-FCF6-42AC-AC62-AE6046BA40AC.html

http://s.wsj.net/media/swf/VideoPlayerMain.swf

Entrevista com o Autor de Nerds on Wall Street

Governmental Data Mining and its Alternatives

A Mineração de Dados no âmbito governamental tem se tornado uma preocupação bem recente na esfera acadêmica e judiciária. As implicações na aquisição, seleção, e privacidade sobre uma base de dados pública é de uma importância muito grande, e governos ao redor do mundo ainda não estão preparados para lidar com essas questões. Esse paper do pesquisador Tal Zarsky da University of Haifa – Faculty of Law apresenta um plano de trabalho bastante interessante sobre a utilização desses dados, para aplicação em diversas questões do quotidiano estatal como previsões, segurança, detecção de ameaças entre outros. Vale a pena a leitura.

Penn State Law Review, Vol. 116, No. 2, 2011

Abstract:

Governments face new and serious risks when striving to protect their citizens. Data mining has captured the imagination as a tool which can potentially close the intelligence gap constantly deepening between governments and their targets. The reaction to the data mining of personal information by governmental entities came to life in a flurry of reports, discussions, and academic papers. The general notion in these sources is that of fear and even awe. As this discourse unfolds, something is still missing. An important methodological step must be part of every one of these inquires mentioned above – the adequate consideration of alternatives. This article is devoted to bringing this step to the attention of academics and policymakers.

The article begins by explaining the term “data mining,” its unique traits, and the roles of humans and machines. It then maps out, with a very broad brush, the various concerns raised by these practices. Thereafter, it introduces four central alternative strategies to achieve the governmental objectives of security and law enforcement without engaging in extensive data mining and an additional strategy which applies some data mining while striving to minimize several concerns. The article sharpens the distinctions between the central alternatives to promote a full understanding of their advantages and shortcomings. Finally, the article briefly demonstrates how an analysis that takes alternative measures into account can be carried out in two contexts. First, it addresses a legal perspective, while considering the detriments of data mining and other alternatives as overreaching “searches.” Second, it tests the political process set in motion when contemplating these measures. This final analysis leads to an interesting conclusion: data mining (as opposed to other options) might indeed be disfavored by the public, but mandates the least scrutiny by courts. In addition, the majority’s aversion from the use of data mining might result from the fact that data mining refrains from shifting risk and costs to weaker groups.

Governmental Data Mining and its Alternatives

Governmental Data Mining and its Alternatives

Nuts and Bolts of Data Mining: Classifiers & ROC Curves

Esse artigo fala sobre a melhoria de técnicas de classificação com a detecção de Falsos-Positivos e a construção de melhoria de matrizes de classificação seja na detecção de fraudes e outras aplicações; e o autor ainda faz uma relação desses classificadores otimizando o modelo utilizando ROC (Receiver Operating Characteristc).

Nuts and Bolts of Data Mining: Classifiers & ROC Curves

OpenClassRoom – Machine Learning

Para quem deseja aprender um pouco mais sobre aprendizado de máquina, esse site é um excelente repositório de dados sobre o assunto, e o melhor que é grátis. O site é mantido pelo pesquisador Andrew Ng (Stanford), e tem como foco passar desde aspectos básicos da matemática como algebra linear, até representações mais avançadas como aprendizado utilizando Naive Bayes.

OpenClassRoom – Machine Learning

1010data Provides Big Data Analysis in the Cloud with the Trillion Row Spreadsheet

Uma ótima reportagem sobre a Ten-Ten Data, na qual há algumas explicações sobre o conceito de SaaS (Software as a Service) aplicado a área de análise de dados com todos os dados na nuvem. O principal mote do marketing é que a 1010Data pode prover até 1 trilhão de linhas na nuvem. É um modelo de negócios interessante para os dias atuais.

1010data Provides Big Data Analysis in the Cloud with the Trillion Row Spreadsheet

Spacial Data Mining in Precision Agriculture

Esse site do pesquisador Georg Ruß é um amplo repositório de dados e pesquisas interessantes sobre utilização de técnicas de agrupamento sobre a atividade de agricultura, e como essas aplicações podem ser úteis na resolução do aproveitamento do espaço no campo, seja na melhoria da produtividade so setor agricola; bem como a manutenção do equilíbrio dentro do aspecto ambiental/ecológico.

Segue abaixo o resumo da tese de doutorado chamada Spatial Data Mining in Precision Agriculture:

Technological advances are nowadays often based on improvements in information and data processing capabilities. Even modern agriculture is to a large extent based on adequate data processing, since the usage of novel information devices, GPS-based georeferenced data collection and high-resolution spatial data sets have become standard modes of operation,
turning the once uniform site management into site-specific management as one of the most important sub-fields in precision agriculture. On the one hand, the resulting data sets clearly provide the foundations for economic and ecologic improvements. On the other hand, these data sets pose novel challenges for spatial data mining. Two specific tasks are explored in this study: spatial variable importance and management zone delineation.

The foundations of this thesis are data originating in site-specific management operations. They typically include electrical conductivity readings, fertilizer applications, soil sampling results, vegetation indicators and yield measurements. These variables are georeferenced, i.e. for a particular point of the site under study the variables and their values are known at a certain spatial resolution. These spatial data sets are furthermore augmented with digital elevation models from which terrain attributes such as slope, wetness index and curvatures are derived.

The first of the tasks is concerned with yield prediction and based on an existing dissertation in this area. Yield prediction is handled as a multivariate regression task using spatial data sets. However, taking the spatial relationships of the data sets into account requires some changes in the standard cross-validation to make it aware of spatial relationships in the data sets. Based on this addition, the question can be answered which of a variety of regression models are best suited for yield prediction. Eventually the regression models help to estimate which of the variables are important for yield prediction using permutation-based variable importance measures.

The second task is concerned with management zone delineation. Based on a literature review of existing approaches, a lack of exploratory algorithms for this task is concluded, in both the precision agriculture and the computer science domains. Hence, a novel algorithm (HACC-spatial) is developed, fulfilling the requirements posed in the literature. It is based on hierarchical agglomerative clustering incorporating a spatial constraint. The spatial contiguity of the management zones is the key parameter in this approach. Furthermore, hierarchical clustering offers a simple and appealing way to explore the data sets under study, which is one of the main goals of data mining.

O autor ainda mantém um grupo de pesquisas com diversos trabalhos sobre regressão, agrupamento, e demais técnicas.

Spacial Data Mining in Precision Agriculture