AstroML

Para quem desejar realizer analyses de dados espaciais com Python é uma ótima pedida.

Anúncios
AstroML

O Paradoxo do Overfitting

No site do Dr. Bruce Ratner ele posta um artigo bem interessante sobre Overfitting.

Para quem já teve oportunidade de trabalhar com modelagem preditiva ou classificatória o Overfitting é quase que uma regra em muitos papers picaretas que saem em algumas revistas (em especial papers que realizam análise preditiva sobre indices de bolsas de valores).

Tratando-se de aprendizado de máquina o Overfitting tem algumas características interessantes como:

  1. Péssima amostragem;
  2. Desconhecimento do Cross-Validation;
  3. Holdout que não representa a variância natural dos dados; e
  4. Analistas querendo fazer Data Snooping.

Simples assim.

Veja abaixo um parágrafo relativo o Overfitting:

My Idiomatic Definition of Overfitting to Help Remember the Concept
A model is built to represent training data, not to reproduce training data. Otherwise, a visitor from validation data will not feel at home. The visitor encounters an uncomfortable fit in the model because s/he probabilistically does not look like a typical data-point from the training data. The misfit visitor takes a poor prediction. The model is overfitted.

O Paradoxo do Overfitting

Civic Commons

Excelente repositório de dados públicos de diversas instâncias governamentais.

Civic Commons is a non-profit initiative that helps governments build and use shared and open technologies to improve
public services, transparency, accountability, citizen participation, and management effectiveness, all while saving money.

Amid the last two decades’ astounding advances in consumer and enterprise technologies, governments — especially cities,
towns, counties, and the other units of government that are responsible to deliver public services every day — have largely
been standing on the sidelines. Civic Commons is dedicated to helping cities embrace the transformative potential of shared
technologies and collaborative development techniques that have been pioneered and proven in the private sector.

We believe that our cities can now take advantage of the same technologies that have generated such enormous efficiencies
and innovative services in our lives as citizens and consumers. In a digitally interconnected world, cities don’t have to
operate in isolation: they can pool their resources — their talents and ever-shrinking budgets — to build shared
technologies, save money, and innovate.

And here’s how we’re helping them…

Civic Commons

Gráficos de Pizza em pesquisa de Visualização de Informações

Este post mostra alguns resultados e comparações na efetividade de percepção visual entre os gráficos de pizza e barra, no qual os gráficos do primeiro tendem a ser mais efetivos no sentido em que podem ser aplicados proporcionalidades espaciais, enquanto no gráfico de barra isso tende a ser menos efetivo. Entretanto o Few faz algumas ressalvas que o gráfico de pizza é ruim quando trata-se de reportar aspectos quantitativos.

 

 

Gráficos de Pizza em pesquisa de Visualização de Informações

Data.GOV – Dados Governamentais

Uma ótima iniciativa do governo dos Estados Unidos é a disponibilização de dados relativos aos seus indicadores sociais e econômicos, de forma que qualquer cidadão possa acessar e analisar esses dados. Centenas de bases de dados nos mais diferentes formatos para download.

Data.GOV – Dados Governamentais

Datsets para Análise de Crédito Lending Club

A Lending Club está disponibilizando em seu site alguns datasets relativos à análise de crédito, no qual podem ser desenvolvidos modelos.

Os dados são de uma ótima qualidade, e tem como principal diferencial conter também as instâncias relativas ao crédito rejeitado; além de outras informações úteis para esse tipo de análise.

Datsets para Análise de Crédito Lending Club

Dataset Gigante para Análise de Tráfego Web

Para quem estiver procurando uma base sobre análise de tráfego na web, esse projeto é o que há de mais recente neste ramo. Com um pouco mais de 53 BILHÕES de registros e com o arquivo comprimido de aproximadamente 2.3 TERABYTES deve ser um ótimo recurso para esse tipo de análise.

Direto da página do projeto as seguintes considerações:

Web Traffic Analysis & Modeling

To foster the study of the structure and dynamics of Web traffic networks, we make available a large dataset (‘Click 
Dataset’) of about 53.5 billion HTTP requests made by users at Indiana University. Gathering anonymized requests directly
from the network rather than relying on server logs and browser instrumentation allows one to examine large volumes of
traffic data while minimizing biases associated with other data sources

Dataset Gigante para Análise de Tráfego Web

Gerações de Aprendizado de Máquina

Neste post do Dr. Vijay Srinivas Agneeswaran ele faz um ensaio sobre as 3 gerações de aprendizado de máquina:

1. The traditional ML tools for machine learning and statistical analysis including SAS, IBM SPSS, Weka and the R language – allow deep analysis of smaller data sets … 

2. Second generation ML tools such as Mahout, Pentaho or RapidMiner – allow what I call as shallow analysis of big-data. …

3. The third generation tools such as Spark, Twister, HaLoop, Apache Hama and GraphLab – facilitate deeper analysis of big-data – but how deep and how reliable are these?

Gerações de Aprendizado de Máquina

Cuidado com os Grandes Erros em Big Data – Nassim Taleb

Depois do Stephen Few, chega a vez do Nassim Taleb realizar algumas considerações sobre o Big Data:

[…] But beyond that, big data means anyone can find fake statistical relationships, since the spurious rises to the surface. 
This is because in large data sets, large deviations are vastly more attributable to variance (or noise) than to information (or signal). It’s a property of sampling: In real life there is no cherry-picking, but on the researcher’s  computer, there is. Large deviations are likely to be bogus. […]

 

 

Cuidado com os Grandes Erros em Big Data – Nassim Taleb

Pesquisa da Rexer Analytics sobre Ferramentas de Mineração de Dados

Todos os anos a Rexer Analytics realiza a maior pesquisa sobre mineração de dados que é a Data Miner Survey.

O objetivo principal é analisar quem são, e  principalmente qual o direcionamento dos praticantes de mineração de dados ao redor do mundo.

Tive o grato prazer de receber o convite para participar dessa pesquisa, e apenas a titulo de informação, segue abaixo o resultado relativo às ferramentas de mineração de dados disponíveis no mercado e a sua penetração em diferentes domínios.

RexerAnalytics2012

Pesquisa da Rexer Analytics sobre Ferramentas de Mineração de Dados

Quando a análise não é a resposta

Esse é um tópico bem antigo, e que desperta o que há de pior na Tecnologia da Informação como um todo que é quando ao invés de prover soluções a Tecnologia da Informação se torna amplificadora de problemas.

Esse post poderia falar de como a TI apesar de facilitar os processos empresariais vem se tornando aos poucos o “gargalo” de muitas organizações, mas por questão de escopo falaremos especificamente de mineração de dados.

Neste artigo do Will Dwinnell ele coloca uma reflexão de como algumas vezes a análise em si não é a resposta para o negócio, e que sobretudo a linha de raciocínio a priori na implementação de um projeto de mineração de dados tem como definição principal o estudo de  quando aplicar determinada técnica de maneira sensata, seja em sua parte ou em todo.

O ponto principal aqui é a) se os mineradores de dados estão aplicando as suas técnicas em contextos atraentes, e o mais importante, b) se estão gerando retorno sobre o que foi investido.

Em muitos materiais na internet, e nos livros nacionais, há um apelo que a mineração de dados é o Santo Graal das corporações ou para os computeiros a Bala de Prata.

Se você está pensando como esses acadêmicos e demais “especialistas” de mercado, o seu projeto de mineração de dados está fadado a ganhar um mármore no cemitério de projetos (que ganhará uma sessão especial aqui no site) e provavelmente você já engordou a conta bancária de algum Sales Engineering (Leia: Vendedor) através de comissionamentos, e a empresa provedora do software de análise já estourou o champagne  por manter mais um “cliente” em sua estrutura de aprosionamento.

A bem da verdade, no contexto nacional é razoável dizer que hoje grande parte dos problemas em análise de dados, data mining, e data warehousing são gerados por falta de analise junto à TI; e os motivos são bem específicos a) ausência de comunicação entre canais de TI e Business, b) clientes que não sabem o que querem, c) managers que possuem limitações em gestão de projetos e escalabilidade, e d) o péssimo uso do tempo pelos nossos managers e times de TI/análise de dados.

Todos hoje querem as ferramentas da moda, consolidar grandes bases de dados, e ter vocabulário para que em treinamentos de TI utilizar palavras-gatilho como Big Data, Business Intelligence, Data Mining, Performance Tunning e afins; entretanto, estes esquecem que se a melhor decisão for uma planilha excel com dois gráficos de barra e uma regressão linear simples todo aquele investimento(leia-se: elefante branco) não adiantou nada, pois o fator determinante de todo processo decisório sempre será os 3 aspectos básicos da inteligência  humana que são a cognição, memória e raciocínio O resto é jogo de palavras gatilho e enganação.

A lição desse post do Data Miners é que sempre qualquer idéia de implementação de mineração de dados deve ser avaliado e questionado, e mais que isso o analista de mineração de dados aprenda a avaliar o domínio e a aplicação de cada uma das técnicas; pois, caso contrário, irá continuar engordando o comissionamento e os bônus dos vendedores de ferramentas.

 

 

Quando a análise não é a resposta

França deseja tributar atividades de Mineração de Dados

O Presidente François Hollande acabou de chegar ao poder e já mostrou ao que veio 1) elevar de forma quase que pornográfica o imposto de renda, e 2) engajar uma guerra para “aquecer” a economia.

Entretanto, o Sr. Presidente Hollande ainda quer realizar a tributação de atividades de mineração de dados, e economia da informação de empresas estrangeiras que realizam Data Gathering de seus compatriotas.

A justificativa é que essas empresas (as americanas) tomaram conta do mercado e as mesmas realizam a consolidação de dados sobre os franceses, vendem propaganda direcionada a esta audiência e o estado não participa dessa receita.

Se isso for aprovado será o maior movimento estatal de Free Ride já registrado na história econômica. E ainda criaram um relatório sobre isso que pode ser acessado neste link.

Vejam a fala de  Félix Treguer que exerce a função semelhante a um conselheiro a assuntos relacionados a privacidade digital:

“The French government has a record of favoring local press or publishers over companies like Google or Amazon, sometimes to an extreme. The truth is that the French government is captive to these national lobbies. But it’s also the case that the digital economy is fast becoming a very large part of the global economy, yet France’s tax system, and other countries’ tax system, are not adapted to this. In this sense I think it’s legitimate that France is asking itself how it can tax more of the profitable digital activity taking place in France.”

Além dessa idéia ser absolutamente fora de contexto, é provavelmente impossível que o governo tenha algum tipo de controle, ao não ser que seja implantado algum tipo de filtro semelhante ao da China.

França deseja tributar atividades de Mineração de Dados

Análise Exploratória de Dados – Brincando com Big Data

Neste post de Michael Wu; tem uma opinião bem interessante a respeito da utilização da Análise Exploratória de Dados, na qual ele coloca em questão o fato de que por mais que muitos possam atribuir a esse tipo de tarefa de mineração de dados como ilusão imaginativa; ele coloca em um plano no qual essa mesma criatividade ajuda a descobrir as complexidades dentro do conjunto de dados no qual produz respostas para perguntas que nem ainda foram realizadas pelo negócio.

A melhor parte sem dúvida é a analogia que foi colocada nos comentários que segue abaixo:

Michael, nice blog post thanks. I hope my dry joke is a good response to the points you raise about the value of the creative process in performing EDA…

Q: How do you find a needle in a haystack? 

The linear approach: Draw up a R&D proposal for an innovative device, costing $10m in budget and just under $20m on final completion once regulatory approval has been achieved. This device can harvest for needles in any given haystack in any terrain at any time of the day or night, and be operated in-situ or remotely.

The non-linear approach: Faced with such a heterogeneous organisation of data you assemble a bunch of friends (size dependent on amount of free food & drink) and hold a wild party on the haystack. One of the partygoers will bound to find the needle simply by stepping, or sitting on it. Or if they don’t something much more strange + interesting will appear, so that the needle is simply classified as a variant hay-straw and ignored. And the new discovery classified as the strange attractor – that “diamond in the rough” you refer to!

Análise Exploratória de Dados – Brincando com Big Data

Algoritmos e Transparência

Neste post do Tim Harford é abordado dentro do contexto da falta de transparência dos algoritmos de HTF, entra em uma seara interessante a respeito do uso de algoritmos no suporte à decisão.

É mais do que necessário que seja realizada a reflexão e estudo antes de aplicar uma determinada regra para tomada de decisão, principalmente se parte do custo de ordenação e seleção de informações forem gerados via algoritmos.

Isso leva a uma preocupação que parece que ainda não está em pauta dentro da comunidade de mineração de dados, em especial em ensino e aplicação de ferramentas; preocupação essa que é de entendimento do que o processo computacional está realizando. Em outras palavras, saber o que ocorre “por trás dos bastidores”.

O ponto é que hoje, qualquer um está apto a utilizar uma suíte de mineração de dados, e até mesmo um SGDB (sic.) para decisões de negócios; entretanto, isso não elimina o débito técnico que a comunidade acadêmica tem sobre a explicação desses algortimos e principalmente o seu entendimento; e isso, pode levar a decisões totalmente black-box que é o inverso do que qualquer analista de mineração de dados deseja.

Algoritmos e Transparência