MLDB – Machine Learning Database

Um dos principais problemas em Machine Learning é a respeito do tempo para consolidar e transformar informações em um formato simples para que a parte de aplicação dos algoritmos seja feita de forma de que ocorra o gasto de tempo mais para a análise do que para o pré-processamento.

O MLDB vem resolver o problema relativo a parte de consolidação de dados para e de quebra vem com um modelo para geração de modelos utilizando uma API Rest.

A forma de utilização mimetiza as suítes de data mining da Oracle e da Microsoft, em que tem-se uma sintaxe específica para realizar o processamento, ajuste de modelo e predição em lotes. 

Anúncios
MLDB – Machine Learning Database

Quandl – O maior repositório de datasets da internet

Esta semana recebi um grato e-mail do Chris Stevens sobre o Quandl e tive uma grata surpresa em visitar o site.

O Quandl é um repositório de datasets, o qual possuí mais de 5 milhões (isto mesmo) de bases que vão de domínios desde economia, passando por aspectos sociais, e chegando até o Mercado financeiro.

Vale a pena conferir.

Quandl – O maior repositório de datasets da internet

Civic Commons

Excelente repositório de dados públicos de diversas instâncias governamentais.

Civic Commons is a non-profit initiative that helps governments build and use shared and open technologies to improve
public services, transparency, accountability, citizen participation, and management effectiveness, all while saving money.

Amid the last two decades’ astounding advances in consumer and enterprise technologies, governments — especially cities,
towns, counties, and the other units of government that are responsible to deliver public services every day — have largely
been standing on the sidelines. Civic Commons is dedicated to helping cities embrace the transformative potential of shared
technologies and collaborative development techniques that have been pioneered and proven in the private sector.

We believe that our cities can now take advantage of the same technologies that have generated such enormous efficiencies
and innovative services in our lives as citizens and consumers. In a digitally interconnected world, cities don’t have to
operate in isolation: they can pool their resources — their talents and ever-shrinking budgets — to build shared
technologies, save money, and innovate.

And here’s how we’re helping them…

Civic Commons

Data.GOV – Dados Governamentais

Uma ótima iniciativa do governo dos Estados Unidos é a disponibilização de dados relativos aos seus indicadores sociais e econômicos, de forma que qualquer cidadão possa acessar e analisar esses dados. Centenas de bases de dados nos mais diferentes formatos para download.

Data.GOV – Dados Governamentais

Datsets para Análise de Crédito Lending Club

A Lending Club está disponibilizando em seu site alguns datasets relativos à análise de crédito, no qual podem ser desenvolvidos modelos.

Os dados são de uma ótima qualidade, e tem como principal diferencial conter também as instâncias relativas ao crédito rejeitado; além de outras informações úteis para esse tipo de análise.

Datsets para Análise de Crédito Lending Club

Dataset Gigante para Análise de Tráfego Web

Para quem estiver procurando uma base sobre análise de tráfego na web, esse projeto é o que há de mais recente neste ramo. Com um pouco mais de 53 BILHÕES de registros e com o arquivo comprimido de aproximadamente 2.3 TERABYTES deve ser um ótimo recurso para esse tipo de análise.

Direto da página do projeto as seguintes considerações:

Web Traffic Analysis & Modeling

To foster the study of the structure and dynamics of Web traffic networks, we make available a large dataset (‘Click 
Dataset’) of about 53.5 billion HTTP requests made by users at Indiana University. Gathering anonymized requests directly
from the network rather than relying on server logs and browser instrumentation allows one to examine large volumes of
traffic data while minimizing biases associated with other data sources

Dataset Gigante para Análise de Tráfego Web

Bases de Dados ARFF em BioInformática

Para quem deseja realizar estudos com dados relativos as atividades de BioInformática, esse repositório do BioInformatics Research possuí uma das mais completas bases de dados sobre o assunto.

Há bases de estudos sobre casos de câncer, mapeamento genético e uma gama de assuntos que sempre estão com os papers que deram origem aos estudos.

Bases de Dados ARFF em BioInformática

Dicas para construção de modelos vencedores

Os membros do Deep Data Mining Blog são conhecidos por participarem de diversas competições no Kaggle e de construirem modelos bem robustos para implementações em ambientes “reais”. E com esse background neste post e neste há uma série de dicas sobre como construir modelos vencedores.

Dicas para construção de modelos vencedores

Base de Dados Econômicos da Prússia

Seguindo a recomendação do blog do Prof. Cláudio (um dos melhores blogs de economia) segue a indicação de uma nova base de dados para alegria dos Data Miners. Dados históricos da Prússia. Há diversos arquivos CSV que contém desde informações demográficas até indicadores econômicos. Vale a pena garimpar.

Base de Dados Econômicos da Prússia

Truques Estúpidos em Mineração de Dados – Overfitting no índice S&P500

Neste artigo do David Leinweber (o qual já foi tema do site aqui e aqui) ele coloca algumas considerações a respeito do fato de que muito do que se fala sobre Mineração de Dados está fartamente relacionado a relações absurdas que podem acontecer pelo fato de “torturar os dados” como a predição do índice Standard & Poor’s 500 através de correlações (estúpidas) como o modelo de regressão no qual a produção de manteiga em Bangladesh (Coeficiente de Determinação R2 de 0.75); produção de manteiga em Bangladesh e produção de queijo nos EUA (R2 = 0.95) e a fantástica correlação entre a produção de manteiga em Bangladesh, a produção de queijo nos EUA e a população de ovelhas em Bangladesh que apresenta o coeficiente de determinação de incríveis 99%.

É claro que o artigo escorrega um pouco ao radicalizar a questão, no qual o autor confunde quase que de maneira primária os conceitos de correlação (relação conjunta de uma ou mais váriaveis dentro de um contexto de análise) e casualidade (fatos que acontecem de acordo com um dado grau de sincronissidade, enretanto isolados em contextos distintos) para dar substância ao que está sendo defendido em sua tese; mas isso de nenhuma forma invalida o estudo no qual deixa claro que a “técnica de torturar os dados até que eles falem” é uma péssima abordagem e que pode gerar aberrações em análise de dados iguais aos casos citados.

De maneira geral o autor apresenta uma boa prática na qual sempre que haja esse tipo de análise, deve-se realizar testes sobre dados fora da amostragem para que sejam produzidos resultados mais fidedignos.

Stupid Data Miner Tricks – Overfitting The S&P 500

Truques Estúpidos em Mineração de Dados – Overfitting no índice S&P500

Resolvendo Problemas de Memória no WEKA

Um dos problemas mais comuns para quem realiza a instalação NNF (Next > Next > Finish) do WEKA é que posteriormente ao realizar o trabalho em algumas bases de dados mais volumosas (algo em torno de 40K linhas ou mais) pode haver problemas de memória heap (que é a responsável pela leitura e carga dos dados; ocorrendo erros como os abaixo:

Error occurred during initialization of VM
Could not reserve enough space for object heap
Could not create the Java virtual machine.

A solução para esse tipo de erro é realizar uma maior alocação de memória para as Heaps da seguinte forma:

1) Vá para o prompt do Windows indo no menu Iniciar > Executar > cmd

2) Após entrar no prompt de comando vá até o caminho no qual está instalado a pasta principal do WEKA (no exemplo o WEKA está instalado em C:\Program Files\Weka-3-7)

3) Após entrar no caminho acima no seu prompt do windows, execute o seguinte comando: java -Xmx2g -jar weka.jar; no qual está indicando que há uma alocação de 2 Gb de memória para a aplicação. No caso a quantidade de memória alocada vai depender obrigatóriamente de memória disponível. Para alocar somente 256Mb basta executar o comando java -Xmx256m -jar weka.jar.

Para quem quiser rodar diretamente esse script faz todo o trabalho de forma automática.

Para utilizar o script basta apenas trocar a extensão de .xls para .bat.

RunWeka

Resolvendo Problemas de Memória no WEKA

Pré-Processamento de Dados: Trabalhando com Outliers

Um dos problemas mais comuns em análise de dados, mas especificamente na fase de pré-processamento de dados numéricos contínuos é a ocorrência de outliers dentro do conjunto de dados.

Muito do que é explicado na literatura de mineração de dados e banco de dados sobre a análise de outilers (que não seja somente a detecção) é que as anomalias dos dados, devem, a priori, ser removidas dos conjuntos de dados; seja com a remoção da instância por completo, ou utilizando técnicas como binning (aproximação pelo vizinho mais próximo em linhas gerais).

Da mesma forma que uma base com anomalias podem enviesar o resultado e conseqüentemente apresentar distorções; a remoção dos mesmos pode também levar a um resultado igualmente tendencioso, no qual trabalha somente com o ‘melhor dos mundos’ em termos de pré-processamento dos dados. Essa pode não ser a abordagem mais inteligente em termos de análise de dados, pois uma anomalia pode ter relação direta com outro conjunto de variáveis (correlação ou casualidade) que poderiam entrar na amostra e que possivelmente poderiam  explicar a sua ocorrência.

Uma alternativa bem interessante nesse sentido seria no momento o pré-processamento realizar a marcação dos dados (e.g. uma flag binária) com as indicações utilizando o seguinte processo:

Rodar estatísticas relativas à análise exploratória dos dados (Média, Desvio Padrão, Variância, Análise de Inter-Quartis, etc);

Com essa informação determinar ranges relativos à base de dados realizando uma atribuição classificatória dentro do espectro de ranges, e aos outliers (Extremo Baixo, Baixo, Médio, Alto, Extremo Alto, e indicações de Outlier (Baixo) e Outlier (Alto)) .

É uma idéia simples na qual, não há a perca de dados; e que deixa o conjunto de dado apto para análise das correlações (se houverem) sobre as anomalias dentro do conjunto dos dados.

Pré-Processamento de Dados: Trabalhando com Outliers

Mineração de Dados em Mídias Sociais

Esse artigo mostra que é possível realizar análise de mídias sociais utilizando mineração de dados. Apenas a forma de Data Gathering não está bem clara, nem mesmo a consolidação desses dados, mas no geral parece ser bem promissor.

Mineração de Dados em Mídias Sociais