Porque o review acadêmico é um filtro desnecessário para a ciência?

Esse post do Normal Deviate, apresenta uma situação a qual é bem comum em ambientes acadêmicos: O autor trabalha meses na escrita de um arquivo original, faz a revisões, manda para algum journal e após isso tem simplesmente a negativa da publicação; na qual muitas das vezes bons artigos são descartados muito mais por questões relacionadas a forma do que pelo conteúdo, e artigos que não fazem nada mais do que ser um bolo de citações são publicados.

A critica é bem pertinente, e apresenta um ponto de vista interessante na qual defende um movimento paralelo a isto (que pode viver e sincronia com o método de peer review que é utilizado a mais de 350 anos) que é um site de publicações livres; pois, como o autor elencou, não parece razoável realizar a ciência em sua forma mais moderna, utilizando-se métodos de revisão e validação de 350 anos atrás sem nenhum tipo de crítica a respeito.

O Marcelo Hermes França (o qual é um dos mais respeitados cientistas do Brasil e dono do Site Ciência Brasil) é um grande defensor do sistema atual de revisão, e um os maiores críticos de revistas científicas e fator de impacto no Brasil, no qual muitos dos seus posts expõe a forma picareta que essas revistas realizam ciência através de artigos pagos, revisões capengas, e principalmente o clube da citação que é a forma mais horrenda de se desenvolver ciência e obter financiamento público.

É m tema bem interessante e que impacta diretamente a mineração de dados devido ao fato de ser um campo novo, no qual há muito mais preocupação com as formas do que estamos analisando e vendo como conhecimento do que a aplicação prática, a qual penso que está sendo ceifada pelos journals da área.

Porque o review acadêmico é um filtro desnecessário para a ciência?

Notas sobre Entendimento de Máquinas de Vetor de Suporte (Support Vector Machines)

Nesse post do Matt Bogard, há um link para um artigo bem interessante para quem deseja conhecer mais sobre essa técnica de mineração de dados, na qual há uma explicação bem estruturada e didática sobre essa técnica.

Notas sobre Entendimento de Máquinas de Vetor de Suporte (Support Vector Machines)

Economistas como Cientistas de Dados

Neste post do Econometric Sense, há uma importante reflexão sobre o papel dos economistas como cientistas de dados, e como as habilidades de domínio econômico, juntamente com background matemático possibilita que os mesmos exerçam esse tipo de atividade.

Esse tipo de post coloca mais uma vez em perspectiva toda a área de análise de dados, no qual a mesma está convergindo para papéis importantes dentro das organizações, onde o banco de dados como na visão dos DBAs (um grande repositório) está virando uma commodity, na qual quem não se qualificar e ter o entendimento dos dados será tratado pelo mercado como commodity e será remunerado como tal. Mas isso é um tema para um outro post.

Esse artigo do Silvio Meira, é um clássico para TODOS da área de Computação e afins.

Economistas como Cientistas de Dados

Kaggle e a prospecção de talentos em análise de dados

Esse artigo do New York Times apresenta uma reportagem bem interessante sobre a prospecção de talentos em análise de dados, e como as competições de mineração de dados no Kaggle está ajudando as empresas a crescerem sem ao menos ter um setor de mineração de dados ativo.

Kaggle e a prospecção de talentos em análise de dados

A vida como um livro aberto graças à mineração de dados

Essa reportagem do Kennebec Journal mostra que a vida está muito exposta com o advento da maior aquisição de dados via mineração de dados a vida de todos está mais exposta.

A vida como um livro aberto graças à mineração de dados

Big Data, Grande Sobrecarga

Um pequeno relato do Big Data do dia a dia, por Stephen Few no qual ele descreve a experiência dele no museu do Louvre; e porque o conceito de big data serve muito mais para vendedores de ferramentas de BI do que para analistas sérios.

[…]We are surrounded by data. In our present day of so-called Big Data, there is more and more of it every day. Anyone who has ever actually worked with data in an effort to make better decisions knows that most of the data that surrounds us is noise. It’s useless. We seek the signals that reside here and there in the midst of the noise. While I stood there in the Louvre this morning, every piece of art was a masterpiece in its own right—every piece a signal—but to me they were all noise because there was too much for my senses to take in or my brain to fathom. Yes, even signals become noise when we’re overwhelmed. I tried desperately to fix my attention on a single piece, but over and over again I failed. I couldn’t shut out the other voices constantly invading my senses yelling “Look at me!”  Yes, I saw the Mona Lisa with her enigmatic smile from behind the barrier while being jostled by the photo-taking crowd, but I couldn’t connect with her or the genius of da Vinci, whose work I so admire[…]

Big Data, Grande Sobrecarga

Acadêmicos deveriam considerar os desafios do Kaggle válidos para pesquisas

A algum tempo atrás foi realizada uma postagem neste espaço sobre o Kaggle o qual é um site no qual empresas terceirizam a sua análise de dados, através de competições que podem ser remuneradas ou não.

Neste post há uma boa provocação no sentido de porque os acadêmicos não consideram os desafios do Kaggle como válidos para pesquisas; em especial os famosos Data Scientists da web.

Em especial, e aqui é um mea culpa com uma crítica coletiva; é muito bom de ver diversos livros de mineração de dados em português, e até mesmo a popularização do ensino; entretanto, seria muito válido que os profesores e demais acadêmicos de mineração de dados que tanto escrevem artigos e livros (que só o webmaster desse site e mais duas dúzias de alunos fazem questão de ler) se submetessem com o seu background para esse tipo de disputa; o que colocaria não são em perspectiva a teoria como a prática.

Acadêmicos deveriam considerar os desafios do Kaggle válidos para pesquisas

Resolvendo Problemas de Memória no WEKA

Um dos problemas mais comuns para quem realiza a instalação NNF (Next > Next > Finish) do WEKA é que posteriormente ao realizar o trabalho em algumas bases de dados mais volumosas (algo em torno de 40K linhas ou mais) pode haver problemas de memória heap (que é a responsável pela leitura e carga dos dados; ocorrendo erros como os abaixo:

Error occurred during initialization of VM
Could not reserve enough space for object heap
Could not create the Java virtual machine.

A solução para esse tipo de erro é realizar uma maior alocação de memória para as Heaps da seguinte forma:

1) Vá para o prompt do Windows indo no menu Iniciar > Executar > cmd

2) Após entrar no prompt de comando vá até o caminho no qual está instalado a pasta principal do WEKA (no exemplo o WEKA está instalado em C:\Program Files\Weka-3-7)

3) Após entrar no caminho acima no seu prompt do windows, execute o seguinte comando: java -Xmx2g -jar weka.jar; no qual está indicando que há uma alocação de 2 Gb de memória para a aplicação. No caso a quantidade de memória alocada vai depender obrigatóriamente de memória disponível. Para alocar somente 256Mb basta executar o comando java -Xmx256m -jar weka.jar.

Para quem quiser rodar diretamente esse script faz todo o trabalho de forma automática.

Para utilizar o script basta apenas trocar a extensão de .xls para .bat.

RunWeka

Resolvendo Problemas de Memória no WEKA

Pré-Processamento de Dados: Trabalhando com Outliers

Um dos problemas mais comuns em análise de dados, mas especificamente na fase de pré-processamento de dados numéricos contínuos é a ocorrência de outliers dentro do conjunto de dados.

Muito do que é explicado na literatura de mineração de dados e banco de dados sobre a análise de outilers (que não seja somente a detecção) é que as anomalias dos dados, devem, a priori, ser removidas dos conjuntos de dados; seja com a remoção da instância por completo, ou utilizando técnicas como binning (aproximação pelo vizinho mais próximo em linhas gerais).

Da mesma forma que uma base com anomalias podem enviesar o resultado e conseqüentemente apresentar distorções; a remoção dos mesmos pode também levar a um resultado igualmente tendencioso, no qual trabalha somente com o ‘melhor dos mundos’ em termos de pré-processamento dos dados. Essa pode não ser a abordagem mais inteligente em termos de análise de dados, pois uma anomalia pode ter relação direta com outro conjunto de variáveis (correlação ou casualidade) que poderiam entrar na amostra e que possivelmente poderiam  explicar a sua ocorrência.

Uma alternativa bem interessante nesse sentido seria no momento o pré-processamento realizar a marcação dos dados (e.g. uma flag binária) com as indicações utilizando o seguinte processo:

Rodar estatísticas relativas à análise exploratória dos dados (Média, Desvio Padrão, Variância, Análise de Inter-Quartis, etc);

Com essa informação determinar ranges relativos à base de dados realizando uma atribuição classificatória dentro do espectro de ranges, e aos outliers (Extremo Baixo, Baixo, Médio, Alto, Extremo Alto, e indicações de Outlier (Baixo) e Outlier (Alto)) .

É uma idéia simples na qual, não há a perca de dados; e que deixa o conjunto de dado apto para análise das correlações (se houverem) sobre as anomalias dentro do conjunto dos dados.

Pré-Processamento de Dados: Trabalhando com Outliers

Mineração de Dados no Ecossistema das Redes Sociais

Essa matéria mostra as potencialidades relativas ao Aprendizado de Máquina e Mineração de Dados relacionado à integração de um ecossistema de redes sociais, onde haveria um fator de integração muito maior, na qual as informações teriam um grau de completude maior, e a s formas de disponibilização seriam maiores.

Esse trecho abaixo do artigo resume bem o projeto de pesquisa de Fu:

One algorithm in progress, Fu explained, will be capable of predicting the demo graphics, behavioral tendencies and relationships between people who appear in photos and videos on Face book or YouTube. The other algorithm will be capable of pin pointing their geo graphic location.

Mineração de Dados no Ecossistema das Redes Sociais

O real perigo da privacidade não é a mineração de dados das grandes corporações ou a vigilância governamental, mas sim ambos

Entre os posts que saem na grande mídia, provavelmente essa é a opinião mais fundamentada e que tem uma maior visão sobre a questão da privacidade e a mineração de dados, na qual faz a relação entre o que as grandes empresas sabem sobre nós, a vigilância governamental; e como essas organizações estão intrinsecamente ligadas e porque isso é uma ameaça a privacidade como um todo.

O artigo inicia com uma declaração na qual para quem realiza mineração de dados pode ser trivial, mas para pessoas comuns chega a ser assustador em termos de como corporações tem total conhecimento dos nossos dados pessoais:

It is said that a Visa executive – as in Visa, the credit card system – can predict your divorce one year ahead of yourself, based on your buying habits. There’s a recent telling anecdote where Target, the chain of stores, knew that a teenage woman was pregnant before her parents knew. If our purchase habits give away our life and privacy to this degree – imagine what Google or Facebook would be able to predict, if they wanted to?

Sob o aspecto governamental, como já foi postado anteriormente sobre a TIA (Total Information Awareness) na qual após uma parceria entre a Google e a CIA (Uma típica parceria publico privada) esse programa foi estranhamente colocado na geladeira pelo governo americano.

Esse quote mostra bem sobre o que o governo é capaz de fazer com as suas informações:

So let’s instead jump to what governments can do. Many enough countries now have blanket wiretapping laws in place that let them wiretap all their own citizens’ net traffic, all other citizens’ traffic, or both. (This would have been absolutely unthinkable just a decade ago.) Additionally, the security services generally share raw data between them – so just because you’re not tapped in your home country, that doesn’t mean your local security service doesn’t have a copy of everything you’ve ever typed or sent online; it can be tapped anywhere.

Governments are not only able to knock down your door when you behave in a way they don’t approve of. They even like doing exactly that, and see it as their job. This is something of a problem, and quite a severe one.

 

Dentro dessa abordagem que o autor propõe, cabe ressaltar que em alguns anos haverá a necessidade de uma regulação a respeito da aquisição/controle/comercialização das informações pelas empresas bem como maiores controles por parte do setor governamental. A discussão é boa e o artigo coloca um interessante ponto de vista. Vale a leitura.

O real perigo da privacidade não é a mineração de dados das grandes corporações ou a vigilância governamental, mas sim ambos

Utilização de Recall e Precision

Imagine uma tarefa de classificação, na qual precise se realizar somente a distinção binária na variável target de Verdadeiro/Falso? Esse post apresenta porque as métricas de Recall e Precision são importantes para apuração e avaliação de um modelo de classificação.

Utilização de Recall e Precision

A Tecnologia que Protege o Presidente dos EUA

Essa matéria do Adam Popescu, mostra que o serviço secreto do Estados Unidos  – encarregado da segurança do presidente Barack Hussain Obama  – está utilizando o uReveal  para realização de mineração de dados multiplataforma para identificação de potenciais ameaças  à segurança do presidente.

Em geral a idéia é de realizar um imenso Data Gathering e através de filtros semânticos parametrizáves, realizar a identificação dentre as mais diversas bases de dados como sites, blogs, e demais registros na web.

A Tecnologia que Protege o Presidente dos EUA

Os Perigos da Mineração de Dados no Aspecto Eleitoral

Sobre a utilização da mineração de dados nas eleições americanas; e com um quote que já vale o artigo:

Do you watch college football? Listen to smooth jazz? Search the Internet for guidance on parenting, spirituality or a health concern? Look at pornography sites online?

Do you like the fact that political strategists with the presidential campaigns know the answers to each of those questions?

Os Perigos da Mineração de Dados no Aspecto Eleitoral