Manipulação de opiniões no Facebook… Manipulação?

Primeiro uma breve contextualização sobre o assunto.

Em meados de setembro/outubro do ano passado alguns pesquisadores ligados à Google fizeram um estudo relativo ao contágio de sentimentos através das redes sociais usando informações do próprio Facebook.

Aqui está o abstract do artigo:

We show, via a massive (N = 689,003) experiment on Facebook, that emotional states can be transferred to others via emotional contagion, leading people to experience the same emotions without their awareness. We provide experimental evidence that emotional contagion occurs without direct interaction between people (exposure to a friend expressing an emotion is sufficient), and in the complete absence of nonverbal cues.

Emotional states can be transferred to others via emotional contagion, leading people to experience the same emotions without their awareness. Emotional contagion is well established in laboratory experiments, with people transferring positive and negative emotions to others. Data from a large real-world social network, collected over a 20-y period suggests that longer-lasting moods (e.g., depression, happiness) can be transferred through networks [Fowler JH, Christakis NA (2008) BMJ 337:a2338], although the results are controversial. In an experiment with people who use Facebook, we test whether emotional contagion occurs outside of in-person interaction between individuals by reducing the amount of emotional content in the News Feed. When positive expressions were reduced, people produced fewer positive posts and more negative posts; when negative expressions were reduced, the opposite pattern occurred. These results indicate that emotions expressed by others on Facebook influence our own emotions, constituting experimental evidence for massive-scale contagion via social networks. This work also suggests that, in contrast to prevailing assumptions, in-person interaction and nonverbal cues are not strictly necessary for emotional contagion, and that the observation of others’ positive experiences constitutes a positive experience for people.

Em suma: O Facebook propositalmente testou em pouco mais de 700 mil usuários o efeito do contágio de sentimentos através da ‘supressão ou adição de informações’ na linha do tempo desses usuários.

Houve uma grande polêmica em torno do assunto, inclusive até os editores emitiram uma nota esclarecendo alguns aspectos do estudo, e houve a mesma reclamação de sempre.

Com esse plano de fundo, no blog do Andrew Gelman foi escrito um post interessante sobre a questão e se essas reclamações são justificáveis ou não, e a resposta é categórica:

[...] It seems a bit ridiculous to say that a researcher needs special permission to do some small alteration of an internet feed, when advertisers and TV networks can broadcast all sorts of emotionally affecting images whenever they want. The other thing that’s bugging me is the whole IRB thing, the whole ridiculous idea that if you’re doing research you need to do permission for noninvasive things like asking someone a survey question.[...]

[...]So, do I consider this Facebook experiment unethical? No, but I could see how it could be considered thus, in which case you’d also have to consider all sorts of non-research experiments (the famous A/B testing that’s so popular now in industry) to be unethical as well. In all these cases, you have researchers, of one sort or another, experimenting on people to see their reactions. And I don’t see the goal of getting published in PNAS to be so much worse than the goal of making money by selling more ads.[...]

[...]Again, I can respect if you take a Stallman-like position here (or, at least, what I imagine rms would say) and argue that all of these manipulations are unethical, that the code should be open and we should all be able to know, at least in principle, how our messages are being filtered. So I agree that there is an ethical issue here and I respect those who have a different take on it than I do—but I don’t see the advantage of involving institutional review boards here. All sorts of things are unethical but still legal, and I don’t see why doing something and publishing it in a scientific journal should be considered more unethical or held to a more stringent standard than doing the same thing and publishing it in an internal business report.[...]

Em outras palavras: Não adianta a critica ao que o Facebook fez se de uma maneira ou de outra a propaganda/publicidade/marketing vem fazendo isso a anos. Não é porque alguém publica em um periódico acadêmico que faz ele menos “ético”(cabe ao juízo de valor de cada um) de quem faz isso internamente através de relatórios.

Nota Pessoal: Como ‘insider’ do mundo do crédito, produtos bancários não padronizados, e localização eu recomendo que a paranóia nada ajuda nestes casos. Hoje com um CEP preenchido em algum formulário para se ganhar um desconto em alguma coisa e o CPF qualquer pessoa pode ser localizada no Brasil; e as empresas de cartão de crédito sabem muito sobre nós todos.

Privacidade hoje só existe em dois lugares: Mídias não estruturadas  (e.g. cadernos, post it, anotações espúrias, etc); ou para terroristas e demais membros de organizações criminosas que não possuem nenhum traço no meio digital e só realizam transações off-market (e.g. contrabando, tráfico de drogas, fluxo de armas para terroristas, etc.) .

Etiquetado , , ,

Uma abordagem Walk-Through Deep Learning

As Redes Neurais Artificias (RNAs) são modelos computacionais de aprendizado de máquina que mimetizam alguns aspectos da atividade cognitiva humana (e.g. memória (atividade de armazenar e recuperar oportunamente dados), percepção(realiza relações de significância através de experiências passadas) e raciocínio (capacidade de gerar operações lógicas de informações abstratas)), é uma ótima técnica para atividades de classificação e regressão.

Já a o Deep Learning é o conjunto de múltiplas tarefas de aprendizado de máquina que lida com diferentes tipos de abstração, e que a sua característica mais marcante é a resolução de problemas a partir de estruturas de representação dos dados de diferentes maneiras.

Neste vídeo do Sungwook Yoon ele realiza uma comparação entre essas duas estruturas de forma competente.


Etiquetado , , ,

Minority Report?

O Data Mining chegando para o combate ao crime.

LAPD uses big data to target criminals

Dubbed LASER for its ability to zero in on offenders and hotspots, it is one of many newer law enforcement tools that use data tracking and collection – such as license plate scanners and cellphone trackers – often with little public knowledge or regulation.

Privacy advocates say LASER isn’t transparent, has no clear oversight and unjustly focuses on keeping ex-convicts under suspicion even though they’ve served their time.

“People who have paid their debts to society shouldn’t remain stigmatized in the eyes of police,” said Kade Crockford of the American Civil Liberties Union.

LASER uses technology developed by the CIA’s venture capital arm to realize a post-9/11 dream that allows investigators to match up vast troves of data from 15 separate sources to connect dots that they otherwise might miss.

Funded by federal grants, it launched in 2011 in Newton, and an expansion funded by additional money in October, brought the program to a total of eight areas throughout the city, plus the department’s high-tech analysis unit and its helicopters.

More than 3,500 LAPD officers have been trained to use Palantir, a platform that was introduced initially to speed up the process of creating dossiers on chronic offenders and is now used throughout the department for a variety of investigative purposes.


Etiquetado ,


Apesar do post abaixo da Nature falar em relação a pesquisas biomédicas, poderia ser facilmente transposto para a Mineração de Dados:


Journals unite for reproducibility

Reproducibility, rigour, transparency and independent verification are cornerstones of the scientific method. Of course, just because a result is reproducible does not make it right, and just because it is not reproducible does not make it wrong. A transparent and rigorous approach, however, will almost always shine a light on issues of reproducibility. This light ensures that science moves forward, through independent verifications as well as the course corrections that come from refutations and the objective examination of the resulting data.

The guidelines recommend that journals include in their information for authors their policies for statistical analysis and how they review the statistical accuracy of work under consideration. Any imposed page limits should not discourage reproducibility. The guidelines encourage using a checklist to ensure reporting of important experimental parameters, such as standards used, number and type of replicates, statistics, method of randomization, whether experiments were blinded, how the sample size was determined and what criteria were used to include or exclude any data. Journals should recommend deposition of data in public repositories, where available, and link data bidirectionally when the paper is published. Journals should strongly encourage, as appropriate, that all materials used in the experiment be shared with those who wish to replicate the experiment. Once a journal publishes a paper, it assumes the obligation to consider publication of a refutation of that paper, subject to its usual standards of quality.

Via o blog do mestre Marcelo Hermes-Lima

Data Mining e Eleições

Passado o vendaval das eleições que mais uma vez mostram o pior do nosso povo nas redes sociais, uma noticia sobre Mineração de Dados e as Eleições.

GOP Wins With Mix of Data Mining, Door Knocking

Skunked by Obama’s campaign in 2012, the Republican National Committee decided it would focus on building the team and systems it needed to identify potential GOP voters and then getting them to the polls.

The RNC bragged a few days after the election that effort reached 35 million voters, including more than 2.4 million they identified as low propensity, or unlikely to cast a ballot without a push.

“We fundamentally changed our strategy by expanding the electorate to turn out low-propensity Republican voters and to turn them out early,” said RNC spokesman Michael Short.

Democrats’ turnout machine worked, too, but it wasn’t enough. “A dynamite turnout operation is only worth 1, 2, 3 points at the most,” said Justin Barasky, a spokesman for the Democratic Senatorial Campaign Committee, “and it’s not enough to overcome a national wave.”

Com essa informação, não e difícil entender o turnaround da campanha do Partido Republicano nos EUA.

Trazendo para a nossa realidade um projeto de captação de eleitores poderia ser baseado na mesma estratégia, i.e. análise demográfica para entender como que determinada região vota historicamente e realizar ações como elaboração de estratégias para busca dos indecisos , ou busca de potenciais eleitores que poderiam voltar nulo, etc.

Etiquetado ,

Métricas de Avaliação de Modelos de Classificação/Predição

A algum tempo estava namorando a ideia de escrever sobre esse assunto que eu julgo ser importantíssimo para quem está aprendendo, aplicando, e principalmente ensinando Data Mining; e que as vezes me incomoda ver como esse tópico tem tão pouco destaque.

Essas métricas de avaliação de modelos tem suas origens em uma disciplina chamada Recuperação da Informação (de Informações), que nada mais é que uma teoria que estuda a forma em que os documentos são recuperados de forma automática.

Essas métricas surgiram dentro dessa teoria como uma forma de  avaliar se o sistema de Recuperação de Informações estava se comportando da maneira na qual ele foi proposto; isso é, avaliar não somente se o sistema estava recuperando as informações corretas, mas também verificando o quanto o sistema estava abstraindo as informações erradas.

Ao longo do tempo, muitos pesquisadores viram que essas métricas de recuperação da informação poderiam ser aplicadas em classificadores e modelos de predição para determinar as características de cada um dos modelos.

Note-se que não foram colocados os adjetivos “melhor” ou “pior“. É importante ressaltar esse aspecto devido ao fato de que cada modelo é único e a qualidade pode ser relativa; principalmente se estiver sendo considerada uma abordagem sensível ao custo (que pode ser lida aqui, aqui, aqui , aqui, aqui e aqui)

Dado esse pequeno background (que será explorado em postagens futuras), o motivo principal desse post é recomendar um link para quem quiser avaliar os respectivos modelos de classificação e predição de forma correta que é o Teste Diagnóstico da Universidade Federal do Paraná.

É bem simples.

Pegam-se os resultados da matriz de confusão, coloca nos campos em azul e automaticamente são calculadas os parâmetros de avaliação de modelos; e ainda de quebra tem as descrições das métricas.


As métricas estão no site e são as seguintes:


A proporção de predições corretas, sem levar em consideração o que é positivo e o que é negativo. Esta medida é altamente suscetivel a desbalanceamentos do conjunto de dados e pode facilmente induzir a uma conclusão errada sobre o desempenho do sistema.

ACURACIA = (VP + VN) / (P + N)


A proporção de verdadeiros positivos: a capacidade do sistema em predizer corretamente a condição para casos que realmente a têm.



A proporção de verdadeiros negativos: a capacidade do sistema em predizer corretamente a ausência da condição para casos que realmente não a têm.



A média aritmética da Sensibilidade e Especificidade. Na prática, a sensibilidade e a especificidade variam em direções opostas. Isto é, geralmente, quando um método é muito sensível a positivos, tende a gerar muitos falso-positivos, e vice-versa. Assim, um método de decisão perfeito (100 % de sensibilidade e 100% especificidade) raramente é alcançado, e um balanço entre ambos deve ser atingido.



A proporção de verdadeiros positivos em relação a todas as predições positivas. Esta medida é altamente suscetivel a desbalanceamentos do conjunto de dados e pode facilmente induzir a uma conclusão errada sobre o desempenho do sistema.



A proporção de verdadeiros negativos em relação a todas as predições negativas. Esta medida é altamente suscetivel a desbalanceamentos do conjunto de dados e pode facilmente induzir a uma conclusão errada sobre o desempenho do sistema.



O coeficiente de correlação de Matthews é uma medida de qualidade de duas classificações binárias que pode ser usada mesmo se as classes possuem tamanhos bastante diferentes. Retorna um valor entre (-1) e (+1), em que um coeficiente de (+1) representa uma predicao perfeita, (0) representa uma predicao aleatoria media, e (-1) uma predicao inversa. Esta estatistica é equivalente ao coeficiente phi, e tenta, assim como a eficiência, resumir a qualidade da tabela de contingência em um único valor numérico passivel de ser comparado.

phi = (VP*VN – FP*FN) / sqrt((VP + FP)*(VP + FN)*(VN + FP)*(VN + FN))

Note que, se qualquer uma das somas no denominador for igual a (0), o denominador pode ser considerado (1), resutando em um phi igual a (0) que seria o limite correto para esta situação.

Para Ler:

KOHAVI, Ron; PROVOST, Foster. Glossary of terms. Machine Learning, v. 30, n. 2-3, p. 271-274, 1998.

Etiquetado , , , ,

CART e Cross-Validation

Neste vídeo da Salford Systems há um pequeno trecho de uma palestra feita em 2004.

A validação cruzada é um tema que gera algumas controvérsias, mas querendo ou não para quem realiza experimentos com bases de dados com menos de 50.000 registros (é um número cabalístico, mas ainda serve) pode ser a saída para bons resultados.

Uma ótima (na verdade é a melhor) referência sobre esse assunto e as vantagens e desvantagens está no livro de HASTIE, Trevor et al. The elements of statistical learning que pode ser baixado aqui.

Etiquetado , , ,

Fake Reviews e Data Science – Caso Amazon

Vincent Granville mais uma vez com um óitmo post sobre a questão.

Post obrigatório para quem trabalha em empresas que são expostas em mídias sociais, em especial em sites de opinião e review.

Etiquetado , ,

Pseudo-Ciência de Dados no Facebook

Para quem acompanhou no Facebook as eleições brasileiras, independente da posição partidária, ficou muito claro até onde os partidos políticos podem imitar o modus operandi de regimes horrendos em prol da democracia.

Neste post da Amy no Data Science Central ela coloca essa questão de como a pseudo-ciência de dados está sendo utilizada para ludibriar os eleitores.

Um pequeno trecho:


I call this pseudo data science, but behind the scene, real data science is used to test what will work to change your mind (politically speaking), even if it means using spurious arguments. Obama supposedly won the previous election thanks to better data science to reach out to targeted Facebook users (women?) and convince them with the right messages.





What is wrong with this chart?

This chart, typically associated with the comment that “Obama Outperforms Reagan On Jobs, Growth And Investing”, shows that Obama ends its tenure in better shape than Reagan, in terms of unemployment rates. This is misleading for the following reasons

- Jobs recently created (Obama) command lower salaries

- Many have left the workforce and are unaccounted for; labor force participation is at an all time low, though part of the explanation is because of baby boomers retiring

- Ask anyone you know about how difficult it is to find a job, despite college education being more expensive than ever before (the proportion of people having a job matching their education is lower today than it used to be)

In short, this chart shows the exact opposite of the reality. Not sure why they chose that very chart for their PR campaign, since there are many charts that would put Obama in a truly positive light – without being misleading. But that’s another question. The answer must be “because it works”.




Hello World em Aprendizado de Máquina

Para quem não sabe Hello World é uma expressão muito utilizada em programação, e é uma frase colocada em códigos para fins de aprendizado.

Neste post do Jason Brownlee do Machine Learning Mastery ele mostra como iniciar os estudos em aprendizado de máquina, seja para programadores ou não.

Esse tipo de post é perfeito para qualquer pessoa que deseja trabalhar com mineração de dados, pois diferentemente do aprendizado estruturado (que é bom), e do aprendizado orientado a resolução de problemas (que é ruim), e do aprendizado não-estruturado orientado à curiosidade para fins de descoberta (que é excelente).

Depois desse post, não tem mais desculpas para não começar com aprendizado de máquina.


Etiquetado , ,

Michael Jordan (Não o do basquete) fala sobre alguns tópicos em Aprendizado de Máquina e sobre Big Data

Abaixo está o depoimento mais sensato sobre alguns assuntos relativos à análise de dados, Data Mining, e principalmente Big Data.

UPDATE: O próprio MJordan deu uma entrevista dizendo que em alguns pontos foi mal interpretado. No entanto, cabe ressaltar que muito do que é importante na fala ele não falou nada a respeito; então tirem as suas conclusões.

Para quem não sabe, o Michael Jordan (IEEE) é uma das maiores autoridades no que diz respeito em aprendizado de máquina no mundo acadêmico.

Esta entrevista (que foi sonegada por este espaço por puro desleixo) ele apresenta argumentos extremamente sóbrios e lúcidos sobre Deep Learning (que terá um tópico aqui em breve) e principalmente sobre o Big Data.

Sobre a parte de Big Data em especial, esses comentários convidam à uma reflexão, e acima de tudo colocam pontos que merecem ser discutidos sobre esse fenômeno.

Obviamente empresas do calibre da Google, Amazon, Yahoo, e alguns projetos como Genoma podem ter benefício de grandes volumes de dados. O problema principal é que todo essa hipsterização em torno do Big Data parece muito mais algo orientado ao marketing do que a resolução de questões de negócio pertinentes.

Seguem alguns trechos importantes:

Sobre Deep Learning, simplificações e afins…

IEEE Spectrum: I infer from your writing that you believe there’s a lot of misinformation out there about deep learning, big data, computer vision, and the like.

Michael Jordan: Well, on all academic topics there is a lot of misinformation. The media is trying to do its best to find topics that people are going to read about. Sometimes those go beyond where the achievements actually are. Specifically on the topic of deep learning, it’s largely a rebranding of neural networks, which go back to the 1980s. They actually go back to the 1960s; it seems like every 20 years there is a new wave that involves them. In the current wave, the main success story is the convolutional neural network, but that idea was already present in the previous wave. And one of the problems with both the previous wave, that has unfortunately persisted in the current wave, is that people continue to infer that something involving neuroscience is behind it, and that deep learning is taking advantage of an understanding of how the brain processes information, learns, makes decisions, or copes with large amounts of data. And that is just patently false.

Spectrum: It’s always been my impression that when people in computer science describe how the brain works, they are making horribly reductionist statements that you would never hear from neuroscientists. You called these “cartoon models” of the brain.

Michael Jordan: I wouldn’t want to put labels on people and say that all computer scientists work one way, or all neuroscientists work another way. But it’s true that with neuroscience, it’s going to require decades or even hundreds of years to understand the deep principles. There is progress at the very lowest levels of neuroscience. But for issues of higher cognition—how we perceive, how we remember, how we act—we have no idea how neurons are storing information, how they are computing, what the rules are, what the algorithms are, what the representations are, and the like. So we are not yet in an era in which we can be using an understanding of the brain to guide us in the construction of intelligent systems.

Sobre Big Data

Spectrum: If we could turn now to the subject of big data, a theme that runs through your remarks is that there is a certain fool’s gold element to our current obsession with it. For example, you’ve predicted that society is about to experience an epidemic of false positives coming out of big-data projects.

Michael Jordan: When you have large amounts of data, your appetite for hypotheses tends to get even larger. And if it’s growing faster than the statistical strength of the data, then many of your inferences are likely to be false. They are likely to be white noise.

Spectrum: How so?

Michael Jordan: In a classical database, you have maybe a few thousand people in them. You can think of those as the rows of the database. And the columns would be the features of those people: their age, height, weight, income, et cetera.

Now, the number of combinations of these columns grows exponentially with the number of columns. So if you have many, many columns—and we do in modern databases—you’ll get up into millions and millions of attributes for each person.

Now, if I start allowing myself to look at all of the combinations of these features—if you live in Beijing, and you ride bike to work, and you work in a certain job, and are a certain age—what’s the probability you will have a certain disease or you will like my advertisement? Now I’m getting combinations of millions of attributes, and the number of such combinations is exponential; it gets to be the size of the number of atoms in the universe.

Those are the hypotheses that I’m willing to consider. And for any particular database, I will find some combination of columns that will predict perfectly any outcome, just by chance alone. If I just look at all the people who have a heart attack and compare them to all the people that don’t have a heart attack, and I’m looking for combinations of the columns that predict heart attacks, I will find all kinds of spurious combinations of columns, because there are huge numbers of them.

So it’s like having billions of monkeys typing. One of them will write Shakespeare.

Spectrum:Do you think this aspect of big data is currently underappreciated?

Michael Jordan: Definitely.

Spectrum: What are some of the things that people are promising for big data that you don’t think they will be able to deliver?

Michael Jordan: I think data analysis can deliver inferences at certain levels of quality. But we have to be clear about what levels of quality. We have to have error bars around all our predictions. That is something that’s missing in much of the current machine learning literature.

Spectrum: What will happen if people working with data don’t heed your advice?

Michael Jordan: I like to use the analogy of building bridges. If I have no principles, and I build thousands of bridges without any actual science, lots of them will fall down, and great disasters will occur.

Similarly here, if people use data and inferences they can make with the data without any concern about error bars, about heterogeneity, about noisy data, about the sampling pattern, about all the kinds of things that you have to be serious about if you’re an engineer and a statistician—then you will make lots of predictions, and there’s a good chance that you will occasionally solve some real interesting problems. But you will occasionally have some disastrously bad decisions. And you won’t know the difference a priori. You will just produce these outputs and hope for the best.

And so that’s where we are currently. A lot of people are building things hoping that they work, and sometimes they will. And in some sense, there’s nothing wrong with that; it’s exploratory. But society as a whole can’t tolerate that; we can’t just hope that these things work. Eventually, we have to give real guarantees. Civil engineers eventually learned to build bridges that were guaranteed to stand up. So with big data, it will take decades, I suspect, to get a real engineering approach, so that you can say with some assurance that you are giving out reasonable answers and are quantifying the likelihood of errors.

Spectrum: Do we currently have the tools to provide those error bars?

Michael Jordan: We are just getting this engineering science assembled. We have many ideas that come from hundreds of years of statistics and computer science. And we’re working on putting them together, making them scalable. A lot of the ideas for controlling what are called familywise errors, where I have many hypotheses and want to know my error rate, have emerged over the last 30 years. But many of them haven’t been studied computationally. It’s hard mathematics and engineering to work all this out, and it will take time.

It’s not a year or two. It will take decades to get right. We are still learning how to do big data well.

Spectrum: When you read about big data and health care, every third story seems to be about all the amazing clinical insights we’ll get almost automatically, merely by collecting data from everyone, especially in the cloud.

Michael Jordan: You can’t be completely a skeptic or completely an optimist about this. It is somewhere in the middle. But if you list all the hypotheses that come out of some analysis of data, some fraction of them will be useful. You just won’t know which fraction. So if you just grab a few of them—say, if you eat oat bran you won’t have stomach cancer or something, because the data seem to suggest that—there’s some chance you will get lucky. The data will provide some support.

But unless you’re actually doing the full-scale engineering statistical analysis to provide some error bars and quantify the errors, it’s gambling. It’s better than just gambling without data. That’s pure roulette. This is kind of partial roulette.

Spectrum: What adverse consequences might await the big-data field if we remain on the trajectory you’re describing?

Michael Jordan: The main one will be a “big-data winter.” After a bubble, when people invested and a lot of companies overpromised without providing serious analysis, it will bust. And soon, in a two- to five-year span, people will say, “The whole big-data thing came and went. It died. It was wrong.” I am predicting that. It’s what happens in these cycles when there is too much hype, i.e., assertions not based on an understanding of what the real problems are or on an understanding that solving the problems will take decades, that we will make steady progress but that we haven’t had a major leap in technical progress. And then there will be a period during which it will be very hard to get resources to do data analysis. The field will continue to go forward, because it’s real, and it’s needed. But the backlash will hurt a large number of important projects.

Etiquetado , , , , , ,

A predição que eu não quero…

Este site trata de questões ligadas diretamente à Data Mining e as demais variantes em relação à análise de dados, aprendizado de máquina, meta-heurísticas, matemática e estatística.

No entanto, um artigo do John Katz do New York Times que fala sobre os modelos de predição para as eleições do senado deste ano é um (mal) exemplo claro de que as atividades de análise de dados nunca podem ser um fim em si mesmas.

Em suma o artigo fala dos problemas dos modelos de predição, e mostra que mais uma vez os modelos erraram em detectar uma onda Republicana.

Até aí nada de mais: Modelos preditivos falhando.

Contudo, depois do excelente  livro do Nate Silver  um efeito nocivo dessa popularização da análise de dados e da mineração de dados é que muitos jornais, revistas, sites começaram a realizar o que eu chamo de análises estéreis no qual essas análises não olham a consequência da decisão, mas sim olham somente os números como se a análise preditiva fosse uma imensa gincana.

Não que eleições dessa natureza venham contribuir em termos de práticos para os pagadores de impostos; porém, para o pagador de impostos melhor do que saber qual indicador preditivo está com melhor desempenho; o certo seria entender como a composição de um senado iria influenciar em questões orçamentarias, fiscais, e principalmente de grandes questões importantes para todos.

A lição que fica é que a análise e a mineração de dados sempre está sujeita a questões ligadas ao suporte à decisão, e não somente a análise per se.

PS: As análises e o código fonte estão neste link.

Etiquetado , , , , ,

Escolha de Variáveis

Um dos maiores desafios na construção de modelos de classificação e de modelos preditivos é saber escolher as variáveis corretas para inclusão no modelo.

Como foi falado aqui em inúmeras vezes, antes de cometer o erro clássico de escalar hardware e software antes de analisar os dados, mesmo que superficialmente; veja se as variáveis do modelo estão adequadas.

Neste excelente vídeo de um webnar da Salford Systems sobre importância das variáveis usando CART isso é explicado de maneira bem simples.

O Dan Steinberg neste vídeo fala da importância de se saber importância das variáveis no modelo, no qual não somente essas variáveis vão dar o aspecto de compreensão relativa a qual o espectro de dados são pertinentes para as tarefas do algoritmo; como também, entender essa importância pode dar subsídio para outras análises que por ventura venham a eliminar a fragilidade do modelo.

Um dos aspectos levantados foi que antigamente para levantamento da importância dessas variáveis eram usados técnicas de regressão as quais de acordo os respectivos coeficientes regressores  eram utilizados como maneira de ranquear as variáveis.

Contudo, com as técnicas mais modernas de análise de dados, e em especial com novos algoritmos, e a necessidade de modelos que além de terem um alto poder de classificação e predição devem ser compreensíveis, conhecer a importância de cada uma das variáveis ajuda entender o grau de especificidade do modelo.

Em outras palavras, essa atividade auxilia no entendimento do papel – ou força – de cada uma das variáveis no modelo.

Uma heurística interessante que foi explicada no vídeo é conhecida como Leave-One-Variable-Out (LOVO).

A técnica de LOVO consiste em retirar sistematicamente uma variável por vez do modelo, e após isso o modelo preditivo é gerado sem essa variável e de acordo com a variância, isto é, a degradação dos resultados, esse processo auxilia em medir o quanto o modelo perde se aquela variável sair.

Essa heurística é extremamente válida em casos em que se trabalha com heurísticas como Redes Neurais Artificiais, no qual muitas vezes mesmo com alterações em parâmetros de arquitetura (Hidden Layers, Neurônios de Entrada, Neurônios de Saída, Momentum, Taxa de Aprendizado, etc) não há uma visão tão nítida da influência da variável na convergência do modelo.

Etiquetado , , , , , , , , , , , ,

Modelagem de Resultado

Neste post do Paul Mineiro (um dos mais reflexivos autores da blogosfera de Analytics) ele coloca em questão os custos e benefícios do trabalho de pesquisa e como o pesquisador profissional deve deixar o seu empregador informado sobre especialmente desses benefícios.

Esse trecho abaixo diz muito sobre o fato de que nós pesquisadores e entusiastas da análise de dados, e principalmente Data Mining não somos tão bons em divulgar os nossos resultados:

Recent events have me thinking again about the viability of privately funded basic research. In my opinion, the history of Xerox PARC is deeply troubling. What?! At it’s peak the output of Xerox PARC was breathtaking, and many advances in computation that became widespread during my youth can be traced to Xerox PARC. Unfortunately, Xerox did not benefit from some of the most world-changing innovations of their R&D department. Now a generation of MBAs are told about the Cisco model, where instead of having your own research department, you wait for other firms to innovate and then buy them.

… it continues to buy small, innovative firms rather than develop new technology from scratch …

To be clear my employer, Microsoft, still shows a strong commitment to basic research. Furthermore, recent research layoffs at Microsoft were not related to research quality, or to the impact of that research on Microsoft products. This post is not about Microsoft, it is about the inexorable power of incentives and economics.

Quite simply, it is irrational to expect any institution to fund an activity unless that organization can realize sufficient benefit to cover the costs. That calculation is ultimately made by people, and if those people only hear stories about how basic research generates benefits to other firms (or even, competitors!), appetite will diminish. In other words, benefits must not only be real, they must be recognizable to decision makers. This is, of course, a deep challenge, because the benefits of research are often not recognizable to the researchers who perform it. Researchers are compelled to research by their nature, like those who feel the need to scale Mount Everest. It so happens that a byproduct of their research obsession is the advancement of humanity.

A discussão poderia ir para o caminho de questões orçamentárias e tudo mais; mas o cerne da questão é que devido a esse péssimo marketing pessoal (sic.) que faz parte de todo o jogo (teatro) corporativo reflete em que técnicas e competências extremamente ultrapassadas estejam reinando; mais especificamente as ferramentas de Business Intelligence e seus analistas que promovem mais entropia nas organizações com a avalanche de relatórios sobre o… passado.

A mineração de dados e a modelagem preditiva como um todo entram em uma arena de complexidade e análise diferente do exemplo citado acima; na qual ao invés de realizar diversas análises conjecturais que muitas das vezes desconsideram os dados e estão literalmente ancoradas e vieses cognitivos (ou cacoetes corporativos para a manutenção do status quo) elas são pautadas em tecnologias que vão segmentam, classificam e recomendam usando informações de bases de dados em problemas tipicamente não lineares no qual um analista humano teria extrema dificuldade de agir.

Uma das soluções para que a Mineração de Dados seja vista como uma alternativa real, face a esta crescente entropia no ambiente de negócios transvestida de ‘Inteligência’ (e principalmente dando dinheiro a charlatães, mas isso será assunto de outro post) as análises devem ter ligação direta com os resultados, sejam financeiros ou mesmo de outra natureza.

O melhor programa de marketing sempre foi, e sempre será a entrega de resultados e superação de metas. Ponto.

Sendo assim quais são as formas de se realizar isso com a mineração de dados? Algumas sugestões aleatórias seriam (i) a utilização de Uplift Modeling para comparar  o a) Status Quo, b) outras análises que estão sendo performadas sem a Mineração de Dados,  c) usando a Mineração de Dados e o posterior contraste dos métodos mostrando tempo empregado, custos e receita líquida final; (ii) estruturação de uma metodologia para a aplicação da Mineração dado que este é o ponto mais sensível quando vai se explicar esse tipo de trabalho para audiência não-técnica; e (iii) ter em mente a seguinte equação “Realidade = Modelo – Erro”; em outras palavras, isso significa que você sempre estará olhando o intangível, isto é, informações que estão aquém da modelagem de dados; e por último (iv) estruture uma apresentação efetiva desses resultados, um ótimo recurso é o livro Real Leaders Don’t Do Power Point que mostra que até o analista mais técnico pode realizar uma apresentação excelente.

Etiquetado , ,
%d blogueiros gostam disto: