O segredo de Luiza – Uma análise de dados antológica

Este post é uma das análises de dados mais antológicas que eu já vi na blogosfera. Os comentários são sensacionais e mostra que os dados serão sempre mais consistentes que vieses, ideologias, achismo, palpiterismo, etc.

O segredo de Luiza – Uma análise de dados antológica

Michael Jordan (Não o do basquete) fala sobre alguns tópicos em Aprendizado de Máquina e sobre Big Data

Abaixo está o depoimento mais sensato sobre alguns assuntos relativos à análise de dados, Data Mining, e principalmente Big Data.

UPDATE: O próprio MJordan deu uma entrevista dizendo que em alguns pontos foi mal interpretado. No entanto, cabe ressaltar que muito do que é importante na fala ele não falou nada a respeito; então tirem as suas conclusões.

Para quem não sabe, o Michael Jordan (IEEE) é uma das maiores autoridades no que diz respeito em aprendizado de máquina no mundo acadêmico.

Esta entrevista (que foi sonegada por este espaço por puro desleixo) ele apresenta argumentos extremamente sóbrios e lúcidos sobre Deep Learning (que terá um tópico aqui em breve) e principalmente sobre o Big Data.

Sobre a parte de Big Data em especial, esses comentários convidam à uma reflexão, e acima de tudo colocam pontos que merecem ser discutidos sobre esse fenômeno.

Obviamente empresas do calibre da Google, Amazon, Yahoo, e alguns projetos como Genoma podem ter benefício de grandes volumes de dados. O problema principal é que todo essa hipsterização em torno do Big Data parece muito mais algo orientado ao marketing do que a resolução de questões de negócio pertinentes.

Seguem alguns trechos importantes:

Sobre Deep Learning, simplificações e afins…

IEEE Spectrum: I infer from your writing that you believe there’s a lot of misinformation out there about deep learning, big data, computer vision, and the like.

Michael Jordan: Well, on all academic topics there is a lot of misinformation. The media is trying to do its best to find topics that people are going to read about. Sometimes those go beyond where the achievements actually are. Specifically on the topic of deep learning, it’s largely a rebranding of neural networks, which go back to the 1980s. They actually go back to the 1960s; it seems like every 20 years there is a new wave that involves them. In the current wave, the main success story is the convolutional neural network, but that idea was already present in the previous wave. And one of the problems with both the previous wave, that has unfortunately persisted in the current wave, is that people continue to infer that something involving neuroscience is behind it, and that deep learning is taking advantage of an understanding of how the brain processes information, learns, makes decisions, or copes with large amounts of data. And that is just patently false.

Spectrum: It’s always been my impression that when people in computer science describe how the brain works, they are making horribly reductionist statements that you would never hear from neuroscientists. You called these “cartoon models” of the brain.

Michael Jordan: I wouldn’t want to put labels on people and say that all computer scientists work one way, or all neuroscientists work another way. But it’s true that with neuroscience, it’s going to require decades or even hundreds of years to understand the deep principles. There is progress at the very lowest levels of neuroscience. But for issues of higher cognition—how we perceive, how we remember, how we act—we have no idea how neurons are storing information, how they are computing, what the rules are, what the algorithms are, what the representations are, and the like. So we are not yet in an era in which we can be using an understanding of the brain to guide us in the construction of intelligent systems.

Sobre Big Data

Spectrum: If we could turn now to the subject of big data, a theme that runs through your remarks is that there is a certain fool’s gold element to our current obsession with it. For example, you’ve predicted that society is about to experience an epidemic of false positives coming out of big-data projects.

Michael Jordan: When you have large amounts of data, your appetite for hypotheses tends to get even larger. And if it’s growing faster than the statistical strength of the data, then many of your inferences are likely to be false. They are likely to be white noise.

Spectrum: How so?

Michael Jordan: In a classical database, you have maybe a few thousand people in them. You can think of those as the rows of the database. And the columns would be the features of those people: their age, height, weight, income, et cetera.

Now, the number of combinations of these columns grows exponentially with the number of columns. So if you have many, many columns—and we do in modern databases—you’ll get up into millions and millions of attributes for each person.

Now, if I start allowing myself to look at all of the combinations of these features—if you live in Beijing, and you ride bike to work, and you work in a certain job, and are a certain age—what’s the probability you will have a certain disease or you will like my advertisement? Now I’m getting combinations of millions of attributes, and the number of such combinations is exponential; it gets to be the size of the number of atoms in the universe.

Those are the hypotheses that I’m willing to consider. And for any particular database, I will find some combination of columns that will predict perfectly any outcome, just by chance alone. If I just look at all the people who have a heart attack and compare them to all the people that don’t have a heart attack, and I’m looking for combinations of the columns that predict heart attacks, I will find all kinds of spurious combinations of columns, because there are huge numbers of them.

So it’s like having billions of monkeys typing. One of them will write Shakespeare.

Spectrum:Do you think this aspect of big data is currently underappreciated?

Michael Jordan: Definitely.

Spectrum: What are some of the things that people are promising for big data that you don’t think they will be able to deliver?

Michael Jordan: I think data analysis can deliver inferences at certain levels of quality. But we have to be clear about what levels of quality. We have to have error bars around all our predictions. That is something that’s missing in much of the current machine learning literature.

Spectrum: What will happen if people working with data don’t heed your advice?

Michael Jordan: I like to use the analogy of building bridges. If I have no principles, and I build thousands of bridges without any actual science, lots of them will fall down, and great disasters will occur.

Similarly here, if people use data and inferences they can make with the data without any concern about error bars, about heterogeneity, about noisy data, about the sampling pattern, about all the kinds of things that you have to be serious about if you’re an engineer and a statistician—then you will make lots of predictions, and there’s a good chance that you will occasionally solve some real interesting problems. But you will occasionally have some disastrously bad decisions. And you won’t know the difference a priori. You will just produce these outputs and hope for the best.

And so that’s where we are currently. A lot of people are building things hoping that they work, and sometimes they will. And in some sense, there’s nothing wrong with that; it’s exploratory. But society as a whole can’t tolerate that; we can’t just hope that these things work. Eventually, we have to give real guarantees. Civil engineers eventually learned to build bridges that were guaranteed to stand up. So with big data, it will take decades, I suspect, to get a real engineering approach, so that you can say with some assurance that you are giving out reasonable answers and are quantifying the likelihood of errors.

Spectrum: Do we currently have the tools to provide those error bars?

Michael Jordan: We are just getting this engineering science assembled. We have many ideas that come from hundreds of years of statistics and computer science. And we’re working on putting them together, making them scalable. A lot of the ideas for controlling what are called familywise errors, where I have many hypotheses and want to know my error rate, have emerged over the last 30 years. But many of them haven’t been studied computationally. It’s hard mathematics and engineering to work all this out, and it will take time.

It’s not a year or two. It will take decades to get right. We are still learning how to do big data well.

Spectrum: When you read about big data and health care, every third story seems to be about all the amazing clinical insights we’ll get almost automatically, merely by collecting data from everyone, especially in the cloud.

Michael Jordan: You can’t be completely a skeptic or completely an optimist about this. It is somewhere in the middle. But if you list all the hypotheses that come out of some analysis of data, some fraction of them will be useful. You just won’t know which fraction. So if you just grab a few of them—say, if you eat oat bran you won’t have stomach cancer or something, because the data seem to suggest that—there’s some chance you will get lucky. The data will provide some support.

But unless you’re actually doing the full-scale engineering statistical analysis to provide some error bars and quantify the errors, it’s gambling. It’s better than just gambling without data. That’s pure roulette. This is kind of partial roulette.

Spectrum: What adverse consequences might await the big-data field if we remain on the trajectory you’re describing?

Michael Jordan: The main one will be a “big-data winter.” After a bubble, when people invested and a lot of companies overpromised without providing serious analysis, it will bust. And soon, in a two- to five-year span, people will say, “The whole big-data thing came and went. It died. It was wrong.” I am predicting that. It’s what happens in these cycles when there is too much hype, i.e., assertions not based on an understanding of what the real problems are or on an understanding that solving the problems will take decades, that we will make steady progress but that we haven’t had a major leap in technical progress. And then there will be a period during which it will be very hard to get resources to do data analysis. The field will continue to go forward, because it’s real, and it’s needed. But the backlash will hurt a large number of important projects.

Michael Jordan (Não o do basquete) fala sobre alguns tópicos em Aprendizado de Máquina e sobre Big Data

A predição que eu não quero…

Este site trata de questões ligadas diretamente à Data Mining e as demais variantes em relação à análise de dados, aprendizado de máquina, meta-heurísticas, matemática e estatística.

No entanto, um artigo do John Katz do New York Times que fala sobre os modelos de predição para as eleições do senado deste ano é um (mal) exemplo claro de que as atividades de análise de dados nunca podem ser um fim em si mesmas.

Em suma o artigo fala dos problemas dos modelos de predição, e mostra que mais uma vez os modelos erraram em detectar uma onda Republicana.

Até aí nada de mais: Modelos preditivos falhando.

Contudo, depois do excelente  livro do Nate Silver  um efeito nocivo dessa popularização da análise de dados e da mineração de dados é que muitos jornais, revistas, sites começaram a realizar o que eu chamo de análises estéreis no qual essas análises não olham a consequência da decisão, mas sim olham somente os números como se a análise preditiva fosse uma imensa gincana.

Não que eleições dessa natureza venham contribuir em termos de práticos para os pagadores de impostos; porém, para o pagador de impostos melhor do que saber qual indicador preditivo está com melhor desempenho; o certo seria entender como a composição de um senado iria influenciar em questões orçamentarias, fiscais, e principalmente de grandes questões importantes para todos.

A lição que fica é que a análise e a mineração de dados sempre está sujeita a questões ligadas ao suporte à decisão, e não somente a análise per se.

PS: As análises e o código fonte estão neste link.

A predição que eu não quero…

Dados x Teoria

Neste post do Noahpinion mais uma vez tem o debate sobre Dados x Teoria. O autor até colocou uma frase do Paul Krugman:

But you can’t be an effective fox just by letting the data speak for itself — because it never does. You use data to inform your analysis, you let it tell you that your pet hypothesis is wrong, but data are never a substitute for hard thinking. If you think the data are speaking for themselves, what you’re really doing is implicit theorizing, which is a really bad idea (because you can’t test your assumptions if you don’t even know what you’re assuming.)

No final o autor literalmente escorrega no tomate com essa frase:

In the past, data-laziness was probably more of a threat to humanity. Since systematic data was scarce, people had a tendency to sit around and daydream about how stuff might work. But now that Big Data is getting bigger and computing power is cheap, theory-laziness seems to be becoming more of a menace. The lure of Big Data is that we can get all our ideas from mining for patterns, but A) we get a lot of false patterns that way, and B) the patterns insidiously and subtly suggest interpretations for themselves, and those interpretations are often wrong.

Três notas rápidas sobre esse artigo:

1 – O sucesso do Nate Silver que através do seu site e também de seu  livro simplesmente acabou com todos os comentaristas políticos nos EUA e fizeram a opinião pública questionar os ‘especialistas’ e os vieses de suas opiniões. E até o Paul Krugman está incomodado com isso;

2 – Nos dias de hoje contamos com aparatos estatísticos muito mais avançados que na antiguidade para analisar os dados. Isso significa que se antigamente não haviam os dados não significa necessariamente que as teorias eram válidas por não serem testáveis. Logo, a análise quantitativa nos dias de hoje representa uma condição de que a teoria pode ser testada e submetida ao falseamento constante, o que é um requisito básico da análise científica; e

3 – A era de ouro no qual economistas, sociólogos, estatísticos, jornalistas e tutti quanti simplesmente deitavam-se sobre aspectos formais e estruturais da teoria usando amostragem (sem revelar, logicamente, vieses e metodologia) está acabando. E isso é ótimo.

Pra quem quer saber um pouco mais o porque da raiva com o Nate Silver e sobre a sua abordagem está aqui.

Dados x Teoria

O erro de análise: Contrafactual

Nesse artigo da MSNBC fica mais que claro que o jornalismo ainda precisa evoluir no que tange a dar uma ‘opinião’ sobre os fatos.

O artigo fala sobre um relatório da New America Fundation no qual de acordo com a instituição a coleta de dados feita pela NSA não apresenta impactos disserníveis na prevenção dos atos de terrorismo.

É destacado que grande parte das informações de inteligência utilizam-se de métodos tradicionais como informantes, entre outros.

O que o artigo não destaca é que, dentro do espectro de análise de dados as informações e o conhecimento implícito em sua combinação e compreensão mais importante do que a informação é o que é feito de fato com a mesma.

O erro de análise: Contrafactual

A maioria das analises estatísticas não é realizada por estatísticos

Neste post do Jeff Leek ele aborda de maneira bem lúcida a crescente tendência de que a maioria das análises estatísticas são realizadas por pessoas que sabem somente o ‘instrumental’ em estatística.

Na blogosfera de estatística, física e matemática o tema trás muita discussão com opiniões divididas em pessoas que acham que essas pessoas não são capazes de realizar tais análises e outros que vem esse uso instrumental da estatística como a vitória dos métodos quantitativos.

Uma visão estreita tem sido compartilhada por diversas pessoas oriundas destas disciplinas na qual estes defendem que somente pessoas com formação acadêmica em métodos quantitativos são capazes de realizar análises devido ao fato que a formação é baseada na execução de tarefas desta natureza. Um erro lógico proveniente de pessoas que não poderiam abrir mão da lógica por definição acadêmica, quase beirando o rent-seeking. Mais do que um erro um estatístico que acha que deve trabalhar com análise descritiva (que é o que ocorre em 95% do tempo) é algo como um engenheiro desejar trabalhar como ajudante de alvenaria.

Uma visão bem mais positiva e correta é colocada por Leek:

What does this mean for statistics as a discipline? Well it is great news in that we have a lot more people to train. It also really drives home the importance of statistical literacy. But it also means we need to adapt our thinking about what it means to teach and perform statistics. We need to focus increasingly on interpretation and critique and away from formulas and memorization (think English composition versus grammar). We also need to realize that the most impactful statistical methods will not be used by statisticians, which means we need more fool proofing, more time automating, and more time creating software. The potential payout is huge for realizing that the tide has turned and most people who analyze data aren’t statisticians.

Os métodos quantitativos venceram e com mais pessoas performando estas análises todo o ambiente de negócios melhora como um todo.

A maioria das analises estatísticas não é realizada por estatísticos

A Tirania das Médias

O William Briggs nos brinda com mais um “causo” sobre a tirania das médias.

It might be that the average man grieves (say) 8 months after the death of his wife (one of Coontz’s example), but that doesn’t mean that a man who stops crying at 2 months is heard-hearted, nor that a man who wears sackcloth for two years is insane.

Using just the average to define “normal” in people is dangerously close to the fallacy of defining moral truths by vote. Come to think of it, isn’t that what the Diagnostic and Statistical Manual of Mental Disorders does? Plus, even “extremes” might not be “abnormal” in the sense of undesirable or harmful; it all depends on the behavior and our understanding of biology and morality.

A Tirania das Médias

Recomendação de Blog: Engaging Market Research

Este blog é escrito pelo Joel Cadwell no qual ele apresenta a pesquisa em marketing de forma extremamente aplicada, isto é, sem floreios retóricos e conceitos baseado na construção de palavras românticas sobre Marketing e Publicidade.

Leitura obrigatória para quem deseja aplicar mineração de dados neste tipo de domínio, bem como estudiosos sobre o comportamento do consumidor (em especial, CRM).

Recomendação de Blog: Engaging Market Research

As 500 milhas de Indianápolis e a Análise de Dados

Neste post do Doug Laney ele mostra como as equipes de corrida participantes da Formula Indy utilizam a análise de dados para ajustes nos carros, bem como realizar predições relativas ao compostamento do carro com níveis de acurácia de 90%.

Realizando um paralelo com o ambiente de negócios cada vez mais competitivo (como na Indy), analisando a telemetria do negócio (KPIs, etc) o autor coloca algumas questões que reproduzo abaixo:

  1. Are you sufficiently monitoring key business processes, systems and personnel using available sensors and instrumentation?
  2. Are your data streams collected frequently enough for real-time process adjustments (i.e. complex event processing)?
  3. Do your business processes support real-time or near real-time inputs to adjust their operation or performance?
  4. Can you anticipate business process or system failures before they occur, or are you doing too much reactive maintenance?
  5. Do you centrally collect data about business function performance?
  6. Do you make use of advances in high-performance analytics such as in-memory databases, NoSQL databases, data warehouse appliances, etc.?
  7. Do you gather important external data (e.g. weather, economic) to supplement and integrate with your own data?
  8. Do you synchronize, align and integrate data that comes from different streams?
  9. Do you make your data available to key business partners, suppliers and customers to help them provide better products and services to you?
  10. Do you have a common, sophisticated analytics platform that includes the ability to establish new analytic functions, alerts, triggers, visualizations?
  11. Can you run simulations on business systems while they’re operating and also between events to adjust strategies?
  12. Does your architecture support multiple users around the world seeing real-time business performance simultaneously?
  13. Do you have teams of business experts, product/service experts and data scientists collaborating on making sense of the data?
  14. Do you modify your products or services as frequently as you could or should based on available data?
  15. Do you also use data you collect to develop new products or services as frequently as you could or should?

E uma motivação a mais para este tipo de raciocínio que emula a realidade das pistas é colocada pelo próprio Laney:

Racing teams are able to invest in advanced analytics because millions of dollars and euros are on the line from hundreds of sponsors.  Hopefully your own big data project sponsors appreciate that big money is on the line for your business as well. Winning the race in your industry now probably depends on it.


As 500 milhas de Indianápolis e a Análise de Dados

Extração de Conhecimento com Mineração de Dados

Esse artigo provavelmente é um dos primeiros que trata o assunto dentro da perspectiva de negócios e é assinado pela Universidade da Pensylvania- Wharton. O mais especial neste artigo de 1999 é o trecho abaixo na qual Pfizer através da análise de dados descobriu que por ventura o Viagra estava sendo utilizado por homens para outros propósitos.

Pharmaceutical companies often use data mining for both clinical and marketing operations. Stine explains that big drug firms often sort through massive databases of compounds to screen out the most potentially successful ones, a task that is nearly impossible to perform manually. Sometimes, success arrives serendipitously. Pfizer, for example, did not intend to develop Viagra as a treatment for impotence. The drug’s original purpose was to relieve angina pain, but data analysis revealed that men who used it experienced sexual arousal, which eventually led to its development as a treatment for impotence.

Extração de Conhecimento com Mineração de Dados

7 segredos da Visualização

Este post de Nate Agrin e Nick Rabinowitz realizam uma ótima lista a respeito dos segredos da visualização, no qual eles colocam uma visão bastante útil em relação à projetos dessa natureza.

Hoje com a facilidade do uso das ferramentas de visualização, muito do que se entendia como análise de dados está se resumindo a análise iconográfica, na qual aspectos como estacionariedade, análise de tendências/anomalias está virando mais um exercício lúdico do que ferramentas de suporte para executivos e tomadores de decisão.

Segue a lista destacada no post:

  1. Real data is ugly
  2. A bar chart is usually better
  3. There’s no substitute for real data
  4. The devil is in the details
  5. Animate only when appropriate
  6. Visualisation is not analysis
  7. Data visualisation takes more than code  






7 segredos da Visualização

Data Scientist do Kaggle afirma: Conhecimento de especialistas é inútil

É um tópico polêmico, pois sem os especialistas de domínio a abordagem Black-box reina, e esse é o pior dos mundos para quem toma decisões baseadas em dados.

Data Scientist do Kaggle afirma: Conhecimento de especialistas é inútil

Você deveria terceirizar o setor de análises e inteligência?

A posição mais contundente sem dúvidas é a afirmação abaixo:

“Whenever you outsource to a partner something that involves deep intelligence about the business, you’re putting part of your brain outside your body”

Você deveria terceirizar o setor de análises e inteligência?

Economistas como Cientistas de Dados

Neste post do Econometric Sense, há uma importante reflexão sobre o papel dos economistas como cientistas de dados, e como as habilidades de domínio econômico, juntamente com background matemático possibilita que os mesmos exerçam esse tipo de atividade.

Esse tipo de post coloca mais uma vez em perspectiva toda a área de análise de dados, no qual a mesma está convergindo para papéis importantes dentro das organizações, onde o banco de dados como na visão dos DBAs (um grande repositório) está virando uma commodity, na qual quem não se qualificar e ter o entendimento dos dados será tratado pelo mercado como commodity e será remunerado como tal. Mas isso é um tema para um outro post.

Esse artigo do Silvio Meira, é um clássico para TODOS da área de Computação e afins.

Economistas como Cientistas de Dados