Os top 10 piores gráficos

Isso mostra que substância sem apresentação não faz qualquer sentido.

Roeder K (1994) DNA fingerprinting: A review of the controversy (with discussion). Statistical Science9:222-278, Figure 4
[The article | The figure | Discussion]
2. Wittke-Thompson JK, Pluzhnikov A, Cox NJ (2005) Rational inferences about departures from Hardy-Weinberg equilibrium. American Journal of Human Genetics 76:967-986, Figure 1
[The article | Fig 1AB | Fig 1CD | Discussion]
3. Epstein MP, Satten GA (2003) Inference on haplotype effects in case-control studies using unphased genotype data. American Journal of Human Genetics 73:1316-1329, Figure 1
[The article | The figure | Discussion]
4. Mykland P, Tierney L, Yu B (1995) Regeneration in Markov chain samplers. Journal of the American Statistical Association 90:233-241, Figure 1
[The article | The figure | Discussion]
5. Hummer BT, Li XL, Hassel BA (2001) Role for p53 in gene induction by double-stranded RNA. J Virol75:7774-7777, Figure 4
[The article | The figure | Discussion]
6. Cawley S, et al. (2004) Unbiased mapping of transcription factor binding sites along human chromosomes 21 and 22 points to widespread regulation of noncoding RNAs. Cell 116:499-509, Figure 1
[The article | The figure | Discussion]
7. Kim OY, et al. (2012) Higher levels of serum triglyceride and dietary carbohydrate intake are associated with smaller LDL particle size in healthy Korean women. Nutrition Research and Practice 6:120-125, Figure 1
[The article | The figure | Discussion]
8. Jorgenson E, et al. (2005) Ethnicity and human genetic linkage maps. American Journal of Human Genetics76:276-290, Figure 2
[The article | Figure 2a | Figure 2b | Discussion]
9. Cotter DJ, et al. (2004) Hematocrit was not validated as a surrogate endpoint for survival amoung epoetin-treated hemodialysis patients. Journal of Clinical Epidemiology 57:1086-1095, Figure 2
[The article | The figure | Discussion]
10. Broman KW, Murray JC, Sheffield VC, White RL, Weber JL (1998) Comprehensive human genetic maps: Individual and sex-specific variation in recombination. American Journal of Human Genetics 63:861-869, Figure 1
[The article | The figure | Discussion]

 

Os top 10 piores gráficos

Porque visualizamos dados quantitativos?

O Stephen  Few dá uma explicação magistral:

But why is it that we must sometimes use graphical displays to perform these tasks rather than other forms of representation? Why not always express values as numbers in tables? Why express them visually rather than audibly? Essentially, there is only one good reason to express quantitative data visually: some features of quantitative data can be best perceived and understood, and some quantitative tasks can be best performed, when values are displayed graphically. This is so because of the ways our brains work. Vision is by far our dominant sense. We have evolved to perform many data sensing and processing tasks visually. This has been so since the days of our earliest ancestors who survived and learned to thrive on the African savannah. What visual perception evolved to do especially well, it can do faster and better than the conscious thinking parts of our brains. Data exploration, sensemaking, and communication should always involve an intimate collaboration between seeing and thinking (i.e., visual thinking).

Abaixo ele coloca a tabela das tarefas e metas da visualização de dados.

Web

Porque visualizamos dados quantitativos?

Bocas grandes sobre Big Data

Neste post o Stephen Few (aos moldes do que vem fazendo o Nassim Taleb) vai desmascarando a grande falácia que é o Big Data nos dias atuais.

Esse trecho é simplesmente destruidor:

Dr. Hidalgo,

Your response regarding the definition of Big Data demonstrates the problem that I’m trying to expose: Big Data has not been defined in a manner that lends itself to intelligent discussion. Your definition does not at all represent a generally accepted definition of Big Data. It is possible that the naysayers with whom you disagree define Big Data differently than you do. I’ve observed a great many false promises and much wasted effort in the name of Big Data. Unless you’re involved with a broad audience of people who work with data in organizations of all sorts (not just academia), you might not be aware of some of the problems that exist with Big Data.

Your working definition of Big Data is somewhat similar to the popular definition involving the 3 Vs (volume, velocity, and variety) that is often cited. The problem with the 3 Vs and your “size, resolution, and scope” definition is that they define Big Data in a way that could be applied to the data that I worked with when I began my career 30 years ago. Back then I routinely worked with data that was big in size (a.k.a., volume), detailed in resolution, and useful for purposes other than that for which it was originally generated. By defining Big Data as you have, you are supporting the case that I’ve been making for years that Big Data has always existed and therefore doesn’t deserve a new name.

I don’t agree that the term Big Data emerged as a “way to refer to digital traces of human activity that were collected for operational purposes by service providers serving large populations, and that could be used for purposes that were beyond those for which the data was originally collected.” What you’ve described has been going on for many years. In the past we called it data, with no need for the new term “Big Data.” What I’ve observed is that the term Big Data emerged as a marketing campaign by technology vendors and those who support them (e.g., large analyst firms such as Gartner) to promote sales. Every few years vendors come up with a new name for the same thing. Thirty years ago, we called it decision support. Not long after that we called it data warehousing. Later, the term business intelligence came into vogue. Since then we’ve been subjected to marketing campaigns associated with analytics and data science. These campaigns keep organizations chasing the latest technologies, believing that they’re new and necessary, which is rarely the case. All the while, they never slow down long enough to develop the basic skills of data sensemaking.

When you talk about data visualization, you’re venturing into territory that I know well. It is definitely not true that data visualization has “progressed enormously during recent years.” As a leading practitioner in the field, I am painfully aware that progress in data visualization has been slow and, in actual practice, is taking two steps backwards, repeating past mistakes, for every useful step forwards.

What various people and organizations value from data certainly differs, as you’ve said. The question that I asked, however, is whether or not the means of gleaning value from data, regardless of what we deem valuable, are significantly different from the past. I believe that the answer is “No.” While it is true that we are always making gradual progress in the development of analytical techniques and technologies, what we do today is largely the same as what we did when I first began my work in the field 30 years ago. Little has changed, and what has changed is an extension of the past, not a revolutionary or qualitative departure.

Bocas grandes sobre Big Data

Simpósio de Visualização em Big Data

O  Symposium on the Emerging Science of Big Data Visualization ocorreu em Maio desse ano na Caltech e teve como objetivo realizar um panorama de como andam os estudos e as perspectivas em relação à visualização de dados nesta época de Big Data. Abaixo a descrição do evento:

Nearly every scientific and engineering endeavor faces a fundamental challenge to see and extract insights from data. Effective Data Science and Visualization can lead to new discoveries. Together, we at Caltech, NASA JPL, and Art Center represent the same convergence of science, engineering and design that drives new Big Data-powered discovery. Industry leaders came together for a series of talks to inspire, unite, and challenge our community to re-examine our practices, and our perspectives.

O evento foi registrado e tem a participação da brasileira Fernanda Viegas que trabalhou no Many Eyes e atualmente está no MIT.

  • Introduction – Scott Davidoff, Hillary Mushkin, and Maggie Hendrie
  • Interactive Data Analysis – Jeffrey Heer
  • Reduction/Revelation – Jer Thorp
  • When Art and Analytics Overlap – Golan Levin
  • Communicating Science to the Public – Eric Rodenbeck
  • Visualizing Natural and Cultural Phenomena – Fernanda Viegas & Martin Wattenberg
  • Objects and Data Collections in Early Scientific Disciplines – Anja-Silvia Goeing
Simpósio de Visualização em Big Data

Estudante ou Formando em Jornalismo o que você está esperando para aprender sobre visualização?

O jornalismo com o advento dos novos canais de mídia como os veículos que têm a internet como suporte foi obrigado a mudar. Pena que as faculdades de jornalismo e comunicação social ainda não sabem disso.

Em uma rápida pesquisa baseada em uma amostra empírica e evidência anedótica não encontrei nenhum curso no qual tivesse na grade algum tipo de disciplina que trabalha com métodos quantitativos aplicados à visualização de dados.

Hoje a usabilidade é um fator determinante para a comunicação e com o perfil dos leitores com o nível de esclarecimento (acadêmico) mais elevado é necessário que o jornalista que tem como principal missão trazer os fatos tenha além do viés investigativo também tenha habilidade de lidar com números e principalmente na forma de expor esses números aos leitores.

Neste post da Tableau é feita uma análise de como o poderoso Le Monde está se adaptando a esta realidade. 

Data Jornalism é o futuro.

Estudante ou Formando em Jornalismo o que você está esperando para aprender sobre visualização?

Visualização de Dados: Incerteza, e Ambigüidade

Neste artigo da Nature escrito por Vivien Marx ela traça bons paralelos com a atividade de visualização de dados e as incertezas e ambiguidades dessa forma de análise de dados.

A visualização de dados tornou-se uma disciplina muito estudada em especial nos últimos 20 anos, com especial destaque para os trabalhos do Edward Tufte. Entretanto um dos fatos que é pouco salientado até mesmo no estudo desta disciplina é que a visualização de dados obrigatoriamente implica na perda de informação. Ponto.

Essa perda refere-se a questões ligadas a modelagem gráfica na qual o analista de dados deve por obrigação realizar a abstração de dados para posteriormente enquadrar os mesmos em um formato orientado à visualização destes dados.

Não há nada de errado nisso, mas como a Sra. Marx coloca em ser artigo, nunca deve ser esquecido que:

“Being sure is good; being uncertain is not necessarily bad.”

Um dos pontos interessantes do artigo é sem dúvidas no aspecto da incerteza nos modelos de visualização de dados no qual a passagem abaixo representa muito bem isso:

“Uncertainty comes in many flavors. It can arise upon data capture, during analysis or during visualization. It may be due to missing, noisy or imprecise data or to filters that could skew calculations, or there may be too few data to begin with, says Heidrun Schumann, a computer scientist at the University of Rostock who studies uncertainty visualization in many research areas, including the life sciences”

O ponto principal do artigo e que pode servir para analistas de dados é que muitas das vezes um modelo de visualização mesmo com as suas abstrações de dados e com o seu grau de incerteza pode auxiliar na tomada de decisão por dois aspectos básicos que são 1) o tempo disponível para a análise dos dados e 2) forma de abstração e agregação da informação relevante que neste caso assume-se a incerteza e os riscos atrelados nela.

nmeth.2530

Visualização de Dados: Incerteza, e Ambigüidade

Livro Data Points: Visualization That Means Something

O Nathan Yau do ótimo site Flowing Data a algum tempo vem trazendo a tona que a visualização de dados possuí um papel importante em relação à descoberta de conhecimento.

Ele acaba de lançar um livro bastante interessante chamado Data Points: Visualization That Means Something.

Para quem deseja aplicar os conceitos de análise exploratória de dados via visualização de dados o livro pode ser um ótimo material de partida.

Livro Data Points: Visualization That Means Something

7 segredos da Visualização

Este post de Nate Agrin e Nick Rabinowitz realizam uma ótima lista a respeito dos segredos da visualização, no qual eles colocam uma visão bastante útil em relação à projetos dessa natureza.

Hoje com a facilidade do uso das ferramentas de visualização, muito do que se entendia como análise de dados está se resumindo a análise iconográfica, na qual aspectos como estacionariedade, análise de tendências/anomalias está virando mais um exercício lúdico do que ferramentas de suporte para executivos e tomadores de decisão.

Segue a lista destacada no post:

  1. Real data is ugly
  2. A bar chart is usually better
  3. There’s no substitute for real data
  4. The devil is in the details
  5. Animate only when appropriate
  6. Visualisation is not analysis
  7. Data visualisation takes more than code  

 

 

 

 

 

7 segredos da Visualização

Gráficos de Pizza em pesquisa de Visualização de Informações

Este post mostra alguns resultados e comparações na efetividade de percepção visual entre os gráficos de pizza e barra, no qual os gráficos do primeiro tendem a ser mais efetivos no sentido em que podem ser aplicados proporcionalidades espaciais, enquanto no gráfico de barra isso tende a ser menos efetivo. Entretanto o Few faz algumas ressalvas que o gráfico de pizza é ruim quando trata-se de reportar aspectos quantitativos.

 

 

Gráficos de Pizza em pesquisa de Visualização de Informações

Big Data, Gartner, e a Ilusão da Idoneidade

Para quem acha que o “fenômeno do Big Data” é uma realidade para as empresas, e que a Gartner é idônea em suas publicações o Stephen Few fez um post com um parágrafo antológico:

[…] Gartner has no incentive to discourage organizations from investing in IT. They make their money by keeping us convinced that we can’t live without the latest technologies, regardless of whether they’re actually needed or actually work. The truth is, analyst organizations such as Gartner are in bed with the very technology vendors whose work they supposedly monitor and critique. They’re having a wild orgy in that bed, rolling in cash, but it is only the end users who are getting screwed. Essentially, Gartner and the like operate as extensions of technology company marketing departments. Gartner is creating demand for its clients’ products and services (yes, the very technology companies that these analyst organizations monitor—supposedly in an objective manner—are their clients, who pay dearly for their support). These products and services aren’t usually needed, they are often ineffective, and in the case of Big Data, they’re ephemeral.[…]

[…] A Gartner não tem motivos para desencorajar as organizações a investirem em TI . Eles fazem dinheiro nos mantendo convencidos de que nós não podemos viver sem a última tecnologia, independentemente se essas tecnologias estão em funcionamento. A verdade é, organizações de análise como a Gartner estão na cama com cada vendedor de tecnologia os quais estão trabalhando como se estivessem monitorando e criticando tecnologias.  Eles estão participando de uma orgia selvagem na cama, rolando em dinheiro, mas é apenas os usuários finais que estão bêbados.  Essencialmente, Gartner e semelhantes operam como extensões dos departamentos de marketing de empresas de tecnologia. […][…]Esses produtos e serviços não são necessários, e são geralmente também ineficientes, e no caso do big Data, são efêmeros[…] (Tradução Livre)

 

Big Data, Gartner, e a Ilusão da Idoneidade

Roland Garros – Data Mining Slam Tracking

Depois dos esportes americanos o Tênis é um dos esportes que contém a maior vastidão de estudos e estatíticas sobre jogadores, torneios e jogos em geral.

A IBM vem a alguns anos realizando um ótimo trabalho no desenvolvimento do SlamTracker que é uma suíte de permite visualizar os dados durante as partidas; e envolve muito do que é a Mineração de Dados em tempo real.

Através de atributos chave como sets, serviços, aces, erros e pontos ganhos é possível ver o jogo quase como se fosse telemetria; e além disso tem uma característica muito bacana chamada Momentum que é uma métrica de evolução no jogo dos atletas de acordo com os pontos ganhos, e a importância desses pontos; de modo que é possível verificar durante a partida qual o jogador que está em um momento melhor durante a partida.

Roland Garros – Data Mining Slam Tracking

Mineração de Dados aplicada a dados Criminais

Apesar do ótimo trabalho de visualização de dados, o site do Diego Valle é sem dúvidas um ótimo exemplo de como a mineração de dados pode auxiliar na questão do trabalho de mapeamento e desenvolvimento de mancha criminal. Nesse caso ele utilizou os casos criminais do México. Ótimo trabalho.

Mineração de Dados aplicada a dados Criminais

Garimpe

Esse site tem como finalidade ser um agregador, ou como chamam um hub sobre Mineração de Dados trazendo noticias, informações, posts interessantes de outros autores, apresentando livros e exercendo algumas reflexões sobre a atividade de Mineração de Dados em geral.

No meio corporativo, bem como no acadêmico ainda há muito a ser estudado e aplicado sobre o assunto; e ainda há uma certa resistência de velhos paradigmas de pensamento sobre essa disciplina.

Há um foco em demasia sobre as propostas de ferramentas de visualização, reporting, ou mesmo serviços através da plataforma de BI, no qual se faz análise em bases de dados de forma quase que mística para ser econômico.

Dessa forma o site também fará um contraponto sempre apresentando argumentos, e na medida do possível irá mostrar exemplos práticos, estes útimos tão escassos na literatura brasileira.

Garimpe!

Garimpe