Um post demolidor do Stephen Few sobre o Big Data

Contrariando os departamentos de marketing dos grandes vendedores de software, o Stephen Few vem travando uma guerra quase que pessoal contra a indústria do Big Data.

Como esse termo que é mais comentado nas redes sociais e no marketing do que é praticado em campo (como eu chamo esses verdadeiros soldados da ciência de dados como o Luti, Erickson Ricci, Big Leka, Fabiano Amorim, Fabrício Lima, Marcos Freccia, entre outros) há uma entropia de opiniões e conceitos. Com essa entropia quem perde são somente os desinformados que não conseguem separar o sinal do ruído que acabam virando presas fáceis de produtos com qualidade duvidosa.

A vítima da vez foi o livro Dataclysm do Christian Rudder.

Em um dado momento do livro, o autor realiza um tipo de criticismo ao processo científico em que alguns pesquisadores das ciências do comportamento aplicadas utilizam seus alunos como amostra, e o autor de forma quase que pedante chama essas pesquisas de WEIRD (White, Educated, Industrialized, Rich and Democratic). Em tradução livre uma brincadeira com o acrônimo da palavra “Esquisita” em inglês como uma espécie de conotação pejorativa.

I understand how it happens: in person, getting a real representative data set is often more difficult than the actual experiment you’d like to perform. You’re a professor or postdoc who wants to push forward, so you take what’s called a “convenience sample”—and that means the students at your university. But it’s a big problem, especially when you’re researching belief and behavior. It even has a name: It’s called WEIRD research: white, educated, industrialized, rich, and democratic. And most published social research papers are WEIRD.

O que poderia ser um criticismo de um autor que tem como background os méritos em ser um dos co-fundadores do OKCupid, vira em uma leitura mais cuidadosa da exposição de uma lacuna em relação à análise de dados e pior: expõe um erro de entendimento em relação à teoria da amostragem (nada que uma leitura atenciosa do livro dos professores Bolfarine e Bussab não solucionasse).

E a resposta do Stephen Few é demolidora:

Rudder is a co-founder of the online dating service OKCupid. As such, he has access to an enormous amount of data that is generated by the choices that customers make while seeking romantic connections. Add to this the additional data that he’s collected from other social media sites, such as Facebook and Twitter, and he has a huge data set. Even though the people who use these social media sites are more demographically diverse than WEIRD college students, they don’t represent society as a whole. Derek Ruths of McGill University and Jürgen Pfeffer of Carnegie Mellon University recently expressed this concern in an article titled “Social Medial for Large Studies of Behavior,” published in the November 28, 2014 issue of Science. Also, the conditions under which the data was collected exercise a great deal of influence, but Rudder has “stripped away” most of this context.

Lição #1: Demografia não é sinal de diversidade em análise de dados.

Após esse trecho vem uma fala do Stephen Few que mostra de maneira bem sutil o arsenal retórico dos departamentos de marketing para convencer pessoas inteligentes em investir em algo que elas não entendem que é a poesia do entendimento; e uma outra situação mais grave: acreditar que os dados online em que somos perfis falam de maneira exata quem somos.

Contrary to his disclaimers about Big Data hype, Rudder expresses some hype of his own. Social media Big Data opens the door to a “poetry…of understanding. We are at the cusp of momentous change in the study of human communication.” He believes that the words people write on these sites provide the best source of information to date about the state and nature of human communication. I believe, however, that this data source reveals less than Rudder’s optimistic assessment. I suspect that it mostly reveals what people tend to say and how they tend to communicate on these particular social media sites, which support specific purposes and tend to be influenced by technological limitations—some imposed (e.g., Twitter’s 140 character limit) and others a by-product of the input device (e.g., the tiny keyboard of a smartphone). We can certainly study the effects that these technological limitations have on language, or the way in which anonymity invites offensive behavior, but are we really on the “cusp of momentous change in the study of human communication”? To derive useful insights from social media data, we’ll need to apply the rigor of science to our analyses just as we do with other data sources.

Lição #2: Entender o viés amostral, sempre irá reduzir a chance de más generalizações.

Lição #3: Contextos específicos não são generalizáveis (i.e. indução não é a mesma coisa que dedução).

E por último o autor fala uma pérola que merece estar em um panteão de bullshits (como esse da Bastter.com que é o maior combatente do bullshit midiático e de marketing do Brasil). É necessário que os leitores mais sensíveis a ausência de raciocínio lógico-cientifico segurem-se com o que vem aí. Segurem-se porque essa afirmação é forte:

“With Big Data we no longer need to adhere to the basic principles of science.”

 “Com Big Data não precisaremos aderir os princípios básicos da ciência”

A resposta, mais uma demolição:

Sourcing data from the wild rather than from controlled experiments in the lab has always been an important avenue of scientific study. These studies are observational rather than experimental. When we do this, we must carefully consider the many conditions that might affect the behavior that we’re observing. From these observations, we carefully form hypotheses, and then we test them, if possible, in controlled experiments. Large social media data sets don’t alleviate the need for this careful approach. I’m not saying that large stores of social media data are useless. Rather, I’m saying that if we’re going to call what we do with it data science, let’s make sure that we adhere to the principles and practices of science. How many of the people who call themselves “data scientists” on resumes today have actually been trained in science? I don’t know the answer, but I suspect that it’s relatively few, just as most of those who call themselves “data analysts” of some type or other have not been trained in data analysis. No matter how large the data source, scientific study requires rigor. This need is not diminished in the least by data volume. Social media data may be able to reveal aspects of human behavior that would be difficult to observe in any other way. We should take advantage of this. However, we mustn’t treat social media data as magical, nor analyze it with less rigor than other sources of data. It is just data. It is abundantly available, but it’s still just data.

Utilizando a mesma lógica contida na argumentação, não precisamos de ensaios randomizados para saber se um determinado remédio ou mesmo tipo de paradigma de alimentação está errado; podemos esquecer questões como determinação amostral, a questão das hipóteses, ou mesmo conceitos básicos de randomização amostral, ou mesmo verificar especificidades da população para generalizar conclusões, ou sequer considerar erros aleatórios ou flutuações estatísticas.

Apenas pegue dados de redes sociais e generalize.

Lição #4: Volume não significa nada sem significância amostral.

Lição #5: Independente da fonte dos dados, ainda continuam sendo dados. E sempre devem ser tratados com rigor.

Haverá alguns posts sobre essa questão amostral, mas o mais importante são as lições que podemos tirar desses que eu considero inocentes a serviço da desinformação.

Etiquetado , , , , ,

Quando o ruído vira sinal?

Uma das principais características do mau-jornalismo que está sendo feito (e com isso prejudicando os bons profissionais) é ver sinal onde é essencialmente ruído.

Essa “notícia” do Yahoo é um exemplo claro disso.

Nela os autores pegam uma frase solta e infeliz do Stephen Hawking e colocaram o sabor de sensacionalismo necessário para ganhar clicks para os anunciantes.

A frase foi:

“As forças primitivas de inteligência artificial que já temos demonstraram ser muito úteis”, admite Stephen Hawking que, vitimado por uma distrofia neuromuscular, se expressa através de um computador.

“Mas penso que o completo desenvolvimento da inteligência artificial poderia significar o fim da raça humana”, declarou, em entrevista recente à BBC.

O campo da Inteligência Artificial e as suas ramificações como a Inteligência Computacional, e as Heurísticas e Meta-Heurísticas estão desempenhando um ótimo trabalho na evolução do mundo como vivemos hoje.

Não é preciso ver a IA como algo muito longe. Ela está em lugares como:

Sistemas de Recomendação.

Educação.

Meteorologia.

Trabalhos perigosos para seres humanos.

Emissão de Poluentes.

Indústria Aeroespacial.

Setor Bancário.

Segurança e controle de fronteiras.

Medicina (Assistente cirúrgico).

Só alguns exemplos bem simples do que a IA já está fazendo nos dias de hoje.

Dizer que o desenvolvimento da IA levaria a destruição da raça humana, seria a mesma coisa de culpar a química pelo poder de destruição das bombas atômicas, essa sim uma ameaça bem mais séria mas que não tem um apelo dramático-jornalístico.

Para ler: Applicability of Artificial Intelligence in Different Fields of Life

Etiquetado , ,

Pequenas bases de dados para Toy Problems

Para quem quer descobrir ou mesmo aprender uma nova técnica de Data Mining e não quer perder tempo com processamento e precisa de bases de dados a Corpora criou um repositório de dados abertos.

Via Flowing Data

Etiquetado

Manipulação de opiniões no Facebook… Manipulação?

Primeiro uma breve contextualização sobre o assunto.

Em meados de setembro/outubro do ano passado alguns pesquisadores ligados à Google fizeram um estudo relativo ao contágio de sentimentos através das redes sociais usando informações do próprio Facebook.

Aqui está o abstract do artigo:

We show, via a massive (N = 689,003) experiment on Facebook, that emotional states can be transferred to others via emotional contagion, leading people to experience the same emotions without their awareness. We provide experimental evidence that emotional contagion occurs without direct interaction between people (exposure to a friend expressing an emotion is sufficient), and in the complete absence of nonverbal cues.

Emotional states can be transferred to others via emotional contagion, leading people to experience the same emotions without their awareness. Emotional contagion is well established in laboratory experiments, with people transferring positive and negative emotions to others. Data from a large real-world social network, collected over a 20-y period suggests that longer-lasting moods (e.g., depression, happiness) can be transferred through networks [Fowler JH, Christakis NA (2008) BMJ 337:a2338], although the results are controversial. In an experiment with people who use Facebook, we test whether emotional contagion occurs outside of in-person interaction between individuals by reducing the amount of emotional content in the News Feed. When positive expressions were reduced, people produced fewer positive posts and more negative posts; when negative expressions were reduced, the opposite pattern occurred. These results indicate that emotions expressed by others on Facebook influence our own emotions, constituting experimental evidence for massive-scale contagion via social networks. This work also suggests that, in contrast to prevailing assumptions, in-person interaction and nonverbal cues are not strictly necessary for emotional contagion, and that the observation of others’ positive experiences constitutes a positive experience for people.

Em suma: O Facebook propositalmente testou em pouco mais de 700 mil usuários o efeito do contágio de sentimentos através da ‘supressão ou adição de informações’ na linha do tempo desses usuários.

Houve uma grande polêmica em torno do assunto, inclusive até os editores emitiram uma nota esclarecendo alguns aspectos do estudo, e houve a mesma reclamação de sempre.

Com esse plano de fundo, no blog do Andrew Gelman foi escrito um post interessante sobre a questão e se essas reclamações são justificáveis ou não, e a resposta é categórica:

[…] It seems a bit ridiculous to say that a researcher needs special permission to do some small alteration of an internet feed, when advertisers and TV networks can broadcast all sorts of emotionally affecting images whenever they want. The other thing that’s bugging me is the whole IRB thing, the whole ridiculous idea that if you’re doing research you need to do permission for noninvasive things like asking someone a survey question.[…]

[…]So, do I consider this Facebook experiment unethical? No, but I could see how it could be considered thus, in which case you’d also have to consider all sorts of non-research experiments (the famous A/B testing that’s so popular now in industry) to be unethical as well. In all these cases, you have researchers, of one sort or another, experimenting on people to see their reactions. And I don’t see the goal of getting published in PNAS to be so much worse than the goal of making money by selling more ads.[…]

[…]Again, I can respect if you take a Stallman-like position here (or, at least, what I imagine rms would say) and argue that all of these manipulations are unethical, that the code should be open and we should all be able to know, at least in principle, how our messages are being filtered. So I agree that there is an ethical issue here and I respect those who have a different take on it than I do—but I don’t see the advantage of involving institutional review boards here. All sorts of things are unethical but still legal, and I don’t see why doing something and publishing it in a scientific journal should be considered more unethical or held to a more stringent standard than doing the same thing and publishing it in an internal business report.[…]

Em outras palavras: Não adianta a critica ao que o Facebook fez se de uma maneira ou de outra a propaganda/publicidade/marketing vem fazendo isso a anos. Não é porque alguém publica em um periódico acadêmico que faz ele menos “ético”(cabe ao juízo de valor de cada um) de quem faz isso internamente através de relatórios.

Nota Pessoal: Como ‘insider’ do mundo do crédito, produtos bancários não padronizados, e localização eu recomendo que a paranóia nada ajuda nestes casos. Hoje com um CEP preenchido em algum formulário para se ganhar um desconto em alguma coisa e o CPF qualquer pessoa pode ser localizada no Brasil; e as empresas de cartão de crédito sabem muito sobre nós todos.

Privacidade hoje só existe em dois lugares: Mídias não estruturadas  (e.g. cadernos, post it, anotações espúrias, etc); ou para terroristas e demais membros de organizações criminosas que não possuem nenhum traço no meio digital e só realizam transações off-market (e.g. contrabando, tráfico de drogas, fluxo de armas para terroristas, etc.) .

Etiquetado , , ,

Uma abordagem Walk-Through Deep Learning

As Redes Neurais Artificias (RNAs) são modelos computacionais de aprendizado de máquina que mimetizam alguns aspectos da atividade cognitiva humana (e.g. memória (atividade de armazenar e recuperar oportunamente dados), percepção(realiza relações de significância através de experiências passadas) e raciocínio (capacidade de gerar operações lógicas de informações abstratas)), é uma ótima técnica para atividades de classificação e regressão.

Já a o Deep Learning é o conjunto de múltiplas tarefas de aprendizado de máquina que lida com diferentes tipos de abstração, e que a sua característica mais marcante é a resolução de problemas a partir de estruturas de representação dos dados de diferentes maneiras.

Neste vídeo do Sungwook Yoon ele realiza uma comparação entre essas duas estruturas de forma competente.

 

Etiquetado , , ,

Minority Report?

O Data Mining chegando para o combate ao crime.

LAPD uses big data to target criminals

Dubbed LASER for its ability to zero in on offenders and hotspots, it is one of many newer law enforcement tools that use data tracking and collection – such as license plate scanners and cellphone trackers – often with little public knowledge or regulation.

Privacy advocates say LASER isn’t transparent, has no clear oversight and unjustly focuses on keeping ex-convicts under suspicion even though they’ve served their time.

“People who have paid their debts to society shouldn’t remain stigmatized in the eyes of police,” said Kade Crockford of the American Civil Liberties Union.

LASER uses technology developed by the CIA’s venture capital arm to realize a post-9/11 dream that allows investigators to match up vast troves of data from 15 separate sources to connect dots that they otherwise might miss.

Funded by federal grants, it launched in 2011 in Newton, and an expansion funded by additional money in October, brought the program to a total of eight areas throughout the city, plus the department’s high-tech analysis unit and its helicopters.

More than 3,500 LAPD officers have been trained to use Palantir, a platform that was introduced initially to speed up the process of creating dossiers on chronic offenders and is now used throughout the department for a variety of investigative purposes.

 

Etiquetado ,

Reprodutibilidade

Apesar do post abaixo da Nature falar em relação a pesquisas biomédicas, poderia ser facilmente transposto para a Mineração de Dados:

 

Journals unite for reproducibility

[…]
Reproducibility, rigour, transparency and independent verification are cornerstones of the scientific method. Of course, just because a result is reproducible does not make it right, and just because it is not reproducible does not make it wrong. A transparent and rigorous approach, however, will almost always shine a light on issues of reproducibility. This light ensures that science moves forward, through independent verifications as well as the course corrections that come from refutations and the objective examination of the resulting data.
[…]

[…]
The guidelines recommend that journals include in their information for authors their policies for statistical analysis and how they review the statistical accuracy of work under consideration. Any imposed page limits should not discourage reproducibility. The guidelines encourage using a checklist to ensure reporting of important experimental parameters, such as standards used, number and type of replicates, statistics, method of randomization, whether experiments were blinded, how the sample size was determined and what criteria were used to include or exclude any data. Journals should recommend deposition of data in public repositories, where available, and link data bidirectionally when the paper is published. Journals should strongly encourage, as appropriate, that all materials used in the experiment be shared with those who wish to replicate the experiment. Once a journal publishes a paper, it assumes the obligation to consider publication of a refutation of that paper, subject to its usual standards of quality.
[…]

Via o blog do mestre Marcelo Hermes-Lima

Data Mining e Eleições

Passado o vendaval das eleições que mais uma vez mostram o pior do nosso povo nas redes sociais, uma noticia sobre Mineração de Dados e as Eleições.

GOP Wins With Mix of Data Mining, Door Knocking

Skunked by Obama’s campaign in 2012, the Republican National Committee decided it would focus on building the team and systems it needed to identify potential GOP voters and then getting them to the polls.

The RNC bragged a few days after the election that effort reached 35 million voters, including more than 2.4 million they identified as low propensity, or unlikely to cast a ballot without a push.

“We fundamentally changed our strategy by expanding the electorate to turn out low-propensity Republican voters and to turn them out early,” said RNC spokesman Michael Short.

Democrats’ turnout machine worked, too, but it wasn’t enough. “A dynamite turnout operation is only worth 1, 2, 3 points at the most,” said Justin Barasky, a spokesman for the Democratic Senatorial Campaign Committee, “and it’s not enough to overcome a national wave.”

Com essa informação, não e difícil entender o turnaround da campanha do Partido Republicano nos EUA.

Trazendo para a nossa realidade um projeto de captação de eleitores poderia ser baseado na mesma estratégia, i.e. análise demográfica para entender como que determinada região vota historicamente e realizar ações como elaboração de estratégias para busca dos indecisos , ou busca de potenciais eleitores que poderiam voltar nulo, etc.

Etiquetado ,

Métricas de Avaliação de Modelos de Classificação/Predição

A algum tempo estava namorando a ideia de escrever sobre esse assunto que eu julgo ser importantíssimo para quem está aprendendo, aplicando, e principalmente ensinando Data Mining; e que as vezes me incomoda ver como esse tópico tem tão pouco destaque.

Essas métricas de avaliação de modelos tem suas origens em uma disciplina chamada Recuperação da Informação (de Informações), que nada mais é que uma teoria que estuda a forma em que os documentos são recuperados de forma automática.

Essas métricas surgiram dentro dessa teoria como uma forma de  avaliar se o sistema de Recuperação de Informações estava se comportando da maneira na qual ele foi proposto; isso é, avaliar não somente se o sistema estava recuperando as informações corretas, mas também verificando o quanto o sistema estava abstraindo as informações erradas.

Ao longo do tempo, muitos pesquisadores viram que essas métricas de recuperação da informação poderiam ser aplicadas em classificadores e modelos de predição para determinar as características de cada um dos modelos.

Note-se que não foram colocados os adjetivos “melhor” ou “pior“. É importante ressaltar esse aspecto devido ao fato de que cada modelo é único e a qualidade pode ser relativa; principalmente se estiver sendo considerada uma abordagem sensível ao custo (que pode ser lida aqui, aqui, aqui , aqui, aqui e aqui)

Dado esse pequeno background (que será explorado em postagens futuras), o motivo principal desse post é recomendar um link para quem quiser avaliar os respectivos modelos de classificação e predição de forma correta que é o Teste Diagnóstico da Universidade Federal do Paraná.

É bem simples.

Pegam-se os resultados da matriz de confusão, coloca nos campos em azul e automaticamente são calculadas os parâmetros de avaliação de modelos; e ainda de quebra tem as descrições das métricas.

Testes

As métricas estão no site e são as seguintes:

ACURÁCIA

A proporção de predições corretas, sem levar em consideração o que é positivo e o que é negativo. Esta medida é altamente suscetivel a desbalanceamentos do conjunto de dados e pode facilmente induzir a uma conclusão errada sobre o desempenho do sistema.

ACURACIA = TOTAL DE ACERTOS / TOTAL DE DADOS NO CONJUNTO
ACURACIA = (VP + VN) / (P + N)

SENSIBILIDADE

A proporção de verdadeiros positivos: a capacidade do sistema em predizer corretamente a condição para casos que realmente a têm.

SENSIBILIDADE = ACERTOS POSITIVOS / TOTAL DE POSITIVOS
SENSIBILIDADE = VP / (VP + FN)

ESPECIFICIDADE

A proporção de verdadeiros negativos: a capacidade do sistema em predizer corretamente a ausência da condição para casos que realmente não a têm.

ESPECIFICIDADE = ACERTOS NEGATIVOS / TOTAL DE NEGATIVOS
ESPECIFICIDADE = VN / (VN + FP)

EFICIÊNCIA

A média aritmética da Sensibilidade e Especificidade. Na prática, a sensibilidade e a especificidade variam em direções opostas. Isto é, geralmente, quando um método é muito sensível a positivos, tende a gerar muitos falso-positivos, e vice-versa. Assim, um método de decisão perfeito (100 % de sensibilidade e 100% especificidade) raramente é alcançado, e um balanço entre ambos deve ser atingido.

EFICIENCIA = (SENS + ESPEC) / 2

VALOR PREDITIVO POSITIVO

A proporção de verdadeiros positivos em relação a todas as predições positivas. Esta medida é altamente suscetivel a desbalanceamentos do conjunto de dados e pode facilmente induzir a uma conclusão errada sobre o desempenho do sistema.

VPP = ACERTOS POSITIVOS / TOTAL DE PREDIÇÕES POSITIVAS
VALOR PREDITIVO POSITIVO = VP / (VP + FP)

VALOR PREDITIVO NEGATIVO

A proporção de verdadeiros negativos em relação a todas as predições negativas. Esta medida é altamente suscetivel a desbalanceamentos do conjunto de dados e pode facilmente induzir a uma conclusão errada sobre o desempenho do sistema.

VPN = ACERTOS NEGATIVOS / TOTAL DE PREDIÇÕES NEGATIVAS
VALOR PREDITIVO NEGATIVO = VN / (VN + FN)

COEFICIENTE DE CORRELAÇÃO DE MATTHEWS – COEFICIENTE (PHI)

O coeficiente de correlação de Matthews é uma medida de qualidade de duas classificações binárias que pode ser usada mesmo se as classes possuem tamanhos bastante diferentes. Retorna um valor entre (-1) e (+1), em que um coeficiente de (+1) representa uma predicao perfeita, (0) representa uma predicao aleatoria media, e (-1) uma predicao inversa. Esta estatistica é equivalente ao coeficiente phi, e tenta, assim como a eficiência, resumir a qualidade da tabela de contingência em um único valor numérico passivel de ser comparado.

phi = (VP*VN – FP*FN) / sqrt((VP + FP)*(VP + FN)*(VN + FP)*(VN + FN))

Note que, se qualquer uma das somas no denominador for igual a (0), o denominador pode ser considerado (1), resutando em um phi igual a (0) que seria o limite correto para esta situação.

Para Ler:

KOHAVI, Ron; PROVOST, Foster. Glossary of terms. Machine Learning, v. 30, n. 2-3, p. 271-274, 1998.

Etiquetado , , , ,

CART e Cross-Validation

Neste vídeo da Salford Systems há um pequeno trecho de uma palestra feita em 2004.

A validação cruzada é um tema que gera algumas controvérsias, mas querendo ou não para quem realiza experimentos com bases de dados com menos de 50.000 registros (é um número cabalístico, mas ainda serve) pode ser a saída para bons resultados.

Uma ótima (na verdade é a melhor) referência sobre esse assunto e as vantagens e desvantagens está no livro de HASTIE, Trevor et al. The elements of statistical learning que pode ser baixado aqui.

Etiquetado , , ,

Fake Reviews e Data Science – Caso Amazon

Vincent Granville mais uma vez com um óitmo post sobre a questão.

Post obrigatório para quem trabalha em empresas que são expostas em mídias sociais, em especial em sites de opinião e review.

Etiquetado , ,

Pseudo-Ciência de Dados no Facebook

Para quem acompanhou no Facebook as eleições brasileiras, independente da posição partidária, ficou muito claro até onde os partidos políticos podem imitar o modus operandi de regimes horrendos em prol da democracia.

Neste post da Amy no Data Science Central ela coloca essa questão de como a pseudo-ciência de dados está sendo utilizada para ludibriar os eleitores.

Um pequeno trecho:

[…]

I call this pseudo data science, but behind the scene, real data science is used to test what will work to change your mind (politically speaking), even if it means using spurious arguments. Obama supposedly won the previous election thanks to better data science to reach out to targeted Facebook users (women?) and convince them with the right messages.

[…]

 

[…]

bor55

What is wrong with this chart?

This chart, typically associated with the comment that “Obama Outperforms Reagan On Jobs, Growth And Investing”, shows that Obama ends its tenure in better shape than Reagan, in terms of unemployment rates. This is misleading for the following reasons

- Jobs recently created (Obama) command lower salaries

- Many have left the workforce and are unaccounted for; labor force participation is at an all time low, though part of the explanation is because of baby boomers retiring

- Ask anyone you know about how difficult it is to find a job, despite college education being more expensive than ever before (the proportion of people having a job matching their education is lower today than it used to be)

In short, this chart shows the exact opposite of the reality. Not sure why they chose that very chart for their PR campaign, since there are many charts that would put Obama in a truly positive light – without being misleading. But that’s another question. The answer must be “because it works”.

[…]

 

Etiquetado

Hello World em Aprendizado de Máquina

Para quem não sabe Hello World é uma expressão muito utilizada em programação, e é uma frase colocada em códigos para fins de aprendizado.

Neste post do Jason Brownlee do Machine Learning Mastery ele mostra como iniciar os estudos em aprendizado de máquina, seja para programadores ou não.

Esse tipo de post é perfeito para qualquer pessoa que deseja trabalhar com mineração de dados, pois diferentemente do aprendizado estruturado (que é bom), e do aprendizado orientado a resolução de problemas (que é ruim), e do aprendizado não-estruturado orientado à curiosidade para fins de descoberta (que é excelente).

Depois desse post, não tem mais desculpas para não começar com aprendizado de máquina.

 

Etiquetado , ,

Michael Jordan (Não o do basquete) fala sobre alguns tópicos em Aprendizado de Máquina e sobre Big Data

Abaixo está o depoimento mais sensato sobre alguns assuntos relativos à análise de dados, Data Mining, e principalmente Big Data.

UPDATE: O próprio MJordan deu uma entrevista dizendo que em alguns pontos foi mal interpretado. No entanto, cabe ressaltar que muito do que é importante na fala ele não falou nada a respeito; então tirem as suas conclusões.

Para quem não sabe, o Michael Jordan (IEEE) é uma das maiores autoridades no que diz respeito em aprendizado de máquina no mundo acadêmico.

Esta entrevista (que foi sonegada por este espaço por puro desleixo) ele apresenta argumentos extremamente sóbrios e lúcidos sobre Deep Learning (que terá um tópico aqui em breve) e principalmente sobre o Big Data.

Sobre a parte de Big Data em especial, esses comentários convidam à uma reflexão, e acima de tudo colocam pontos que merecem ser discutidos sobre esse fenômeno.

Obviamente empresas do calibre da Google, Amazon, Yahoo, e alguns projetos como Genoma podem ter benefício de grandes volumes de dados. O problema principal é que todo essa hipsterização em torno do Big Data parece muito mais algo orientado ao marketing do que a resolução de questões de negócio pertinentes.

Seguem alguns trechos importantes:

Sobre Deep Learning, simplificações e afins…

IEEE Spectrum: I infer from your writing that you believe there’s a lot of misinformation out there about deep learning, big data, computer vision, and the like.

Michael Jordan: Well, on all academic topics there is a lot of misinformation. The media is trying to do its best to find topics that people are going to read about. Sometimes those go beyond where the achievements actually are. Specifically on the topic of deep learning, it’s largely a rebranding of neural networks, which go back to the 1980s. They actually go back to the 1960s; it seems like every 20 years there is a new wave that involves them. In the current wave, the main success story is the convolutional neural network, but that idea was already present in the previous wave. And one of the problems with both the previous wave, that has unfortunately persisted in the current wave, is that people continue to infer that something involving neuroscience is behind it, and that deep learning is taking advantage of an understanding of how the brain processes information, learns, makes decisions, or copes with large amounts of data. And that is just patently false.

Spectrum: It’s always been my impression that when people in computer science describe how the brain works, they are making horribly reductionist statements that you would never hear from neuroscientists. You called these “cartoon models” of the brain.

Michael Jordan: I wouldn’t want to put labels on people and say that all computer scientists work one way, or all neuroscientists work another way. But it’s true that with neuroscience, it’s going to require decades or even hundreds of years to understand the deep principles. There is progress at the very lowest levels of neuroscience. But for issues of higher cognition—how we perceive, how we remember, how we act—we have no idea how neurons are storing information, how they are computing, what the rules are, what the algorithms are, what the representations are, and the like. So we are not yet in an era in which we can be using an understanding of the brain to guide us in the construction of intelligent systems.

Sobre Big Data

Spectrum: If we could turn now to the subject of big data, a theme that runs through your remarks is that there is a certain fool’s gold element to our current obsession with it. For example, you’ve predicted that society is about to experience an epidemic of false positives coming out of big-data projects.

Michael Jordan: When you have large amounts of data, your appetite for hypotheses tends to get even larger. And if it’s growing faster than the statistical strength of the data, then many of your inferences are likely to be false. They are likely to be white noise.

Spectrum: How so?

Michael Jordan: In a classical database, you have maybe a few thousand people in them. You can think of those as the rows of the database. And the columns would be the features of those people: their age, height, weight, income, et cetera.

Now, the number of combinations of these columns grows exponentially with the number of columns. So if you have many, many columns—and we do in modern databases—you’ll get up into millions and millions of attributes for each person.

Now, if I start allowing myself to look at all of the combinations of these features—if you live in Beijing, and you ride bike to work, and you work in a certain job, and are a certain age—what’s the probability you will have a certain disease or you will like my advertisement? Now I’m getting combinations of millions of attributes, and the number of such combinations is exponential; it gets to be the size of the number of atoms in the universe.

Those are the hypotheses that I’m willing to consider. And for any particular database, I will find some combination of columns that will predict perfectly any outcome, just by chance alone. If I just look at all the people who have a heart attack and compare them to all the people that don’t have a heart attack, and I’m looking for combinations of the columns that predict heart attacks, I will find all kinds of spurious combinations of columns, because there are huge numbers of them.

So it’s like having billions of monkeys typing. One of them will write Shakespeare.

Spectrum:Do you think this aspect of big data is currently underappreciated?

Michael Jordan: Definitely.

Spectrum: What are some of the things that people are promising for big data that you don’t think they will be able to deliver?

Michael Jordan: I think data analysis can deliver inferences at certain levels of quality. But we have to be clear about what levels of quality. We have to have error bars around all our predictions. That is something that’s missing in much of the current machine learning literature.

Spectrum: What will happen if people working with data don’t heed your advice?

Michael Jordan: I like to use the analogy of building bridges. If I have no principles, and I build thousands of bridges without any actual science, lots of them will fall down, and great disasters will occur.

Similarly here, if people use data and inferences they can make with the data without any concern about error bars, about heterogeneity, about noisy data, about the sampling pattern, about all the kinds of things that you have to be serious about if you’re an engineer and a statistician—then you will make lots of predictions, and there’s a good chance that you will occasionally solve some real interesting problems. But you will occasionally have some disastrously bad decisions. And you won’t know the difference a priori. You will just produce these outputs and hope for the best.

And so that’s where we are currently. A lot of people are building things hoping that they work, and sometimes they will. And in some sense, there’s nothing wrong with that; it’s exploratory. But society as a whole can’t tolerate that; we can’t just hope that these things work. Eventually, we have to give real guarantees. Civil engineers eventually learned to build bridges that were guaranteed to stand up. So with big data, it will take decades, I suspect, to get a real engineering approach, so that you can say with some assurance that you are giving out reasonable answers and are quantifying the likelihood of errors.

Spectrum: Do we currently have the tools to provide those error bars?

Michael Jordan: We are just getting this engineering science assembled. We have many ideas that come from hundreds of years of statistics and computer science. And we’re working on putting them together, making them scalable. A lot of the ideas for controlling what are called familywise errors, where I have many hypotheses and want to know my error rate, have emerged over the last 30 years. But many of them haven’t been studied computationally. It’s hard mathematics and engineering to work all this out, and it will take time.

It’s not a year or two. It will take decades to get right. We are still learning how to do big data well.

Spectrum: When you read about big data and health care, every third story seems to be about all the amazing clinical insights we’ll get almost automatically, merely by collecting data from everyone, especially in the cloud.

Michael Jordan: You can’t be completely a skeptic or completely an optimist about this. It is somewhere in the middle. But if you list all the hypotheses that come out of some analysis of data, some fraction of them will be useful. You just won’t know which fraction. So if you just grab a few of them—say, if you eat oat bran you won’t have stomach cancer or something, because the data seem to suggest that—there’s some chance you will get lucky. The data will provide some support.

But unless you’re actually doing the full-scale engineering statistical analysis to provide some error bars and quantify the errors, it’s gambling. It’s better than just gambling without data. That’s pure roulette. This is kind of partial roulette.

Spectrum: What adverse consequences might await the big-data field if we remain on the trajectory you’re describing?

Michael Jordan: The main one will be a “big-data winter.” After a bubble, when people invested and a lot of companies overpromised without providing serious analysis, it will bust. And soon, in a two- to five-year span, people will say, “The whole big-data thing came and went. It died. It was wrong.” I am predicting that. It’s what happens in these cycles when there is too much hype, i.e., assertions not based on an understanding of what the real problems are or on an understanding that solving the problems will take decades, that we will make steady progress but that we haven’t had a major leap in technical progress. And then there will be a period during which it will be very hard to get resources to do data analysis. The field will continue to go forward, because it’s real, and it’s needed. But the backlash will hurt a large number of important projects.

Etiquetado , , , , , ,

A predição que eu não quero…

Este site trata de questões ligadas diretamente à Data Mining e as demais variantes em relação à análise de dados, aprendizado de máquina, meta-heurísticas, matemática e estatística.

No entanto, um artigo do John Katz do New York Times que fala sobre os modelos de predição para as eleições do senado deste ano é um (mal) exemplo claro de que as atividades de análise de dados nunca podem ser um fim em si mesmas.

Em suma o artigo fala dos problemas dos modelos de predição, e mostra que mais uma vez os modelos erraram em detectar uma onda Republicana.

Até aí nada de mais: Modelos preditivos falhando.

Contudo, depois do excelente  livro do Nate Silver  um efeito nocivo dessa popularização da análise de dados e da mineração de dados é que muitos jornais, revistas, sites começaram a realizar o que eu chamo de análises estéreis no qual essas análises não olham a consequência da decisão, mas sim olham somente os números como se a análise preditiva fosse uma imensa gincana.

Não que eleições dessa natureza venham contribuir em termos de práticos para os pagadores de impostos; porém, para o pagador de impostos melhor do que saber qual indicador preditivo está com melhor desempenho; o certo seria entender como a composição de um senado iria influenciar em questões orçamentarias, fiscais, e principalmente de grandes questões importantes para todos.

A lição que fica é que a análise e a mineração de dados sempre está sujeita a questões ligadas ao suporte à decisão, e não somente a análise per se.

PS: As análises e o código fonte estão neste link.

Etiquetado , , , , ,
%d blogueiros gostam disto: