Data Mining e Eleições

Passado o vendaval das eleições que mais uma vez mostram o pior do nosso povo nas redes sociais, uma noticia sobre Mineração de Dados e as Eleições.

GOP Wins With Mix of Data Mining, Door Knocking

Skunked by Obama’s campaign in 2012, the Republican National Committee decided it would focus on building the team and systems it needed to identify potential GOP voters and then getting them to the polls.

The RNC bragged a few days after the election that effort reached 35 million voters, including more than 2.4 million they identified as low propensity, or unlikely to cast a ballot without a push.

“We fundamentally changed our strategy by expanding the electorate to turn out low-propensity Republican voters and to turn them out early,” said RNC spokesman Michael Short.

Democrats’ turnout machine worked, too, but it wasn’t enough. “A dynamite turnout operation is only worth 1, 2, 3 points at the most,” said Justin Barasky, a spokesman for the Democratic Senatorial Campaign Committee, “and it’s not enough to overcome a national wave.”

Com essa informação, não e difícil entender o turnaround da campanha do Partido Republicano nos EUA.

Trazendo para a nossa realidade um projeto de captação de eleitores poderia ser baseado na mesma estratégia, i.e. análise demográfica para entender como que determinada região vota historicamente e realizar ações como elaboração de estratégias para busca dos indecisos , ou busca de potenciais eleitores que poderiam voltar nulo, etc.

Anúncios
Data Mining e Eleições

A predição que eu não quero…

Este site trata de questões ligadas diretamente à Data Mining e as demais variantes em relação à análise de dados, aprendizado de máquina, meta-heurísticas, matemática e estatística.

No entanto, um artigo do John Katz do New York Times que fala sobre os modelos de predição para as eleições do senado deste ano é um (mal) exemplo claro de que as atividades de análise de dados nunca podem ser um fim em si mesmas.

Em suma o artigo fala dos problemas dos modelos de predição, e mostra que mais uma vez os modelos erraram em detectar uma onda Republicana.

Até aí nada de mais: Modelos preditivos falhando.

Contudo, depois do excelente  livro do Nate Silver  um efeito nocivo dessa popularização da análise de dados e da mineração de dados é que muitos jornais, revistas, sites começaram a realizar o que eu chamo de análises estéreis no qual essas análises não olham a consequência da decisão, mas sim olham somente os números como se a análise preditiva fosse uma imensa gincana.

Não que eleições dessa natureza venham contribuir em termos de práticos para os pagadores de impostos; porém, para o pagador de impostos melhor do que saber qual indicador preditivo está com melhor desempenho; o certo seria entender como a composição de um senado iria influenciar em questões orçamentarias, fiscais, e principalmente de grandes questões importantes para todos.

A lição que fica é que a análise e a mineração de dados sempre está sujeita a questões ligadas ao suporte à decisão, e não somente a análise per se.

PS: As análises e o código fonte estão neste link.

A predição que eu não quero…

Dados x Teoria

Neste post do Noahpinion mais uma vez tem o debate sobre Dados x Teoria. O autor até colocou uma frase do Paul Krugman:

But you can’t be an effective fox just by letting the data speak for itself — because it never does. You use data to inform your analysis, you let it tell you that your pet hypothesis is wrong, but data are never a substitute for hard thinking. If you think the data are speaking for themselves, what you’re really doing is implicit theorizing, which is a really bad idea (because you can’t test your assumptions if you don’t even know what you’re assuming.)

No final o autor literalmente escorrega no tomate com essa frase:

In the past, data-laziness was probably more of a threat to humanity. Since systematic data was scarce, people had a tendency to sit around and daydream about how stuff might work. But now that Big Data is getting bigger and computing power is cheap, theory-laziness seems to be becoming more of a menace. The lure of Big Data is that we can get all our ideas from mining for patterns, but A) we get a lot of false patterns that way, and B) the patterns insidiously and subtly suggest interpretations for themselves, and those interpretations are often wrong.

Três notas rápidas sobre esse artigo:

1 – O sucesso do Nate Silver que através do seu site e também de seu  livro simplesmente acabou com todos os comentaristas políticos nos EUA e fizeram a opinião pública questionar os ‘especialistas’ e os vieses de suas opiniões. E até o Paul Krugman está incomodado com isso;

2 – Nos dias de hoje contamos com aparatos estatísticos muito mais avançados que na antiguidade para analisar os dados. Isso significa que se antigamente não haviam os dados não significa necessariamente que as teorias eram válidas por não serem testáveis. Logo, a análise quantitativa nos dias de hoje representa uma condição de que a teoria pode ser testada e submetida ao falseamento constante, o que é um requisito básico da análise científica; e

3 – A era de ouro no qual economistas, sociólogos, estatísticos, jornalistas e tutti quanti simplesmente deitavam-se sobre aspectos formais e estruturais da teoria usando amostragem (sem revelar, logicamente, vieses e metodologia) está acabando. E isso é ótimo.

Pra quem quer saber um pouco mais o porque da raiva com o Nate Silver e sobre a sua abordagem está aqui.

Dados x Teoria

Definições sobre Mineração de Dados, Estatística, e Aprendizado de Máquina

Esse post do Geomblog de maneira bem simples (beirando a genialidade) define bem essas disciplinas da seguinte forma:

  • Mineração de Dados é a arte de encontrar padrões nos dados;
  • Estatística é a ciência matemática associada com o desenho de inferências de dados com ruído; e
  • Aprendizado de Máquina é [uma ramificação da Ciência da Computação] que desenvolve tecnologia para inferência automatizada (sua caracterização original era como uma ramificação da engenharia).
Definições sobre Mineração de Dados, Estatística, e Aprendizado de Máquina

Mineração de Dados lança luz nos casos de Autismo

Este é um caso bastante relevante do uso da mineração de dados na área biomédica. Os cientistas da Rockfeller University conduziram um estudo utilizando as técnicas de mineração de dados para geração de insights a respeito das causas de autismo. 

Mineração de Dados lança luz nos casos de Autismo

Estatística x Mineração de Dados

Esse post do Piatetsky-Shapiro resume a discussão sobre essas duas disciplinas.

Statistics x Data Mining

 

“Estatística Vs Mineração de Dados: A Estatística começa após a conclusão da limpeza de dados, enquanto a Mineração de Dados incluí a limpeza de dados e a engenharia dos dados” (Tradução Livre)

Estatística x Mineração de Dados

Tipos de Questões para Exames

Uma das mais difíceis tarefas no ensino de Mineração de Dados é o tipo de abordagem de avaliação, na qual sempre entra em questão a escolha questões discursivas em detrimento de provas de múltipla escolha.

No site do Bill Gasarch são apresentadas sete formas para elaboração de questões para exames.

1) A problem that some students can get right even if they never had the course because they have seen it in some other course. EXAMPLE: In a course on Ramsey Theory have a question that uses the Prob. Method. PRO: The question is still in scope for the courses. CON: A bit awkward that someone may have learned the material elsewhere. UPSHOT: This is FINE.

2) A problem that some students can get right even if they never had the course because they are quite clever. EXAMPLE: Easy Combinatorics or Probability in a sophomore Discrete Math Course. PRO: The question is still in scope for the courses. CON: A bit awkward that someone may have missed class but still got it right. UPSHOT: This is FINE.

3) A rigged question— students saw two examples in class, two examples on the HW and now have to do one themselves. EXAMPLE: proving numbers irrational. PRO: Clearly in scope and fair. PRO: They will surely understand what you are asking for. CON: They may get it right via memory rather than understanding (they may not even know the difference.) UPSHOT: This is FINE though it requires some planning ahead of time.

4) A rigged question with a twist— students saw two examples in class, two examples on the HW and now have to do one themselves but its DIFFERENT in an important way. EXAMPLE: In class and HW do many problems like Here is the distribution, here is a random var, what is its expected value but on the exam give Here is a random var, here is what we want for the expected value, give a distribution that gives us that. PRO: Harder to memorize template. CON: May be hard to grade as they say odd things. CON: May be confusing to know what you are asking for, even for good students. UPSHOT: This is FINE though it requires some planning ahead of time.

5) A problem that requires utter mastery of the material but no creative thought. EXAMPLE: Give the algorithm (that we did in class) for proving that a CFG’s are in P. Write it up so that someone who had never seen it can understand it. PRO: Straightforward yet hard to get via memorization. CON: Might be too time consuming for an exam. CON: (From experience) no matter how much you say in bold letters things like Write it up so that someone who had never seen it can understand it. They will skip steps and write it up badly and its hard to tell if THEY really know it. UPSHOT: I do this but only in certain cases.

6) A problem that requires them to be creative (this is ill defined but its the opposite of the one above). PRO: If they truly understand the material they can do this. CON: My PRO may be incorrect. UPSHOT: Absolutely fine for HW which are not worth much for the grade anyway and I can enlighten them. I tend to avoid these on exams. Though the line between creativity and standard is a thin one. (Problem for an exam: How thin in millimeters?)

7) A giveaway question. When I teach Formal Lang Theory I have (going back to when I was Harry Lewis’s TA in 1981) have on the exam Give an example of a string of length 4 over the alphabet {a,b}. An unintended consequence- if they CAN”T do this its a really bad sign. I have asked this question many times and I have literally NEVER seen someone get it wrong and pass the course. I have gotten the following answers: ab*, ababa, and a DFA recognizing aaaa (that I was tempted to give credit to but did not). Incidentally, the most common right answer has always been abab. Second is abba. PRO: I have this one early in the exam to calm them down.

Tipos de Questões para Exames

A Morte dos Estatísticos

Neste post do Vincent Grandville, ele apresenta alguns dados do Google Trends no qual ele induz que o cientista de dados está em alta e os estatísticos estão em baixa de acordo com o número de anúncios de oportunidades de emprego.

A discussão rende boas horas de filosofia, debates acalorados que vão desde estruturas de reserva de mercado para A ou B categorias profissionais até mesmo a defesa de caixas-pretas que são alguns algoritmos/técnicas de mineração de dados e aprendizado de máquina.

No entanto, o ponto principal é que essa dicotomia existe de forma virtual, já que da mesma forma que um estatístico não é um especialista em linguagens de programação para análise de dados, um cientista da computação não tem instrumental analítico/matemático para desempenhar alguns tipos de análises.

Vale a pena verificar os comentários.

 

A Morte dos Estatísticos

Data Mining aplicado ao Ensino e Educação

Esse documento criado pelo Departamento de Educação do Governo dos Estados Unidos que pode nortear educadores para a elaboração de programas de ensino, e até mesmo avaliação de professores e alunos. Esse manual oferece algumas dicas de abordagens em mineração de dados no domínio educacional, e mostra que uma abordagem mais analítica pode auxiliar no aumento do desempenho dos docentes bem como dos alunos.

Download: edm-la-brief

Data Mining aplicado ao Ensino e Educação

Flávio Barros – flaviobarros.net

Um ótimo site que está também na estrada da mineração de dados e análise de dados em geral é o do Flávio Barros. O site tem diversas postagens sobre mineração de dados em especial no R, e já conta com dois ótimos posts no R Bloggers (ANOVA and Tukey’s test on RCompiling R 3.0.1 with MKL support). Outro fato interessante é que o autor do site tem um background bem interessante quando falamos em análise de dados (Física;Engenharia) no qual podemos esperar posts com qualidade.

 

 

Flávio Barros – flaviobarros.net

As 500 milhas de Indianápolis e a Análise de Dados

Neste post do Doug Laney ele mostra como as equipes de corrida participantes da Formula Indy utilizam a análise de dados para ajustes nos carros, bem como realizar predições relativas ao compostamento do carro com níveis de acurácia de 90%.

Realizando um paralelo com o ambiente de negócios cada vez mais competitivo (como na Indy), analisando a telemetria do negócio (KPIs, etc) o autor coloca algumas questões que reproduzo abaixo:

  1. Are you sufficiently monitoring key business processes, systems and personnel using available sensors and instrumentation?
  2. Are your data streams collected frequently enough for real-time process adjustments (i.e. complex event processing)?
  3. Do your business processes support real-time or near real-time inputs to adjust their operation or performance?
  4. Can you anticipate business process or system failures before they occur, or are you doing too much reactive maintenance?
  5. Do you centrally collect data about business function performance?
  6. Do you make use of advances in high-performance analytics such as in-memory databases, NoSQL databases, data warehouse appliances, etc.?
  7. Do you gather important external data (e.g. weather, economic) to supplement and integrate with your own data?
  8. Do you synchronize, align and integrate data that comes from different streams?
  9. Do you make your data available to key business partners, suppliers and customers to help them provide better products and services to you?
  10. Do you have a common, sophisticated analytics platform that includes the ability to establish new analytic functions, alerts, triggers, visualizations?
  11. Can you run simulations on business systems while they’re operating and also between events to adjust strategies?
  12. Does your architecture support multiple users around the world seeing real-time business performance simultaneously?
  13. Do you have teams of business experts, product/service experts and data scientists collaborating on making sense of the data?
  14. Do you modify your products or services as frequently as you could or should based on available data?
  15. Do you also use data you collect to develop new products or services as frequently as you could or should?

E uma motivação a mais para este tipo de raciocínio que emula a realidade das pistas é colocada pelo próprio Laney:

Racing teams are able to invest in advanced analytics because millions of dollars and euros are on the line from hundreds of sponsors.  Hopefully your own big data project sponsors appreciate that big money is on the line for your business as well. Winning the race in your industry now probably depends on it.

 

As 500 milhas de Indianápolis e a Análise de Dados

Extração de Conhecimento com Mineração de Dados

Esse artigo provavelmente é um dos primeiros que trata o assunto dentro da perspectiva de negócios e é assinado pela Universidade da Pensylvania- Wharton. O mais especial neste artigo de 1999 é o trecho abaixo na qual Pfizer através da análise de dados descobriu que por ventura o Viagra estava sendo utilizado por homens para outros propósitos.

Pharmaceutical companies often use data mining for both clinical and marketing operations. Stine explains that big drug firms often sort through massive databases of compounds to screen out the most potentially successful ones, a task that is nearly impossible to perform manually. Sometimes, success arrives serendipitously. Pfizer, for example, did not intend to develop Viagra as a treatment for impotence. The drug’s original purpose was to relieve angina pain, but data analysis revealed that men who used it experienced sexual arousal, which eventually led to its development as a treatment for impotence.

Extração de Conhecimento com Mineração de Dados

7 segredos da Visualização

Este post de Nate Agrin e Nick Rabinowitz realizam uma ótima lista a respeito dos segredos da visualização, no qual eles colocam uma visão bastante útil em relação à projetos dessa natureza.

Hoje com a facilidade do uso das ferramentas de visualização, muito do que se entendia como análise de dados está se resumindo a análise iconográfica, na qual aspectos como estacionariedade, análise de tendências/anomalias está virando mais um exercício lúdico do que ferramentas de suporte para executivos e tomadores de decisão.

Segue a lista destacada no post:

  1. Real data is ugly
  2. A bar chart is usually better
  3. There’s no substitute for real data
  4. The devil is in the details
  5. Animate only when appropriate
  6. Visualisation is not analysis
  7. Data visualisation takes more than code  

 

 

 

 

 

7 segredos da Visualização

França deseja tributar atividades de Mineração de Dados

O Presidente François Hollande acabou de chegar ao poder e já mostrou ao que veio 1) elevar de forma quase que pornográfica o imposto de renda, e 2) engajar uma guerra para “aquecer” a economia.

Entretanto, o Sr. Presidente Hollande ainda quer realizar a tributação de atividades de mineração de dados, e economia da informação de empresas estrangeiras que realizam Data Gathering de seus compatriotas.

A justificativa é que essas empresas (as americanas) tomaram conta do mercado e as mesmas realizam a consolidação de dados sobre os franceses, vendem propaganda direcionada a esta audiência e o estado não participa dessa receita.

Se isso for aprovado será o maior movimento estatal de Free Ride já registrado na história econômica. E ainda criaram um relatório sobre isso que pode ser acessado neste link.

Vejam a fala de  Félix Treguer que exerce a função semelhante a um conselheiro a assuntos relacionados a privacidade digital:

“The French government has a record of favoring local press or publishers over companies like Google or Amazon, sometimes to an extreme. The truth is that the French government is captive to these national lobbies. But it’s also the case that the digital economy is fast becoming a very large part of the global economy, yet France’s tax system, and other countries’ tax system, are not adapted to this. In this sense I think it’s legitimate that France is asking itself how it can tax more of the profitable digital activity taking place in France.”

Além dessa idéia ser absolutamente fora de contexto, é provavelmente impossível que o governo tenha algum tipo de controle, ao não ser que seja implantado algum tipo de filtro semelhante ao da China.

França deseja tributar atividades de Mineração de Dados

A NFL saindo da idade da pedra

Este post do Derrick Harris mostra que há uma tendência crescente de que os times de futebol americano da NFL estão cada vez mais contratando estatísticos, e que finalmente estão “tirando o atraso” em relação as outras ligas como a NBA ou a MLB.

Para quem assistiu o filme Moneyball e conhece os bastidores do futebol aqui no Brasil sabe que o processo de seleção dos times e remuneração de atletas é um tema espinhoso no qual sempre o “instinto” acaba prevalecendo sobre os aspectos técnicos e de custo e benefício.

Essa declaração abaixo da reportagem deixa o tema ainda mais interessante, no que diz respeito a seleção dos atletas no Draft:

As one anonymous source put it when discussing the difficulty of evaluating players before the NFL draft: “At the end of the day, the tape is going to be our first choice. They have to look good on film.”

His point and those of others with whom Battista spoke are fair. For example:

  • Offensive line play can be difficult to gauge because the line is a five-person unit designed to work well together, not as a collection of individuals.
  • How do you statistically assess a middle linebacker who doesn’t make a lot of tackles but who’s always in the mix and disrupting the offense?
  • When it comes to calling plays, there might be limited data on any given situation (e.g., a particular down and distance to go from a particular spot on the field), and the outcomes might be very much influenced by the players on the field in each of those prior situations.

Para quem deseja saber mais sobre a intersecção entre esportes e mineração de dados, basta consultar a resenha do livro Sports Data Mining que foi realizado aqui.

A NFL saindo da idade da pedra