Marketing eleitoral dirigido

A mineração de dados através das técnicas de agrupamento e classificação são um importante campo de estudo/aplicação em domínios distintos. Entretanto, uma tendência que está tomando força é a utilização das técnicas de mineração para aplicação no contexto eleitoral, no qual de acordo com a criação de personas (profiles de registros que têm características em comum) os candidatos podem realizar um trabalho de marketing e propaganda eleitoral mais dirigida, i.e. eles podem atingir diretamente os seus potenciais eleitores, e de acordo com as suas necessidades adaptariam os seus discursos e prioridades de campanha. Vale a pena ver esse artigo de apresenta padrões bem interessantes sobre os eleitores americanos de acordo com a sua inclinação política.

Marketing eleitoral dirigido

Tutoriais de Mineração de Dados

Para quem deseja saber um pouco mais sobre mineração de dados, ou mesmo deseja um overview sobre as mais diversas técnicas esse site do Andrew Moore é excelente para esses fins. Há uma vastidão e materiais, todos eles bem didáticos que serve tanto para os iniciantes, quanto para os mais avançados.

Tutoriais de Mineração de Dados

Scolopax Project

Para quem interessar, o Projeto Scolopax é uma iniciativa endossada pela National Science Foundation e tem como foco a realização de diversos desafios no campo da análise exploratória de dados; em especial Mineração de Dados. O projeto tem como foco a transformação de dados em conhecimento através de do tratamento de dados, combinação de diversos elementos de dados, e validação de hipóteses através da análise exploratória de dados.

Scolopax Project

Análise de Outliers: Teorema de Chebyschev X Abordagem Baseada e Informação Mútua

Nesse artigo de Cristian Mesiano é realizada a comparação entre o Teorema de Chebyschev e a abordagem baseada em Informação Mútua na questão da detecção de outliers, na qual, o Teorema de Chebyshev é baseado na distância de valores Z-Score de acordo com o Desvio Padrão do valor K, e a Informação Mútua remove interativamente os Z-Scores de forma ordenada até que a informação entre os Z-Scores e os candidatos a outliers aumente; e dessa forma a cada passo interativo do algoritmo o candidato a outliers tem o maior valor absoluto no dataset.

Análise de Outliers: Teorema de Chebyschev X Abordagem Baseada e Informação Mútua

7 razões na qual a Mineração de Dados podem impactar a privacidade

Esse ensaio é uma ótima reflexão sobre a questão da privacidade na qual existe atualmente na ficção científica, e o que pode acontecer em um futuro não muito distante.

7 razões na qual a Mineração de Dados podem impactar a privacidade

Como as empresas aprendem os seus segredos?

Esse especial do New York Times escrito por Charles Duhigg  (Autor do livro The Power of Habit: Why We Do What We Do in Life and Business) tem como foco um tema bastante recorrente em relação a modelagem, e entendimento de domínio de Mineração de Dados que é o estudo de hábitos do consumidor.

Em geral o artigo trata do fato das empresas em especial de varejo buscarem mais dados dos consumidores e realizarem a construção de Personas (Profiles de clientes com determinadas características em comum) para realizar um marketing mais segmentado no qual com uma gama de recursos minimizada obter o máximo de retorno no ato de atingir os consumidores em potencial dos produtos. O caso mais emblemático tratado no artigo é o fato de um varejista realizar um trabalho de construção de personas tão apurado que através dos produtos adquiridos eles conseguem saber se a consumidora está grávida.

Veja essa construção de Persona feita pelo artigo:

A fictional Target shopper named Jenny Ward, 23, lives in Atlanta and in March she bought cocoa-butter lotion, a purse large enough to double as a diaper bag, zinc and magnesium supplements and a bright blue rug. There’s a very high chance that she’s pregnant, and her delivery date is sometime in late August, and Target connects those dots.

Vale a pena a leitura.

Como as empresas aprendem os seus segredos?

Mineração de Dados x Econometria

Uma ótima discussão via LinkedIn sobre um assunto bastante recorrente e importante quando falamos de Mineração de Dados e análises voltadas a predição.

Com o crescimento dos softwares computacionais voltados à análise de dados, bem como a falha dos setores econômicos em relação as suas previsões, ficou a impressão que a máquina em breve substituiria o papel do homem em relação à análise de dados, no qual bastaria apenas uma base de dados que a máquina realizaria todo o trabalho de previsão e os analistas humanos teriam apenas o trabalho de validar os modelos propostos de forma automática.

Entretanto, muito do que se fala hoje sobre modelos de predição não envolve apenas o programa de computador, mas também tem muito da modelagem que é proposta por trás da análise; e nesse campo a Econometria continua soberana (e continuará por muito tempo). E a delimitação desses papéis se faz necessária para compreensão do processo de modelagem e análise de dados.

Primeiro o Data Scientist, ou Minerador de Dados é o responsável por realizar todo o mapeamento do projeto de mineração de dados desde o seu nascedouro como o entendimento do negócio e definição de domínio de atuação, aquisição e entendimento dos dados e métricas, manipulação/transformação de dados, aplicação e estudo de algoritmos de implementação, validação e implementação do projeto; muitas das vezes utilizando a metodologia CRISP-DM, e também a utilização de soft skills sobretudo em questões de relacionamentos interpessoais.

Em segundo lugar vem o Econometrista que é responsável pela utilização ferramentas de estimação/previsão dentro de contextos  político-econômicos, utilização de instrumentos das políticas econômicas e financeiras através de elementos matemáticos, prospecção de modelos econométricos, i.e. combinação de elementos matemáticos para descrever determinados comportamentos da economia, validação de modelos estatísticos para mensuração de recursos; além de contar com um leque de elementos intelectuais bastante vasto para interpretação de elementos da administração, contabilidade,  e economia clássica para conjecturas sistêmicas para construção desses modelos de comportamentos econômicos não observáveis  de forma experimental ou aplicada.

Em linhas gerais vemos que a diferença entre esses papéis são bem claras; enquanto um realiza análises através de conjecturas intelectuais, algo mais ou menos como a montagem de um quebra cabeças; outro tem como foco a elaboração de modelos estruturados dentro de uma teoria consolidada.

Essas profissões mais do que concorrer em questão de qual é a mais eficiente em termos de predições; são complementares e em diversos momentos estão dentro da mesma intersecção; na qual, o Data Scientist não consegue propor um modelo de mineração sem conhecimento do domínio baseado em análise exploratória (abordagem Hit and Run); o Econometrista não consegue realizar predições sem um conjunto de dados que siga um determinado padrão de aquisição e abrangência. Simples assim. Pensar dessas duas formas é no mínimo muita pretensão, para não dizer falta de desconhecimento em análise de dados.

Dentro dos seus segmentos de atuações, a Mineração de Dados e a Econometria se complementam em muitos aspectos, no qual o primeiro contribuí com a aquisição de dados e tratamento além de análises exploratórias de acordo com modelos interdisciplinares e domínios específicos, o segundo contribuí de forma muito significativa com os seus modelos baseados em matemática e forte fundamentação teoria econômica.

Para finalizar, fica essa ótima analogia postada pelo usuário Nethra sobre a diferença entre a Econometria e a Mineração de Dados em relação às suas abordagens:

It reminds me the story of two people on an island, coming together evaluating what the heck happened, having extracted themselves from a fallen plane on the sea – fortunate to have survived but wanted to figure out how to get out of this no-mans land. Fortunately, the plane crashed just after take off. One said, let us start swimming in the direction of where we came from, taking into consideration the starting direction of the plane and the time they spent on the plane. He was smart to come to some quick conclusions and wanted to keep moving. We will adjust and fine tune our swimming patterns on the way based on various clues we might get.

The second one said, well we do not know whether we will get clues on the way or get eaten away. How about we evaluate various possible alternatives including the one you proposed and select the best and then go. In the end, we need to survive, and if it takes to stay here in this island, we should do that too. The first curiously looked at the second and asked, are you hypothesizer? Let us get to work and I am swimming. Obviously he is a great swimmer and he was trained by the best swimmers in the world.

He shouted, “we did enough calculations, the shore is not far we know, come on, lets go”. The second did not believe him; some of his previous reading suggested that these waters are shark infested, but he did not know which direction it was.

One version of the story ends like this: He came back two days later on a helicopter to retrieve the hypothesizer, who was dehydrating and about to die. My son secretly tells me, dad, you do not have to finish the story in this way, just because you are a data miner. He completed the story as follows.

Two days later a helicopter came and retrieved him when he was dehydrating and about to die. The pilot was saying that the coast guard found a swimmer 10 miles further away from the shore, in the wrong direction, and about to die. He was retrieved and recovering at the shore.

My son continued, the pilot said, ‘it seems he misjudged the direction”. May be it helps to have some good idea of planetory sciences and oceanography, I guess dad, my son was telling me, with a twinkle in his eyes.

Mineração de Dados x Econometria

Roland Garros – Data Mining Slam Tracking

Depois dos esportes americanos o Tênis é um dos esportes que contém a maior vastidão de estudos e estatíticas sobre jogadores, torneios e jogos em geral.

A IBM vem a alguns anos realizando um ótimo trabalho no desenvolvimento do SlamTracker que é uma suíte de permite visualizar os dados durante as partidas; e envolve muito do que é a Mineração de Dados em tempo real.

Através de atributos chave como sets, serviços, aces, erros e pontos ganhos é possível ver o jogo quase como se fosse telemetria; e além disso tem uma característica muito bacana chamada Momentum que é uma métrica de evolução no jogo dos atletas de acordo com os pontos ganhos, e a importância desses pontos; de modo que é possível verificar durante a partida qual o jogador que está em um momento melhor durante a partida.

Roland Garros – Data Mining Slam Tracking

O Pós-Venda de uma Ferramenta e o impacto no projeto de Mineração de Dados/BI

Em uma conversa informal durante um almoço, conversei com um consultor de Business Intelligence a respeito da importância do Pós-Venda e acompanhamento do provedor da ferramenta dos projetos de implantação.

Durante esse último ano tive a oportunidade de acompanhar a implantação de alguns projetos de ERP, e Business Intelligence e tenho algumas impressões sobre essa questão de ferramenta.

Na maioria das vezes  em que vejo questões comerciais sendo discutidas, muitos managers discutem todas as possibilidades possíveis em um projeto: Escopo, preço, características da ferramenta, diferenciais em relação a ferramentas de mercado; porém, duas questões que são de uma importância altíssima (Leia-se Risk Management) não são discutidas: Acompanhamento do provedor da ferramenta ao projeto de implementação/suporte; e curva de aprendizado da ferramenta.

Vou dar um pequeno testemunho a respeito da SAP a respeito disso e acho que pode servir de exemplo para as outras distribuidoras de software; ou mesmo pode ajudar na hora de colocar questões contratuais/comerciais junto ao distribuidor/vendedor de software no momento da negociação.

Como funciona:

A SAP no momento do licenciamento de uma permissão e uso de software estabelece dois contratos um com o vendedor (Parceiro responsável pela venda) e um com o cliente que fez a aquisição do licenciamento para trabalhar com o ERP.

No momento desse contrato, para as questões relacionadas à área técnica e suporte (implantação, treinamento, dúvidas, solicitação de atualizações, etc) o cliente é obrigado por força contratual buscar ao parceiro; e este último é responsável pelo atendimento desse cliente.

Se o atendimento não é satisfatório, o cliente aciona primeiro o parceiro solicitando auxílio para algum tipo de questão (erro de implantação, treinamento, questões relacionadas a problemas de suporte, entre outros) e se não for atendido tem o canal para informar diretamente à SAP que entra de forma arbitral para resolução desses conflitos as vezes com advertências aos parceiros com o encaminhamento do cliente a outra consultoria e até descredenciamento do parceiro. Simples assim. Em um momento no passado havia até informações que a SAP realizava o registro do tempo em que o projeto levou para ser concluído e de acordo com o tempo de implantação verificava junto ao Parceiro o motivo do atraso no projeto, e quais variáveis que influenciaram esse atraso para acompanhamento.

Na prática, o que eu tenho visto em conversas com alguns contatos e até mesmo experiências pessoais é que os vendedores de software querem oferecer uma solução totalmente black-box no qual o provedor da ferramenta está pouco se importando com o seu projeto, ou mesmo com a sua necessidade e a curva de aprendizado; há somente o interesse em ‘bater o martelo’ e fechar a negociação no aspecto financeiro.

Dentro disso que foi dito, vale a pena antes de fechar qualquer tipo de contrato questionar o provedor da ferramenta de Mineração de Dados/BI nos seguintes aspectos: Qual é o seu serviço de pós-venda e quais vantagens eu vou ter em relação ao atendimento? Qual é o tipo de suporte que a ferramenta possuí e quais os níveis de chamado e a escalabilidade? Quais algoritmos que essa ferramenta de mineração suporta? Há condições de implementar um algoritmo novo? Quais são os centros de treinamento disponíveis da ferramenta e quais são os treinamentos específicos para os tipos de análises que desejamos? Qual é a forma na qual eu posso implementar inferências estatísticas diversas nessa ferramenta, e quais os níveis de complexidades envolvidos nesse processo de implementação?

São perguntas básicas, que faz toda a diferença na questão de um projeto de mineração, pois podem influir de maneira amplamente negativa no desenvolvimento dos trabalhos de implementação e atraso nos cronogramas como um todo; é aquela velha máxima na qual se tem uma Ferrari para andar a 40 Km/h na cidade de São Paulo, e na maioria do trajeto em ruas de terra.

O Pós-Venda de uma Ferramenta e o impacto no projeto de Mineração de Dados/BI

Tenha certeza que suas métricas não estão matando o seu negócio

Measuring programming progress by lines of code is like measuring aircraft building progress by weight. —Bill Gates   

Com essa afirmação do Bill Bates que começa esse importante artigo sobre a construção, avaliação e implementação de métricas; mas especificamente no ambiente de Business Intelligence; mas que também serve como recado para a Mineração de Dados.

É mais do que conhecido que o excesso de métricas, ou mesmo a sua construção de forma deliberada pode conduzir a decisões sem fundamentação; que consequentemente pode acarretar em prejuízos financeiros.

Atualmente estou em uma rotina de estudos sobre a aplicação de Mineração de Dados no mercado financeiro (que deu origem a Financial Series) e a cada paper é de se reparar como há uma crescente (quase que obsessiva) busca por mais métricas; sendo que os resultados não chegam a mais do que 50% de sucesso (tem paper que apresenta resultados maiores, entretanto, não mostra metodologia; aí fica fácil).

Isso é de uma gravidade monstruosa, pois, como Data Scientist (ou minerador de dados em um contexto mais restrito) vai justificar um ganho de apenas 50% com inúmeros recursos computacionais e matemáticos além de investimentos financeiros com o desenvolvimento de uma estrutura de avaliação complexa com diversas métricas, enquanto há seres humanos como, por exemplo, o Warren Buffet que tem rendimentos de quase 70% daquilo que compra utilizando no máximo 10 métricas e lendo jornal; ou mesmo um trader que utiliza análise fundamentalista e em longo prazo tem retornos acima desse percentual? Não tem justificativa pra isso.

A avaliação de métricas, além do que o artigo propõe deve haver uma diferenciação da sua utilização na qual o seu peso é levado em consideração de acordo com o período de análise futura; ou seja, curto, médio e longo prazo; pois, a série histórica dependendo do período de análise pode influenciar negativamente a métrica, e consequentemente a decisão. Vamos utilizar o futebol como exemplo de como uma série história, dependendo do tipo de atributo para predição perde a sua influência e as vezes pode conduzir à um resultado não satisfatório a longo prazo: Até 1990, quem fosse realizar uma métrica para avaliar a probabilidade entre o Internacional (já campeão nacional em 75, e 76) e o Corinthians (que não tinha sido campeão ainda desse tipo de competição) de ser Campeão Brasileiro nos próximos 30 anos (não considerando outras variáveis) veria que o fator da série do Inter seria sempre maior do que o do time da capital; e a história mostrou que o time de São Paulo ganhou 5 títulos enquanto o time do sul não ganhou nenhum; o que mostra que o desenvolvimento de uma métrica deve ser de acordo com o período de tempo, o qual uma métrica de longo prazo não se aplica nesse caso específico (o que deveria ser uma medida de curto prazo para saber o fator de probabilidade para os times serem campeões.).

É um assunto ótimo de se discutir e vale a pena a leitura do artigo.

Tenha certeza que suas métricas não estão matando o seu negócio

Indústria Farmacêutica + Mineração de Dados + Dados de Pacientes = Violação de Direitos

Um dos episódios que mostram que ainda não há critérios para a utilização da Mineração de Dados; e porque a privacidade pode ser um fator crítico para o seu desenvolvimento nos próximos anos.

Indústria Farmacêutica + Mineração de Dados + Dados de Pacientes = Violação de Direitos

O estudo certo, no ambiente errado

Com o IPO do Facebook, e com alguns outros IPOs de algumas empresas de Big Data, parece que uma legião de pesquisadores foram atraídos para o poder do Social Analytics (atraídos pela ideia na qual vão desenvolver uma ferramenta de marketing dirigido (Target Marketing) que valerá U$ 1 Bi em questão de dias) e estão realizando uma porção de pesquisas nesse segmento.

Que as redes sociais tem muito a dizer em relação ao comportamento do consumidor online, isso não há dúvidas; entretanto, esse domínio apesar de estar em uma esfera já computacional (Ou seja não envolve a busca de informações de outras fontes) em sua origem exige uma série de estudos que transcendem as questões relacionadas a análise de dados como conhecemos; na qual demandam mais domínio do que técnicas propriamente ditas.

Este estudo em forma de paper de Daniel Gayo-Avello da University of Oviedo mostra bem que os estudos das redes sociais são de fato um ótimo campo para prospecção de conhecimentos; porém, demandam mais ‘filosofia’ do que ‘engenharia’ com estudos que demandam especialistas em antropologia, propaganda e publicidade, cientistas sociais entre outros.

Este estudo é um caso emblemático no qual o estudo certo foi realizado; entretanto, o domínio não foi considerado para a análise dos dados o que causou a perca de tempo por parte do pesquisador; e serve de alerta para pesquisadores que desejam desmistificar o poder das redes sociais e o comportamento do consumidor online.

Fonte: http://arxiv.org/pdf/1204.6441v1.pdf

A Balanced Survey on Election Prediction using Twitter

O estudo certo, no ambiente errado

Data Mining, ROI, e… Esportes

Esta matéria apresenta os resultados de um trabalho do Prof. Abraham Wyner da Universidade de Wharton, o qual ele faz o estudo da correlação entre as questões salariais e o desempenho dos times em algumas modalidades como Futebol Americano, Basquete, Baseball, Hockey no Gelo e futebol.

Fora os ótimos resultados apresentados (Como que no Futebol Europeu e o Hockey no Gelo tem um bom retorno em relação aos salários dos atletas); o estudo tem uma grande contribuição em relação a questões esportivas (em especial gestão esportiva) o qual pode servir de base para pesquisas como, por exemplo, o desempenho dos atletas propriamente dito e demais questões técnicas e táticas de acordo com o tipo de jogo.

Data Mining, ROI, e… Esportes

Mineração de Dados na Prática

Uma das boas surpresas ao abrir a edição Nr 98 da SQL Magazine foi encontrar um ótimo artigo sobre Mineração de Dados, em especial a explicação muito didática do funcionamento do K-Means (K-Médias).

O artigo é assinado por Marcio Marcenes Netto e Tauller Augusto de Araujo Matos e mostra o desenvolvimento do algoritmo de acordo com as suas interações e como o mesmo forma os Clusters.

Vale a pena a leitura, se você é estudante de Banco de Dados e procura saber um pouco mais sobre esse algoritmo.

Mineração de Dados na Prática

Mineração de Dados aplicada ao mapeamento demográfico urbano

Um dos projetos que na qual modelei um domínio para políticas públicas é relacionado com o mapeamento demográfico urbano nas grandes cidades, e tem como finalidade apresentar ao poder executivo das cidades e municípios formas de como formularem os seus planos diretores não somente baseados em aspectos políticos; mas também considerando aspectos técnicos relacionado a dinâmica de populações urbanas (razão entre o espaço urbano em relação a quantidade de pessoas que habitam/transitam em um determinado espaço) uso do solo, e  correlação entre o impacto das populações no meio urbano.

Essa reportagem da Folha, expõe o problema da verticalização o bairro de Pinheiros. Apesar da forma despretenciosa na qual a noticia foi formulada, expõe de maneira catedrática o problema na definição de um plano diretor eficiente.

No momento em que há a definição de um plano diretor, além de aspectos políticos e urbanísticos; deve ser levado em conta todo entorno de atividades atuais e potênciais, no qual quando não há essa consideração há situações como a da reportagem em anexo: O que é legal nas formas da lei, não representa necessariamente a situação ideal para o espaço urbano.

A mineração de dados poderia auxiliar na formulação dessas políticas poderiam se dar da seguinte forma:

  • Classificação do volume de tráfego;
  • Agrupamento de Demográfico para verificação do uso do solo;
  • Agrupamento demográfico das populações para formulação de políticas relacionadas ao pagamento de taxas adicionais de serviços públicos.

Toda essa questão de mapeamento que em um determinado momento pode parecer uma questão trivial, na verdade esconde uma questão muito complexa que é de que se há mais pessoas, há mais uso do solo, há mais consumo de recursos urbanos na área (asfalto, esgoto, energia, etc), e há mais tráfego de pessoas/veículos. 

A mineração de dados pode auxiliar na resposta para estas questões relacionadas ao planejamento urbano; mas claro que isso passa obrigatoriamente por incentivos políticos e administrativos, em todo o caso é um domínio interessante de aplicação das técnicas.

Mineração de Dados aplicada ao mapeamento demográfico urbano

Modelo de Domínio + Habilidades em Tratamento de Dados = Data Miner

Este post de Brendan Tierney apresenta uma pequena introdução sobre os skills necessários para ser um Data Miner (Minerador de Dados). Em tempos em que o termo Data Scientist (Cientista de Dados) está cada vez mais popular, Brendan expõe de maneira bem categórica as habilidades envolvidas para esse novo segmento de trabalho, e mostra que grande parte das vezes um PhD em estatística não vale o trabalho de um Data Miner, devido ao fato que as habilidades envolvidas são muito amplas como delimitação de domínio e tratamento de dados.

Modelo de Domínio + Habilidades em Tratamento de Dados = Data Miner

Mineração de Dados Hospitalares

Uma aplicação de mineração de dados sobre dados médicos é um domínio de aplicação que pode auxiliar na análise sobre dados médicos e melhorar questões relacionadas à administração hospitalar bem como auxiliar em campos relacionados ao estudo de casos clínicos através de uma base histórica de dados.

Em geral esse tipo de Projeto de Mineração de Dados pode se dar na aquisição de dados não estruturados sobre diagnósticos, dados históricos de pacientes, reconhecimento de padrões de moléstias, e até mesmo aferição dos tipos de doenças mais graves e a sua duração. A questão de privacidade é fundamental para esse tipo de domínio, já que dependendo do tipo de legislação médica, pode haver restrições em relação à aquisição dessas informações.

Mineração de Dados Hospitalares

Base de Dados – Titanic

Uma das abordagens mais interessantes em Mineração de Dados é realizar análises de dados sobre bases  aparentemente  triviais.

O naufrágio do navio Titanic que gerou uma comoção muito grande na época devido às proporções da tragédia; e nessa base há algumas informações sobre sobre esse acidente que podem ser mineradas. Há informações sobre mortos, sobreviventes, e demais informações a respeito dessa tragédia; e essa base pode ser utilizada para cursos introdutórios sobre mineração de dados e apresentação de algoritmos básicos.

Titanic Database

Para utilizar a base de dados, mude a extensão do arquivo de .xls para .rar e descompacte o arquivo.

Base de Dados – Titanic