Data Scientists não escalam!

Esse artigo da HBR que fala que a linguagem natural é a última fronteira para escalar de fato o que eles denominam como data science, e também mostram que os cientistas de dados ‘manuais’  existem em um arranjo de trabalho que simplesmente não tem escalabilidade.

Para jogar um pouco de lenha na fogueira em relação ao haterismo (aqui, aqui, aqui, e aqui) que vem tomando conta da comunidade de analytics/data mining/data science sobre as ferramentas de análise baseadas em GUI e os novos Work Horses em analytics como Amazon, Google e Microsoft.

Muito do que foi colocado no artigo tem muito a ver com o antigo, porém excelente artigo da Continental Airlines em que usando a extensão do trabalho do Richard Hackathorn coloca os tipos de latência no contexto de decisão-ação:

Action-Latency

Tudo começa com o evento de negócios que pode ser uma venda, uma transação qualquer que tenha valor monetário para a companhia em questão. A contar do evento de negócios, tem início a latência de dados que nada mais é do que o tempo requirido para capturar, transformar, higienizar o dado de algum sistema transacional e armazenar no DW, com isso tem-se o segundo ponto na linha do tempo de ação que é o dado armazenado.

Com o dado armazenado inicia-se a latência de análise que é o tempo utilizado para analisar e disseminar os resultados da análise para as pessoas apropriadas, e no fim desse processo tem-se o que é chamado de informação entregue. Após a informação chegar para as pessoas corretas inicia-se a latência de decisão que é o tempo para que o agente decisor entenda o contexto e a situação, faça um plano de ação e inicie o conjunto de tarefas listadas no plano.

Dentro do atual cenário em que temos o problema de armazenamento de dados quase que resolvido pelas novas tecnologias, pode ser dito que o problema de latência de dados está definitivamente resolvido  (e pode ser escalado com dinheiro), com isso resta a latência de análise e decisão.

Muito do que é apresentado como Data Science não está diretamente relacionado a questões de negócios em que grande parte das vezes o tempo é a variável mais determinante. Isso é, o eixo X do gráfico é extremamente reduzido.

Com isso, muito do que é feito é uma solução ótima para um problema que muitas das vezes já era para estar resolvido ou pior: a solução foi tão demorada que a organização perdeu o timing para a solução do problema. Isso pode significar desde uma oportunidade perdida (e.g. custo de oportunidade) até mesmo milhões de reais/dólares (e.g. perda de receita que poderia ser garantida usando o ativo de inteligência de dados).

E é nesse ponto que vamos chegar: Em grande parte das corporações não é necessária a solução perfeita; mas sim a solução que atenda uma questão de negócios dentro de um limite de tempo pré-estabelecido; e é nesse contexto que as soluções das suítes de Data Mining e ferramentas GUI vem a solucionar, ou ajudar na solução desse problema.

Além do mais, como a Julia Evans colocou, muitas as vezes o entendimento do problema é tão ou mais importante que a solução em si.

Dessa forma, dentro desse cenário a reportagem da HBR está correta: Cientistas de Dados não escalam por dois motivos (i) apesar da inteligência ser escalável, o agente humano (peça cognitiva no processo) não escala (não em termos industriais como o artigo coloca), e (ii) as soluções estão restritas a um intervalo de tempo finito e curto.

 

 

Data Scientists não escalam!

Modelagem de Resultado

Neste post do Paul Mineiro (um dos mais reflexivos autores da blogosfera de Analytics) ele coloca em questão os custos e benefícios do trabalho de pesquisa e como o pesquisador profissional deve deixar o seu empregador informado sobre especialmente desses benefícios.

Esse trecho abaixo diz muito sobre o fato de que nós pesquisadores e entusiastas da análise de dados, e principalmente Data Mining não somos tão bons em divulgar os nossos resultados:

Recent events have me thinking again about the viability of privately funded basic research. In my opinion, the history of Xerox PARC is deeply troubling. What?! At it’s peak the output of Xerox PARC was breathtaking, and many advances in computation that became widespread during my youth can be traced to Xerox PARC. Unfortunately, Xerox did not benefit from some of the most world-changing innovations of their R&D department. Now a generation of MBAs are told about the Cisco model, where instead of having your own research department, you wait for other firms to innovate and then buy them.

… it continues to buy small, innovative firms rather than develop new technology from scratch …

To be clear my employer, Microsoft, still shows a strong commitment to basic research. Furthermore, recent research layoffs at Microsoft were not related to research quality, or to the impact of that research on Microsoft products. This post is not about Microsoft, it is about the inexorable power of incentives and economics.

Quite simply, it is irrational to expect any institution to fund an activity unless that organization can realize sufficient benefit to cover the costs. That calculation is ultimately made by people, and if those people only hear stories about how basic research generates benefits to other firms (or even, competitors!), appetite will diminish. In other words, benefits must not only be real, they must be recognizable to decision makers. This is, of course, a deep challenge, because the benefits of research are often not recognizable to the researchers who perform it. Researchers are compelled to research by their nature, like those who feel the need to scale Mount Everest. It so happens that a byproduct of their research obsession is the advancement of humanity.

A discussão poderia ir para o caminho de questões orçamentárias e tudo mais; mas o cerne da questão é que devido a esse péssimo marketing pessoal (sic.) que faz parte de todo o jogo (teatro) corporativo reflete em que técnicas e competências extremamente ultrapassadas estejam reinando; mais especificamente as ferramentas de Business Intelligence e seus analistas que promovem mais entropia nas organizações com a avalanche de relatórios sobre o… passado.

A mineração de dados e a modelagem preditiva como um todo entram em uma arena de complexidade e análise diferente do exemplo citado acima; na qual ao invés de realizar diversas análises conjecturais que muitas das vezes desconsideram os dados e estão literalmente ancoradas e vieses cognitivos (ou cacoetes corporativos para a manutenção do status quo) elas são pautadas em tecnologias que vão segmentam, classificam e recomendam usando informações de bases de dados em problemas tipicamente não lineares no qual um analista humano teria extrema dificuldade de agir.

Uma das soluções para que a Mineração de Dados seja vista como uma alternativa real, face a esta crescente entropia no ambiente de negócios transvestida de ‘Inteligência’ (e principalmente dando dinheiro a charlatães, mas isso será assunto de outro post) as análises devem ter ligação direta com os resultados, sejam financeiros ou mesmo de outra natureza.

O melhor programa de marketing sempre foi, e sempre será a entrega de resultados e superação de metas. Ponto.

Sendo assim quais são as formas de se realizar isso com a mineração de dados? Algumas sugestões aleatórias seriam (i) a utilização de Uplift Modeling para comparar  o a) Status Quo, b) outras análises que estão sendo performadas sem a Mineração de Dados,  c) usando a Mineração de Dados e o posterior contraste dos métodos mostrando tempo empregado, custos e receita líquida final; (ii) estruturação de uma metodologia para a aplicação da Mineração dado que este é o ponto mais sensível quando vai se explicar esse tipo de trabalho para audiência não-técnica; e (iii) ter em mente a seguinte equação “Realidade = Modelo – Erro”; em outras palavras, isso significa que você sempre estará olhando o intangível, isto é, informações que estão aquém da modelagem de dados; e por último (iv) estruture uma apresentação efetiva desses resultados, um ótimo recurso é o livro Real Leaders Don’t Do Power Point que mostra que até o analista mais técnico pode realizar uma apresentação excelente.

Modelagem de Resultado

O Parque de Diversões

Essa semana foi lançado no Kaggle uma modalidade de competição denominada Playground, ou algo como parque de diversões. Esse tipo de competição ao invés de ter o foco em uma resolução específica, têm uma abordagem muito mais voltada à extração de informações previamente desconhecidas das bases de dados.

Geralmente em ambientes de análise de dados não há demandas para abordagens semelhantes, devido não somente pressões para resultados como também um determinado ‘engessamento’ dos setores estratégicos.

Ambientes de sucesso em mineração de dados não são aqueles que procuram uma agulha no palheiro (isto é, torturando os dados, overfitting, padrões espúrios) mas sim aqueles que ‘brincam’ no palheiro até sentirem uma ‘picada’ (isto é, analisando os padrões, tendências, e regras).

 

O Parque de Diversões

2014 será o ano do fim do SAS e do SPSS? Não exatamente!

Foi publicado no excelente blog r4stats um post sobre uma previsão do fim da utilização do SAS e do SPSS em meados de 2014, no qual o autor chega a essa conclusão através de uma análise de tendências na qual o estudo verificou que estas suítes vêm sofrendo declínio de utilização; e também ressalta com o crescimento da utilização do R como ferramenta estatística.

O ponto que o blog defende a sua previsão é que o R mesmo com os problemas aparentes de usabilidade (ausência de uma GUI, ou mesmo “validade” no mundo corporativo como uma ferramenta confiável) irá se tornar uma ferramenta que irá dominar o mercado.

Em mineração de dados, um dos conceitos fundamentais para qualquer projeto dessa natureza é que não adianta ser o famoso “samba de uma nota só“. O ponto principal é que a melhor ferramenta é aquela que resolve melhor o problema a ser estudado. Ponto.

Tanto o R quanto o SAS, e o SPSS tem o seu publico, e para quem estudou Economia da Informação, sabe de dois conceitos bem básicos que são o Vendor Locking e Base Instalada. A tendência geral é que de modo que a análise de dados aparece como uma peça de fator determinante em uma empresa, os analistas terão que ser mais “híbridos” (desculpem pela palavra-gatilho) e ter que aprender a trabalhar com o maior número possível de ferramentas dentro dos mais distintos cenários.

Ser fanboy de uma determinada ferramenta não somente limita o profissional de mineração de dados, mas também torna o analista totalmente dependente dessa tecnologia; e pior: isso leva pessoas inteligentes a adotarem posturas as quais não conseguem ver os principais defeitos do produto que estão utilizando. Pense pela segunte perspectiva: se o SAS e o SPSS são caros e são “engessados” como alguns alegam, o que dizer do R que por exemplo tem uma extrema dificuldade em conectar em bancos de dados relacionais, ou mesmo não “aguenta” um arquivo .txt com mais de 700 registros?

Com a evolução de segmentos da análise de dados, é natural que novas soluções venham a público e isso é ótimo, já que o analista de dados pode usar essa complexidade do ambiente como barganha seja em termos de tempo de projeto (curva de aprendizado e implementação) mas também como compensação salarial (já que terá um arsenal de armas muito maior que a média do merdado).

 

2014 será o ano do fim do SAS e do SPSS? Não exatamente!