Estudo Randomizado Controlado: Poderoso, mas apenas se usado da forma correta.

Apesar desse artigo do Jon Jachimowicz falar essencialmente de Economia Comportamental, grande parte do que foi dito sobre ensaio clínico randomizado aplica-se à mineração de dados, especialmente tratando-se de amostragem e Uplift Modeling.

O autor enfatiza três elementos desse tipo de estudo que são (a) uma necessidade de maior sofisticação dos grupos de controle, (b) mais cautela na consideração de outros comportamentos que afetem o estudo, e (c) uma melhor conceitualização dos efeitos de longo prazo.

Os ensaios utilizando esta metodologia apresentam uma robustez relativamente alta, particularmente no que diz respeito à minimização do efeito da aleatoriedade no resultado final dos estudos.

Essa robustez foi tratada pelo Médico José Carlos Souto do blog da Dieta Paleolítica e Low-Carb, em relação aos graus de evidência científica:

  • A evidência que tem menor valor é a opinião pessoal. Afinal, opinião todo mundo tem, e o papel aceita qualquer coisa. Quando, porém, não há outros dados na literatura médica, aceita-se a opinião de um especialista como uma evidência provisória.
  • A seguir, vêm os relatos de caso. Consistem no relato de uma série de casos, a fim de que se possam extrair dados estatísticos sobre determinada doença/circunstância. Qual a idade média das pessoas com aquela doença, qual o sexo e a etnia das pessoas?
  • A seguir, vêm os estudos de caso-controle, nos quais o investigador pega um grupo de pessoas com determinada doença e compara com outro grupo de pessoas que não tenham a doença.
  • A seguir, vêm os estudos de coorte, na qual se obtém dados (exames, questionários, etc) de um grande número de pessoas, e os acompanha por vários anos a fim de identificar quem desenvolve doenças, de forma a identificar possível fatores de risco no passado.
  • A seguir, vem o ensaio clínico randomizado, o padrão-ouro da evidência em medicina, no qual um grande número de pessoas é “randomizada” (isto é, sorteada) para dois ou mais grupos; em geral, um grupo é submetido a uma intervenção (um remédio, uma dieta), e o outro grupo serve como controle. O sorteio garante que os grupos sejam semelhantes entre si em TUDO, exceto na variável sendo testada. Este é o único tipo de estudo capaz de sugerir fortemente relações de causa e efeito. É este o grau de evidência dos estudos que provam que a redução da gordura na dieta não traz benefício (clique aqui).
  • Por fim, no topo da cadeia alimentar da evidência científica, vem a revisão sistemática de ensaios clínicos randomizados. Afinal, por puro acaso, um ensaio clínico randomizado pode achar um resultado que não seja real – uma flutuação estatística aleatória. Mas quando você tem, digamos, DEZ ensaios clínicos randomizados que tratam sobre o mesmo tema, uma revisão sistemática e metanálise pode combinar matematicamente os dados de TODOS eles, o que empresta a esta análise um peso superior ao dos estudos isolados. Por este motivo, a revisão sistemática epitomiza o mais alto nível de evidência científica.

Screenshot 2013-09-04 at 21.23.28

Nem é preciso ver muito longe pra ver que essas definições são importantes para o Data Miner devido ao simples fato de que em muitos dos estudos de natureza contrastiva (e.g. comparação de produtos, estudos de ações de marketing por canal para mensuração real de efetividade, influências de variáveis específicas em personas em uma base de clientes) sem uma metodologia nem algoritmos, nem técnicas, nem pré-processamento de dados vão conseguir obter um resultado próximo da realidade.

Sobre a forma de realizar esses estudos o autor diz:

One of the key elements of an RCT is the comparison between an intervention group and a control group. That is, when researchers hypothesize that one group is going to benefit from a given intervention, they compare the behavior of that intervention group to that of a group that did not receive the intervention. Although this rationale carries intuitive appeal, it overlooks the fact that a difference from the no-intervention group does not necessarily suggest that the intervention was successful. Take the case of medicinal research, where the intervention group is often instead compared to a placebo (a sugar pill) because extensive research shows that merely giving a patient a pill carries positive intervention effects. In fact, much medicinal research goes a step further, additionally comparing an intervention condition to the best currently known intervention. If an intervention remains better than these two control conditions, then one can be much more confident in claiming that it truly is effective. A no-intervention condition is therefore not a good control condition on its own. In particular, to be more certain about the validity of an approach, the intervention condition should be compared to three adequate control conditions, consisting of a no-intervention group, a placebo group, and a best-currently-available-intervention group.

Em outras palavras: nas basta saber se a solução é boa, mas sim se ela é boa comparada com as demais soluções já existentes.

Este parágrafo fala a respeito da consideração de outros efeitos no comportamento do grupo de controle:

Consequently, we need to think more about what other behaviors may be affected by an intervention and then determine the appropriate design to best measure the effects.

Pegando o gancho do que o autor colocou, um dos erros mais crassos em relação à análise de dados é a não-observância de outros fatores que possam ter influenciado o resultado como estacionariedade, aspectos ligados a sazonalidade (que pode ser cíclica ou não cíclica como essa análise sensacional mostrou), ou ate mesmo aspectos exógenos (que estão além do estudo como uma outra posologia ou questões de terapias auxiliares no caso dos casos clínicos) que podem conduzir a uma tomada de decisão ruim, ou mesmo fortalecer vieses cognitivos como o viés de confirmação que decorre de uma associação ilusória.

Desta forma qualquer experimento ou estudo que for conduzido usando ensaio clínico randomizado, ou metodologia que simule esse design de experimentos deve levar em consideração um rigor no acompanhamento dos resultados e no contraste das soluções ou resultados encontrados.

Estudo Randomizado Controlado: Poderoso, mas apenas se usado da forma correta.

Modelagem de Resultado

Neste post do Paul Mineiro (um dos mais reflexivos autores da blogosfera de Analytics) ele coloca em questão os custos e benefícios do trabalho de pesquisa e como o pesquisador profissional deve deixar o seu empregador informado sobre especialmente desses benefícios.

Esse trecho abaixo diz muito sobre o fato de que nós pesquisadores e entusiastas da análise de dados, e principalmente Data Mining não somos tão bons em divulgar os nossos resultados:

Recent events have me thinking again about the viability of privately funded basic research. In my opinion, the history of Xerox PARC is deeply troubling. What?! At it’s peak the output of Xerox PARC was breathtaking, and many advances in computation that became widespread during my youth can be traced to Xerox PARC. Unfortunately, Xerox did not benefit from some of the most world-changing innovations of their R&D department. Now a generation of MBAs are told about the Cisco model, where instead of having your own research department, you wait for other firms to innovate and then buy them.

… it continues to buy small, innovative firms rather than develop new technology from scratch …

To be clear my employer, Microsoft, still shows a strong commitment to basic research. Furthermore, recent research layoffs at Microsoft were not related to research quality, or to the impact of that research on Microsoft products. This post is not about Microsoft, it is about the inexorable power of incentives and economics.

Quite simply, it is irrational to expect any institution to fund an activity unless that organization can realize sufficient benefit to cover the costs. That calculation is ultimately made by people, and if those people only hear stories about how basic research generates benefits to other firms (or even, competitors!), appetite will diminish. In other words, benefits must not only be real, they must be recognizable to decision makers. This is, of course, a deep challenge, because the benefits of research are often not recognizable to the researchers who perform it. Researchers are compelled to research by their nature, like those who feel the need to scale Mount Everest. It so happens that a byproduct of their research obsession is the advancement of humanity.

A discussão poderia ir para o caminho de questões orçamentárias e tudo mais; mas o cerne da questão é que devido a esse péssimo marketing pessoal (sic.) que faz parte de todo o jogo (teatro) corporativo reflete em que técnicas e competências extremamente ultrapassadas estejam reinando; mais especificamente as ferramentas de Business Intelligence e seus analistas que promovem mais entropia nas organizações com a avalanche de relatórios sobre o… passado.

A mineração de dados e a modelagem preditiva como um todo entram em uma arena de complexidade e análise diferente do exemplo citado acima; na qual ao invés de realizar diversas análises conjecturais que muitas das vezes desconsideram os dados e estão literalmente ancoradas e vieses cognitivos (ou cacoetes corporativos para a manutenção do status quo) elas são pautadas em tecnologias que vão segmentam, classificam e recomendam usando informações de bases de dados em problemas tipicamente não lineares no qual um analista humano teria extrema dificuldade de agir.

Uma das soluções para que a Mineração de Dados seja vista como uma alternativa real, face a esta crescente entropia no ambiente de negócios transvestida de ‘Inteligência’ (e principalmente dando dinheiro a charlatães, mas isso será assunto de outro post) as análises devem ter ligação direta com os resultados, sejam financeiros ou mesmo de outra natureza.

O melhor programa de marketing sempre foi, e sempre será a entrega de resultados e superação de metas. Ponto.

Sendo assim quais são as formas de se realizar isso com a mineração de dados? Algumas sugestões aleatórias seriam (i) a utilização de Uplift Modeling para comparar  o a) Status Quo, b) outras análises que estão sendo performadas sem a Mineração de Dados,  c) usando a Mineração de Dados e o posterior contraste dos métodos mostrando tempo empregado, custos e receita líquida final; (ii) estruturação de uma metodologia para a aplicação da Mineração dado que este é o ponto mais sensível quando vai se explicar esse tipo de trabalho para audiência não-técnica; e (iii) ter em mente a seguinte equação “Realidade = Modelo – Erro”; em outras palavras, isso significa que você sempre estará olhando o intangível, isto é, informações que estão aquém da modelagem de dados; e por último (iv) estruture uma apresentação efetiva desses resultados, um ótimo recurso é o livro Real Leaders Don’t Do Power Point que mostra que até o analista mais técnico pode realizar uma apresentação excelente.

Modelagem de Resultado

Uplift Modeling

Lendo o Predictive Analytics em meados de Maio (que será resenhado aqui no MD) resgatei um dos tópicos mais interessantes quando se fala de aderência de modelos preditivos que é o uplift modeling.

 O Lift pode-se dizer que é a medida (ou índice) da eficácia do modelo em relação os resultados obtidos através do modelo, e se o modelo não fosse aplicado.

Esse conceito é importado da medicina baseada em evidências no qual é conhecido como ensaio clínico randomizado, que tem como principal característica a separação dos grupos de experimento para verificar a eficácia de uma abordagem clínica/medicamentosa.

 Você utiliza essa métrica de aderência de modelo preditivo da seguinte forma:

 1) Criam-se dois grupos, um de (i) tratamento (onde o modelo será aplicado) e (ii) outro de controle (onde o modelo não será aplicado) sempre levando em consideração a randomização das amostras;

2) Aplica diretamente a técnica de classificação ou modelagem preditiva no grupo de tratamento;

3) Realiza o follow-up dos dois grupos anotando os efeitos primários (indicações mais severas após a intervenção), e comportamentos semelhantes e/ou efeitos secundários; e

4) De acordo com o response rate (%) do uplift modeling  você consegue uma análise mais fiel em relação aos impactos da intervenção e se você tiver ‘saco metodológico’ você consegue observar o decay do modelo, ou mesmo realizar ajustes.

Uplift Modeling