A Note on the Validity of Cross-Validation for Evaluating Autoregressive Time Series Prediction

Um bom artigo sobre a aplicação de Cross Validation em séries temporais.

Abstract: One of the most widely used standard procedures for model evaluation in classification and regression is K-fold cross-validation (CV). However, when it comes to time series forecasting, because of the inherent serial correlation and potential non-stationarity of the data, its application is not straightforward and often omitted by practitioners in favour of an out-of-sample (OOS) evaluation. In this paper, we show that in the case of a purely autoregressive model, the use of standard K-fold CV is possible as long as the models considered have uncorrelated errors. Such a setup occurs, for example, when the models nest a more appropriate model. This is very common when Machine Learning methods are used for prediction, where CV in particular is suitable to control for overfitting the data. We present theoretical insights supporting our arguments. Furthermore, we present a simulation study and a real-world example where we show empirically that K-fold CV performs favourably compared to both OOS evaluation and other time-series-specific techniques such as non-dependent cross-validation.

Conclusions: In this work we have investigated the use of cross-validation procedures for time series prediction evaluation when purely autoregressive models are used, which is a very common situation; e.g., when using Machine Learning procedures for time series forecasting. In a theoretical proof, we have shown that a normal K-fold cross-validation procedure can be used if the residuals of our model are uncorrelated, which is especially the case if the model nests an appropriate model. In the Monte Carlo experiments, we have shown empirically that even if the lag structure is not correct, as long as the data are fitted well by the model, cross-validation without any modification is a better choice than OOS evaluation. We have then in a real-world data example shown how these findings can be used in a practical situation. Cross-validation can adequately control overfitting in this application, and only if the models underfit the data and lead to heavily correlated errors, are the cross-validation procedures to be avoided as in such a case they may yield a systematic underestimation of the error. However, this case can be easily detected by checking the residuals for serial correlation, e.g., using the Ljung-Box test.

cv-wp

A Note on the Validity of Cross-Validation for Evaluating Autoregressive Time Series Prediction

Métodos de reamostragem para estimativa de erro em aprendizado de máquina

Esses slides do Tanagra, mostram de maneira bem didática como são feitas as estimativas usando métodos de reamostragem como Cross-Validation, Bootstrap, e LOO Cross Validation.

resampling_evaluation

Métodos de reamostragem para estimativa de erro em aprendizado de máquina

Estudo Randomizado Controlado: Poderoso, mas apenas se usado da forma correta.

Apesar desse artigo do Jon Jachimowicz falar essencialmente de Economia Comportamental, grande parte do que foi dito sobre ensaio clínico randomizado aplica-se à mineração de dados, especialmente tratando-se de amostragem e Uplift Modeling.

O autor enfatiza três elementos desse tipo de estudo que são (a) uma necessidade de maior sofisticação dos grupos de controle, (b) mais cautela na consideração de outros comportamentos que afetem o estudo, e (c) uma melhor conceitualização dos efeitos de longo prazo.

Os ensaios utilizando esta metodologia apresentam uma robustez relativamente alta, particularmente no que diz respeito à minimização do efeito da aleatoriedade no resultado final dos estudos.

Essa robustez foi tratada pelo Médico José Carlos Souto do blog da Dieta Paleolítica e Low-Carb, em relação aos graus de evidência científica:

  • A evidência que tem menor valor é a opinião pessoal. Afinal, opinião todo mundo tem, e o papel aceita qualquer coisa. Quando, porém, não há outros dados na literatura médica, aceita-se a opinião de um especialista como uma evidência provisória.
  • A seguir, vêm os relatos de caso. Consistem no relato de uma série de casos, a fim de que se possam extrair dados estatísticos sobre determinada doença/circunstância. Qual a idade média das pessoas com aquela doença, qual o sexo e a etnia das pessoas?
  • A seguir, vêm os estudos de caso-controle, nos quais o investigador pega um grupo de pessoas com determinada doença e compara com outro grupo de pessoas que não tenham a doença.
  • A seguir, vêm os estudos de coorte, na qual se obtém dados (exames, questionários, etc) de um grande número de pessoas, e os acompanha por vários anos a fim de identificar quem desenvolve doenças, de forma a identificar possível fatores de risco no passado.
  • A seguir, vem o ensaio clínico randomizado, o padrão-ouro da evidência em medicina, no qual um grande número de pessoas é “randomizada” (isto é, sorteada) para dois ou mais grupos; em geral, um grupo é submetido a uma intervenção (um remédio, uma dieta), e o outro grupo serve como controle. O sorteio garante que os grupos sejam semelhantes entre si em TUDO, exceto na variável sendo testada. Este é o único tipo de estudo capaz de sugerir fortemente relações de causa e efeito. É este o grau de evidência dos estudos que provam que a redução da gordura na dieta não traz benefício (clique aqui).
  • Por fim, no topo da cadeia alimentar da evidência científica, vem a revisão sistemática de ensaios clínicos randomizados. Afinal, por puro acaso, um ensaio clínico randomizado pode achar um resultado que não seja real – uma flutuação estatística aleatória. Mas quando você tem, digamos, DEZ ensaios clínicos randomizados que tratam sobre o mesmo tema, uma revisão sistemática e metanálise pode combinar matematicamente os dados de TODOS eles, o que empresta a esta análise um peso superior ao dos estudos isolados. Por este motivo, a revisão sistemática epitomiza o mais alto nível de evidência científica.

Screenshot 2013-09-04 at 21.23.28

Nem é preciso ver muito longe pra ver que essas definições são importantes para o Data Miner devido ao simples fato de que em muitos dos estudos de natureza contrastiva (e.g. comparação de produtos, estudos de ações de marketing por canal para mensuração real de efetividade, influências de variáveis específicas em personas em uma base de clientes) sem uma metodologia nem algoritmos, nem técnicas, nem pré-processamento de dados vão conseguir obter um resultado próximo da realidade.

Sobre a forma de realizar esses estudos o autor diz:

One of the key elements of an RCT is the comparison between an intervention group and a control group. That is, when researchers hypothesize that one group is going to benefit from a given intervention, they compare the behavior of that intervention group to that of a group that did not receive the intervention. Although this rationale carries intuitive appeal, it overlooks the fact that a difference from the no-intervention group does not necessarily suggest that the intervention was successful. Take the case of medicinal research, where the intervention group is often instead compared to a placebo (a sugar pill) because extensive research shows that merely giving a patient a pill carries positive intervention effects. In fact, much medicinal research goes a step further, additionally comparing an intervention condition to the best currently known intervention. If an intervention remains better than these two control conditions, then one can be much more confident in claiming that it truly is effective. A no-intervention condition is therefore not a good control condition on its own. In particular, to be more certain about the validity of an approach, the intervention condition should be compared to three adequate control conditions, consisting of a no-intervention group, a placebo group, and a best-currently-available-intervention group.

Em outras palavras: nas basta saber se a solução é boa, mas sim se ela é boa comparada com as demais soluções já existentes.

Este parágrafo fala a respeito da consideração de outros efeitos no comportamento do grupo de controle:

Consequently, we need to think more about what other behaviors may be affected by an intervention and then determine the appropriate design to best measure the effects.

Pegando o gancho do que o autor colocou, um dos erros mais crassos em relação à análise de dados é a não-observância de outros fatores que possam ter influenciado o resultado como estacionariedade, aspectos ligados a sazonalidade (que pode ser cíclica ou não cíclica como essa análise sensacional mostrou), ou ate mesmo aspectos exógenos (que estão além do estudo como uma outra posologia ou questões de terapias auxiliares no caso dos casos clínicos) que podem conduzir a uma tomada de decisão ruim, ou mesmo fortalecer vieses cognitivos como o viés de confirmação que decorre de uma associação ilusória.

Desta forma qualquer experimento ou estudo que for conduzido usando ensaio clínico randomizado, ou metodologia que simule esse design de experimentos deve levar em consideração um rigor no acompanhamento dos resultados e no contraste das soluções ou resultados encontrados.

Estudo Randomizado Controlado: Poderoso, mas apenas se usado da forma correta.

Como o Google Flu Lida com os Dados com Ruídos

Neste post do Nicholas Diakopoulos no blog da Harvard Business Review ele toca em um assunto bem atual que são as estimativas do Google Flu (GF). O GF é o serviço da Google que tem como finalidade estimar fluxos sazonais e realizar a análise de tendências de surtos de gripe ao redor dos EUA.

O Google Flu funciona como um agregador de buscas no qual a pessoa quando realiza uma query no Google.com com a palavra “Gripe” ou correlatas de acordo com parâmetros relativos ao tipo de busca, e localização a Google consegue estimar se há um surto de gripe de acordo com determinada região.

Uma passagem do texto sobre a modelagem de um sistema complexo de estimação como esse está abaixo:

“Big data systems like Google Flu are complex and unwieldy beasts. They can (and sometimes do) fail to give us the insights we think they should. They’re temperamental, messy, and can break down when the data or model changes unpredictably. So as your business adapts to making more and more data-driven decisions, from managing supply chains to hiring the best employees, how can you be confident in your big data decision making process?

I spoke to Rajan Patel, co-inventor of Google Flu, and he explained the two strategies in their assurance process: algorithms that detect and mitigate aberrations in search frequency that might throw their estimate off, and people to get to the root cause of system failures so that biases get rooted out of statistical models. The algorithms manage most of the day-to-day sanity checks before releasing estimates to the public, and the deeper systemic investigations by people are sparked by abnormalities like the H1N1 outbreak in 2009 and this past winter’s flu season.”

Isso mostra que o Big Data que muitos andam vendendo como se fosse mais uma tendência hype para falar em congressos e reuniões de negócios necessita também de uma “big” modelagem para estes dados.

Outros conceitos discutidos no artigo e que valem a pena o estudo são: o ruído presente nos dados (Messiness) que nada mais é que a forma de tratar e consolidar dados distintos e complexos que não agregam na qualidade da informação; e o viés amostral (Sampling Bias) que nada mais é do que realizar inferências partindo de uma amostra que não tem representatividade junto à população.

Como o Google Flu Lida com os Dados com Ruídos