Prevendo recessões econômicas usando algoritmos de Machine Learning

Paper bem atual que fala como os autores erraram a crise apenas em relação ao ano mostrando o potencial das Random Forests.

screen-shot-2017-01-14-at-10-52-34-am

Predicting Economic Recessions Using Machine Learning Algorithms – Rickard Nyman and Paul Ormerod

Abstract Even at the beginning of 2008, the economic recession of 2008/09 was not being predicted by the economic forecasting community. The failure to predict recessions is a persistent theme in economic forecasting. The Survey of Professional Forecasters (SPF) provides data on predictions made for the growth of total output, GDP, in the United States for one, two, three and four quarters ahead, going back to the end of the 1960s. Over a three quarters ahead horizon, the mean prediction made for GDP growth has never been negative over this period. The correlation between the mean SPF three quarters ahead forecast and the data is very low, and over the most recent 25 years is not significantly different from zero. Here, we show that the machine learning technique of random forests has the potential to give early warning of recessions. We use a small set of explanatory variables from financial markets which would have been available to a forecaster at the time of making the forecast. We train the algorithm over the 1970Q2-1990Q1 period, and make predictions one, three and six quarters ahead. We then re-train over 1970Q2-1990Q2 and make a further set of predictions, and so on. We did not attempt any optimisation of predictions, using only the default input parameters to the algorithm we downloaded in the package R. We compare the predictions made from 1990 to the present with the actual data. One quarter ahead, the algorithm is not able to improve on the SPF predictions. Three and six quarters ahead, the correlations between actual and predicted are low, but they are very significantly different from zero. Although the timing is slightly wrong, a serious downturn in the first half of 2009 could have been predicted six quarters ahead in late 2007. The algorithm never predicts a recession when one did not occur. We obtain even stronger results with random forest machine learning techniques in the case of the United Kingdom.

Conclusions: We have tried, as far as it is possible, to replicate an actual forecasting situation starting for the United States in 1990Q2 and moving forward a quarter at a time through to 2016. We use a small number of lags on a small number of financial variables in order to make predictions. In terms of one step ahead predictions of real GDP growth, we have not been able to improve upon the mean forecasts made by the Society of Professional Forecasters. However, even just three quarters ahead, the SPF track record is very poor. A regression of actual GDP growth on the mean prediction made three quarters previously has zero explanatory power, and the SPF predictions never indicated a single quarter of negative growth. The random forest approach improves very considerably on this. Even more strikingly, over a six period ahead horizon, the random forest approach would have predicted, during the winter of 2007/08, a severe recession in the United States during 2009, ending in 2009Q4. Again to emphasise, we have not attempted in any way to optimise these results in an ex post manner. We use only the default values of the input parameters into the machine learning algorithm, and use only a small number of explanatory variables. We obtain qualitatively similar results for the UK, though the predictive power of the random forest algorithm is even better than it is for the United States. As Ormerod and Mounfield (2000) show, using modern signal processing techniques, the time series GDP growth data is dominated by noise rather than by signal. So there is almost certainly a quite restrictive upper bound on the degree of accuracy of prediction which can be achieved. However, machine learning techniques do seem to have considerable promise in extending useful forecasting horizons and providing better information to policy makers over such horizons.

Prevendo recessões econômicas usando algoritmos de Machine Learning

Porque Não-Espionar os Dados

Neste post do Análise Real (lido no dia, mas só revisado hoje) há uma interessante discussão relativa a ‘fitagem’ de modelos e relacionamento e consistência dos resultados. O melhor trecho sem dúvida é a seguinte passagem:

“[…]Qualquer um que seja péssimo em tiro ao alvo pode “melhorar” seu resultado. Basta permitir que se atire antes e em seguida o alvo seja desenhado da maneira que lhe parecer mais favorável.  Perceba que a “evidência” resultante concordará com a hipótese que você quer provar. Entretanto, ela não é nem um pouco severa, pois, mesmo se você não fosse um bom atirador, você poderia ter obtido o mesmo resultado. Sendo incapaz de discriminar entre um caso e outro, na verdade este “teste” – em sua forma bruta – não poderia se considerado evidência genuína de sua habilidade.

Na analogia, os tiros são os “dados” e o desenho o “modelo” ou “hipótese”. Se você fizer seu modelo, ou formular sua hipótese, utilizando as peculiaridades dos dados – e não levar em conta este fato na sua inferência – você pode estar simplesmente desenhando um alvo ao redor dos tiros.
[…]”

Vale a pena a leitura, e as referências.

Porque Não-Espionar os Dados

Previsão de Dados Esportivos – Espanha será campeã da Euro, segundo Economistas

O trabalho de Achim Zeileis, Christoph Leitner, e Kurt Hornik apresenta uma simulação de cenários para previsão da equipe que será campeã da Euro 2012, no qual os economistas afirmaram que será a Espanha.

O método do trabalho é interessante, porém o que não me agradou foi o conjunto de dados que foram tendências de bolsas de apostas; porém, isso não tira o foco do artigo que está bem escrito e pode servir de referências para trabalhos similares como avaliação de stats individuais para predição de times campeões.  

Previsão de Dados Esportivos – Espanha será campeã da Euro, segundo Economistas

Mineração de Dados x Econometria

Uma ótima discussão via LinkedIn sobre um assunto bastante recorrente e importante quando falamos de Mineração de Dados e análises voltadas a predição.

Com o crescimento dos softwares computacionais voltados à análise de dados, bem como a falha dos setores econômicos em relação as suas previsões, ficou a impressão que a máquina em breve substituiria o papel do homem em relação à análise de dados, no qual bastaria apenas uma base de dados que a máquina realizaria todo o trabalho de previsão e os analistas humanos teriam apenas o trabalho de validar os modelos propostos de forma automática.

Entretanto, muito do que se fala hoje sobre modelos de predição não envolve apenas o programa de computador, mas também tem muito da modelagem que é proposta por trás da análise; e nesse campo a Econometria continua soberana (e continuará por muito tempo). E a delimitação desses papéis se faz necessária para compreensão do processo de modelagem e análise de dados.

Primeiro o Data Scientist, ou Minerador de Dados é o responsável por realizar todo o mapeamento do projeto de mineração de dados desde o seu nascedouro como o entendimento do negócio e definição de domínio de atuação, aquisição e entendimento dos dados e métricas, manipulação/transformação de dados, aplicação e estudo de algoritmos de implementação, validação e implementação do projeto; muitas das vezes utilizando a metodologia CRISP-DM, e também a utilização de soft skills sobretudo em questões de relacionamentos interpessoais.

Em segundo lugar vem o Econometrista que é responsável pela utilização ferramentas de estimação/previsão dentro de contextos  político-econômicos, utilização de instrumentos das políticas econômicas e financeiras através de elementos matemáticos, prospecção de modelos econométricos, i.e. combinação de elementos matemáticos para descrever determinados comportamentos da economia, validação de modelos estatísticos para mensuração de recursos; além de contar com um leque de elementos intelectuais bastante vasto para interpretação de elementos da administração, contabilidade,  e economia clássica para conjecturas sistêmicas para construção desses modelos de comportamentos econômicos não observáveis  de forma experimental ou aplicada.

Em linhas gerais vemos que a diferença entre esses papéis são bem claras; enquanto um realiza análises através de conjecturas intelectuais, algo mais ou menos como a montagem de um quebra cabeças; outro tem como foco a elaboração de modelos estruturados dentro de uma teoria consolidada.

Essas profissões mais do que concorrer em questão de qual é a mais eficiente em termos de predições; são complementares e em diversos momentos estão dentro da mesma intersecção; na qual, o Data Scientist não consegue propor um modelo de mineração sem conhecimento do domínio baseado em análise exploratória (abordagem Hit and Run); o Econometrista não consegue realizar predições sem um conjunto de dados que siga um determinado padrão de aquisição e abrangência. Simples assim. Pensar dessas duas formas é no mínimo muita pretensão, para não dizer falta de desconhecimento em análise de dados.

Dentro dos seus segmentos de atuações, a Mineração de Dados e a Econometria se complementam em muitos aspectos, no qual o primeiro contribuí com a aquisição de dados e tratamento além de análises exploratórias de acordo com modelos interdisciplinares e domínios específicos, o segundo contribuí de forma muito significativa com os seus modelos baseados em matemática e forte fundamentação teoria econômica.

Para finalizar, fica essa ótima analogia postada pelo usuário Nethra sobre a diferença entre a Econometria e a Mineração de Dados em relação às suas abordagens:

It reminds me the story of two people on an island, coming together evaluating what the heck happened, having extracted themselves from a fallen plane on the sea – fortunate to have survived but wanted to figure out how to get out of this no-mans land. Fortunately, the plane crashed just after take off. One said, let us start swimming in the direction of where we came from, taking into consideration the starting direction of the plane and the time they spent on the plane. He was smart to come to some quick conclusions and wanted to keep moving. We will adjust and fine tune our swimming patterns on the way based on various clues we might get.

The second one said, well we do not know whether we will get clues on the way or get eaten away. How about we evaluate various possible alternatives including the one you proposed and select the best and then go. In the end, we need to survive, and if it takes to stay here in this island, we should do that too. The first curiously looked at the second and asked, are you hypothesizer? Let us get to work and I am swimming. Obviously he is a great swimmer and he was trained by the best swimmers in the world.

He shouted, “we did enough calculations, the shore is not far we know, come on, lets go”. The second did not believe him; some of his previous reading suggested that these waters are shark infested, but he did not know which direction it was.

One version of the story ends like this: He came back two days later on a helicopter to retrieve the hypothesizer, who was dehydrating and about to die. My son secretly tells me, dad, you do not have to finish the story in this way, just because you are a data miner. He completed the story as follows.

Two days later a helicopter came and retrieved him when he was dehydrating and about to die. The pilot was saying that the coast guard found a swimmer 10 miles further away from the shore, in the wrong direction, and about to die. He was retrieved and recovering at the shore.

My son continued, the pilot said, ‘it seems he misjudged the direction”. May be it helps to have some good idea of planetory sciences and oceanography, I guess dad, my son was telling me, with a twinkle in his eyes.

Mineração de Dados x Econometria

Why Economics Needs Data Mining – Cosma Shalizi

Essa entrevista do professor Cosma Shalizi (Michigan University) é uma boa prova de uma das aplicações mais emergentes da mineração de dados que é no campo da economia.

A Economia é uma ciência social que tem uma ligação muito forte com as ciências exatas como a matemática e a estatística; e o ponto que o professor Cosma coloca em questão nessa entrevista é que há muitos modelos econômicos que lidam com variáveis dinâmicas, mas que não se comportam assim no momento de sua validação devido à sua complexidade e formas de adequação nem sempre adequadas tomadas pelos economistas, e ele propõe que seja utilizado o aprendizado de máquina e conceitos de estatísticas para melhor definição dos modelos econômicos.

Para quem desejar conhecer um pouco mais, esse é o link do seu programa de Mineração de Dados.

Why Economics Needs Data Mining – Cosma Shalizi