Datsets para Análise de Crédito Lending Club

A Lending Club está disponibilizando em seu site alguns datasets relativos à análise de crédito, no qual podem ser desenvolvidos modelos.

Os dados são de uma ótima qualidade, e tem como principal diferencial conter também as instâncias relativas ao crédito rejeitado; além de outras informações úteis para esse tipo de análise.

Datsets para Análise de Crédito Lending Club

Agrupamento de Ativos do Mercado Indiano para Administração de Portfólios

Este paper publicado na revista acadêmica Expert Systems with Applications traz um trabalho interessante no qual pesquisadores indianos utilizaram as técnicas de clustering para construção e administração de portfólios de ativos da bolsa de valores da Índia e compararam os resultados com o índice Sensex.

A pesquisa utiliza como parâmetro de seleção de ativos idéias relativas ao artigo Portfolio Selection de Markowitz, no qual a carteira seria composta não somente pelos ativos que tivessem um melhor retorno financeiro, mas que também tivessem um baixo risco.

Partindo desse princípio, as empresas seriam agrupadas em clusters de acordo com alguns indicadores de análise técnica, e em um momento segunte de acordo com o valor do índice de validação dos clusters seriam formados os portfólios com os pesos de cada companhia.

O artigo trás idéias interessantes e o ponto negativo (e que provavelmente não foram apresentados pelos autores por desconhecimento ou abstração) é que fatores técnicos são inadequados para esse tipo de classificação devido ao seu alto volume de transações, bem como a pesquisa é inviável em termos de atualização de dados para alocação de ativos. O artigo se tivesse focado em indicadores fundamentalistas, macroeconômicos e setoriais  para enquadrar a construção e gestão de portfólios apresentaria melhores resultados.

Clustering Indian stock market data for portfolio management

Agrupamento de Ativos do Mercado Indiano para Administração de Portfólios

Previsão de Investimento em Porfólios utilizando Mineração de Dados

Este artigo de Adebimpe, Adedara e Longe pode ser descrito como um apanhado geral de idéias pertinentes a utilização de mineração de dados para administração e construção de portfólios, no qual os autores utilizam a técnica de árvore de decisão no qual fazem a classificação de atributos fundamentalistas para formulação de estratégias de investimento para portfólios financeiros de ativos em bolsa.

O artigo por si só é bem curto, entretanto trás uma bibliografia rica e apresenta uma idéia plausível para quem deseja realizar uma análise inicial sobre ativos em bolsa para formulação de estratégias de investimento de forma organizada e coordenada.

Forecasting Portfolio Investment Using Data Mining

Previsão de Investimento em Porfólios utilizando Mineração de Dados

Truques Estúpidos em Mineração de Dados – Overfitting no índice S&P500

Neste artigo do David Leinweber (o qual já foi tema do site aqui e aqui) ele coloca algumas considerações a respeito do fato de que muito do que se fala sobre Mineração de Dados está fartamente relacionado a relações absurdas que podem acontecer pelo fato de “torturar os dados” como a predição do índice Standard & Poor’s 500 através de correlações (estúpidas) como o modelo de regressão no qual a produção de manteiga em Bangladesh (Coeficiente de Determinação R2 de 0.75); produção de manteiga em Bangladesh e produção de queijo nos EUA (R2 = 0.95) e a fantástica correlação entre a produção de manteiga em Bangladesh, a produção de queijo nos EUA e a população de ovelhas em Bangladesh que apresenta o coeficiente de determinação de incríveis 99%.

É claro que o artigo escorrega um pouco ao radicalizar a questão, no qual o autor confunde quase que de maneira primária os conceitos de correlação (relação conjunta de uma ou mais váriaveis dentro de um contexto de análise) e casualidade (fatos que acontecem de acordo com um dado grau de sincronissidade, enretanto isolados em contextos distintos) para dar substância ao que está sendo defendido em sua tese; mas isso de nenhuma forma invalida o estudo no qual deixa claro que a “técnica de torturar os dados até que eles falem” é uma péssima abordagem e que pode gerar aberrações em análise de dados iguais aos casos citados.

De maneira geral o autor apresenta uma boa prática na qual sempre que haja esse tipo de análise, deve-se realizar testes sobre dados fora da amostragem para que sejam produzidos resultados mais fidedignos.

Stupid Data Miner Tricks – Overfitting The S&P 500

Truques Estúpidos em Mineração de Dados – Overfitting no índice S&P500

Aplicações da Mineração de Dados no mercado financeiro

Este paper de Savinderjit Kaur e Veenu Mangat, apesar de ser bastante curto em termos de volume (3 páginas) apresenta um bom arcabouço relativo à mineração de dados aplicada ao mercado financeiro, mas dentro de uma perspectiva mais generalista e conseqüentemente um pouco menos técnica.

O artigo coloca a mineração de dados como background de diversas atividades dentro da administração de ativos financeiros. Essas atividades são Predição de Preços de Ativos, Predição de Índices, Administração de Portfólios, Sistemas de Recomendação (Sistemas Especialistas), e Detecção de Tendências.

 Ao final os autores concluem que há muito a ser feito no campo entre Mineração de Dados e Mercado Financeiro para as seguintes atividades como retornos fora do normal, diagnósticos Pré-bolhas, padrões nos ativos de acordo com a indústria, Book-To-Market (Razão entre valor contábil e valor de mercado, tendências precedentes, entre outros.

Applications of Data Mining in Stock Market

Aplicações da Mineração de Dados no mercado financeiro

Aplicação de Mineração de Dados no Mercado Financeiro – Application of data mining techniques in stock markets

Ehsan Hajizadeh, Hamed Davari Ardakani e Jamal Shahrabi, todos da Amirkabir University of Technology no Irã trazem nesse paper uma boa abordagem de idéias de aplicações de mineração de dados no mercado financeiro.

Aos moldes do que faz o ótimo livro do Roberto Pontes que já foi resenhado aqui, os autores colocam um leque de possibilidades bem interessantes com as técnicas de mineração de dados, no qual não somente a mineração de dados será uma ferramenta de análise exploratória e reconhecimento de padrões, como colocam as técnicas como forma de se analisar tendências futuras para melhorar a análise de ativos.

Como os autores bem colocam, o paper vem a preencher uma lacuna na literatura sobre a aplicação de mineração de dados, principalmente no que vai além da dupla árvore de decisão e rede neural.

As técnicas elencadas pelos autores foram: Árvore de Decisão (alternativas de decisão), Redes Neurais (avaliação paramétrica), Agrupamento – Clustering – (observação de dinâmicas de características dos ativos financeiros, análise de fator (avaliação de variáveis e a influência de cada um sobre um modelo de predição), regras de associação (relacionamento entre os ativos de acordo com as características da base de dados), Séries Temporais (análise de tendência e predição).

Para quem deseja engajar-se em um projeto sério de análise de dados financeiros, sem dúvidas esse  artigo traz uma luz bem oportuna ao assunto, e pode auxiliar em pesquisas neste aspecto.

Application of data mining techniques in stock markets

Aplicação de Mineração de Dados no Mercado Financeiro – Application of data mining techniques in stock markets

Resenha: Data Mining with R: Learning with Case Studies

 

Este livro de Luiz Torgo é um ótimo exemplo de que se podem escrever bons livros de mineração de dados, sem a forma prolixa dos livros que estão no mercado atualmente, no qual o autor ao mesmo tempo que trata da mineração de dados na ferramenta R, coloca exemplos bem práticos os quais podem ser transpostos para situações corporativas e educacionais com extrema facilidade.

O livro consolida o R como uma ferramenta robusta de mineração de dados, no qual coloca em seu livro de modo bem didático e através de muito código e explicações passo-a-passo como utilizar o R, através do aprendizado na prática, e devido a isso os usuários menos experientes podem sentir falta de explicações sobre a sintaxe do R; mas em termos gerais isso foi um trunfo do livro que se mantêm como um manual prático bem enxuto.

Dentro da mineração de dados, a obra aborda aspectos relativos à predição, detecção de outliers e classificação; no qual que deseja uma abordagem prática e precisa desse tipo de recurso tem neste livro o manual absoluto para aplicação da mineração de dados.

Falar do R como ferramenta de mineração de dados dispensa comentários já que seguramente é a melhor ferramenta para esse tipo de pratica, pois; além de envolver bibliotecas customizáveis, conta com uma parte estatística que ainda não tem nenhum tipo de concorrente.

O livro é seguramente o melhor manual prático de mineração de dados disponível. Ponto.

Apesar do escrito acima não indica que o mesmo é perfeito em todos os aspectos, o qual o autor não menciona em seus estudos de caso nenhum tipo de metodologia, mas naquilo que o livro se propõe a ser, ou seja, um manual de aprendizado de mineração de dados prático, esse objetivo é atingido em sua plenitude.

Pontos Fontes: Para quem deseja conhecer o R já de cara no Data Mining, para quem gosta de aprender com estudos de caso.

Pontos Fracos: Os scripts de implementação não estão muito bem explicados, e a falta de explicação da sintaxe deixa a desejar.

Resenha: Data Mining with R: Learning with Case Studies

Porque a Diversificação Não Funciona

Apesar desse post ser originalmente sobre as ciências das finanças, serve para mostrar a derrubada do mito da diversificação de portfólios; no qual a diversificação e a alocação dos ativos deve obedecer também a dinâmica do mercado em relação as alterações e os movimentos de alta e baixa.

Segue a conclusão dos autores do estudo:

… a “diversification breakdown” tends to occur when stable correlations are most needed for portfolio protection. Our findings, which are qualitatively consistent with earlier findings4244 but quantitatively different, could be used to anticipate changes in mean correlation of portfolios when financial markets are suffering significant losses. This would enable a more accurate assessment of the risk of losses.

 As any canoeist knows, dynamics really matter.

Para quem realiza mineração de dados direcionada a aspectos relativos a análise de portfólios, é um ótimo artigo para o entendimento de como funciona a dinâmica desses mercados.

Porque a Diversificação Não Funciona

Bibliotecas para Support Vector Machines

Como técnica de classificação o SVM tem sido bastante utilizado em casos de construção de sistemas especialistas  para indicação de ordens de stop e demais aplicações financeiras; e essas bibliotecas vem a ser um enriquecimento muito pertinente para quem deseja trabalhar com esse tipo de técnica independente da linguagem de programação. As implementações vão desde o código java, até chegar nas bibliotecas do R e do WEKA (Implementada pelo Prof. Yasser da Universidade de Iowa).

Bibliotecas para Support Vector Machines

Inteligência Artificial nos Investimentos

Um bom livro para quem deseja iniciar estudos ou mesmo quem já possuí algum tipo de experiência em Inteligência Artificial/Aprendizado de Máquina é o Inteligência Artificial nos Investimentos de Roberto Pontes.

O livro é self-publishing (o autor é o próprio editor) o qual a primeira vista pode gerar algum tipo de desconfiança pelos que julgam o livro pela editora; mas ao desenrolar do livro é fácil perceber que se trata de uma grande obra no tema.

Inteligência Artificial nos Investimentos tem uma abordagem simples; porém, fica longe das abordagens simplistas que são oferecidas em diversos cursos e tutoriais na internet; e ao longo do seu desenvolvimento apresenta abordagens híbridas; porém, sem perder em nenhum instante o foco principal do livro que é apresentar IA aplicada aos investimentos.

O livro é de leitura agradável e tem como característica marcante uma abordagem bem prática em relação ao que é apresentado pelos papers acadêmicos que acabam tornando o assunto complexo. Uma passagem que me agrada muito, é encontrada nas páginas 69/70 na qual o autor lança uma crítica pertinente sobre os papers e alguns trabalhos em aplicação de redes neurais no mercado financeiro.

Alguns pontos baixos do livro: Não sei se foi uma opção do autor, mas as figuras estão em preto em branco o que prejudica um pouco a visualização dos gráficos de comparação, e alguns erros gramaticais que em nada prejudica a leitura.

O livro é um bom manual para desenvolvimento de trabalhos nesse segmento, e o preço (por volta dos R$ 30) é justissímo; e o fato de ser self-publishing garante um trabalho de qualidade e acessível.

Recomendado para quem deseja ver literatura de qualidade com how-to de fato e em língua portuguesa, além de aplicação prática do que é proposto com escopo bem definido.

Não recomendado para quem gosta de academicismos, e não tem familiaridade com o mercado financeiro.

Para comprar: http://www.clubedeautores.com.br/book/48995–Inteligencia_Artificial_nos_Investimentos

 Site do Livro: http://www.neuroinvest.blogspot.com.br/

Inteligência Artificial nos Investimentos

Tenha certeza que suas métricas não estão matando o seu negócio

Measuring programming progress by lines of code is like measuring aircraft building progress by weight. —Bill Gates   

Com essa afirmação do Bill Bates que começa esse importante artigo sobre a construção, avaliação e implementação de métricas; mas especificamente no ambiente de Business Intelligence; mas que também serve como recado para a Mineração de Dados.

É mais do que conhecido que o excesso de métricas, ou mesmo a sua construção de forma deliberada pode conduzir a decisões sem fundamentação; que consequentemente pode acarretar em prejuízos financeiros.

Atualmente estou em uma rotina de estudos sobre a aplicação de Mineração de Dados no mercado financeiro (que deu origem a Financial Series) e a cada paper é de se reparar como há uma crescente (quase que obsessiva) busca por mais métricas; sendo que os resultados não chegam a mais do que 50% de sucesso (tem paper que apresenta resultados maiores, entretanto, não mostra metodologia; aí fica fácil).

Isso é de uma gravidade monstruosa, pois, como Data Scientist (ou minerador de dados em um contexto mais restrito) vai justificar um ganho de apenas 50% com inúmeros recursos computacionais e matemáticos além de investimentos financeiros com o desenvolvimento de uma estrutura de avaliação complexa com diversas métricas, enquanto há seres humanos como, por exemplo, o Warren Buffet que tem rendimentos de quase 70% daquilo que compra utilizando no máximo 10 métricas e lendo jornal; ou mesmo um trader que utiliza análise fundamentalista e em longo prazo tem retornos acima desse percentual? Não tem justificativa pra isso.

A avaliação de métricas, além do que o artigo propõe deve haver uma diferenciação da sua utilização na qual o seu peso é levado em consideração de acordo com o período de análise futura; ou seja, curto, médio e longo prazo; pois, a série histórica dependendo do período de análise pode influenciar negativamente a métrica, e consequentemente a decisão. Vamos utilizar o futebol como exemplo de como uma série história, dependendo do tipo de atributo para predição perde a sua influência e as vezes pode conduzir à um resultado não satisfatório a longo prazo: Até 1990, quem fosse realizar uma métrica para avaliar a probabilidade entre o Internacional (já campeão nacional em 75, e 76) e o Corinthians (que não tinha sido campeão ainda desse tipo de competição) de ser Campeão Brasileiro nos próximos 30 anos (não considerando outras variáveis) veria que o fator da série do Inter seria sempre maior do que o do time da capital; e a história mostrou que o time de São Paulo ganhou 5 títulos enquanto o time do sul não ganhou nenhum; o que mostra que o desenvolvimento de uma métrica deve ser de acordo com o período de tempo, o qual uma métrica de longo prazo não se aplica nesse caso específico (o que deveria ser uma medida de curto prazo para saber o fator de probabilidade para os times serem campeões.).

É um assunto ótimo de se discutir e vale a pena a leitura do artigo.

Tenha certeza que suas métricas não estão matando o seu negócio

Financial Series – Applications of Data Mining in Stock Market

Esse artigo escrito por Savinderjit Kaur e Veenu Mangat ambos da Panjab University na India apresenta algumas das aplicações da Mineração de Dados no mercado acionário, com diversas idéias de domínio interessantes.

Esse paper é bem feito, e tem como objetivo apresentar de forma bem introdutória aspectos nos quais a Mineração de Dados pode ser aplicada no mercado acionário, tudo isso em um texto bem simples; quase como um overview, porém, com um bom teor acadêmico de background.

Os aspectos apresentados no texto são:

  • Previsões de preços de ativos na bolsa de valores;
  • Predição de Índices no Mercado Acionário;
  • Portfólio Management;
  • Sistemas de Recomendações; e
  • Detecção de Tendências.

De uma maneira geral, o paper tem como grande trunfo aliar a simplicidade nas aplicações bem como ampliar o espectro de aplicações de Mineração de Dados no mercado financeiro. Um ponto negativo no artigo é a editoração/revisão (pontos nos lugares errados); entretanto, nada que comprometa a leitura. É um ótimo artigo para quem deseja iniciar trabalhos no domínio financeiro, e um bom ponto de partida para os iniciantes.

Applications of Data Mining in Stock Market

Financial Series – Applications of Data Mining in Stock Market

Financial Series – Prediction of Stock Market Index Movement by Ten Data Mining Techniques

Esse artigo escrito por Phichhang OuHengshan Wang ambos da University of Shanghai apresenta um estudo sobre a aplicação de dez técnicas de Mineração de Dados aplicado a predição dos índices relativos à bolsa de valores de Hong Kong.

O artigo tem como idéia principal realizar uma análise experimental e comparativa sobre dez técnicas de Mineração de Dados (Linear discriminant analysis (LDA), Quadratic discriminant analysis (QDA), K-nearest neighbor classification, Naïve Bayes based on kernel estimation, Logit model, Tree based classification, Neural Network, Bayesian Classification with Gaussian Process, Support Vector Machine (SVM) e Least Squares Support Vector Machine (LS-SVM)) na qual os pesquisadores realizam uma série de ajustes no modelo para cálculo da flutuação do índice ao longo do estudo.

Como resultado do estudo os autores chegaram à conclusão que a maioria das técnicas aplicadas tiveram um hit rate acima de 80%, o que é um ótimo sinal dado o número imenso de variáveis a serem consideradas e o grau de dificuldade de mapeamento do domínio.

Em geral o artigo é bem escrito e dá uma perspectiva muito interessante em modelagem matemática aplicada a esse tipo de domínio. O único ponto contra é que o artigo poderia ter o método de cross-validation mais bem descrito, e claro o conteúdo matemático é uma barreira para os iniciantes; mas nada que um pouco de dedicação pessoal não possa superar.

Prediction of Stock Market Index Movement by Ten Data Mining Techniques

Financial Series – Prediction of Stock Market Index Movement by Ten Data Mining Techniques

Financial Series

Este site fará a contar de hoje uma série de resenhas sobre alguns papers que tratam especificamente de aplicações práticas de Mineração de Dados  em Finanças.

Há uma muitos bons artigos que são escritos mundo a fora e que infelizmente não temos acesso aqui no Brasil; muito pela a nossa baixa qualidade editorial que prefere trabalhar sobre blockbusters literários ao invés de construir as bases do saber dentro da nossa cultura técnica; mas isso é outra história.

Quem inicia os estudos em Mineração de Dados sempre escuta a mitológica história que Beers and Diepers, entretanto um outro assunto que ronda as discussões sobre essa disciplina é como realizar previsões no mercado de ações utilizando Mineração de Dados? E os papers que serão resenhados aqui de forma muito sucinta terá o objetivo de elucidar essas questões.

O site não tem nenhuma pretensão de ser algum tipo de Readers Digest da Mineração de Dados, mas tem como único objetivo se tornar um repositório de dados e um agregador sobre esse importante campo do saber que vem se desenvolvendo muito nesses últimos anos; e mostrar o que o seu professor na faculdade não vai te ensinar, bem como a sua editora favorita não vai publicar.

Enjoy!

Financial Series