Estatística x Data Science x Business Intelligence

Neste post do David Smith no R Bloggers ele apresenta um paralelo bem interessante sobre essas três disciplinas. Isso mostra que cada vez mais analistas de dados serão necessários para compreensão do ambiente de negócios com uma complexidade em franco crescimento.

Estatística x Data Science x Business Intelligence

Quandl – O maior repositório de datasets da internet

Esta semana recebi um grato e-mail do Chris Stevens sobre o Quandl e tive uma grata surpresa em visitar o site.

O Quandl é um repositório de datasets, o qual possuí mais de 5 milhões (isto mesmo) de bases que vão de domínios desde economia, passando por aspectos sociais, e chegando até o Mercado financeiro.

Vale a pena conferir.

Quandl – O maior repositório de datasets da internet

As 500 milhas de Indianápolis e a Análise de Dados

Neste post do Doug Laney ele mostra como as equipes de corrida participantes da Formula Indy utilizam a análise de dados para ajustes nos carros, bem como realizar predições relativas ao compostamento do carro com níveis de acurácia de 90%.

Realizando um paralelo com o ambiente de negócios cada vez mais competitivo (como na Indy), analisando a telemetria do negócio (KPIs, etc) o autor coloca algumas questões que reproduzo abaixo:

  1. Are you sufficiently monitoring key business processes, systems and personnel using available sensors and instrumentation?
  2. Are your data streams collected frequently enough for real-time process adjustments (i.e. complex event processing)?
  3. Do your business processes support real-time or near real-time inputs to adjust their operation or performance?
  4. Can you anticipate business process or system failures before they occur, or are you doing too much reactive maintenance?
  5. Do you centrally collect data about business function performance?
  6. Do you make use of advances in high-performance analytics such as in-memory databases, NoSQL databases, data warehouse appliances, etc.?
  7. Do you gather important external data (e.g. weather, economic) to supplement and integrate with your own data?
  8. Do you synchronize, align and integrate data that comes from different streams?
  9. Do you make your data available to key business partners, suppliers and customers to help them provide better products and services to you?
  10. Do you have a common, sophisticated analytics platform that includes the ability to establish new analytic functions, alerts, triggers, visualizations?
  11. Can you run simulations on business systems while they’re operating and also between events to adjust strategies?
  12. Does your architecture support multiple users around the world seeing real-time business performance simultaneously?
  13. Do you have teams of business experts, product/service experts and data scientists collaborating on making sense of the data?
  14. Do you modify your products or services as frequently as you could or should based on available data?
  15. Do you also use data you collect to develop new products or services as frequently as you could or should?

E uma motivação a mais para este tipo de raciocínio que emula a realidade das pistas é colocada pelo próprio Laney:

Racing teams are able to invest in advanced analytics because millions of dollars and euros are on the line from hundreds of sponsors.  Hopefully your own big data project sponsors appreciate that big money is on the line for your business as well. Winning the race in your industry now probably depends on it.

 

As 500 milhas de Indianápolis e a Análise de Dados

2014 será o ano do fim do SAS e do SPSS? Não exatamente!

Foi publicado no excelente blog r4stats um post sobre uma previsão do fim da utilização do SAS e do SPSS em meados de 2014, no qual o autor chega a essa conclusão através de uma análise de tendências na qual o estudo verificou que estas suítes vêm sofrendo declínio de utilização; e também ressalta com o crescimento da utilização do R como ferramenta estatística.

O ponto que o blog defende a sua previsão é que o R mesmo com os problemas aparentes de usabilidade (ausência de uma GUI, ou mesmo “validade” no mundo corporativo como uma ferramenta confiável) irá se tornar uma ferramenta que irá dominar o mercado.

Em mineração de dados, um dos conceitos fundamentais para qualquer projeto dessa natureza é que não adianta ser o famoso “samba de uma nota só“. O ponto principal é que a melhor ferramenta é aquela que resolve melhor o problema a ser estudado. Ponto.

Tanto o R quanto o SAS, e o SPSS tem o seu publico, e para quem estudou Economia da Informação, sabe de dois conceitos bem básicos que são o Vendor Locking e Base Instalada. A tendência geral é que de modo que a análise de dados aparece como uma peça de fator determinante em uma empresa, os analistas terão que ser mais “híbridos” (desculpem pela palavra-gatilho) e ter que aprender a trabalhar com o maior número possível de ferramentas dentro dos mais distintos cenários.

Ser fanboy de uma determinada ferramenta não somente limita o profissional de mineração de dados, mas também torna o analista totalmente dependente dessa tecnologia; e pior: isso leva pessoas inteligentes a adotarem posturas as quais não conseguem ver os principais defeitos do produto que estão utilizando. Pense pela segunte perspectiva: se o SAS e o SPSS são caros e são “engessados” como alguns alegam, o que dizer do R que por exemplo tem uma extrema dificuldade em conectar em bancos de dados relacionais, ou mesmo não “aguenta” um arquivo .txt com mais de 700 registros?

Com a evolução de segmentos da análise de dados, é natural que novas soluções venham a público e isso é ótimo, já que o analista de dados pode usar essa complexidade do ambiente como barganha seja em termos de tempo de projeto (curva de aprendizado e implementação) mas também como compensação salarial (já que terá um arsenal de armas muito maior que a média do merdado).

 

2014 será o ano do fim do SAS e do SPSS? Não exatamente!

Tendências de Gripe com o Google Flutrends

Uma iniciativa relativa à análise de dados relativos à tendência da gripe é realizada pela Google. O Google Flutrends permite realizar um acompanhamento da gripe ao longo do ano em diversos países. Isso é feito através de agregação dos dados em redes sociais e dados do mecanismo de busca.

Tendências de Gripe com o Google Flutrends

Trading com Máquinas de Vetor de Suporte – (Support Vector Machines)

Neste paper de Rosillo, Giner, De la fuente e Pino é realizado um estudo experimental da aplicação de SVM para um sistema de trading. Em linhas gerais o sistema teve um comportamento satisfatório em períodos de retração do mercado. Vale a pena a leitura para quem quiser realizar adaptações em relação à metodologia aplicada.

Trading System Based on Support Vector Machines in the SP500

Trading com Máquinas de Vetor de Suporte – (Support Vector Machines)

Extração de Conhecimento com Mineração de Dados

Esse artigo provavelmente é um dos primeiros que trata o assunto dentro da perspectiva de negócios e é assinado pela Universidade da Pensylvania- Wharton. O mais especial neste artigo de 1999 é o trecho abaixo na qual Pfizer através da análise de dados descobriu que por ventura o Viagra estava sendo utilizado por homens para outros propósitos.

Pharmaceutical companies often use data mining for both clinical and marketing operations. Stine explains that big drug firms often sort through massive databases of compounds to screen out the most potentially successful ones, a task that is nearly impossible to perform manually. Sometimes, success arrives serendipitously. Pfizer, for example, did not intend to develop Viagra as a treatment for impotence. The drug’s original purpose was to relieve angina pain, but data analysis revealed that men who used it experienced sexual arousal, which eventually led to its development as a treatment for impotence.

Extração de Conhecimento com Mineração de Dados

7 segredos da Visualização

Este post de Nate Agrin e Nick Rabinowitz realizam uma ótima lista a respeito dos segredos da visualização, no qual eles colocam uma visão bastante útil em relação à projetos dessa natureza.

Hoje com a facilidade do uso das ferramentas de visualização, muito do que se entendia como análise de dados está se resumindo a análise iconográfica, na qual aspectos como estacionariedade, análise de tendências/anomalias está virando mais um exercício lúdico do que ferramentas de suporte para executivos e tomadores de decisão.

Segue a lista destacada no post:

  1. Real data is ugly
  2. A bar chart is usually better
  3. There’s no substitute for real data
  4. The devil is in the details
  5. Animate only when appropriate
  6. Visualisation is not analysis
  7. Data visualisation takes more than code  

 

 

 

 

 

7 segredos da Visualização

Big Data nos Games

Rajat Taneja (executivo da Eletronic Arts) apresentou na Strata Conference uma palestra chamada Video Games: The Biggest Big Data Challenge que abordou a questão da utilização dos dados provenientes das comunidades online para posterior análise. Pelo apresentado na palestra a quantidade de pessoas jogando video games passou de 200 milhões para 1.5 bilhões de jogadores, o que apresenta uma ótima oportunidade de negócio.

Big Data nos Games