Modelagem de Resultado

Neste post do Paul Mineiro (um dos mais reflexivos autores da blogosfera de Analytics) ele coloca em questão os custos e benefícios do trabalho de pesquisa e como o pesquisador profissional deve deixar o seu empregador informado sobre especialmente desses benefícios.

Esse trecho abaixo diz muito sobre o fato de que nós pesquisadores e entusiastas da análise de dados, e principalmente Data Mining não somos tão bons em divulgar os nossos resultados:

Recent events have me thinking again about the viability of privately funded basic research. In my opinion, the history of Xerox PARC is deeply troubling. What?! At it’s peak the output of Xerox PARC was breathtaking, and many advances in computation that became widespread during my youth can be traced to Xerox PARC. Unfortunately, Xerox did not benefit from some of the most world-changing innovations of their R&D department. Now a generation of MBAs are told about the Cisco model, where instead of having your own research department, you wait for other firms to innovate and then buy them.

… it continues to buy small, innovative firms rather than develop new technology from scratch …

To be clear my employer, Microsoft, still shows a strong commitment to basic research. Furthermore, recent research layoffs at Microsoft were not related to research quality, or to the impact of that research on Microsoft products. This post is not about Microsoft, it is about the inexorable power of incentives and economics.

Quite simply, it is irrational to expect any institution to fund an activity unless that organization can realize sufficient benefit to cover the costs. That calculation is ultimately made by people, and if those people only hear stories about how basic research generates benefits to other firms (or even, competitors!), appetite will diminish. In other words, benefits must not only be real, they must be recognizable to decision makers. This is, of course, a deep challenge, because the benefits of research are often not recognizable to the researchers who perform it. Researchers are compelled to research by their nature, like those who feel the need to scale Mount Everest. It so happens that a byproduct of their research obsession is the advancement of humanity.

A discussão poderia ir para o caminho de questões orçamentárias e tudo mais; mas o cerne da questão é que devido a esse péssimo marketing pessoal (sic.) que faz parte de todo o jogo (teatro) corporativo reflete em que técnicas e competências extremamente ultrapassadas estejam reinando; mais especificamente as ferramentas de Business Intelligence e seus analistas que promovem mais entropia nas organizações com a avalanche de relatórios sobre o… passado.

A mineração de dados e a modelagem preditiva como um todo entram em uma arena de complexidade e análise diferente do exemplo citado acima; na qual ao invés de realizar diversas análises conjecturais que muitas das vezes desconsideram os dados e estão literalmente ancoradas e vieses cognitivos (ou cacoetes corporativos para a manutenção do status quo) elas são pautadas em tecnologias que vão segmentam, classificam e recomendam usando informações de bases de dados em problemas tipicamente não lineares no qual um analista humano teria extrema dificuldade de agir.

Uma das soluções para que a Mineração de Dados seja vista como uma alternativa real, face a esta crescente entropia no ambiente de negócios transvestida de ‘Inteligência’ (e principalmente dando dinheiro a charlatães, mas isso será assunto de outro post) as análises devem ter ligação direta com os resultados, sejam financeiros ou mesmo de outra natureza.

O melhor programa de marketing sempre foi, e sempre será a entrega de resultados e superação de metas. Ponto.

Sendo assim quais são as formas de se realizar isso com a mineração de dados? Algumas sugestões aleatórias seriam (i) a utilização de Uplift Modeling para comparar  o a) Status Quo, b) outras análises que estão sendo performadas sem a Mineração de Dados,  c) usando a Mineração de Dados e o posterior contraste dos métodos mostrando tempo empregado, custos e receita líquida final; (ii) estruturação de uma metodologia para a aplicação da Mineração dado que este é o ponto mais sensível quando vai se explicar esse tipo de trabalho para audiência não-técnica; e (iii) ter em mente a seguinte equação “Realidade = Modelo – Erro”; em outras palavras, isso significa que você sempre estará olhando o intangível, isto é, informações que estão aquém da modelagem de dados; e por último (iv) estruture uma apresentação efetiva desses resultados, um ótimo recurso é o livro Real Leaders Don’t Do Power Point que mostra que até o analista mais técnico pode realizar uma apresentação excelente.

Modelagem de Resultado

Negócios Orientados pelos Dados e a Demanda por Cientistas de Dados

Neste post do Michael Walker ele referencia uma pesquisa da EMC na qual ele apresenta dados sobre a demanda de profissionais de meados de 2011 até o presente momento apresenta um aumento de mais de 200% devido ao fato de que alguns negócios já necessitam de analisar os próprios dados para manutenção de vantagens competitivas em relação aos concorrentes.

Note-se que o verbo utilizado foi manutenção e não obtenção, devido ao fato de que em grandes empresas fora do Brasil muito já é realizado em relação a questão de análise de dados corporativos; que vão desde o emprego de técnicas de aprendizado de máquina até sistemas de recomendação que utilizam mineração de dados.

Em terra brasilis o panorama é bom para estudantes das hard sciences e cientistas da computação devido ao fato do nosso mercado em sua grande maioria não possuírem nada além do básico em análise de dados que são respectivamente o Excel, e estatísticas descritivas básicas.

Conceitos como Modelagem Multidimensional / Datawarehousing, e o tradicional Business Intelligence são apresentados aqui no Brasil como novidades e fatores de desequilíbrio corporativo, sendo que nos EUA/Europa são conceitos mais do que ultrapassados.

Não acredita no acima? Pergunte a qualquer Diretor/Gerente/Coordenador de Business Intelligence algo básico como Market Basket Analysis e verá o quão atrasados estes estão em relação a pessoas com o mesmo cargo em outros lugares do globo.

Análise Preditiva? Isso soa quase como algo esotérico.

Para finalizar o post, fica uma frase do Abraham Lincoln para vocês futuros cientistas de dados.

“If I had eight hours to chop down a tree, I’d spend six hours sharpening my ax”. 

Negócios Orientados pelos Dados e a Demanda por Cientistas de Dados

Estatística x Data Science x Business Intelligence

Neste post do David Smith no R Bloggers ele apresenta um paralelo bem interessante sobre essas três disciplinas. Isso mostra que cada vez mais analistas de dados serão necessários para compreensão do ambiente de negócios com uma complexidade em franco crescimento.

Estatística x Data Science x Business Intelligence

Você deveria terceirizar o setor de análises e inteligência?

A posição mais contundente sem dúvidas é a afirmação abaixo:

“Whenever you outsource to a partner something that involves deep intelligence about the business, you’re putting part of your brain outside your body”

Você deveria terceirizar o setor de análises e inteligência?

New Journal – International Journal of Business Analytics and Intelligence

O lançamento do International Journal of Business Analytics and Intelligence vem a trazer para os analistas de dados, mais uma revista científica para os analistas de dados. Dentro da proposta da revista, o foco será indexar trabalhos relativos a análise de dados, Business Intelligence e ao que tudo indica pode ser um ótimo repositório de dados relativo à Mineração de Dados. Segue abaixo a apresentação da revista:

Journal includes key research areas (Not limited to) such as big data processing and analytics, business intelligence, visual analytics, descriptive analytics, predictive analytics, business analytics and optimization, actuarial modeling, social network analytics, data mining tools, web analytics, text analytics, marketing research, modeling, workforce analytics, business intelligence, data management, decision management, BI architecture, retail analytics, graph entropy, decision trees, analytics applications.

 

New Journal – International Journal of Business Analytics and Intelligence

Big Data, Grande Sobrecarga

Um pequeno relato do Big Data do dia a dia, por Stephen Few no qual ele descreve a experiência dele no museu do Louvre; e porque o conceito de big data serve muito mais para vendedores de ferramentas de BI do que para analistas sérios.

[…]We are surrounded by data. In our present day of so-called Big Data, there is more and more of it every day. Anyone who has ever actually worked with data in an effort to make better decisions knows that most of the data that surrounds us is noise. It’s useless. We seek the signals that reside here and there in the midst of the noise. While I stood there in the Louvre this morning, every piece of art was a masterpiece in its own right—every piece a signal—but to me they were all noise because there was too much for my senses to take in or my brain to fathom. Yes, even signals become noise when we’re overwhelmed. I tried desperately to fix my attention on a single piece, but over and over again I failed. I couldn’t shut out the other voices constantly invading my senses yelling “Look at me!”  Yes, I saw the Mona Lisa with her enigmatic smile from behind the barrier while being jostled by the photo-taking crowd, but I couldn’t connect with her or the genius of da Vinci, whose work I so admire[…]

Big Data, Grande Sobrecarga

Mineração de Dados no mapeamento de casos jurídicos

O artigo de Tam Harbert faz uma perspectiva com o conceito de BigData com a predição de casos jurídicos de acordo com as decisões, e com esse mapeamento são desenvolvidos algoritmos para predizer qual será o resultado de uma determinada ação. Juntamente com a Jurimetria e com BI pode ser um ótimo domínio para estudos e aplicação efetiva de Mineração de Dados.

Mineração de Dados no mapeamento de casos jurídicos

O Pós-Venda de uma Ferramenta e o impacto no projeto de Mineração de Dados/BI

Em uma conversa informal durante um almoço, conversei com um consultor de Business Intelligence a respeito da importância do Pós-Venda e acompanhamento do provedor da ferramenta dos projetos de implantação.

Durante esse último ano tive a oportunidade de acompanhar a implantação de alguns projetos de ERP, e Business Intelligence e tenho algumas impressões sobre essa questão de ferramenta.

Na maioria das vezes  em que vejo questões comerciais sendo discutidas, muitos managers discutem todas as possibilidades possíveis em um projeto: Escopo, preço, características da ferramenta, diferenciais em relação a ferramentas de mercado; porém, duas questões que são de uma importância altíssima (Leia-se Risk Management) não são discutidas: Acompanhamento do provedor da ferramenta ao projeto de implementação/suporte; e curva de aprendizado da ferramenta.

Vou dar um pequeno testemunho a respeito da SAP a respeito disso e acho que pode servir de exemplo para as outras distribuidoras de software; ou mesmo pode ajudar na hora de colocar questões contratuais/comerciais junto ao distribuidor/vendedor de software no momento da negociação.

Como funciona:

A SAP no momento do licenciamento de uma permissão e uso de software estabelece dois contratos um com o vendedor (Parceiro responsável pela venda) e um com o cliente que fez a aquisição do licenciamento para trabalhar com o ERP.

No momento desse contrato, para as questões relacionadas à área técnica e suporte (implantação, treinamento, dúvidas, solicitação de atualizações, etc) o cliente é obrigado por força contratual buscar ao parceiro; e este último é responsável pelo atendimento desse cliente.

Se o atendimento não é satisfatório, o cliente aciona primeiro o parceiro solicitando auxílio para algum tipo de questão (erro de implantação, treinamento, questões relacionadas a problemas de suporte, entre outros) e se não for atendido tem o canal para informar diretamente à SAP que entra de forma arbitral para resolução desses conflitos as vezes com advertências aos parceiros com o encaminhamento do cliente a outra consultoria e até descredenciamento do parceiro. Simples assim. Em um momento no passado havia até informações que a SAP realizava o registro do tempo em que o projeto levou para ser concluído e de acordo com o tempo de implantação verificava junto ao Parceiro o motivo do atraso no projeto, e quais variáveis que influenciaram esse atraso para acompanhamento.

Na prática, o que eu tenho visto em conversas com alguns contatos e até mesmo experiências pessoais é que os vendedores de software querem oferecer uma solução totalmente black-box no qual o provedor da ferramenta está pouco se importando com o seu projeto, ou mesmo com a sua necessidade e a curva de aprendizado; há somente o interesse em ‘bater o martelo’ e fechar a negociação no aspecto financeiro.

Dentro disso que foi dito, vale a pena antes de fechar qualquer tipo de contrato questionar o provedor da ferramenta de Mineração de Dados/BI nos seguintes aspectos: Qual é o seu serviço de pós-venda e quais vantagens eu vou ter em relação ao atendimento? Qual é o tipo de suporte que a ferramenta possuí e quais os níveis de chamado e a escalabilidade? Quais algoritmos que essa ferramenta de mineração suporta? Há condições de implementar um algoritmo novo? Quais são os centros de treinamento disponíveis da ferramenta e quais são os treinamentos específicos para os tipos de análises que desejamos? Qual é a forma na qual eu posso implementar inferências estatísticas diversas nessa ferramenta, e quais os níveis de complexidades envolvidos nesse processo de implementação?

São perguntas básicas, que faz toda a diferença na questão de um projeto de mineração, pois podem influir de maneira amplamente negativa no desenvolvimento dos trabalhos de implementação e atraso nos cronogramas como um todo; é aquela velha máxima na qual se tem uma Ferrari para andar a 40 Km/h na cidade de São Paulo, e na maioria do trajeto em ruas de terra.

O Pós-Venda de uma Ferramenta e o impacto no projeto de Mineração de Dados/BI

Tenha certeza que suas métricas não estão matando o seu negócio

Measuring programming progress by lines of code is like measuring aircraft building progress by weight. —Bill Gates   

Com essa afirmação do Bill Bates que começa esse importante artigo sobre a construção, avaliação e implementação de métricas; mas especificamente no ambiente de Business Intelligence; mas que também serve como recado para a Mineração de Dados.

É mais do que conhecido que o excesso de métricas, ou mesmo a sua construção de forma deliberada pode conduzir a decisões sem fundamentação; que consequentemente pode acarretar em prejuízos financeiros.

Atualmente estou em uma rotina de estudos sobre a aplicação de Mineração de Dados no mercado financeiro (que deu origem a Financial Series) e a cada paper é de se reparar como há uma crescente (quase que obsessiva) busca por mais métricas; sendo que os resultados não chegam a mais do que 50% de sucesso (tem paper que apresenta resultados maiores, entretanto, não mostra metodologia; aí fica fácil).

Isso é de uma gravidade monstruosa, pois, como Data Scientist (ou minerador de dados em um contexto mais restrito) vai justificar um ganho de apenas 50% com inúmeros recursos computacionais e matemáticos além de investimentos financeiros com o desenvolvimento de uma estrutura de avaliação complexa com diversas métricas, enquanto há seres humanos como, por exemplo, o Warren Buffet que tem rendimentos de quase 70% daquilo que compra utilizando no máximo 10 métricas e lendo jornal; ou mesmo um trader que utiliza análise fundamentalista e em longo prazo tem retornos acima desse percentual? Não tem justificativa pra isso.

A avaliação de métricas, além do que o artigo propõe deve haver uma diferenciação da sua utilização na qual o seu peso é levado em consideração de acordo com o período de análise futura; ou seja, curto, médio e longo prazo; pois, a série histórica dependendo do período de análise pode influenciar negativamente a métrica, e consequentemente a decisão. Vamos utilizar o futebol como exemplo de como uma série história, dependendo do tipo de atributo para predição perde a sua influência e as vezes pode conduzir à um resultado não satisfatório a longo prazo: Até 1990, quem fosse realizar uma métrica para avaliar a probabilidade entre o Internacional (já campeão nacional em 75, e 76) e o Corinthians (que não tinha sido campeão ainda desse tipo de competição) de ser Campeão Brasileiro nos próximos 30 anos (não considerando outras variáveis) veria que o fator da série do Inter seria sempre maior do que o do time da capital; e a história mostrou que o time de São Paulo ganhou 5 títulos enquanto o time do sul não ganhou nenhum; o que mostra que o desenvolvimento de uma métrica deve ser de acordo com o período de tempo, o qual uma métrica de longo prazo não se aplica nesse caso específico (o que deveria ser uma medida de curto prazo para saber o fator de probabilidade para os times serem campeões.).

É um assunto ótimo de se discutir e vale a pena a leitura do artigo.

Tenha certeza que suas métricas não estão matando o seu negócio

Investing in Analytics in difficult times

Esse artigo tem um ótimo foco em relação ao investimento em tempos de crise e orçamentos apertados. É mais do que comum em qualquer empresa, em um momento de crise faça cortes em diversos departamentos, e não raramente vemos setores de análises sofrendo reduções e até eliminação total. É mais do que necessário saber que em tempos de crise o mais importante não é fazer; mas sim saber o que tem que ser feito para sair da situação, e somente com um time de análise essa situação pode ser revertida.

Expertise: Advanced (e.g. Predictive) Analytics is a very specific domain requiring very specific skills. Experts have usually grown into their role by combining advanced and detailed training with professional experience on real-life projects. Today, both service suppliers and vendors focus highly on R&D activities and the creation of relevant new business applications.

Focus: While some organizations are purely focused on Advanced Analytics, other companies may offer Analytics as a part of their broader services offering. For some situations, a niche player will prove most valuable, while in other situations the broader range of services might prove most useful. Choose carefully.

Partnership potential: Engaging in longer term analytical partnerships usually requires a more intense form of commitment. It may make sense for all parties to work transparently and to share more strategic insights in return for agreements of confidentiality, knowledge transfer and perhaps even exclusivity.

Budget: Obviously, the budget may play an important role. However, to allow comparisons, it may make sense to take into account daily rates, speed (time to execute standard projects), and expertise when comparing budgets.

Investing in Analytics in difficult times

Visualização de Dados, e o efeito Placebo

Nos dias atuais há uma preocupação latente de todas as empresas em ter o diferencial competitivo (tá eu sei que isso é papo chato de livrinho de administração de faculdade, mas o clichê nesse caso é válido devido a exemplificação do ponto de vista) e sem sombra de dúvidas os dados da empresa são esse diferencial (Alguns falam que é o Marketing, mas é engraçado como o mesmo como instrumento de ampliação de vendas tem que se basear nos… Dados).

Dentro desse contexto, os vendedores de ferramentas de Business Intelligence fazem o possível em termos de marketing para disponibilizar mais ferramentas para simplificar as análises dos gestores, e CEOs ao longo de diversas companhias. Nada de errado nisso; entretanto, o mundo de gráficos, termômetros, Dashboards não só estão estancando a capacidade de análise dos gestores, como tem colocado em posições de decisão pessoas despreparadas para analisar esses dados devido à essa simplicidade que os Dahboards oferecem, pois esses mesmos dashboards não te dão a noção das métricas e de toda a complexidade que está reduzida naquele ícone.

Um bom site com esse tipo de discussão é do Stephen Few, vale a pena conferir.

Visualização de Dados, e o efeito Placebo