A maioria das analises estatísticas não é realizada por estatísticos

Neste post do Jeff Leek ele aborda de maneira bem lúcida a crescente tendência de que a maioria das análises estatísticas são realizadas por pessoas que sabem somente o ‘instrumental’ em estatística.

Na blogosfera de estatística, física e matemática o tema trás muita discussão com opiniões divididas em pessoas que acham que essas pessoas não são capazes de realizar tais análises e outros que vem esse uso instrumental da estatística como a vitória dos métodos quantitativos.

Uma visão estreita tem sido compartilhada por diversas pessoas oriundas destas disciplinas na qual estes defendem que somente pessoas com formação acadêmica em métodos quantitativos são capazes de realizar análises devido ao fato que a formação é baseada na execução de tarefas desta natureza. Um erro lógico proveniente de pessoas que não poderiam abrir mão da lógica por definição acadêmica, quase beirando o rent-seeking. Mais do que um erro um estatístico que acha que deve trabalhar com análise descritiva (que é o que ocorre em 95% do tempo) é algo como um engenheiro desejar trabalhar como ajudante de alvenaria.

Uma visão bem mais positiva e correta é colocada por Leek:

What does this mean for statistics as a discipline? Well it is great news in that we have a lot more people to train. It also really drives home the importance of statistical literacy. But it also means we need to adapt our thinking about what it means to teach and perform statistics. We need to focus increasingly on interpretation and critique and away from formulas and memorization (think English composition versus grammar). We also need to realize that the most impactful statistical methods will not be used by statisticians, which means we need more fool proofing, more time automating, and more time creating software. The potential payout is huge for realizing that the tide has turned and most people who analyze data aren’t statisticians.

Os métodos quantitativos venceram e com mais pessoas performando estas análises todo o ambiente de negócios melhora como um todo.

A maioria das analises estatísticas não é realizada por estatísticos

Economistas como Cientistas de Dados

Neste post do Econometric Sense, há uma importante reflexão sobre o papel dos economistas como cientistas de dados, e como as habilidades de domínio econômico, juntamente com background matemático possibilita que os mesmos exerçam esse tipo de atividade.

Esse tipo de post coloca mais uma vez em perspectiva toda a área de análise de dados, no qual a mesma está convergindo para papéis importantes dentro das organizações, onde o banco de dados como na visão dos DBAs (um grande repositório) está virando uma commodity, na qual quem não se qualificar e ter o entendimento dos dados será tratado pelo mercado como commodity e será remunerado como tal. Mas isso é um tema para um outro post.

Esse artigo do Silvio Meira, é um clássico para TODOS da área de Computação e afins.

Economistas como Cientistas de Dados

Mean-Shift

Esse post do Normal Deviate apresenta de uma maneira bem técnica o algoritmo que faz a distribuição da Mean-Shift (algo como mudança de média em tradução literal).

A Mean-Shift é uma técnica de Clustering (agrupamento) na qual tem como objetivo inferir a média dos clusters de acordo com uma função de densidade, na qual em uma janela de interesse (range de dados que compreende o círculo) de faz o cálculo da área em que há mais densidade, e nesse ponto será determinado o ponto central da Mean-Shift e o círculo de interesse se move até esse novo ponto central. Esse processo é realizado de forma sucessiva e só termina quando a Mean-Shift é igual a inferência anterior.

Como bem ressaltado no post, são basicamente 3 passos: (1) estimar a densidade, (2) encontrar a moda da densidade, e (3) associar cada ponto a uma moda.

Esse tipo de função de densidade é mais utilizada em processamento de imagens; mas também pode ser muito útil na análise visual de clusters em qualquer número de dimensões, na qual podem ser feitas análises para 1) detecção de anomalias (outliers), 2) identificação de padrões de outliers, e 3) através de um determinado range (janela de interesse) segmentar e concentrar as análises no ponto de maior densidade  e dentro desse espectro (Mean-Shift e Janela de Interesse) realizar segmentações e ações específicas de acordo com esses dados.

Esse tipo de estudo com Mean-Shift na análise de clusters em mineração de dados, auxilia a determinar espectros de analises em grupos com melhores segmentações e similaridades e com o ‘corte‘ determinado pela janela de interesse.

Um ponto negativo nessa abordagem, é que nem precisa olhar muito para ver que o custo computacional é alto (3 divisões aninhadas e um sigma ali no meio cheira algo de O(g(n))) e se pensarmos em uma análise de cluster trivial (que contenha 100K de registros, essa abordagem pode se tornar inviável.

Uma ótima referência é esse post da pesquisadora Gabriela Bauermann.

Esse vídeo do canal da Gabriela explica de forma visual como é feito o processo do algoritmo Mean-Shift.

PS: Seguem dois códigos para o Main-Shift, um é para Python e outro para Matlab.

Mean-Shift

Taxi!

Essa coluna de Joe Malkevitch (York College (CUNY)) foi publicado na American Mathematical Society e aborda um tema bastante relevante em mineração de dados que é a geometria da medida de distância Taxicab (Manhattan). A coluna coloca em aspectos práticos a definição e aplicação dessa medida de distância apresentando exemplos de como funciona e as suas aplicações. O mais interessante sobre tudo, é que o entendimento dessa parte da matemática abre um grande leque de possibilidades em relação ao sair do lugar comum (leia-se, Distância Euclideana) no desenvolvimento de uma análise de agrupamento; ou mesmo em um projeto de mineração de dados no qual não  todos os dados não são discretizados, ou esses dados sofram uma variação de range muito alta devido a inúmeros outliers.

Feature Column from the AMS

Taxi!

Entrevista com o Autor de Nerds on Wall Street

Essa é uma entrevista de 2009 de com David Leinweber, autor de “Nerds on Wall Street; que é um livro que aponta alguns contrastes sobre a atividade de comercialização de ativos em Wall Street e a entrada cada vez maior de estatísticos, matemáticos, e cientistas da computação na atividade de Trading (compra e venda de ativos). O Autor na entrevista faz um paralelo com uma de suas passagens do livro no qual através das correlações matemáticas ele encontrou um padrão interessante que o índice da S&P 500 estaria diretamente vinculado à alguns índices de produção de manteiga em… Bangladesh. Essa crítica que o autor faz, em um primeiro momento pode parecer estúpida e descabida, e quando algum Data Miner  (esse que vos fala foi um deles) faz a leitura da crítica que o livro apresenta, logo pensa: “Que diabos ele está falando?”; mas ao longo do livro muito do que é proposto é extremamente válido e leva a uma reflexão sobre a máxima “Torturar os dados até que eles falem”. É uma boa pedida e o livro é recomendadissímo.

http://online.wsj.com/video/an-interview-with-nerds-on-wall-street-author/5062DA68-FCF6-42AC-AC62-AE6046BA40AC.html

http://s.wsj.net/media/swf/VideoPlayerMain.swf

Entrevista com o Autor de Nerds on Wall Street

OpenClassRoom – Machine Learning

Para quem deseja aprender um pouco mais sobre aprendizado de máquina, esse site é um excelente repositório de dados sobre o assunto, e o melhor que é grátis. O site é mantido pelo pesquisador Andrew Ng (Stanford), e tem como foco passar desde aspectos básicos da matemática como algebra linear, até representações mais avançadas como aprendizado utilizando Naive Bayes.

OpenClassRoom – Machine Learning