Falsa Ciência de Dados

No Analytic Bridge tem uma definição sensacional sobre o atual momento dessa disciplina:

Books, certificates and graduate degrees in data science are spreading like mushrooms after the rain.

Unfortunately, many are just a mirage: some old guys taking advantage of the new paradigm to quickly re-package some very old material (statistics, R programming) with the new label: data science.

To add to the confusion, executives, decision makers building a new team of data scientists sometimes don’t know exactly what they are looking for, ending up hiring pure tech geeks, computer scientists, or people lacking proper experience. The problem is compounded by HR who do not know better, producing job ads which always contain the same keywords: Java, Python, Map Reduce, R, NoSQL. As if a data scientist was a mix of these skills.

Falsa Ciência de Dados

Cientistas de Dados Horizontais X Cientistas de Dados Verticais

Dois conceitos bem interessantes trazidos pelo Vincent Grandville que mostram o porque que os recrutadores de TI/Análise de Dados devem ter atenção no momento de análise de candidatos:

    • Vertical data scientists have very deep knowledge in some narrow field. They might be computer scientists very familiar with computational complexity of all sorting algorithms. Or a statistician who knows everything about eigenvalues, singular value decomposition and its numerical stability, and asymptotic convergence of maximum pseudo-likelihood estimators. Or a software engineer with years of experience writing Python code (including graphic libraries) applied to API development and web crawling technology. Or a database guy with strong data modeling, data warehousing, graph databases, Hadoop and NoSQL expertise. Or a predictive modeler expert in Bayesian networks, SAS and SVM.
    • Horizontal data scientists are a blend of business analysts, statisticians, computer scientists and domain experts. They combine vision with technical knowledge. They might not be expert in eigenvalues, generalized linear models and other semi-obsolete statistical techniques, but they know about more modern, data-driven techniques applicable to unstructured, streaming, and big data, such as (for example) the very simple and applied Analyticbridge theorem to build confidence intervals. They can design robust, efficient, simple, replicable and scalable code and algorithms.
Cientistas de Dados Horizontais X Cientistas de Dados Verticais

Negócios Orientados pelos Dados e a Demanda por Cientistas de Dados

Neste post do Michael Walker ele referencia uma pesquisa da EMC na qual ele apresenta dados sobre a demanda de profissionais de meados de 2011 até o presente momento apresenta um aumento de mais de 200% devido ao fato de que alguns negócios já necessitam de analisar os próprios dados para manutenção de vantagens competitivas em relação aos concorrentes.

Note-se que o verbo utilizado foi manutenção e não obtenção, devido ao fato de que em grandes empresas fora do Brasil muito já é realizado em relação a questão de análise de dados corporativos; que vão desde o emprego de técnicas de aprendizado de máquina até sistemas de recomendação que utilizam mineração de dados.

Em terra brasilis o panorama é bom para estudantes das hard sciences e cientistas da computação devido ao fato do nosso mercado em sua grande maioria não possuírem nada além do básico em análise de dados que são respectivamente o Excel, e estatísticas descritivas básicas.

Conceitos como Modelagem Multidimensional / Datawarehousing, e o tradicional Business Intelligence são apresentados aqui no Brasil como novidades e fatores de desequilíbrio corporativo, sendo que nos EUA/Europa são conceitos mais do que ultrapassados.

Não acredita no acima? Pergunte a qualquer Diretor/Gerente/Coordenador de Business Intelligence algo básico como Market Basket Analysis e verá o quão atrasados estes estão em relação a pessoas com o mesmo cargo em outros lugares do globo.

Análise Preditiva? Isso soa quase como algo esotérico.

Para finalizar o post, fica uma frase do Abraham Lincoln para vocês futuros cientistas de dados.

“If I had eight hours to chop down a tree, I’d spend six hours sharpening my ax”. 

Negócios Orientados pelos Dados e a Demanda por Cientistas de Dados

Tipos de Questões para Exames

Uma das mais difíceis tarefas no ensino de Mineração de Dados é o tipo de abordagem de avaliação, na qual sempre entra em questão a escolha questões discursivas em detrimento de provas de múltipla escolha.

No site do Bill Gasarch são apresentadas sete formas para elaboração de questões para exames.

1) A problem that some students can get right even if they never had the course because they have seen it in some other course. EXAMPLE: In a course on Ramsey Theory have a question that uses the Prob. Method. PRO: The question is still in scope for the courses. CON: A bit awkward that someone may have learned the material elsewhere. UPSHOT: This is FINE.

2) A problem that some students can get right even if they never had the course because they are quite clever. EXAMPLE: Easy Combinatorics or Probability in a sophomore Discrete Math Course. PRO: The question is still in scope for the courses. CON: A bit awkward that someone may have missed class but still got it right. UPSHOT: This is FINE.

3) A rigged question— students saw two examples in class, two examples on the HW and now have to do one themselves. EXAMPLE: proving numbers irrational. PRO: Clearly in scope and fair. PRO: They will surely understand what you are asking for. CON: They may get it right via memory rather than understanding (they may not even know the difference.) UPSHOT: This is FINE though it requires some planning ahead of time.

4) A rigged question with a twist— students saw two examples in class, two examples on the HW and now have to do one themselves but its DIFFERENT in an important way. EXAMPLE: In class and HW do many problems like Here is the distribution, here is a random var, what is its expected value but on the exam give Here is a random var, here is what we want for the expected value, give a distribution that gives us that. PRO: Harder to memorize template. CON: May be hard to grade as they say odd things. CON: May be confusing to know what you are asking for, even for good students. UPSHOT: This is FINE though it requires some planning ahead of time.

5) A problem that requires utter mastery of the material but no creative thought. EXAMPLE: Give the algorithm (that we did in class) for proving that a CFG’s are in P. Write it up so that someone who had never seen it can understand it. PRO: Straightforward yet hard to get via memorization. CON: Might be too time consuming for an exam. CON: (From experience) no matter how much you say in bold letters things like Write it up so that someone who had never seen it can understand it. They will skip steps and write it up badly and its hard to tell if THEY really know it. UPSHOT: I do this but only in certain cases.

6) A problem that requires them to be creative (this is ill defined but its the opposite of the one above). PRO: If they truly understand the material they can do this. CON: My PRO may be incorrect. UPSHOT: Absolutely fine for HW which are not worth much for the grade anyway and I can enlighten them. I tend to avoid these on exams. Though the line between creativity and standard is a thin one. (Problem for an exam: How thin in millimeters?)

7) A giveaway question. When I teach Formal Lang Theory I have (going back to when I was Harry Lewis’s TA in 1981) have on the exam Give an example of a string of length 4 over the alphabet {a,b}. An unintended consequence- if they CAN”T do this its a really bad sign. I have asked this question many times and I have literally NEVER seen someone get it wrong and pass the course. I have gotten the following answers: ab*, ababa, and a DFA recognizing aaaa (that I was tempted to give credit to but did not). Incidentally, the most common right answer has always been abab. Second is abba. PRO: I have this one early in the exam to calm them down.

Tipos de Questões para Exames

Scaled Agile Framework

Para quem conhece as metodologias Ágeis, este framework dá uma boa idéia do que vem sendo feito para unir essas ótimas práticas com Datawarehousing.

Muito do que é feito hoje em DW/BI é desenvolvido dentro do framework do Ralph Kimball e do Bill Innon. Entretanto, essa abordagem permite que times muito reduzidos possam literalmente entregar grandes DW.

 

DW

Scaled Agile Framework

A Morte dos Estatísticos

Neste post do Vincent Grandville, ele apresenta alguns dados do Google Trends no qual ele induz que o cientista de dados está em alta e os estatísticos estão em baixa de acordo com o número de anúncios de oportunidades de emprego.

A discussão rende boas horas de filosofia, debates acalorados que vão desde estruturas de reserva de mercado para A ou B categorias profissionais até mesmo a defesa de caixas-pretas que são alguns algoritmos/técnicas de mineração de dados e aprendizado de máquina.

No entanto, o ponto principal é que essa dicotomia existe de forma virtual, já que da mesma forma que um estatístico não é um especialista em linguagens de programação para análise de dados, um cientista da computação não tem instrumental analítico/matemático para desempenhar alguns tipos de análises.

Vale a pena verificar os comentários.

 

A Morte dos Estatísticos

Data Mining aplicado ao Ensino e Educação

Esse documento criado pelo Departamento de Educação do Governo dos Estados Unidos que pode nortear educadores para a elaboração de programas de ensino, e até mesmo avaliação de professores e alunos. Esse manual oferece algumas dicas de abordagens em mineração de dados no domínio educacional, e mostra que uma abordagem mais analítica pode auxiliar no aumento do desempenho dos docentes bem como dos alunos.

Download: edm-la-brief

Data Mining aplicado ao Ensino e Educação

Palantir e a simbiose entre Governo e Empresas

Esse artigo do Andy Greenberg o autor faz um panorama muito útil sobre a história da Palantir e a simbiose  governo americano em relação aos casos de vazamento de informações sobre o maior programa de Data Gathering em curso da história da humanidade.

Palantir e a simbiose entre Governo e Empresas