Manipulando 80 milhões de reviews de produtos na Amazon usando Apache Spark

item_histogram

Diretamente do blog do Max Woolf.

Digital Music/CD products receive the highest reviews on average, while Video Games and Cell Phones receive the lowest reviews on average, with a 0.77 rating range between them. This does make some intuitive sense; Digital Music and CDs are types of products where you know exactly what you are getting with no chance of a random product defect, while Cell Phones and Accessories can have variable quality from shady third-party sellers (Video Games in particular are also prone to irrational review bombing over minor grievances).

Manipulando 80 milhões de reviews de produtos na Amazon usando Apache Spark

Análise Exploratoria de Dados utilizando gráficos

É fato que a inconsistência de dados acaba com qualquer tipo de modelagem em Data Mining.

Dessa forma, ANTES de qualquer experimento com data mining é sempre desejável que se faça uma análise exploratória de dados utilizando estatísticas descritivas, gráficos, formulação de hipóteses para uma definição clara de quais técnicas serão utilizadas.

Esse post do Eli Bressert apresenta um tutorial muito bom usando R para a utilização de gráficos na análise exploratória de dados.

Análise Exploratoria de Dados utilizando gráficos

A maioria das analises estatísticas não é realizada por estatísticos

Neste post do Jeff Leek ele aborda de maneira bem lúcida a crescente tendência de que a maioria das análises estatísticas são realizadas por pessoas que sabem somente o ‘instrumental’ em estatística.

Na blogosfera de estatística, física e matemática o tema trás muita discussão com opiniões divididas em pessoas que acham que essas pessoas não são capazes de realizar tais análises e outros que vem esse uso instrumental da estatística como a vitória dos métodos quantitativos.

Uma visão estreita tem sido compartilhada por diversas pessoas oriundas destas disciplinas na qual estes defendem que somente pessoas com formação acadêmica em métodos quantitativos são capazes de realizar análises devido ao fato que a formação é baseada na execução de tarefas desta natureza. Um erro lógico proveniente de pessoas que não poderiam abrir mão da lógica por definição acadêmica, quase beirando o rent-seeking. Mais do que um erro um estatístico que acha que deve trabalhar com análise descritiva (que é o que ocorre em 95% do tempo) é algo como um engenheiro desejar trabalhar como ajudante de alvenaria.

Uma visão bem mais positiva e correta é colocada por Leek:

What does this mean for statistics as a discipline? Well it is great news in that we have a lot more people to train. It also really drives home the importance of statistical literacy. But it also means we need to adapt our thinking about what it means to teach and perform statistics. We need to focus increasingly on interpretation and critique and away from formulas and memorization (think English composition versus grammar). We also need to realize that the most impactful statistical methods will not be used by statisticians, which means we need more fool proofing, more time automating, and more time creating software. The potential payout is huge for realizing that the tide has turned and most people who analyze data aren’t statisticians.

Os métodos quantitativos venceram e com mais pessoas performando estas análises todo o ambiente de negócios melhora como um todo.

A maioria das analises estatísticas não é realizada por estatísticos

Livro Data Points: Visualization That Means Something

O Nathan Yau do ótimo site Flowing Data a algum tempo vem trazendo a tona que a visualização de dados possuí um papel importante em relação à descoberta de conhecimento.

Ele acaba de lançar um livro bastante interessante chamado Data Points: Visualization That Means Something.

Para quem deseja aplicar os conceitos de análise exploratória de dados via visualização de dados o livro pode ser um ótimo material de partida.

Livro Data Points: Visualization That Means Something

Análise Exploratória de Dados – Brincando com Big Data

Neste post de Michael Wu; tem uma opinião bem interessante a respeito da utilização da Análise Exploratória de Dados, na qual ele coloca em questão o fato de que por mais que muitos possam atribuir a esse tipo de tarefa de mineração de dados como ilusão imaginativa; ele coloca em um plano no qual essa mesma criatividade ajuda a descobrir as complexidades dentro do conjunto de dados no qual produz respostas para perguntas que nem ainda foram realizadas pelo negócio.

A melhor parte sem dúvida é a analogia que foi colocada nos comentários que segue abaixo:

Michael, nice blog post thanks. I hope my dry joke is a good response to the points you raise about the value of the creative process in performing EDA…

Q: How do you find a needle in a haystack? 

The linear approach: Draw up a R&D proposal for an innovative device, costing $10m in budget and just under $20m on final completion once regulatory approval has been achieved. This device can harvest for needles in any given haystack in any terrain at any time of the day or night, and be operated in-situ or remotely.

The non-linear approach: Faced with such a heterogeneous organisation of data you assemble a bunch of friends (size dependent on amount of free food & drink) and hold a wild party on the haystack. One of the partygoers will bound to find the needle simply by stepping, or sitting on it. Or if they don’t something much more strange + interesting will appear, so that the needle is simply classified as a variant hay-straw and ignored. And the new discovery classified as the strange attractor – that “diamond in the rough” you refer to!

Análise Exploratória de Dados – Brincando com Big Data