Paper Ensemble methods for uplift modeling

Esse paper sobre a aplicação de métodos ensemble especificamente em modelagem uplift, é um ótimo guia de como técnicas não são canônicas em termos de resolução de problemas.

Abstract: Uplift modeling is a branch of machine learning which aims at predicting the causal effect of an action such as a marketing campaign or a medical treatment on a given individual by taking into account responses in a treatment group, containing individuals subject to the action, and a control group serving as a background. The resulting model can then be used to select individuals for whom the action will be most profitable. This paper analyzes the use of ensemble methods: bagging and random forests in uplift modeling. We perform an extensive experimental evaluation to demonstrate that the application of those methods often results in spectacular gains in model performance, turning almost useless single models into highly capable uplift ensembles. The gains are much larger than those achieved in case of standard classifi- cation. We show that those gains are a result of high ensemble diversity, which in turn is a result of the differences between class probabilities in the treatment and control groups being harder to model than the class probabilities themselves. The feature of uplift modeling which makes it difficult thus also makes it amenable to the application of ensemble methods. As a result, bagging and random forests emerge from our evaluation as key tools in the uplift modeling toolbox.

Ensemble methods for uplift modeling

Paper Ensemble methods for uplift modeling

Analytic Bridge – A Rede Social para Analistas de Dados

Para quem deseja entrar em uma rede social para interagir com diversos analistas de dados de diferentes lugares do mundo  o Analytic Bridge é o lugar ideal. Formada por Vicent Granville essa rede social tem diversas enquetes, fóruns de discussão e diversos posts os quais há exposição de diversos tópicos sobre análise de dados que vão desde escolha de ferramentas até dicas sobre análise de dados. Vale a pena a inscrição.

Analytic Bridge – A Rede Social para Analistas de Dados

Investing in Analytics in difficult times

Esse artigo tem um ótimo foco em relação ao investimento em tempos de crise e orçamentos apertados. É mais do que comum em qualquer empresa, em um momento de crise faça cortes em diversos departamentos, e não raramente vemos setores de análises sofrendo reduções e até eliminação total. É mais do que necessário saber que em tempos de crise o mais importante não é fazer; mas sim saber o que tem que ser feito para sair da situação, e somente com um time de análise essa situação pode ser revertida.

Expertise: Advanced (e.g. Predictive) Analytics is a very specific domain requiring very specific skills. Experts have usually grown into their role by combining advanced and detailed training with professional experience on real-life projects. Today, both service suppliers and vendors focus highly on R&D activities and the creation of relevant new business applications.

Focus: While some organizations are purely focused on Advanced Analytics, other companies may offer Analytics as a part of their broader services offering. For some situations, a niche player will prove most valuable, while in other situations the broader range of services might prove most useful. Choose carefully.

Partnership potential: Engaging in longer term analytical partnerships usually requires a more intense form of commitment. It may make sense for all parties to work transparently and to share more strategic insights in return for agreements of confidentiality, knowledge transfer and perhaps even exclusivity.

Budget: Obviously, the budget may play an important role. However, to allow comparisons, it may make sense to take into account daily rates, speed (time to execute standard projects), and expertise when comparing budgets.

Investing in Analytics in difficult times

Big crime meets big data

Uma das aplicações que particularmente me chamam mais atenção em relação a Analytics e Mineração de Dados é a aplicação de métodos de aprendizado de máquina e análise para identificar padrões criminais, e com essa ferramenta ter algum tipo de possibilidade de predição e mapeamento para prevenção.

Marc Goodman é o fundador de uma empresa chamada Future Crimes que é uma empresa de análise de dados sobre eventos que envolvem aspectos relacionados à segurança; e nessa entrevista ele chama atenção de como os dados pessoais das pessoas e as redes sociais estão virando cada vez mais dados para combater as atividades criminosas das mais diversas naturezas.

Big crime meets big data

1010data Provides Big Data Analysis in the Cloud with the Trillion Row Spreadsheet

Uma ótima reportagem sobre a Ten-Ten Data, na qual há algumas explicações sobre o conceito de SaaS (Software as a Service) aplicado a área de análise de dados com todos os dados na nuvem. O principal mote do marketing é que a 1010Data pode prover até 1 trilhão de linhas na nuvem. É um modelo de negócios interessante para os dias atuais.

1010data Provides Big Data Analysis in the Cloud with the Trillion Row Spreadsheet