Judea Pearl – Causality – 2nd Edition, 2009

No Pipe, para estudos sobre casualidade, causa e efeito dentro do campo de Aprendizado de Máquina, Modelagem de Dados e Estatística.

Anúncios
Judea Pearl – Causality – 2nd Edition, 2009

Oracle e Mineração de Dados

Para quem tem interesse por Mineração de Dados e deseja saber um pouco mais das aplicações com posts bem curtos com muito how-to eu recomendo o blog do Brendan Tierney que é especialista em Oracle e Aprendizado de Máquina; além de ser um Data Scientist muito bem renomado.

Oracle e Mineração de Dados

Curso Grátis de Aprendizado de Máquina – CalTech: Learning from Data

Um ótimo curso de aprendizado de máquina é oferecido pela CalTech através do projeto Learning From Data. Esse curso online tem além de apresentar os principais tópicos de aprendizado de máquina, tem também o objetivo de desenvolver em sua audiência competências relacionadas á análise de dados propriamente dita; com conceitos bem fundamentados. Os vídeos tem uma qualidade muito boa e os materiais estão disponíveis para download; basta apenas realizar login no site e os materiais estão automaticamente disponíveis.

Curso Grátis de Aprendizado de Máquina – CalTech: Learning from Data

O aprendizado de máquina que interessa

Esse artigo de Kiri L. Wagstaff da CalTech coloca em perspectiva a representatividade do aprendizado de máquina em relação as mais diversas limitações e coloca alguns desafios dentro desse campo de conhecimento através de uma abordagem bem crítica e concisa.     Em linhas gerais o autor aborda muito bem a distância entre o ML (Machine Learning) e o “mundo real” no qual muito do que está em corrente discussão em papers acadêmicos não representa necessariamente as necessidades das corporações.

O aprendizado de máquina que interessa

Manual completo do WEKA

Um dos maiores trunfos do WEKA é a capacidade de ser um software robusto em termos de recursos, completo em termos de algoritmos e aplicações; bem como a capacidade de ser incorporado como built-in em outras aplicações através de bibliotecas Java. Esse manual do Weka apresenta alguns desses recursos e é uma documentação bem interessante para que ainda não teve chance de trabalhar com o aplicativo propriamente dito.

Manual completo do WEKA

Curso de Aprendizado de Máquina

No site da Rutgers University há um material bastante completo para estudos da disciplina de aprendizado de máquina ministrado pelos professores Michael L. Littman e Yihua Wu. Os materiais teóricos e práticos estão acessíveis e disponíveis para download.

Curso de Aprendizado de Máquina

O curioso caso da aplicação da mineração de dados no setor de seguros pessoais

A mineração de dados com o advento do data gathering cada vez mais integrado das empresas de seguros e cartão de crédito estão utilizando esses dados para análises cada vez mais apuradas sobre o comportamento do consumidor, bem como predizer se ele é um bom ou mau cliente em relação a contratação de um seguro.

Isso porque as empresas de seguros estão cada vez mais empenhadas em realizar o cruzamento de informações sobre os hábitos de consumo e realizando o trabalho de predição e metrificação da ocorrência de acidentes fatais e de acordo com essas métricas determinar o quanto o coeficiente de risco de segurar cliente em questão.

Esse cruzamento de informações ocorre no momento em que há o pagamento do prêmio pela morte de um segurado por infarto, no qual a empresa de seguros vai até o mercado para o enriquecimento das informações sobre o segurado para construção de métricas de risco sob aquele determinado tipo de persona.
Feita a solicitação (geralmente a empresas de cartão de crédito) há o retorno dos hábitos de consumo do portador do cartão: Gastos acima de R$ 200 em farmácias, pagamento de plano de saúde, idas constantes a churrascarias, e bares. Com posse desses dados sobre as informações de consumo do cliente, a seguradora faz uma espécie de backtracking avaliando quais foram os hábitos de consumos que levaram aquele cliente em especial a ter uma parada cardiaca. Se levarmos em consideração que uma gama alta de dados médicos podem ser adquiridos esse tracking pode ser muito mais efetivo.

Feito isso, o segurado que faleceu tem um score no qual ele pode auxiliar no desenvolvimento de métricas, e posteriormente na construção de personas; as quais podem ter preço diferenciado em relação a aquisição de novos seguros.

É contra a lei? Não, pois não há legislação pertinente a respeito de aquisição e venda de dados pessoais entre provedores de informações; e as malas diretas de empresas de marketing são prova cabal disso. É errado e anti-ético? Não, pois em seguro existe uma regra bem explicita: O valor da fraude é rateado por todos os usuários, sem exceção; ou seja, quanto menos democratizar as perdas, os ganhos individuais serão maiores; e consequentemente as apólices mais em conta.

É um tema controverso e que mexe com questões éticas muito recentes como privacidade digital, e venda de informações; mas que seguramente irá ser o futuro da análise de risco de seguros pessoais. Na dúvida, pague em dinheiro!

O curioso caso da aplicação da mineração de dados no setor de seguros pessoais

Empresa realiza Mineração de Dados com crianças

Um dos limites que fazem com que a ética em mineração de dados seja cada vez mais repensada é quando ela se torna uma atividade que transcende os limites do bom senso.

O Escritório de Advocacia Geral dos EUA (Algo como a nossa AGU) abriu um processo contra a empresa 24×7 digital devido ao fato de que as crianças ao utilizarem os apps da empresa, respondiam algumas perguntas e essas informações eram repassadas a empresas especializadas em Data Gathering o que contraria totalmente a Children’s Online Privacy Protection Act.

Esse episódio serve para alertar pais sobre o que os seus filhos fazem na web, haja vista a crescente utilização de dispositivos conectados à rede por crianças.

Empresa realiza Mineração de Dados com crianças

Mineração de Dados e a Ditadura da Democracia no Reino Unido

Mais uma tentativa de governantes que querem utilizar a mineração de dados para realizar monitoramento e vigilância na vida das pessoas; no qual através de dispositivos que capturam os pacotes de dados que contém informações como, por exemplo, trocas de e-mails, comunicações telefônicas entre outros; querem realizar o cerceamento das liberdades individuais.

Mineração de Dados e a Ditadura da Democracia no Reino Unido

Dados Abertos e Mineração de Dados

Uma das melhores iniciativas governamentais que tem se tornado uma forte tendência nos últimos tempos é a abertura de dados públicos, ou Open Data.

Os dados abertos além de representar transparência dos governantes; pode engajar cidadãos a colaborarem com iniciativas criativas para os problemas de sua comunidade através do estudo desses dados; além de enquadrar-se totalmente no conceito de governo eletrônico no qual o governo não somente será receptador de dados dos cidadãos, mas também será provedor de dados e informações para aumentar a transparência e melhorar a democracia de uma forma mais participativa.

Dados Abertos e Mineração de Dados

Yelp – Bases de dados acadêmica

Uma ótima informação para quem deseja bases de dados reais para implementação de técnicas de mineração de dados, ou desenvolvimento de estudos é a abertura desses dados pela Yelp que é uma rede de acadêmicos que faz a postagem de algumas bases de dados para análises e estudos diversos. O site conta com estudantes de mais de 30 universidades americanas, e além de ter algumas bases de dados interessantes, abre a possibilidade de ampliar o networking com pesquisadores do mundo inteiro.

Yelp – Bases de dados acadêmica

Introdução a Mineração de Dados com R

Nesse webnar promovido por Joe Rickert ele apresenta uma pequena introdução sobre mineração de dados com R através de exemplos práticos de sua aplicação sobre algumas bases de dados. O interessante do R é que ao invés de ser uma linguagem de programação na qual deve-se aprender o básico para ir para aplicações mais complexas, o R é mais modular, ou seja, precisa-se apenas de um foco específico na aplicação de R e estudar de acordo com esse domínio e o aprendizado se dá de uma maneira mais construtiva ao invés de ser mais teórica.

Introduction Data Mining

Introdução a Mineração de Dados com R