Máquina enviesada: Como um algoritmo está agindo de forma tendenciosa contra negros nos EUA?

Diretamente do ProPublica.

Uma das questões éticas mais delicadas em Machine Learning:

Compare their crime with a similar one: The previous summer, 41-year-old Vernon Prater was picked up for shoplifting $86.35 worth of tools from a nearby Home Depot store.
Prater was the more seasoned criminal. He had already been convicted of armed robbery and attempted armed robbery, for which he served five years in prison, in addition to another armed robbery charge. Borden had a record, too, but it was for misdemeanors committed when she was a juvenile.
Yet something odd happened when Borden and Prater were booked into jail: A computer program spat out a score predicting the likelihood of each committing a future crime. Borden — who is black — was rated a high risk. Prater — who is white — was rated a low risk.
Two years later, we know the computer algorithm got it exactly backward. Borden has not been charged with any new crimes. Prater is serving an eight-year prison term for subsequently breaking into a warehouse and stealing thousands of dollars’ worth of electronics.

Para quem tiver curiosidade de saber quais são os dados que o algoritmo de avaliação de risco usa, o documento abaixo é um claro exemplo disso.

sample-risk-assessment-compas-core

Máquina enviesada: Como um algoritmo está agindo de forma tendenciosa contra negros nos EUA?

A Patente “Personal Data Mining” e as implicações decorrentes

A patente registrada no escritório de patentes dos EUA relativa ao Personal Data Mining não está chamando muito atenção, mas tem o potencial de ter o maior impacto devido as suas implicações diretas sobre como questões de privacidade, mobilidade e principalmente monitoramento e acompanhamento de hábitos sejam eles offline ou online.

Primeiramente vemos como está o resumo da patente:

Personal data mining mechanisms and methods are employed to identify relevant information that otherwise would likely remain undiscovered. Users supply personal data that can be analyzed in conjunction with data associated with a plurality of other users to provide useful information that can improve business operations and/or quality of life. Personal data can be mined alone or in conjunction with third party data to identify correlations amongst the data and associated users. Applications or services can interact with such data and present it to users in a myriad of manners, for instance as notifications of opportunities.

Em termos gerais essa patente tem como principal característica realizar através de uma plataforma de integração de dispositivos um repositório de dados de usuários, no qual essas informações oriundas de diversos tipos de dispositivos entrariam nesse repositório de dados, e seriam consolidadas para serem utilizadas.

Lendo um pouco mais o texto do registro da patente (em especial a página 23), fica claro que está em curso um dos maiores movimentos de consolidação de dados a respeito de mídias sociais já realizado por qualquer organização de qualquer porte, na qual através de uma determinada rede de negócios, todos os passos online podem ser capturados, e utilizados para consolidação neste repositório de dados sem que haja uma política de privacidade citada no referido texto.

O texto e o assunto como um todo será tratado neste site mais adiante; contudo, esse é um tema que não pode passar sem uma reflexão de cunho ético para todos que se interessam sobre mineração de dados.

US7930197

A Patente “Personal Data Mining” e as implicações decorrentes

Políticas Afirmativas, Mineração de Dados e Ética

Neste post do The New Republic assinado por Jefferey Rosen apresenta um paralelo bem interessante sobre a questão das ações afirmativas e como a mineração de dados está nesse meio campo através de análises de grupos raciais e a aceitação nas universidades americanas.

O assunto é interessante de discutir no âmbito da ética em mineração de dados, já que uma das premissas relativas à construção de métricas é não levar sob nenhuma hipótese aspectos relativos a questões sensíveis à sociedade (negros, homosexualismo, religião)  em consideração para construção das mesmas, já que pode tornar o julgamento; e em consequência a tomada de decisão tendenciosa.

Entretanto, cabe colocar o dedo nessa ferida a posteriori quanto a absorção dos profissionais graduados no mercado de trabalho, em comparação à aqueles que não foram comtemplados com as políticas de afirmação, utilizando-se de clusters sobre aspectos como remuneração, escalada de cargos corporativa, bônus e participação dos lucros e demais regras de comparação entre profissionais.

Esse efeito relativo às ações afirmativas, sobretudo o acesso das cotas raciais ns universidades será um fenômeno muito interessante de ser observado a alguns anos, e servirá de parâmetro para saber se os empregadores tem discriminação entre esses profissionais; ou bem como os mesmos são absorvidos mais rápidamente mas com rendimentos abaixo do esperado pelo mercado.

Políticas Afirmativas, Mineração de Dados e Ética

O curioso caso da aplicação da mineração de dados no setor de seguros pessoais

A mineração de dados com o advento do data gathering cada vez mais integrado das empresas de seguros e cartão de crédito estão utilizando esses dados para análises cada vez mais apuradas sobre o comportamento do consumidor, bem como predizer se ele é um bom ou mau cliente em relação a contratação de um seguro.

Isso porque as empresas de seguros estão cada vez mais empenhadas em realizar o cruzamento de informações sobre os hábitos de consumo e realizando o trabalho de predição e metrificação da ocorrência de acidentes fatais e de acordo com essas métricas determinar o quanto o coeficiente de risco de segurar cliente em questão.

Esse cruzamento de informações ocorre no momento em que há o pagamento do prêmio pela morte de um segurado por infarto, no qual a empresa de seguros vai até o mercado para o enriquecimento das informações sobre o segurado para construção de métricas de risco sob aquele determinado tipo de persona.
Feita a solicitação (geralmente a empresas de cartão de crédito) há o retorno dos hábitos de consumo do portador do cartão: Gastos acima de R$ 200 em farmácias, pagamento de plano de saúde, idas constantes a churrascarias, e bares. Com posse desses dados sobre as informações de consumo do cliente, a seguradora faz uma espécie de backtracking avaliando quais foram os hábitos de consumos que levaram aquele cliente em especial a ter uma parada cardiaca. Se levarmos em consideração que uma gama alta de dados médicos podem ser adquiridos esse tracking pode ser muito mais efetivo.

Feito isso, o segurado que faleceu tem um score no qual ele pode auxiliar no desenvolvimento de métricas, e posteriormente na construção de personas; as quais podem ter preço diferenciado em relação a aquisição de novos seguros.

É contra a lei? Não, pois não há legislação pertinente a respeito de aquisição e venda de dados pessoais entre provedores de informações; e as malas diretas de empresas de marketing são prova cabal disso. É errado e anti-ético? Não, pois em seguro existe uma regra bem explicita: O valor da fraude é rateado por todos os usuários, sem exceção; ou seja, quanto menos democratizar as perdas, os ganhos individuais serão maiores; e consequentemente as apólices mais em conta.

É um tema controverso e que mexe com questões éticas muito recentes como privacidade digital, e venda de informações; mas que seguramente irá ser o futuro da análise de risco de seguros pessoais. Na dúvida, pague em dinheiro!

O curioso caso da aplicação da mineração de dados no setor de seguros pessoais

Empresa realiza Mineração de Dados com crianças

Um dos limites que fazem com que a ética em mineração de dados seja cada vez mais repensada é quando ela se torna uma atividade que transcende os limites do bom senso.

O Escritório de Advocacia Geral dos EUA (Algo como a nossa AGU) abriu um processo contra a empresa 24×7 digital devido ao fato de que as crianças ao utilizarem os apps da empresa, respondiam algumas perguntas e essas informações eram repassadas a empresas especializadas em Data Gathering o que contraria totalmente a Children’s Online Privacy Protection Act.

Esse episódio serve para alertar pais sobre o que os seus filhos fazem na web, haja vista a crescente utilização de dispositivos conectados à rede por crianças.

Empresa realiza Mineração de Dados com crianças

O que os dados podem e não podem fazer?

Johnatan Gray em um post mostra que o pensamento cartesiano através dos dados, que está mais demonstrado no novo fenômeno do Data Jornalism nem sempre é o ideal; e mostra que há os limites da ética e do bom senso em análise de dados.

O que os dados podem e não podem fazer?

Indústria Farmacêutica + Mineração de Dados + Dados de Pacientes = Violação de Direitos

Um dos episódios que mostram que ainda não há critérios para a utilização da Mineração de Dados; e porque a privacidade pode ser um fator crítico para o seu desenvolvimento nos próximos anos.

Indústria Farmacêutica + Mineração de Dados + Dados de Pacientes = Violação de Direitos