Modelagem de tópicos criminais usando Machine Learning

Com o aumento da violência no nosso país (em que temos mais de 60 mil assassinatos por ano) é de fundamental importância que todas as secretarias e demais departamentos burocráticos do estado estejam um passo a frente do crime e não só isso: façam o mapeamento correto das ocorrências para que medidas preventivas  (e.g. patrulhamento, inteligência, et cetera) tenham o máximo de assertividade possível.

E não só isso: com um mapeamento correto, além de questões de policiamento que podem ser corrigidas, mas também questões de tomada de decisão para criação/alteração da legislação podem ser tomadas em bases mais sólidas descartando todo o proselitismo que é feito sobre essa questão.

Crime Topic Modeling – Da Kuang, P. Jeffrey Brantingham, Andrea L. Bertozzi

Abstract: The classification of crime into discrete categories entails a massive loss of information. Crimes emerge out of a complex mix of behaviors and situations, yet most of these details cannot be captured by singular crime type labels. This information loss impacts our ability to not only understand the causes of crime, but also how to develop optimal crime prevention strategies. We apply machine learning methods to short narrative text descriptions accompanying crime records with the goal of discovering ecologically more meaningful latent crime classes. We term these latent classes “crime topics” in reference to text-based topic modeling methods that produce them. We use topic distributions to measure clustering among formally recognized crime types. Crime topics replicate broad distinctions between violent and property crime, but also reveal nuances linked to target characteristics, situational conditions and the tools and methods of attack. Formal crime types are not discrete in topic space. Rather, crime types are distributed across a range of crime topics. Similarly, individual crime topics are distributed across a range of formal crime types. Key ecological groups include identity theft, shoplifting, burglary and theft, car crimes and vandalism, criminal threats and confidence crimes, and violent crimes. Crime topic modeling positions behavioral situations as the focal unit of analysis for crime events. Though unlikely to replace formal legal crime classifications, crime topics provide a unique window into the heterogeneous causal processes underlying crime. We discuss whether automated procedures could be used to cross-check the quality of official crime classifications.

Objectives The classification of crime into discrete categories entails a massive loss of information. Crimes emerge out of a complex mix of behaviors and situations, yet most of these details cannot be captured by singular crime type labels. This information loss impacts our ability to not only understand the causes of crime, but also how to develop optimal crime prevention strategies.
Methods We apply machine learning methods to short narrative text descriptions
accompanying crime records with the goal of discovering ecologically more meaningful latent crime classes. We term these latent classes ‘crime topics’ in reference to text-based topic modeling methods that produce them. We use topic distributions to measure clustering among formally recognized crime types.
Results Crime topics replicate broad distinctions between violent and property crime, but also reveal nuances linked to target characteristics, situational conditions and the tools and methods of attack. Formal crime types are not discrete in topic space. Rather, crime types are distributed across a range of crime topics. Similarly, individual crime topics are distributed across a range of formal crime types. Key ecological groups include identity theft, shoplifting, burglary and theft, car crimes and vandalism, criminal threats and confidence crimes, and violent crimes.
Conclusions Crime topic modeling positions behavioral situations as the focal unit of analysis for crime events. Though unlikely to replace formal legal crime classifications, crime topics provide a unique window into the heterogeneous causal processes underlying crime. 

crime-topic-modeling

Modelagem de tópicos criminais usando Machine Learning

Minority Report?

O Data Mining chegando para o combate ao crime.

LAPD uses big data to target criminals

Dubbed LASER for its ability to zero in on offenders and hotspots, it is one of many newer law enforcement tools that use data tracking and collection – such as license plate scanners and cellphone trackers – often with little public knowledge or regulation.

Privacy advocates say LASER isn’t transparent, has no clear oversight and unjustly focuses on keeping ex-convicts under suspicion even though they’ve served their time.

“People who have paid their debts to society shouldn’t remain stigmatized in the eyes of police,” said Kade Crockford of the American Civil Liberties Union.

LASER uses technology developed by the CIA’s venture capital arm to realize a post-9/11 dream that allows investigators to match up vast troves of data from 15 separate sources to connect dots that they otherwise might miss.

Funded by federal grants, it launched in 2011 in Newton, and an expansion funded by additional money in October, brought the program to a total of eight areas throughout the city, plus the department’s high-tech analysis unit and its helicopters.

More than 3,500 LAPD officers have been trained to use Palantir, a platform that was introduced initially to speed up the process of creating dossiers on chronic offenders and is now used throughout the department for a variety of investigative purposes.

 

Minority Report?

Base de Dados Mundial sobre Terrorismo

O Global Terrorism Database (GTD) é uma base de dados Open-Source que reuni eventos de terrorismo ao redor do mundo em suas modalidades mais puras como sequestros, assassinatos, ataques a instituições. Essencial para quem quer desenvolver trabalhos ou estudos sobre estes tipos de eventos ou mesmo encontrar algumas correlações interessantes.

Base de Dados Mundial sobre Terrorismo

Crime Analyst Blog

Esse blog do Scott Dickson apresenta diversos posts (pequenos por sinal) sobre as especificidades do trabalho de analista criminal. O blog tem diversos artigos sobre esse tipo de assunto, e para quem desejar trabalhar com Mineração de Dados aplicando esse tipo de domínio. 

Crime Analyst Blog

Minority Report ? – Predicting Juvenile Offending: A Comparison of Data Mining Methods.

Esse trabalho desenvolvido na Nanyang Technological University em Singapura trata de um estudo sobre delinquência juvenil, no qual de acordo com o modelo formulado pelos autores os mesmos chegaram com um poder de predição baseado no modelo de 95% de acuidade. Minority Report já em curso?

Minority Report ? – Predicting Juvenile Offending: A Comparison of Data Mining Methods.

Big crime meets big data

Uma das aplicações que particularmente me chamam mais atenção em relação a Analytics e Mineração de Dados é a aplicação de métodos de aprendizado de máquina e análise para identificar padrões criminais, e com essa ferramenta ter algum tipo de possibilidade de predição e mapeamento para prevenção.

Marc Goodman é o fundador de uma empresa chamada Future Crimes que é uma empresa de análise de dados sobre eventos que envolvem aspectos relacionados à segurança; e nessa entrevista ele chama atenção de como os dados pessoais das pessoas e as redes sociais estão virando cada vez mais dados para combater as atividades criminosas das mais diversas naturezas.

Big crime meets big data

Mineração de Dados aplicada a dados Criminais

Apesar do ótimo trabalho de visualização de dados, o site do Diego Valle é sem dúvidas um ótimo exemplo de como a mineração de dados pode auxiliar na questão do trabalho de mapeamento e desenvolvimento de mancha criminal. Nesse caso ele utilizou os casos criminais do México. Ótimo trabalho.

Mineração de Dados aplicada a dados Criminais