Utilização de Random Forests para o problema de compartilhamento de bicicletas em Seattle

Não é mais necessário dizer que o futuro das cidades vai passar pela a análise de dados e principalmente pela a aplicação da inteligência para resolução de problemas dos pagadores de impostos.

Nesse caso específico o problema era que o sistema de trens urbanos de Seattle disponibiliza 500 bicicletas em suas estações e que a oferta dessas bicicletas deve estar ajustada com a demanda de cada estação.

Aqui está o post original, e a abordagem utilizada:

“From clustering, I discovered two distinct ecosystems of bike stations—Seattle, and the University District—based on traffic flows from station to station,” Sadler said. “It turned out that having separate models for each lent itself to much better predictions.”

Sadler modeled hourly supply and hourly demand separately for each of the two ecosystems, summing the result to predict the change in current bike count, based on the current bike count data from the Pronto API. To do this, he used multiple random forest algorithms, each tuned for a specific task.

“Having groups of smaller random forests worked much better than having a single large random forest try to predict everything,” Sadler said. “This is probably due to the different ecosystems having vastly different signals and different types of noise.”

The model—which is actually two models (a random forest for each ecosystem), of which the branches of each are composed of additional random forests—draws from historical demand based on the current season, current hour, and current weekend. It also uses meta information about each station, such as elevation, size, and proximity to other stations. The model leverages this information to discover signals and patterns in ride usage, then predicts based on the signal it finds.

Utilização de Random Forests para o problema de compartilhamento de bicicletas em Seattle

Civic Commons

Excelente repositório de dados públicos de diversas instâncias governamentais.

Civic Commons is a non-profit initiative that helps governments build and use shared and open technologies to improve
public services, transparency, accountability, citizen participation, and management effectiveness, all while saving money.

Amid the last two decades’ astounding advances in consumer and enterprise technologies, governments — especially cities,
towns, counties, and the other units of government that are responsible to deliver public services every day — have largely
been standing on the sidelines. Civic Commons is dedicated to helping cities embrace the transformative potential of shared
technologies and collaborative development techniques that have been pioneered and proven in the private sector.

We believe that our cities can now take advantage of the same technologies that have generated such enormous efficiencies
and innovative services in our lives as citizens and consumers. In a digitally interconnected world, cities don’t have to
operate in isolation: they can pool their resources — their talents and ever-shrinking budgets — to build shared
technologies, save money, and innovate.

And here’s how we’re helping them…

Civic Commons

Data.GOV – Dados Governamentais

Uma ótima iniciativa do governo dos Estados Unidos é a disponibilização de dados relativos aos seus indicadores sociais e econômicos, de forma que qualquer cidadão possa acessar e analisar esses dados. Centenas de bases de dados nos mais diferentes formatos para download.

Data.GOV – Dados Governamentais

Agências americanas em conflito devido a programas de mineração de dados

Um assunto muito sério, que se não tratado de maneira sóbria por parte dos legisladores americanos, pode afetar e muito a vida dos usuários da web.

Agências americanas em conflito devido a programas de mineração de dados

A Mineração de Dados pode parar a matança? – Uma reflexão sobre o episódio do Atirador do Colorado e a Mineração de Dados

Até esse momento diversos sites já estão reportando a situação sobre o atirador do Colorado nos Estados Unidos e estão nesse exato momento acontecendo diversos debates (Controle de Armas, Vídeo Games, Políticas de Restrições de Liberdades, entre outros.) (http://www.nytimes.com/2012/07/21/us/shooting-at-colorado-theater-showing-batman-movie.html) que estão fora do escopo de atuação desse site.

Entretanto, o assunto serve como plano de fundo para uma discussão que envolve Mineração de Dados e desenvolvimento de políticas de acesso á dados e controle governamental sobre dados “privativos”. O artigo do Holman W. Jenkins, Jr do Wall Street Journal coloca a questão à mesa em uma visão sóbria e realista pegando como exemplo o massacre ocorrido.

O artigo realiza uma série de indagações sobre quando a mineração de dados poderá ser usada para  interromper esse tipo de matança (por isso o título original do artigo Can Data Mining Stop the Killing?) e sobre as discussões sobre o programa Total Information Awareness que regula sobre as questões de Data Gathering e Mineração de Dados sobre informações de todos os cidadãos dos EUA.

Mas há dois trechos do artigo que merecem um destaque especial, que são:

[…]The Colorado shooter Mr. Holmes dropped out of school via email. He tried to join a shooting range with phone calls and emails going back and forth. He bought weapons and bomb-making equipment. He placed orders at various websites for a large quantity of ammunition. Aside from privacy considerations, is there anything in principle to stop government computers, assuming they have access to the data, from algorithmically detecting the patterns of a mass shooting in the planning stages? […]

Tradução livre: O atirador do Colorado Sr. Holmes largou a escola via um e-mail. Ele tentou se filiar a um clube de tiro com chamadas telefônicas e e-mails indo e voltando. Ele comprou armas e equipamento para fabricação de bombas. Ele encomendou em diversos sites ampla quantidade de munição. Deixando de lado questões relacionadas à privacidade, há alguma coisa em princípio para interromper os computadores do governo, assumindo que eles têm o acesso aos dados, e detectar algoritmicamente os padrões de planos de chacinas em seus estágios iniciais?

 E esse trecho:

[…]The anguishing thing about mass-shooting incidents is that patterns are indeed present […]

Tradução livre: O angustiante sobre essas chacinas é que os padrões estão sempre presentes.

Utilizando como ponto de partida dessa reflexão, há uma frase que se enquadra bem nesse contexto que é “Quando a arma que mata é a mesma que defende a liberdade, os Santos choram; mas não acusam”. Isso quer dizer que partindo das indagações( justas) do Sr. Jenkins, bem como das diversas manifestações da American Civil Liberties Union (ACLU – Em tradução livre: União das Liberdades Civis Americanas) é possível dar duas respostas sobre essas perguntas: Não, e Sim.

A aplicação efetiva de Mineração de Dados na esfera pública, até mesmo no Brasil provou que é um campo que tem tudo para dar certo, se utilizada para o correto atendimento dos interesses gerais da administração pública; seja na área de economicidade (na qual trata o artigo) seja na área de segurança pública.

O fato é que hoje as empresas estão anos-luz à frente dos governos em relação à aquisição de dados, e principalmente na utilização desses dados para os mais diversos fins comerciais: cobrança, marketing direcionado, marketing político, design de produtos, disponibilização de linhas de crédito, e até mesmo predição de tendências comportamentais de consumo.

Dentro desse panorama, é de se espantar que associações de direitos civis se oponham de maneira ferrenha ao fato do governo poder ter essas informações consolidadas e para utilização para diversos tipos de aplicações para servir ao bem público (isso baseado e legislação específica, e com representantes e pautas de discussões eleitos democraticamente) sendo que informações como padrões de utilização de cartões de crédito, ligações telefônicas, e-mails, correspondências, informações sobre restrições e status de créditos bancários estejam na mão de empresas; as quais que além de tudo comercializam esses tipos de informações, seja via birôs de crédito e de informações; seja a comercialização de malas diretas.

Um praticante de mineração de dados razoável poderia modelar algo no mesmo sentido em que o colunista descreveu com determinada facilidade, contudo; a questão vai um pouco além do que foi descrito, e a mineração não pode tratada como a salvação em se tratando de crimes dessa natureza; pois, além das restrições legais, esse campo penaliza de forma severa erros de interpretação, os quais se hoje são a solução para auxiliar na esfera criminal em questão de prevenção, pode tornar um instrumento para criminalizar mais pessoas através de erros de interpretação.

Uma coisa que sempre este site faz questão de ressaltar é que a mineração de dados são um conjunto de técnicas que auxiliam na tomada de decisão, e que a ação propriamente dita é sempre condicionada, única e exclusivamente pelo agente humano através da interpretação dos padrões recebidos; e esse processo quase que dialético de extrair da expertise (conhecimento tácito) e do background técnico (conhecimento explicito) conhecimento para lidar com qualquer tipo de situação de acordo com os dados. Jogar na mineração de dados essa responsabilidade, é no mínimo preocupante, pois mostra ainda que as pessoas conhecem muito pouco do assunto e procuram uma bala de prata para resolver diversos problemas da sociedade; e é desse tipo de abordagem que a mineração de dados deve se afastar para não virar instrumento de um estado tecnocrático e policial que tem base valores totalitários e restritivos.

A discussão é interessante e está aberta, e cabe ressaltar que ainda haverá muita discussão nesse sentido nos outros países. Pena que ainda, nós brasileiros não acordamos para esse tipo de discussão.

 PARA LER

ACLU. Data Mining. Disponível em << http://www.aclu.org/technology-and-liberty/data-mining >> Acessado em 24 Jul 12 às 22:22hs.

PEÑA, Charles V. Information Awareness Office Makes Us a Nation of Suspects. CATO Institute. Disponível em << http://www.cato.org/research/articles/pena-021122.html  >> Acessado às 24 Jul 12 às 22:23hs.

ACLU. Testimony of Barry Steinhardt, Director of the ACLU Technology and Liberty Program on Government Data Mining Before the House Government Reform Subcommittee on Technology, Information Policy, Intergovernmental Relations and the Census. Disponível em << http://www.aclu.org/national-security/testimony-barry-steinhardt-director-aclu-technology-and-liberty-program-government >> Acessado em 24 Jul 12 às 22:22hs.

DARPA. DARPA’s S&T Privacy Principles. Disponível em << http://www.darpa.mil/About/Initiative/DARPA’s_S_T_Privacy_Principles.aspx >> Acessado em 24 Jul 12 às 22:25hs

ACLU. Total Information Compliance: The TIA’s Burden Under The Wyden Amendment – A Preemptive Analysis of the Government’s Proposed Super Surveillance Program. Disponível em << http://www.aclu.org/files/FilesPDFs/aclu_tia_report.pdf  >> Acessado em 24 Jul 12 às 22:26hs

ACLU. Technology And Liberty Program – A letter to Alex Türk. Disponível em << http://www.aclu.org/files/images/asset_upload_file750_34919.pdf >> Acessado às 22:38hs

SARMENTO SILVA, Carlos Vinícius; RALHA, Célia Ghedini. Detecção de Cartéis em Licitações Públicas com Agentes de Mineração de Dados . Revista Eletrônica de Sistemas de Informação. Disponível em << http://revistas.facecla.com.br/index.php/reinfo/article/view/754/pdf  >> Acessado em 24 Jul 12 às 22:37hs.

NATH, Shyam Varan. Crime Pattern Detection Using Data Mining. Oracle Corporation. Disponível em << http://ieeexplore.ieee.org/xpl/login.jsp?tp=&arnumber=4053200&url=http%3A%2F%2Fieeexplore.ieee.org%2Fxpls%2Fabs_all.jsp%3Farnumber%3D4053200  >> Acessado em 24 Jul 12 às 22:40hs.

A Mineração de Dados pode parar a matança? – Uma reflexão sobre o episódio do Atirador do Colorado e a Mineração de Dados

Mineração de Dados e a Ditadura da Democracia no Reino Unido

Mais uma tentativa de governantes que querem utilizar a mineração de dados para realizar monitoramento e vigilância na vida das pessoas; no qual através de dispositivos que capturam os pacotes de dados que contém informações como, por exemplo, trocas de e-mails, comunicações telefônicas entre outros; querem realizar o cerceamento das liberdades individuais.

Mineração de Dados e a Ditadura da Democracia no Reino Unido

Dados Abertos e Mineração de Dados

Uma das melhores iniciativas governamentais que tem se tornado uma forte tendência nos últimos tempos é a abertura de dados públicos, ou Open Data.

Os dados abertos além de representar transparência dos governantes; pode engajar cidadãos a colaborarem com iniciativas criativas para os problemas de sua comunidade através do estudo desses dados; além de enquadrar-se totalmente no conceito de governo eletrônico no qual o governo não somente será receptador de dados dos cidadãos, mas também será provedor de dados e informações para aumentar a transparência e melhorar a democracia de uma forma mais participativa.

Dados Abertos e Mineração de Dados

Mineração de Dados Públicos – Open Data Projects

Hoje com os eleitores tendo cada vez mais acesso à internet, bem como as iniciativas populares em prol de governos mais eficientes vem tornado os projetos de Open Data (Abertura de dados públicos) cada vez mais importantes na administração de uma cidade. Através desses dados, é possível cidadãos que detêm algum tipo de qualificação para análise desses dados levar ao seu vereador, deputado ou representante legislativo alternativas para os mais diversos problemas de sua cidade ou região utilizando dados que muitas das vezes é descartado pelos orgãos públicos.

Nesse link está uma iniciativa de agregação de dados relacionados a projetos de Open Data, e as cidades participantes nos EUA, Canadá e Europa.

Mineração de Dados Públicos – Open Data Projects

Governmental Data Mining and its Alternatives

A Mineração de Dados no âmbito governamental tem se tornado uma preocupação bem recente na esfera acadêmica e judiciária. As implicações na aquisição, seleção, e privacidade sobre uma base de dados pública é de uma importância muito grande, e governos ao redor do mundo ainda não estão preparados para lidar com essas questões. Esse paper do pesquisador Tal Zarsky da University of Haifa – Faculty of Law apresenta um plano de trabalho bastante interessante sobre a utilização desses dados, para aplicação em diversas questões do quotidiano estatal como previsões, segurança, detecção de ameaças entre outros. Vale a pena a leitura.

Penn State Law Review, Vol. 116, No. 2, 2011

Abstract:

Governments face new and serious risks when striving to protect their citizens. Data mining has captured the imagination as a tool which can potentially close the intelligence gap constantly deepening between governments and their targets. The reaction to the data mining of personal information by governmental entities came to life in a flurry of reports, discussions, and academic papers. The general notion in these sources is that of fear and even awe. As this discourse unfolds, something is still missing. An important methodological step must be part of every one of these inquires mentioned above – the adequate consideration of alternatives. This article is devoted to bringing this step to the attention of academics and policymakers.

The article begins by explaining the term “data mining,” its unique traits, and the roles of humans and machines. It then maps out, with a very broad brush, the various concerns raised by these practices. Thereafter, it introduces four central alternative strategies to achieve the governmental objectives of security and law enforcement without engaging in extensive data mining and an additional strategy which applies some data mining while striving to minimize several concerns. The article sharpens the distinctions between the central alternatives to promote a full understanding of their advantages and shortcomings. Finally, the article briefly demonstrates how an analysis that takes alternative measures into account can be carried out in two contexts. First, it addresses a legal perspective, while considering the detriments of data mining and other alternatives as overreaching “searches.” Second, it tests the political process set in motion when contemplating these measures. This final analysis leads to an interesting conclusion: data mining (as opposed to other options) might indeed be disfavored by the public, but mandates the least scrutiny by courts. In addition, the majority’s aversion from the use of data mining might result from the fact that data mining refrains from shifting risk and costs to weaker groups.

Governmental Data Mining and its Alternatives

Governmental Data Mining and its Alternatives