Porque Não-Espionar os Dados

Neste post do Análise Real (lido no dia, mas só revisado hoje) há uma interessante discussão relativa a ‘fitagem’ de modelos e relacionamento e consistência dos resultados. O melhor trecho sem dúvida é a seguinte passagem:

“[…]Qualquer um que seja péssimo em tiro ao alvo pode “melhorar” seu resultado. Basta permitir que se atire antes e em seguida o alvo seja desenhado da maneira que lhe parecer mais favorável.  Perceba que a “evidência” resultante concordará com a hipótese que você quer provar. Entretanto, ela não é nem um pouco severa, pois, mesmo se você não fosse um bom atirador, você poderia ter obtido o mesmo resultado. Sendo incapaz de discriminar entre um caso e outro, na verdade este “teste” – em sua forma bruta – não poderia se considerado evidência genuína de sua habilidade.

Na analogia, os tiros são os “dados” e o desenho o “modelo” ou “hipótese”. Se você fizer seu modelo, ou formular sua hipótese, utilizando as peculiaridades dos dados – e não levar em conta este fato na sua inferência – você pode estar simplesmente desenhando um alvo ao redor dos tiros.
[…]”

Vale a pena a leitura, e as referências.

Porque Não-Espionar os Dados

A Mineração de Dados pode parar a matança? – Uma reflexão sobre o episódio do Atirador do Colorado e a Mineração de Dados

Até esse momento diversos sites já estão reportando a situação sobre o atirador do Colorado nos Estados Unidos e estão nesse exato momento acontecendo diversos debates (Controle de Armas, Vídeo Games, Políticas de Restrições de Liberdades, entre outros.) (http://www.nytimes.com/2012/07/21/us/shooting-at-colorado-theater-showing-batman-movie.html) que estão fora do escopo de atuação desse site.

Entretanto, o assunto serve como plano de fundo para uma discussão que envolve Mineração de Dados e desenvolvimento de políticas de acesso á dados e controle governamental sobre dados “privativos”. O artigo do Holman W. Jenkins, Jr do Wall Street Journal coloca a questão à mesa em uma visão sóbria e realista pegando como exemplo o massacre ocorrido.

O artigo realiza uma série de indagações sobre quando a mineração de dados poderá ser usada para  interromper esse tipo de matança (por isso o título original do artigo Can Data Mining Stop the Killing?) e sobre as discussões sobre o programa Total Information Awareness que regula sobre as questões de Data Gathering e Mineração de Dados sobre informações de todos os cidadãos dos EUA.

Mas há dois trechos do artigo que merecem um destaque especial, que são:

[…]The Colorado shooter Mr. Holmes dropped out of school via email. He tried to join a shooting range with phone calls and emails going back and forth. He bought weapons and bomb-making equipment. He placed orders at various websites for a large quantity of ammunition. Aside from privacy considerations, is there anything in principle to stop government computers, assuming they have access to the data, from algorithmically detecting the patterns of a mass shooting in the planning stages? […]

Tradução livre: O atirador do Colorado Sr. Holmes largou a escola via um e-mail. Ele tentou se filiar a um clube de tiro com chamadas telefônicas e e-mails indo e voltando. Ele comprou armas e equipamento para fabricação de bombas. Ele encomendou em diversos sites ampla quantidade de munição. Deixando de lado questões relacionadas à privacidade, há alguma coisa em princípio para interromper os computadores do governo, assumindo que eles têm o acesso aos dados, e detectar algoritmicamente os padrões de planos de chacinas em seus estágios iniciais?

 E esse trecho:

[…]The anguishing thing about mass-shooting incidents is that patterns are indeed present […]

Tradução livre: O angustiante sobre essas chacinas é que os padrões estão sempre presentes.

Utilizando como ponto de partida dessa reflexão, há uma frase que se enquadra bem nesse contexto que é “Quando a arma que mata é a mesma que defende a liberdade, os Santos choram; mas não acusam”. Isso quer dizer que partindo das indagações( justas) do Sr. Jenkins, bem como das diversas manifestações da American Civil Liberties Union (ACLU – Em tradução livre: União das Liberdades Civis Americanas) é possível dar duas respostas sobre essas perguntas: Não, e Sim.

A aplicação efetiva de Mineração de Dados na esfera pública, até mesmo no Brasil provou que é um campo que tem tudo para dar certo, se utilizada para o correto atendimento dos interesses gerais da administração pública; seja na área de economicidade (na qual trata o artigo) seja na área de segurança pública.

O fato é que hoje as empresas estão anos-luz à frente dos governos em relação à aquisição de dados, e principalmente na utilização desses dados para os mais diversos fins comerciais: cobrança, marketing direcionado, marketing político, design de produtos, disponibilização de linhas de crédito, e até mesmo predição de tendências comportamentais de consumo.

Dentro desse panorama, é de se espantar que associações de direitos civis se oponham de maneira ferrenha ao fato do governo poder ter essas informações consolidadas e para utilização para diversos tipos de aplicações para servir ao bem público (isso baseado e legislação específica, e com representantes e pautas de discussões eleitos democraticamente) sendo que informações como padrões de utilização de cartões de crédito, ligações telefônicas, e-mails, correspondências, informações sobre restrições e status de créditos bancários estejam na mão de empresas; as quais que além de tudo comercializam esses tipos de informações, seja via birôs de crédito e de informações; seja a comercialização de malas diretas.

Um praticante de mineração de dados razoável poderia modelar algo no mesmo sentido em que o colunista descreveu com determinada facilidade, contudo; a questão vai um pouco além do que foi descrito, e a mineração não pode tratada como a salvação em se tratando de crimes dessa natureza; pois, além das restrições legais, esse campo penaliza de forma severa erros de interpretação, os quais se hoje são a solução para auxiliar na esfera criminal em questão de prevenção, pode tornar um instrumento para criminalizar mais pessoas através de erros de interpretação.

Uma coisa que sempre este site faz questão de ressaltar é que a mineração de dados são um conjunto de técnicas que auxiliam na tomada de decisão, e que a ação propriamente dita é sempre condicionada, única e exclusivamente pelo agente humano através da interpretação dos padrões recebidos; e esse processo quase que dialético de extrair da expertise (conhecimento tácito) e do background técnico (conhecimento explicito) conhecimento para lidar com qualquer tipo de situação de acordo com os dados. Jogar na mineração de dados essa responsabilidade, é no mínimo preocupante, pois mostra ainda que as pessoas conhecem muito pouco do assunto e procuram uma bala de prata para resolver diversos problemas da sociedade; e é desse tipo de abordagem que a mineração de dados deve se afastar para não virar instrumento de um estado tecnocrático e policial que tem base valores totalitários e restritivos.

A discussão é interessante e está aberta, e cabe ressaltar que ainda haverá muita discussão nesse sentido nos outros países. Pena que ainda, nós brasileiros não acordamos para esse tipo de discussão.

 PARA LER

ACLU. Data Mining. Disponível em << http://www.aclu.org/technology-and-liberty/data-mining >> Acessado em 24 Jul 12 às 22:22hs.

PEÑA, Charles V. Information Awareness Office Makes Us a Nation of Suspects. CATO Institute. Disponível em << http://www.cato.org/research/articles/pena-021122.html  >> Acessado às 24 Jul 12 às 22:23hs.

ACLU. Testimony of Barry Steinhardt, Director of the ACLU Technology and Liberty Program on Government Data Mining Before the House Government Reform Subcommittee on Technology, Information Policy, Intergovernmental Relations and the Census. Disponível em << http://www.aclu.org/national-security/testimony-barry-steinhardt-director-aclu-technology-and-liberty-program-government >> Acessado em 24 Jul 12 às 22:22hs.

DARPA. DARPA’s S&T Privacy Principles. Disponível em << http://www.darpa.mil/About/Initiative/DARPA’s_S_T_Privacy_Principles.aspx >> Acessado em 24 Jul 12 às 22:25hs

ACLU. Total Information Compliance: The TIA’s Burden Under The Wyden Amendment – A Preemptive Analysis of the Government’s Proposed Super Surveillance Program. Disponível em << http://www.aclu.org/files/FilesPDFs/aclu_tia_report.pdf  >> Acessado em 24 Jul 12 às 22:26hs

ACLU. Technology And Liberty Program – A letter to Alex Türk. Disponível em << http://www.aclu.org/files/images/asset_upload_file750_34919.pdf >> Acessado às 22:38hs

SARMENTO SILVA, Carlos Vinícius; RALHA, Célia Ghedini. Detecção de Cartéis em Licitações Públicas com Agentes de Mineração de Dados . Revista Eletrônica de Sistemas de Informação. Disponível em << http://revistas.facecla.com.br/index.php/reinfo/article/view/754/pdf  >> Acessado em 24 Jul 12 às 22:37hs.

NATH, Shyam Varan. Crime Pattern Detection Using Data Mining. Oracle Corporation. Disponível em << http://ieeexplore.ieee.org/xpl/login.jsp?tp=&arnumber=4053200&url=http%3A%2F%2Fieeexplore.ieee.org%2Fxpls%2Fabs_all.jsp%3Farnumber%3D4053200  >> Acessado em 24 Jul 12 às 22:40hs.

A Mineração de Dados pode parar a matança? – Uma reflexão sobre o episódio do Atirador do Colorado e a Mineração de Dados

Empresa realiza Mineração de Dados com crianças

Um dos limites que fazem com que a ética em mineração de dados seja cada vez mais repensada é quando ela se torna uma atividade que transcende os limites do bom senso.

O Escritório de Advocacia Geral dos EUA (Algo como a nossa AGU) abriu um processo contra a empresa 24×7 digital devido ao fato de que as crianças ao utilizarem os apps da empresa, respondiam algumas perguntas e essas informações eram repassadas a empresas especializadas em Data Gathering o que contraria totalmente a Children’s Online Privacy Protection Act.

Esse episódio serve para alertar pais sobre o que os seus filhos fazem na web, haja vista a crescente utilização de dispositivos conectados à rede por crianças.

Empresa realiza Mineração de Dados com crianças

Mineração de Dados e a Ditadura da Democracia no Reino Unido

Mais uma tentativa de governantes que querem utilizar a mineração de dados para realizar monitoramento e vigilância na vida das pessoas; no qual através de dispositivos que capturam os pacotes de dados que contém informações como, por exemplo, trocas de e-mails, comunicações telefônicas entre outros; querem realizar o cerceamento das liberdades individuais.

Mineração de Dados e a Ditadura da Democracia no Reino Unido

O Pós-Venda de uma Ferramenta e o impacto no projeto de Mineração de Dados/BI

Em uma conversa informal durante um almoço, conversei com um consultor de Business Intelligence a respeito da importância do Pós-Venda e acompanhamento do provedor da ferramenta dos projetos de implantação.

Durante esse último ano tive a oportunidade de acompanhar a implantação de alguns projetos de ERP, e Business Intelligence e tenho algumas impressões sobre essa questão de ferramenta.

Na maioria das vezes  em que vejo questões comerciais sendo discutidas, muitos managers discutem todas as possibilidades possíveis em um projeto: Escopo, preço, características da ferramenta, diferenciais em relação a ferramentas de mercado; porém, duas questões que são de uma importância altíssima (Leia-se Risk Management) não são discutidas: Acompanhamento do provedor da ferramenta ao projeto de implementação/suporte; e curva de aprendizado da ferramenta.

Vou dar um pequeno testemunho a respeito da SAP a respeito disso e acho que pode servir de exemplo para as outras distribuidoras de software; ou mesmo pode ajudar na hora de colocar questões contratuais/comerciais junto ao distribuidor/vendedor de software no momento da negociação.

Como funciona:

A SAP no momento do licenciamento de uma permissão e uso de software estabelece dois contratos um com o vendedor (Parceiro responsável pela venda) e um com o cliente que fez a aquisição do licenciamento para trabalhar com o ERP.

No momento desse contrato, para as questões relacionadas à área técnica e suporte (implantação, treinamento, dúvidas, solicitação de atualizações, etc) o cliente é obrigado por força contratual buscar ao parceiro; e este último é responsável pelo atendimento desse cliente.

Se o atendimento não é satisfatório, o cliente aciona primeiro o parceiro solicitando auxílio para algum tipo de questão (erro de implantação, treinamento, questões relacionadas a problemas de suporte, entre outros) e se não for atendido tem o canal para informar diretamente à SAP que entra de forma arbitral para resolução desses conflitos as vezes com advertências aos parceiros com o encaminhamento do cliente a outra consultoria e até descredenciamento do parceiro. Simples assim. Em um momento no passado havia até informações que a SAP realizava o registro do tempo em que o projeto levou para ser concluído e de acordo com o tempo de implantação verificava junto ao Parceiro o motivo do atraso no projeto, e quais variáveis que influenciaram esse atraso para acompanhamento.

Na prática, o que eu tenho visto em conversas com alguns contatos e até mesmo experiências pessoais é que os vendedores de software querem oferecer uma solução totalmente black-box no qual o provedor da ferramenta está pouco se importando com o seu projeto, ou mesmo com a sua necessidade e a curva de aprendizado; há somente o interesse em ‘bater o martelo’ e fechar a negociação no aspecto financeiro.

Dentro disso que foi dito, vale a pena antes de fechar qualquer tipo de contrato questionar o provedor da ferramenta de Mineração de Dados/BI nos seguintes aspectos: Qual é o seu serviço de pós-venda e quais vantagens eu vou ter em relação ao atendimento? Qual é o tipo de suporte que a ferramenta possuí e quais os níveis de chamado e a escalabilidade? Quais algoritmos que essa ferramenta de mineração suporta? Há condições de implementar um algoritmo novo? Quais são os centros de treinamento disponíveis da ferramenta e quais são os treinamentos específicos para os tipos de análises que desejamos? Qual é a forma na qual eu posso implementar inferências estatísticas diversas nessa ferramenta, e quais os níveis de complexidades envolvidos nesse processo de implementação?

São perguntas básicas, que faz toda a diferença na questão de um projeto de mineração, pois podem influir de maneira amplamente negativa no desenvolvimento dos trabalhos de implementação e atraso nos cronogramas como um todo; é aquela velha máxima na qual se tem uma Ferrari para andar a 40 Km/h na cidade de São Paulo, e na maioria do trajeto em ruas de terra.

O Pós-Venda de uma Ferramenta e o impacto no projeto de Mineração de Dados/BI

Financial Series

Este site fará a contar de hoje uma série de resenhas sobre alguns papers que tratam especificamente de aplicações práticas de Mineração de Dados  em Finanças.

Há uma muitos bons artigos que são escritos mundo a fora e que infelizmente não temos acesso aqui no Brasil; muito pela a nossa baixa qualidade editorial que prefere trabalhar sobre blockbusters literários ao invés de construir as bases do saber dentro da nossa cultura técnica; mas isso é outra história.

Quem inicia os estudos em Mineração de Dados sempre escuta a mitológica história que Beers and Diepers, entretanto um outro assunto que ronda as discussões sobre essa disciplina é como realizar previsões no mercado de ações utilizando Mineração de Dados? E os papers que serão resenhados aqui de forma muito sucinta terá o objetivo de elucidar essas questões.

O site não tem nenhuma pretensão de ser algum tipo de Readers Digest da Mineração de Dados, mas tem como único objetivo se tornar um repositório de dados e um agregador sobre esse importante campo do saber que vem se desenvolvendo muito nesses últimos anos; e mostrar o que o seu professor na faculdade não vai te ensinar, bem como a sua editora favorita não vai publicar.

Enjoy!

Financial Series

STUPID DATA MINER TRICK

Para quem leu o excelente livro Nerds On the Wall Street; esse ‘paper’ trata de um caso clássicode  que a premissa muito popular em um passado recente que a mineração de dados era ‘torturar os dados até que eles gritem’  está mais que fora de contexto. Esse paper apresenta a correlação entre o índice da S&P500 com a produção de manteiga em… Bangladesh. Para ver a entrevista com o autor do livro, clique aqui.

STUPID DATA MINER TRICKS: OVERFITTING THE S&P 500

STUPID DATA MINER TRICK

Erros em Mineração de Dados – Predição de Terremotos Através de Manchas Solares

Um importante artigo de Cristian Mesiano aborda um problema muito recorrente na literatura de Mineração de Dados que é a não observância de aspectos básicos em relação aos dados a serem minerados; e valores de julgamento sobre a base a ser minerada. Ele elenca 4 aspectos que levam  um projeto de mineração de dados a falha que são 1) Confiança em demasia na base de dados, 2) Formulação da amostra de dados para análise, 3) Dependência dos resultados do Trainning Set, e 4) Explicação de fenômenos na base de dados através de algumas regressões. 

O post é bem curto, mas vale a pena a discussão e a reflexão.

Erros em Mineração de Dados – Predição de Terremotos Através de Manchas Solares