Uma introdução a Mineração de Dados…Em uma Imagem

Um interessante site que desccreve, todas as disciplinas dentro da Mineração de Dados e suas ramificações em uma ÚNICA figura.

Uma introdução a Mineração de Dados…Em uma Imagem

Estados Unidos relaxa os limites do uso de dados para prevenção do Terrorismo

Pessoalmente não gosto da gestão do Presidente Barack Obama, devido a inúmeros aspectos que vão desde a falta de comprovação do seu local de nascimento, relações não explicadas entre líderes islâmicos que financiaram a sua carreira estudantil, e em especial e mais preocupante o relaxamento iniciado em sua gestão do departamento de Homeland and Security (algo como Segurança de Estado).

Com esse prólogo, é que entra esse aspecto da segurança nacional que é de extrema importância. A Mineração de Dados aplicada a segurança de estado pode auxiliar de maneira quase que providencial como:

  • Análise de padrões de utilização de consumo de imigrantes;
  • Utilização de Cartões de Crédito em pessoas sob suspeita;
  • Reconhecimento de padrões de incidência criminal em determinadas regiões do país;
  • Mapeamento de rede de conexões de presos por práticas terroristas.

A maior mudança, sem sombra de dúvidas é a redução de Data Gathering (Aquisição, Retenção, Análise, e Armazenamento de Dados) do período de 5 anos para 180 dias; o que é extremamente péssimo em todos os sentidos de análise de dados. Para se ter uma idéia, se um suspeito de atividades terroristas comprar em 1 Jan 700 Kg de Fertilizante (Utilizado para criação de Bombas, como as que geraram o atentado em Oklahoma) em 10 de Jul o mesmo pode simplesmente comprar outros tipos de materiais para formulação da bomba, porém os dados adquiridos em Jan já não estarão disponíveis para análise; o que é sem dúvida uma aberração em termos de análise de dados só para ficar em um exemplo em particular.

Uma péssima medida que não somente fortalece os imimigos externos dos Estados Unidos, bem como fortalece e afrouxa a fiscalização para que não haja o terrorismo doméstico.

Para saber mais:

US Relaxes Limits on Use of Data in Terror Analysis.

National Counterterrorism Center New Guidelines

NCTC – 2012

National Counterterrorism Center Previous Guidelines

NCTC – 2008

Estados Unidos relaxa os limites do uso de dados para prevenção do Terrorismo

Projeto Genoma Disponível

Uma ótima noticia para os viciados em Mineração de Dados é a disponibilização do projeto genoma pela Amazon. Para quem não sabe o projeto Genoma tem como finalidade realizar o mapeamento da carga genética e de acordo com a análise desse material realizar estudos que permitam prever uma doença específica, bem como realizar trabalhos de acompanhamento do desenvolvimento dessas doenças para implementação de pesquisas bio-médicas.

Projeto Genoma Disponível

Como as empresas sabem os seus segredos?

Um tema bastante recorrente em pesquisas acadêmicas, é a análise comportamental do consumidor em relação ao seu padrão de consumo. É hoje mais do que nunca as empresas recorrem a recursos interdisciplinares para atingir o seu alvo que é o consumidor. Isso se dá na formação de equipes com especialistas de Marketing, Psicanalistas Comportamentais,  Economistas e Estatísticos. Essa série de artigos do NYT aborda justamente isso, e mostra que vale qualquer coisa para atingir o objetivo principal que é vender.

Como as empresas sabem os seus segredos?

Mineração de Dados no questão da Siria

Um dos eventos mais trágicos da sociedade é uma guerra. Ponto. Se essa guerra é fruto de ódio entre irmãos de pátria é mais terrível ainda. Na Síria como se sabe está em curso conflitos para derrubada de um governante que vem se estabelecendo no poder a alguns anos. Em uma situação dessa natureza, o mais comum é suprimir todos os tipos de dados e informações sobre o conflito, e isso é enormemente estudado nas Ciências Militares em operações de Contra-Inteligência. Porém, o que chama atenção nesse artigo é como a Mineração de Dados é utilizada para mapeamento de Mortes, geração de gráficos sobre a onda de violência e rastreamento de conflitos.

Mineração de Dados no questão da Siria

Bigger data, better intelligence for government

Em uma ótima iniciativa o Governo dos Estados Unidos está realizando um projeto para disponibilizar uma plataforma de dados públicos para todas os interessados em realizar análises sobre dados governamentais. É mais do que justo que essa iniciativa tenha um foco por todos os setores da sociedade, em especial o acadêmico; pois não há objetivo mais proveitoso para a análise de dados do que melhorar a vida das pessoas.

Bigger data, better intelligence for government

Investing in Analytics in difficult times

Esse artigo tem um ótimo foco em relação ao investimento em tempos de crise e orçamentos apertados. É mais do que comum em qualquer empresa, em um momento de crise faça cortes em diversos departamentos, e não raramente vemos setores de análises sofrendo reduções e até eliminação total. É mais do que necessário saber que em tempos de crise o mais importante não é fazer; mas sim saber o que tem que ser feito para sair da situação, e somente com um time de análise essa situação pode ser revertida.

Expertise: Advanced (e.g. Predictive) Analytics is a very specific domain requiring very specific skills. Experts have usually grown into their role by combining advanced and detailed training with professional experience on real-life projects. Today, both service suppliers and vendors focus highly on R&D activities and the creation of relevant new business applications.

Focus: While some organizations are purely focused on Advanced Analytics, other companies may offer Analytics as a part of their broader services offering. For some situations, a niche player will prove most valuable, while in other situations the broader range of services might prove most useful. Choose carefully.

Partnership potential: Engaging in longer term analytical partnerships usually requires a more intense form of commitment. It may make sense for all parties to work transparently and to share more strategic insights in return for agreements of confidentiality, knowledge transfer and perhaps even exclusivity.

Budget: Obviously, the budget may play an important role. However, to allow comparisons, it may make sense to take into account daily rates, speed (time to execute standard projects), and expertise when comparing budgets.

Investing in Analytics in difficult times

Lifebrowser Personal Data Mining: Microsoft Builds a Browser for Your Past

Um importante projeto da Microsoft chamado Lifebrowser vem fazendo barulho em relação a utilização de inteligência artificial para ‘Mineração de Dados’ pessoais, no qual através de alguns documentos, o LifeBrowser faz correlações de passagens de acordo com o contexto cronológico.

Lifebrowser Personal Data Mining: Microsoft Builds a Browser for Your Past

Data mining methods in Omics-based biomarker discovery

Um paper bastante interessante sobre a aplicação da Mineração de Dados para predição de diagnóstico e acompanhamento clínico; em especial na área de genômica e proteômica.

Data mining methods in Omics-based biomarker discovery

Projeto de Mineração de Dados – DMS Project

Esse site de Dragan Gamberger, Tomislav Smuc e Ivan Maric (Cientistas de um projeto do Ministério de Ciência e Tecnologia da Croácia através do Instituto Rudjer Boskovic) tem um bom repositório de Dados para quem deseja iniciar ou ter uma idéia introdutória de como pode ser conduzido um projeto de Mineração de Dados, inclusive com tutoriais bem explicativos sobre as fases do projeto, objetivos e milestones. Há inclusive alguns materiais bastante interessante sobre Multiclass Decision Problems (Problemas de Decisão de Multiplas  Classes). Vale a pena conferir.

Projeto de Mineração de Dados – DMS Project

Taxi!

Essa coluna de Joe Malkevitch (York College (CUNY)) foi publicado na American Mathematical Society e aborda um tema bastante relevante em mineração de dados que é a geometria da medida de distância Taxicab (Manhattan). A coluna coloca em aspectos práticos a definição e aplicação dessa medida de distância apresentando exemplos de como funciona e as suas aplicações. O mais interessante sobre tudo, é que o entendimento dessa parte da matemática abre um grande leque de possibilidades em relação ao sair do lugar comum (leia-se, Distância Euclideana) no desenvolvimento de uma análise de agrupamento; ou mesmo em um projeto de mineração de dados no qual não  todos os dados não são discretizados, ou esses dados sofram uma variação de range muito alta devido a inúmeros outliers.

Feature Column from the AMS

Taxi!

Obama irá vencer as eleições de 2012

Em uma entrevista para o podcast IEEE Spectrum’s “Techwise Conversations” David Rothschild (Economista do Yahoo Labs) fala um pouco sobre a previsão elaborada por ele de que Obama irá vencer as eleições presidenciais desse ano. O destaque de fato da entrevista é que ele como economista apresenta diversas justificativas para o seu modelo de predição; no qual ele considerou diversas variáveis importantes e principalmente revelou que teve atenção especial sobre as tendências. Ótimo para quem quer saber em alto nível como se define um modelo para predição baseado em dados. 

Obama irá vencer as eleições de 2012

Utilização de Mineração de Dados em Inteligência Militar

O artigo Military Intelligence Redefined: Big Data in the Battlefield do Chris Young faz um paralelo entre o mundo corporativo e as atividades de inteligência militar na utilização do conceito de big data para análises.  É um bom artigo para iniciar o pensamento de que a guerra na era da informação já começou. Os vencedores não serão os que tiverem o maior poderio físico/militar; mas sim quem obter a maior massa de dados sobre as atividades do inimigo; bem como a capacidade de análise/ação.

Utilização de Mineração de Dados em Inteligência Militar

Algorithmic Finance Journal

Um dos bons achados na internet, é esse excelente Journal of Algorithmic Finance que entre outros aspectos inerentes á área das finanças tem trabalhos muito interessantes sobre aplicação desses modelos dentro da esfera computacional. Vale a pena conferir.

Algorithmic Finance Journal

Cancer Program Data Sets

Para quem deseja realizar estudos sérios sobre Mineração de Dados aplicado na área da saúde, esse repositório de dados disponibilizado pela Broad Institute é um prato cheio. A muitos modelos a serem explorados, e de acordo com a disposição do pesquisador, ele pode adaptar os modelos e aplicar em sua comunidade, cidade e/ou região. Nota 10 para a iniciativa!

Cancer Program Data Sets

Stuttgart Neural Network Simulator

Para quem tem interesse em estudos relacionados a Redes Neurais, essa é uma ótima alternativa para estudos. Testei a ferramenta e a principio é bem simples de usar, porém; requer um pouquinho de conhecimento na técnica para obter melhores resultados. A falta de um tutorial não atrapalha os estudos. Muito bom!

Stuttgart Neural Network Simulator

Minority Report ? – Predicting Juvenile Offending: A Comparison of Data Mining Methods.

Esse trabalho desenvolvido na Nanyang Technological University em Singapura trata de um estudo sobre delinquência juvenil, no qual de acordo com o modelo formulado pelos autores os mesmos chegaram com um poder de predição baseado no modelo de 95% de acuidade. Minority Report já em curso?

Minority Report ? – Predicting Juvenile Offending: A Comparison of Data Mining Methods.

Maximal Information Coefficient (MIC) – Detecting Novel Associations in Large Data Sets

Um dos melhores artigos que li esse ano saiu na Science (a revista com o maior fator de impacto em pesquisa no mundo) que trata um conceito relativamente novo de Maximal Information Coefficient (MIC) (algo como coeficiente máximo de informação) que de uma maneira bem simplista é a habilidade de descrição de uma correlação (ou seja, algo que está diretamente a constante a ser medida) entre diversos tipos de variáveis mesmo se houver relacionamento linear ou não linear entre essas variáveis, no qual seria uma espécie de medida que seria insensível ao ruído nos dados dentro de uma regressão linear por exemplo.

Maximal Information Coefficient (MIC) – Detecting Novel Associations in Large Data Sets