Dismistificando Deep Reinforcement Learning

Um dos tópicos mais quentes em Data Science é a utilização de Deep Learning para problemas ligados à computação visual.

No entanto, nesse post do Nervana uma abordagem que mescla Deep Learning e Reinforcement Learning (Aprendizado por Reforço) é usada para jogar um determinado título no Atari.

Provavelmente esse é o melhor post sobre o assunto, tanto pela a abordagem, quanto pelo grau de profundidade pelo qual o autor trata o assunto.

A ideia geral é que não adianta colocar uma Deep Neural Network para o aprendizado, sendo que em termos combinatórios o espaço de busca é muito grande (1067970  estados pra ser mais preciso).

Dessa forma a abordagem consistiu em combinar Aprendizado por Reforço para formulação da estrutura de recompensa e punição (tanto no curto prazo quanto para ações no longo prazo), cadeia de Markov para modelagem do ambiente/sequências e repetições, e uma abordagem que os autores chamam de Q-Learning.

Q-Learning é explicado pelo autor como:

In Q-learning we define a function Q(s, a) representing the maximum discounted future reward when we perform action a in state s, and continue optimally from that point on.

Screen Shot 2015-12-21 at 11.09.47 AM

The way to think about Q(s, a) is that it is “the best possible score at the end of the game after performing action a in state s“. It is called Q-function, because it represents the “quality” of a certain action in a given state.

Enfim, esse artigo vale a pena para quem quem trabalha com modelagem de problemas não só da computação visual, como também quem trabalha com problemas estruturados.

Dismistificando Deep Reinforcement Learning

Diferença entre Data Mining (Mineração de Dados) e Machine Learning (Aprendizado de Máquina)

Neste post do ARE os autores fazem uma tabela que se não representa 100% do que são essas duas disciplinas tão interligadas, ajuda ao menos colocar um pouco de luz na discussão.

Parâmetro Data Mining (Mineração de Dados) Machine Learning (Aprendizado de Máquina)
Definição Processo de extração de informação de um conjunto de dados e transformação de uma estrutura entendível para posterior uso. Tem como objetivo a construção e estudo de sistemas que podem aprender com os dados.
Foco Tem o foco na descoberta de propriedades desconhecidas dos nos dados. Tem foco na predição, baseado em características conhecidas e aprendidas pelos dados de treinamento.
Tamanho da Base de Dados É um processo automático ou semi-automático para performar em bases com grandes quantidades de dados. É geralmente performada em bases de dados pequenas para o aumento da acurácia.
Tipos Regras de Associação, Classificação,  Clustering (Agrupamento), Padrões Sequenciais, Sequência de Similaridade Supervisionado, Não-Supervisionado, Reforço
Relacionamento A Mineração de Dados usa diversas técnicas provenientes de Aprendizado de Máquina, mas com objetivos distintos. O Aprendizado de Máquina também usa técnicas de mineração de dados como “Aprendizado Não-Supervisonado” ou como “Passo de Pré-Processamento” para melhoria do modelo de aprendizado.
Aplicações Previsão, Classificação, Associação, Clustering (Agrupamento), Geração de Sequências Automação de Controle de Acesso de Funcionários, Proteção da Fauna, Predição de tempo de espera em salas de emergência, Identificação de falha cardíaca
Exemplos de Softwares Carrot2, GATE, UIMA, Weka, NLTK, Torch etc. Apache Mahout ,ELKI, H2O, OpenCV, OpenNN, Weka, MATLAB etc.

 

Diferença entre Data Mining (Mineração de Dados) e Machine Learning (Aprendizado de Máquina)

Análise de Outliers: Teorema de Chebyschev X Abordagem Baseada e Informação Mútua

Nesse artigo de Cristian Mesiano é realizada a comparação entre o Teorema de Chebyschev e a abordagem baseada em Informação Mútua na questão da detecção de outliers, na qual, o Teorema de Chebyshev é baseado na distância de valores Z-Score de acordo com o Desvio Padrão do valor K, e a Informação Mútua remove interativamente os Z-Scores de forma ordenada até que a informação entre os Z-Scores e os candidatos a outliers aumente; e dessa forma a cada passo interativo do algoritmo o candidato a outliers tem o maior valor absoluto no dataset.

Análise de Outliers: Teorema de Chebyschev X Abordagem Baseada e Informação Mútua