Porque o Overfitting é mais perigoso do que uma acurácia baixa?

O Dean Abbott mostra uma reflexão interessante no que tange modelos de dados que possam ser generalizados e os perigos do Overfitting. Após a leitura desse artigo, fica mais evidente que modelos de dados devem ser testados, se possíveis, com amostras separadas dos conjuntos de dados de treinamento e teste (Holdout).

Porque o Overfitting é mais perigoso do que uma acurácia baixa?

O Paradoxo do Overfitting

No site do Dr. Bruce Ratner ele posta um artigo bem interessante sobre Overfitting. Para quem já teve oportunidade de trabalhar com modelagem preditiva ou classificatória o Overfitting é quase que uma regra em muitos papers picaretas que saem em algumas revistas (em especial papers que realizam análise preditiva sobre indices de bolsas de valores). […]

O Paradoxo do Overfitting

Truques Estúpidos em Mineração de Dados – Overfitting no índice S&P500

Neste artigo do David Leinweber (o qual já foi tema do site aqui e aqui) ele coloca algumas considerações a respeito do fato de que muito do que se fala sobre Mineração de Dados está fartamente relacionado a relações absurdas que podem acontecer pelo fato de “torturar os dados” como a predição do índice Standard & […]

Truques Estúpidos em Mineração de Dados – Overfitting no índice S&P500

Overfitting e a Expansão Contínua do Modelo

Nesse post do Statistical Modeling, Causal Inference apresenta o conceito de Expansão Contínua; na qual para evitar o Overfitting do modelo ao invés de  realizar escolhas pela média do Cross-Validation, o autor prefere escolher um modelo dentro de uma determinada metodologia e realizar refinamentos sucessivos. É interessante esse conceito, e mostra que o minerador de […]

Overfitting e a Expansão Contínua do Modelo

A small journey in the valley of Natural Language Processing and Text Pre-Processing for German language

Originally posted in MyHammer blog. TL;DR: If you find yourself in the same situation what I was (i.e. millions of records with labeling problems, no fluency in the language, 200+ classes to predict and all of this in a very specific business segment) invest the maximum amount of time in text pre-processing, generation of word […]

A small journey in the valley of Natural Language Processing and Text Pre-Processing for German language

Explaining the Success of AdaBoost and Random Forests as Interpolating Classifiers

Explaining the Success of AdaBoost and Random Forests as Interpolating Classifiers Abstract: There is a large literature explaining why AdaBoost is a successful classifier. The literature on AdaBoost focuses on classifier margins and boosting’s interpretation as the optimization of an exponential likelihood function. These existing explanations, however, have been pointed out to be incomplete. A random […]

Explaining the Success of AdaBoost and Random Forests as Interpolating Classifiers

L2 Regularization versus Batch and Weight Normalization

Abstract: Batch Normalization is a commonly used trick to improve the training of deep neural networks. These neural networks use L2 regularization, also called weight decay, ostensibly to prevent overfitting. However, we show that L2 regularization has no regularizing effect when combined with normalization. Instead, regularization has an influence on the scale of weights, and […]

L2 Regularization versus Batch and Weight Normalization

Analysis of dropout learning regarded as ensemble learning

Abstract: Deep learning is the state-of-the-art in fields such as visual object recognition and speech recognition. This learning uses a large number of layers, huge number of units, and connections. Therefore, overfitting is a serious problem. To avoid this problem, dropout learning is proposed. Dropout learning neglects some inputs and hidden units in the learning […]

Analysis of dropout learning regarded as ensemble learning

A Note on the Validity of Cross-Validation for Evaluating Autoregressive Time Series Prediction

Um bom artigo sobre a aplicação de Cross Validation em séries temporais. Abstract: One of the most widely used standard procedures for model evaluation in classification and regression is K-fold cross-validation (CV). However, when it comes to time series forecasting, because of the inherent serial correlation and potential non-stationarity of the data, its application is not […]

A Note on the Validity of Cross-Validation for Evaluating Autoregressive Time Series Prediction

Deep Dive com Gradient Boosting Machine com H2O + R (Mais Grid Search!)

Dando sequência a alguns tutoriais sobre o uso do R como linguagem de programação junto H2O como backend de processamento e memória (duas principais limitações do R) vamos falar um pouco de Gradient Boosting Machine e usar uma base de dados de crédito de um banco fictício chamado “Layman Brothers”. Gradient Boosting Machine é um meta-algoritmo […]

Deep Dive com Gradient Boosting Machine com H2O + R (Mais Grid Search!)

Como um agricultor do Japão está usando Deep Learning para seleção de pepinos

Direto do blog da Google […]Here’s a systems diagram of the cucumber sorter that Makoto built. The system uses Raspberry Pi 3 as the main controller to take images of the cucumbers with a camera, and in a first phase, runs a small-scale neural network on TensorFlow to detect whether or not the image is […]

Como um agricultor do Japão está usando Deep Learning para seleção de pepinos

Introdução sobre Análise de Cluster

Por mais que a análise exploratória de dados ocupe um espaço muito grande em relação em problemas de ciência de dados, os métodos de aprendizado não-supervisionados ainda tem o seu valor, mesmo que nas comunidades científicas e profissionais pouco se fala sobre esse tema com a mesma recorrência dos métodos preditivos. Uma das técnicas mais […]

Introdução sobre Análise de Cluster

Mecanismos de Ataque em Deep Learning via Manipulação de Inputs

Vamos imaginar duas situações que não estão longe da nossa realidade prática: Situação 1 – Você tem um carro auto-dirigível que faz todo o mapeamento do itinerário verificando condições da estrada, coletando dados sobre o tráfego, e ao longo a viagem o seu carro através de câmeras vai realizando todo o mapeamento dos sinais de trânsito. […]

Mecanismos de Ataque em Deep Learning via Manipulação de Inputs

O que é ideal no modelo: Acurácia ou Explicabilidade?

Esse post provocador do Inference vem em uma boa hora dado que está um hype bem alto a respeito de Deep Learning, e há muitas dúvidas a respeito do seu poder preditivo, este que muitas vezes flertam com o overfitting mas esse não é o motivo desse post. O ponto principal que eu gostaria de ressaltar […]

O que é ideal no modelo: Acurácia ou Explicabilidade?

Qual a diferença entre LASSO e Ridge Regression?

Eu sei que essa pergunta é velha, mas sempre que alguém não consegue entender alguma coisa é uma nova oportunidade de transmitir esse conhecimento de forma mais inteligente em um novo formato. Essas duas técnicas derivadas da regressão são conhecidos com métodos regressores de Shrinkage, ou de encolhimento. Isso torna-se necessário partindo do seguinte princípio: Uma […]

Qual a diferença entre LASSO e Ridge Regression?

Overview sobre Deep Neural Networks (Redes Neurais Artificiais em Profundidade)

No Random Ponderings tem um overview (que já é quase uma introdução completa) sobre Redes Neurais Artificiais em Profundidade. Esse tema não é relativamente novo, mas tem tomado um grande espaço na literatura atual devido ao fato que essa técnica vem solucionando importantes problemas ligados à classificação, principalmente em relação à aproximação por imagens. Essas redes nada mais são […]

Overview sobre Deep Neural Networks (Redes Neurais Artificiais em Profundidade)