Modelo de Mineração de Dados para previsão de medalhas em Sochi-2014

Um trabalho interessante do Dan Graettinger usando modelos com regressão logística. Achei somente que ele usou muitas variáveis irrelevantes no modelo (consumo de energia?). Mas o trabalho foi muito bem escrito! Achei que ele poderia jogar um pouco do resultado para o acaso (cerca de 30-35% da estimativa.

2014 Winter Olympics Medal Count Prediction article

Modelo de Mineração de Dados para previsão de medalhas em Sochi-2014

Big Data contradiz senso comum na NFL

Nessa reportagem de Isaac Lopez ele traz alguns dos resultados do pesquisador Jesse Anderson sobre análise de Big Data (o que não é tão ‘big’ assim)  dos dados da NFL, no qual ele chega a algumas conclusões que muito do senso comum sobre o jogo simplesmente tem um fator de influência muito baixo.

Abaixo algumas análises do estudo:

Metodologia e Coleta de Dados

Using data collected by the website Advanced NFL Stats, Anderson put ten years of NFL play-by-play data into Hadoop to try to extract useful information from the unstructured data. “I spent a good 80% of my time dealing with problems in the data,” he explained discussing the challenges of working with an unstructured data set that contains 2,898 games with 471,392 plays. The biggest challenge he explained, was in the natural language processing, and getting useful data out consistently. He says he used regular expressions to parse out the human-generated strings and extract useful info.

Sobre a altitude de jogar no estádio do Denver Broncos

Anyone who watches the NFL has seen the images of the players on the sidelines huffing oxygen through masks, while the announcers dramatize the images with talk about the advantage that the Denver Broncos have in their mile high home field. According to the data, the altitude doesn’t really show any discernible effect in either the outcome or how the game is played relative to other stadiums, saving one minor difference: a 1% increase in passes. 

Sobre Jogar em Casa

However, that doesn’t mean that there aren’t real home field advantages to speak of. The home team wins an average of 57% of the time. There are outliers to this number, however. Baltimore was the biggest outlier in the data when they were at home and were playing in weather, winning on average 22-14 in adverse conditions. This makes some visceral sense given the strength of their defense during this period of time, and considering that offenses would have to battle against both it and the weather. 

Sobre a evolução no jogo das equipes quando estão com a bola

The data revealed some interesting things about the way the game is played. On first downs, 52% of the time it’s a run, and 42% of the time it’s a pass. On second down, it’s 45% run, and 49% pass. And on third downs, this changes dramatically, with runs falling to 26% and passing climbing to 66%. However, the thing that changed the way the game was played the most is the wind. At calm winds, 41% of the plays resulted in passes, and 37% were runs. But when the wind climbed higher than 30 MPH, this virtually flips, with 34% of plays resulting in passes, and 46% resulting in runs.

Big Data contradiz senso comum na NFL

Previsão dos Resultados da Temporada Regular da NFL

No blog do Vik’s ele está realizando um bom trabalho para realizar a predição dos jogos da NFL na temporada regular utilizando uma série histórica com os resultados e algumas informações da partida.

Previsão dos Resultados da Temporada Regular da NFL

Futebol Americano: Estatística e Análises com o Football Outsiders

Dentro do segmento esportivo tão importante quanto os aspectos táticos e técnicos envolvidos na prática esportiva, é o entendimento dos padrões e tendências por trás dos dados. Transformar esses dados em conhecimento para construção de estratégias nos dias de hoje com o aumento da competitividade esportiva já é um fator fundamental para definir quem vence e quem perde.

Com a proposta de prover análises estatísticas e o Football Outsiders sem sombra de dúvidas é o melhor site esportivo no segmento de análises ligadas ao futebol americano; que com algumas adaptações podem ser aplicadas ao nosso futebol (Soccer).

 

Futebol Americano: Estatística e Análises com o Football Outsiders

Mineração de Dados nos Esportes

Para quem não assistiu o filme Moneyball vale a pena assistir como é um trabalho de um cientista de dados aplicado ao esporte. De forma muito satisfatória mostra a história do Oakland Athletics após a análise estatística sobre os atributos de jogadores que estariam subvalorizados pelo mercado de transações.

Nesta entrevista do professor Jim Albert  é apresentado um panorama muito interessante para quem deseja aplicar métodos estatísticos, bem como mineração de dados no domínio esportivo.

Mineração de Dados nos Esportes

Previsão de Dados Esportivos – Espanha será campeã da Euro, segundo Economistas

O trabalho de Achim Zeileis, Christoph Leitner, e Kurt Hornik apresenta uma simulação de cenários para previsão da equipe que será campeã da Euro 2012, no qual os economistas afirmaram que será a Espanha.

O método do trabalho é interessante, porém o que não me agradou foi o conjunto de dados que foram tendências de bolsas de apostas; porém, isso não tira o foco do artigo que está bem escrito e pode servir de referências para trabalhos similares como avaliação de stats individuais para predição de times campeões.  

Previsão de Dados Esportivos – Espanha será campeã da Euro, segundo Economistas

Roland Garros – Data Mining Slam Tracking

Depois dos esportes americanos o Tênis é um dos esportes que contém a maior vastidão de estudos e estatíticas sobre jogadores, torneios e jogos em geral.

A IBM vem a alguns anos realizando um ótimo trabalho no desenvolvimento do SlamTracker que é uma suíte de permite visualizar os dados durante as partidas; e envolve muito do que é a Mineração de Dados em tempo real.

Através de atributos chave como sets, serviços, aces, erros e pontos ganhos é possível ver o jogo quase como se fosse telemetria; e além disso tem uma característica muito bacana chamada Momentum que é uma métrica de evolução no jogo dos atletas de acordo com os pontos ganhos, e a importância desses pontos; de modo que é possível verificar durante a partida qual o jogador que está em um momento melhor durante a partida.

Roland Garros – Data Mining Slam Tracking