Modelo de Mineração de Dados para previsão de medalhas em Sochi-2014

Um trabalho interessante do Dan Graettinger usando modelos com regressão logística. Achei somente que ele usou muitas variáveis irrelevantes no modelo (consumo de energia?). Mas o trabalho foi muito bem escrito! Achei que ele poderia jogar um pouco do resultado para o acaso (cerca de 30-35% da estimativa.

2014 Winter Olympics Medal Count Prediction article

Modelo de Mineração de Dados para previsão de medalhas em Sochi-2014

Previsão dos Resultados da Temporada Regular da NFL

No blog do Vik’s ele está realizando um bom trabalho para realizar a predição dos jogos da NFL na temporada regular utilizando uma série histórica com os resultados e algumas informações da partida.

Previsão dos Resultados da Temporada Regular da NFL

Futebol Americano: Estatística e Análises com o Football Outsiders

Dentro do segmento esportivo tão importante quanto os aspectos táticos e técnicos envolvidos na prática esportiva, é o entendimento dos padrões e tendências por trás dos dados. Transformar esses dados em conhecimento para construção de estratégias nos dias de hoje com o aumento da competitividade esportiva já é um fator fundamental para definir quem vence e quem perde.

Com a proposta de prover análises estatísticas e o Football Outsiders sem sombra de dúvidas é o melhor site esportivo no segmento de análises ligadas ao futebol americano; que com algumas adaptações podem ser aplicadas ao nosso futebol (Soccer).

 

Futebol Americano: Estatística e Análises com o Football Outsiders

A NFL saindo da idade da pedra

Este post do Derrick Harris mostra que há uma tendência crescente de que os times de futebol americano da NFL estão cada vez mais contratando estatísticos, e que finalmente estão “tirando o atraso” em relação as outras ligas como a NBA ou a MLB.

Para quem assistiu o filme Moneyball e conhece os bastidores do futebol aqui no Brasil sabe que o processo de seleção dos times e remuneração de atletas é um tema espinhoso no qual sempre o “instinto” acaba prevalecendo sobre os aspectos técnicos e de custo e benefício.

Essa declaração abaixo da reportagem deixa o tema ainda mais interessante, no que diz respeito a seleção dos atletas no Draft:

As one anonymous source put it when discussing the difficulty of evaluating players before the NFL draft: “At the end of the day, the tape is going to be our first choice. They have to look good on film.”

His point and those of others with whom Battista spoke are fair. For example:

  • Offensive line play can be difficult to gauge because the line is a five-person unit designed to work well together, not as a collection of individuals.
  • How do you statistically assess a middle linebacker who doesn’t make a lot of tackles but who’s always in the mix and disrupting the offense?
  • When it comes to calling plays, there might be limited data on any given situation (e.g., a particular down and distance to go from a particular spot on the field), and the outcomes might be very much influenced by the players on the field in each of those prior situations.

Para quem deseja saber mais sobre a intersecção entre esportes e mineração de dados, basta consultar a resenha do livro Sports Data Mining que foi realizado aqui.

A NFL saindo da idade da pedra

Livro – Sports Data Mining: SCHUMAKER, Robert P.; CHEN , Hsinchun; SOLIEMAN, Osama K.

Fazia um bom tempo que o site não trazia algumas novidades sobre livros e tem cerca de 40 papers a serem comentados e uns 12 livros a serem resenhados; mas essa obra é especial porque une dois temas muito interessantes (e de gosto pessoal do moderador do site) que são Mineração de Dados e Esportes.

Esse livro tem como abordagem central a intersecção entre esportes, data collection (ou data gathering), e a mineração de dados aplicada a diversos domínios esportivos, que vão desde Baseball, passando pelo Basquete e Futebol e chegando no Curling.

A forma de linguagem que o livro é escrito e o seu desenvolvimento são bem agradáveis para leitura (literatura) técnica, na qual os autores trabalharam bem a simplicidade das colocações, seja na esfera esportiva ou na mineração de dados; o que torna a leitura bem dinâmica e principalmente instrutiva.

O livro saí do lugar comum entre os livros de mineração de dados aplicada, o qual apresenta a definição e a construção dos conceitos por trás da mineração de dados esportivos bem como os trade-offs dentro de cada esporte de forma bem honesta e transparente.

A obra tem um leve viés para o Baseball, o que é plenamente compreensível já que é o esporte que tem o maior volume de dados estudados atualmente. Entretanto, há o excelente caso do Milan que vale a pena a leitura. Ainda há indicações de ferramentas para data gathering e fontes de dados, além da apresentação de alguns aplicativos.

O ponto fonte sem dúvidas é o capitulo Research in Sports Statistics o qual mostra os primórdios dos estudos sobre as formas de metrificações de atributos esportivos, e claro, faz referência em grande parte do que foi proposto por Bill James (Sabermetrics) em seus abstracts. A forma da conceituação e construção de métricas esportivas já vale o preço do livro devido a simplicidade e a forma de raciocínio por trás dessa elaboração.

Os pontos fracos dessa obra são 1) a falta de maiores exemplos sobre as formas de métricas erradas em outros esportes além do basquete e do baseball, 2) a ausência de datasets de exemplos para quem deseja realizar uma abordagem mais hands-on, e 3) a parte de análise preditiva ficou um pouco vaga; e em esportes com uma alta competitividade e rotatividade de vencedores (atletismo, esportes automotores) pode não se aplicar de fato na forma em que é proposta no livro.

Em geral o livro é ótimo, e mostra que a abordagem data-driven aplicada aos esportes tem muito a evoluir, principalmente no futebol (soccer) e em outros esportes, e que a mineração de dados pode sim ser fator de desequilíbrio no campo estratégico de um time.

Este livro é indicado para: Estudantes de Ciência da Computação, professores de mineração de dados, especialistas em Banco de Dados, estudantes de Educação Física, e educadores físicos.

Não recomendado para: Quem não gosta de esportes.

Livro – Sports Data Mining: SCHUMAKER, Robert P.; CHEN , Hsinchun; SOLIEMAN, Osama K.

Mineração de Dados nos Esportes

Para quem não assistiu o filme Moneyball vale a pena assistir como é um trabalho de um cientista de dados aplicado ao esporte. De forma muito satisfatória mostra a história do Oakland Athletics após a análise estatística sobre os atributos de jogadores que estariam subvalorizados pelo mercado de transações.

Nesta entrevista do professor Jim Albert  é apresentado um panorama muito interessante para quem deseja aplicar métodos estatísticos, bem como mineração de dados no domínio esportivo.

Mineração de Dados nos Esportes

Previsão do tempo dos 100 Metros Rasos em Londres 2012

Dia 5 de Agosto do corrente ano será um dia histórico independente de quem ganhar o evento mais importante das Olimpíadas de Londres, os 100 metros rasos.

Provavelmente essa modalidade esportiva, perde em termos de complexidade de treinamento e desenvolvimento somente para o tênis e o Golf. Entretanto, o que chama mais atenção nesse evento são as possibilidades e a expectativa sobre se haverá se a quebra do record olímpico de 9.69s de Usain Bolt.

Passando para a parte que interessa que é de análise de dados e mineração de dados, há um post bem interessante do Markus Gesmann, no qual ele apresenta resultados de uma regressão logística e regressão linear sobre os tempos dos 100 metros rasos em uma série histórica. Os resultados são bem plausíveis e o modelo está bem estimado.

Previsão do tempo dos 100 Metros Rasos em Londres 2012

Previsão de Dados Esportivos – Espanha será campeã da Euro, segundo Economistas

O trabalho de Achim Zeileis, Christoph Leitner, e Kurt Hornik apresenta uma simulação de cenários para previsão da equipe que será campeã da Euro 2012, no qual os economistas afirmaram que será a Espanha.

O método do trabalho é interessante, porém o que não me agradou foi o conjunto de dados que foram tendências de bolsas de apostas; porém, isso não tira o foco do artigo que está bem escrito e pode servir de referências para trabalhos similares como avaliação de stats individuais para predição de times campeões.  

Previsão de Dados Esportivos – Espanha será campeã da Euro, segundo Economistas

Data Mining, ROI, e… Esportes

Esta matéria apresenta os resultados de um trabalho do Prof. Abraham Wyner da Universidade de Wharton, o qual ele faz o estudo da correlação entre as questões salariais e o desempenho dos times em algumas modalidades como Futebol Americano, Basquete, Baseball, Hockey no Gelo e futebol.

Fora os ótimos resultados apresentados (Como que no Futebol Europeu e o Hockey no Gelo tem um bom retorno em relação aos salários dos atletas); o estudo tem uma grande contribuição em relação a questões esportivas (em especial gestão esportiva) o qual pode servir de base para pesquisas como, por exemplo, o desempenho dos atletas propriamente dito e demais questões técnicas e táticas de acordo com o tipo de jogo.

Data Mining, ROI, e… Esportes

Análise de dados de Tênis utilizando WEKA – Rivalidade Roger Federer x Rafael Nadal

O tênis é um dos esportes que exigem um alto grau de precisão, e tecnicamente é um dos mais difíceis, no qual a execução de um golpe errado pode definir os rumos de uma partida como um todo. Uma das verdades universais é que o tênis é um jogo no qual ganha que erra menos, e isso é uma verdade quase que absoluta.

Dentro desse pequeno cenário, há atualmente no circuito da ATP dois gênios do esporte, que são atores de uma das maiores rivalidades da história do esporte. De um lado o maior jogador de todos os tempos Roger Federer, possuidor de nada menos do que 16 Majors e é recordista absoluto em títulos dessa natureza. Dotado de um estilo de jogo clássico, como poucos consegue unir agressividade e técnica refinada em seus jogos. Do outro lado Rafael Nadal vencedor de 10 Majors, e medalhista olímpico, rei absoluto da superfície de saibro. Tem como principal característica a extrema regularidade em seus golpes, e também por unir atributos físicos dignos de maratonistas, além de ter golpes que altíssimo volume de efeito.

Esses jogadores até hoje disputaram 26 partidas em torneios oficiais onde Nadal leva vantagem de 17-9 sobre Federer. O cenário dessa análise foi realizado através de dados de jogos da ATP entre esses dois jogadores desde 2004 até o último encontro (Londres, 2011) onde foram discretizados diversos atributos de acordo com stats da ATP como número de erros não forçados, aces, break points convertidos, entre outros.

A base de dados foi gerada consolidada em Excel, e tratada para o software de Mineração de Dados WEKA, no qual foi utilizada a técnica de Agrupamento (Clustering) no qual foi formado alguns centroides que são padrões de características nas quais tem atributos com um determinado grau de correlação.

Vamos para a prática.

Base de Dados: A base de dados foi retirada do site da ATP através dos stats de confrontos entre os dois jogadores. Os atributos foram discretizados de acordo com o seu quantitativo, ou seja não foram usadas as informações de porcentagem devido ao fato de manter maior fidelidade aos dados de cada partida, bem como não haver mistura na base do quantitativo real de aproveitamento em cada um dos jogos.

Atributos como TeveTieBreak, TimePlay e Winner foram colocados, por permitir uma melhor análise relacionada a ocorrência desses acontecimentos dentro de um jogo e elaborar um padrão não supervisionado com os dados.

Tratamento no WEKA: Após a discretização dos atributos no arquivo, realizei uma conversão para o Arff (formato padrão do WEKA), e fiz o load. Como havia dados numéricos e string, a melhor alternativa para esse dataset, bem como o objetivo era mais de uma abordagem exploratória; foi utilizado a técnica de Agrupamento (Clustering) pois trata-se de um aprendizado não supervisionado.

O algoritmo utilizado foi o SimpleKMeans que tem como característica realizar o agrupamento de acordo com um número de centroides. Neste caso, foi escolhido 10 centroides para representação, haja vista que mesmo com uma quantidade baixíssima de registros há muitas nuances entre os atributos, os quais alguns poucos são determinantes para a análise.

A medida de dissimilaridade (distância) escolhida foi a Euclidiana, devido ao fato de se obter um melhor processamento pelo Engine do WEKA, bem como se buscar a distância direta entre as métricas. Dentro de 26 ocorrências entre os dois jogadores, foi escolhido que se formasse 10 centroides, os quais apresentariam características em aproximadamente todos os eventos (Tournament) os quais já houveram confrontos.

O StringSet utilizado foi o seguinte: weka.clusterers.SimpleKMeans -N 10 -A “weka.core.EuclideanDistance -R first-last” -I 500 -S 10

Resultados: Através da análise dos resultados apresentados pelo algoritmo, chegamos algumas conclusões bem razoáveis.

1 – Nadal praticamente tem ampla superioridade ao rival no confronto direto em superfícies de Saibro, no qual em todos os clusters com ocorrência de jogos no saibro o espanhol leva ampla vantagem.

2 – Em todos os agrupamentos quem ganhou o primeiro set, geralmente foi o vencedor do confronto; fator esse que pode ser determinante pensando em termos de análise dos jogos.

3 – Uma regra bem interessante é que os jogadores tem uma maior probabilidade de conseguir aces no piso de grama, já que é este no qual os mesmos obtém a maior média de acertos; em seguida.

4 – Os torneios em que os jogadores apresentam maiores dificuldades em defesa de break points são para Roger Federer o aberto da França, e para Rafael Nadal o aberto da Inglaterra.

5 – Em apenas um cluster o padrão de confronto entre os dois não foram a final dos torneios em que disputaram.

6 – No cluster que indica uma maior frequência de confrontos (Miami) os dois tenistas apresentam as maiores médias de duplas faltas, o que pode ser explicado pelo fato do torneio de Miami ocorrer no início da temporada.

É até obvio que o modelo criado não é perfeito, e há muitas imperfeições na base; como por exemplo dois clusters outliers (Hamburgo e Roma) os quais apresentam dados muito discrepantes para qualquer tipo de análise; mas é nesse momento em que entra a figura do analista de data mining que avalia de acordo com as regras de negócio; bem como realiza modificações (transformando em dados puros, para porcentagem para equilíbrio de pesos) necessárias para uma melhor análise.

PS: Esse post foi inicialmente escrito antes do jogo da data de hoje (26 Jan 11), porém foi finalizado após a vitória do Rafael Nadal por 3 x 1; no qual quem ganhou o primeiro set foi o Roger Federer, e foi na superfície dura. O Australian Open não entrou na análise devido ao algoritmo não ter considerado o número de ocorrências do mesmo (1 até o jogo de hoje). Isso mostra que os dados puros não significam muita coisa sem o analista.

PARA LER:

ATP Head to Head – http://www.atpworldtour.com/Players/Head-To-Head.aspx?pId=F324&oId=N409

DE HOON, Michiel. Similarity Measures – http://bonsai.hgc.jp/~mdehoon/software/cluster/manual/Distance.html

IOS. Euclidean and Encludean Squared Distance

HANNEMAN, Robert. Measures of similarity and structural equivalence. – http://faculty.ucr.edu/~hanneman/nettext/C13_%20Structural_Equivalence.html

WIKIPEDIA. Federer and Nadal Rivalry – http://en.wikipedia.org/wiki/Federer%E2%80%93Nadal_rivalry

DATASET e demais arquivos: http://dl.dropbox.com/u/8266208/Tennis%20WEKA%20Project.rar

Análise de dados de Tênis utilizando WEKA – Rivalidade Roger Federer x Rafael Nadal