Como funciona o nosso modelo de IA
Um modelo de machine learning mais dois modelos estatísticos, combinados num único conjunto.
Cada previsão do Daily Sport Pick é gerada por três modelos independentes que votam em conjunto. As suas probabilidades são combinadas numa pontuação de conjunto entre 0 e 100%.
Isto reduz o risco de um ponto cego de um único modelo distorcer a previsão: um modelo pode errar, mas é raro os três errarem no mesmo sentido.
| Num relance | |
|---|---|
| Modelos combinados | Machine learning + Poisson + Dixon-Coles |
| Dados de treino | Mais de 28 000 jogos históricos (2024 → hoje) |
| Precisão de teste do ML (1X2) | ~45% num conjunto de teste estritamente cronológico |
| Características por previsão | 30 (forma, golos, ELO, força da liga) |
| Ligas principais publicadas | 14 (as nossas competições com melhor cobertura) |
| Atualização | Os modelos correm todas as manhãs |
O futebol é difícil de prever, e um mercado eficiente deixa pouca margem. Muitos sites anunciam uma precisão inflacionada obtida com uma divisão aleatória dos dados — mas isso deixa escapar jogos futuros para o treino. Usamos uma divisão cronológica (aprender com o passado, testar nos jogos posteriores), que dá uma precisão honesta de cerca de 45%. Preferimos mostrar-te um número real e avaliar-nos pela calibração — se um «60% de probabilidade» anunciado se concretiza mesmo perto de 60% das vezes.
Modelo 1 — Machine learning (peso de 60%)
O nosso modelo principal é um classificador de árvores de decisão potenciadas por gradiente treinado com mais de 28 000 jogos históricos. O nosso modelo mais recente (histogram gradient boosting, v4) gere as competições principais, com um modelo v3 de reserva.
Precisão: ~45% a prever o resultado 1X2 correto num conjunto de teste cronológico reservado de cerca de 4 300 jogos recentes — bem acima do acaso e da base maioritária.
O modelo usa 30 características por previsão, entre elas:
- Pontuações ELO — uma pontuação global mais pontuações casa/fora distintas
- Forma recente — vitórias, empates, derrotas e uma pontuação de forma ponderada
- Médias de golos — golos marcados e sofridos por jogo numa janela recente
- Força da liga — o nível e a competitividade da competição
O modelo gera uma probabilidade para cada resultado. Todas as características são calculadas no momento do jogo: só se usa informação disponível antes do apito inicial, evitando qualquer fuga de dados.
Modelo 2 — Distribuição de Poisson (peso de 20%)
O modelo de Poisson adota uma abordagem puramente matemática. Estima o número de golos esperados de cada equipa e depois calcula a probabilidade de cada resultado.
Para cada resultado (por ex. 1-0, 2-1, 0-0) calcula uma probabilidade, da qual se deduz:
- As probabilidades 1X2 (vitória casa / empate / vitória fora)
- As probabilidades de Mais/Menos golos
- Os resultados exatos mais prováveis
Calcula pontuações de ataque e defesa por equipa a partir dos golos marcados e sofridos, ajustadas pela força da liga.
Modelo 3 — Dixon-Coles MLE (peso de 20%)
O modelo de Dixon-Coles (Dixon & Coles, 1997) amplia Poisson para corrigir a sua fraqueza nos jogos com poucos golos.
Dixon-Coles acrescenta um fator de correção chamado tau (τ) para os quatro resultados renhidos (0-0, 1-0, 0-1, 1-1). Ajusta os seus parâmetros por estimativa de máxima verosimilhança (MLE) com o otimizador L-BFGS-B do scipy, em vez de uma simples média, e é ponderado no tempo: os jogos recentes contam mais.
Dixon-Coles é ajustado separadamente para cada competição, em centenas de ligas — muito para além das principais.
O conjunto: combinar os modelos
Depois de cada modelo prever um jogo, combinamos as suas saídas com pesos fixos, otimizados em dados reais.
| Abordagem | Peso | Otimizado para |
|---|---|---|
| Machine learning (v4 + reserva v3) | 60% | Resultado geral do jogo (1X2) |
| Distribuição de Poisson | 20% | Mercados de Mais/Menos e golos |
| Dixon-Coles MLE | 20% | Resultados e correção de jogos com poucos golos |
Se um modelo não estiver disponível para uma competição, os pesos são renormalizados entre os modelos restantes.
A pontuação de conjunto constrói-se então a partir de quatro componentes:
| Componente | Intervalo | O que premeia |
|---|---|---|
| Pontuação base | 0–75 | A probabilidade ponderada do resultado previsto |
| Bónus de consenso | 0–15 | +15 se os três modelos concordam, +7 se dois concordam |
| Bónus de margem | 0–10 | Quão claramente o resultado principal se destaca |
| Bónus de consenso de golos | 0–15 | Adicionado quando os modelos concordam fortemente nos golos |
As quatro componentes somam-se e são limitadas a 100 para dar a pontuação final.
Como escolhemos as previsões a publicar
Gerar uma previsão é só metade do trabalho. Depois aplicamos filtros rigorosos antes de publicar.
- Publicação seletiva. Publicamos previsões sobre um conjunto restrito de ligas bem cobertas, em vez de todos os jogos.
- Mínimos de confiança e limite de sobreconfiança. As previsões abaixo de um certo nível de confiança são descartadas, e um filtro limita as pontuações irrealisticamente altas.
- Linhas de handicap asiático conscientes do desvio. Para as previsões de handicap não adivinhamos a linha: descartamos os casos em que o nosso modelo e a casa divergem demasiado.
- Verificações de segurança entre divisões. Os jogos de taça e de play-off podem opor equipas de divisões diferentes; detetamo-los para evitar classificações erradas.
Calibração: a métrica que importa
A precisão diz-te com que frequência o resultado previsto acontece; a calibração diz-te se as próprias probabilidades são fiáveis. É isso que reflete a nossa etiqueta Confiança IA (Alta / Média / Baixa).
Vê o modelo em ação
Consulta as previsões de hoje e as suas pontuações de confiança.
Perguntas frequentes
Que modelos de previsão usa o Daily Sport Pick?
Combinamos três abordagens num único conjunto: um modelo de machine learning (gradient boosting), um modelo de Poisson e um modelo de Dixon-Coles, ponderados 60/20/20.
O que é a pontuação de conjunto?
A pontuação de conjunto (0–100) combina a probabilidade ponderada do resultado, um bónus de consenso entre modelos, um bónus de margem e um bónus de consenso de golos.
Qual é a precisão do modelo de IA?
Num conjunto de teste estritamente cronológico, o modelo acerta cerca de 45% dos resultados 1X2 — bem acima do acaso e da base maioritária.
Porque é a vossa precisão menor que a de outros sites?
Porque a medimos de forma honesta. Uma divisão aleatória dos dados inflaciona artificialmente os números; a nossa divisão cronológica dá uma precisão realista.
O que mostra o mapa de calor de resultados?
O mapa de calor de resultados mostra a probabilidade de cada resultado exato, calculada pelo modelo de Dixon-Coles, para visualizar os resultados mais prováveis.
Porque têm Poisson e Dixon-Coles um peso menor?
Não foram construídos principalmente para acertar o vencedor 1X2; destacam-se nos mercados de golos e resultados, daí o peso de 20% cada.
