Comment fonctionne notre modèle d’IA
Un modèle de machine learning plus deux modèles statistiques, combinés en un seul ensemble.
Chaque pronostic de Daily Sport Pick est généré par trois modèles indépendants qui votent ensemble. Leurs probabilités sont combinées en une note d’ensemble comprise entre 0 et 100 %.
Cela réduit le risque qu’un angle mort d’un seul modèle fausse le pronostic : un modèle peut se tromper, mais il est rare que les trois se trompent dans le même sens.
| En un coup d’œil | |
|---|---|
| Modèles combinés | Machine learning + Poisson + Dixon-Coles |
| Données d’entraînement | Plus de 28 000 matchs historiques (2024 → aujourd’hui) |
| Précision de test du ML (1X2) | ~45 % sur un jeu de test strictement chronologique |
| Caractéristiques par prédiction | 30 (forme, buts, ELO, force de la ligue) |
| Championnats principaux publiés | 14 (nos compétitions les mieux couvertes) |
| Mise à jour | Les modèles tournent chaque matin |
Le football est difficile à prédire, et un marché efficace laisse peu de marge. Beaucoup de sites annoncent une précision gonflée obtenue par une division aléatoire des données — mais cela laisse fuir des matchs futurs dans l’entraînement. Nous utilisons une division chronologique (apprendre du passé, tester sur les matchs postérieurs), qui donne une précision honnête d’environ 45 %. Nous préférons vous montrer un chiffre réel et nous évaluer sur la calibration — si un « 60 % de probabilité » annoncé se réalise vraiment près de 60 % du temps.
Modèle 1 — Machine learning (poids de 60 %)
Notre modèle principal est un classifieur à arbres de décision boostés par gradient entraîné sur plus de 28 000 matchs historiques. Notre modèle le plus récent (histogram gradient boosting, v4) gère nos compétitions principales, avec un modèle v3 en repli.
Précision : ~45 % pour prédire le bon résultat 1X2 sur un jeu de test chronologique réservé d’environ 4 300 matchs récents — bien au-dessus du hasard et de la base majoritaire.
Le modèle utilise 30 caractéristiques par prédiction, dont :
- Notes ELO — une note globale plus des notes domicile/extérieur distinctes
- Forme récente — victoires, nuls, défaites et une note de forme pondérée
- Moyennes de buts — buts marqués et encaissés par match sur une fenêtre récente
- Force de la ligue — le niveau et la compétitivité de la compétition
Le modèle produit une probabilité pour chaque résultat. Toutes les caractéristiques sont calculées au moment du match : seules les informations disponibles avant le coup d’envoi sont utilisées, ce qui évite toute fuite de données.
Modèle 2 — Distribution de Poisson (poids de 20 %)
Le modèle de Poisson adopte une approche purement mathématique. Il estime le nombre de buts attendus de chaque équipe, puis calcule la probabilité de chaque score.
Pour chaque score (par ex. 1-0, 2-1, 0-0), il calcule une probabilité, d’où l’on déduit :
- Les probabilités 1X2 (victoire domicile / nul / victoire extérieur)
- Les probabilités de Plus/Moins de buts
- Les scores exacts les plus probables
Il calcule des notes d’attaque et de défense par équipe à partir des buts marqués et encaissés, ajustées par la force de la ligue.
Modèle 3 — Dixon-Coles MLE (poids de 20 %)
Le modèle de Dixon-Coles (Dixon & Coles, 1997) étend Poisson pour corriger sa faiblesse sur les matchs à peu de buts.
Dixon-Coles ajoute un facteur de correction appelé tau (τ) pour les quatre scores serrés (0-0, 1-0, 0-1, 1-1). Il ajuste ses paramètres par estimation du maximum de vraisemblance (MLE) avec l’optimiseur L-BFGS-B de scipy, plutôt que par simple moyenne, et il est pondéré dans le temps : les matchs récents comptent davantage.
Dixon-Coles est ajusté séparément pour chaque compétition, sur des centaines de ligues — bien au-delà des seuls championnats principaux.
L’ensemble : combiner les modèles
Une fois que chaque modèle a prédit un match, nous combinons leurs sorties selon des poids fixes, optimisés sur des données réelles.
| Approche | Poids | Optimisé pour |
|---|---|---|
| Machine learning (v4 + repli v3) | 60 % | Résultat général du match (1X2) |
| Distribution de Poisson | 20 % | Marchés de Plus/Moins et de buts |
| Dixon-Coles MLE | 20 % | Scores et correction des matchs à peu de buts |
Si un modèle n’est pas disponible pour une compétition, les poids sont renormalisés entre les modèles restants.
La note d’ensemble se construit ensuite à partir de quatre composantes :
| Composante | Plage | Ce qu’elle récompense |
|---|---|---|
| Note de base | 0–75 | La probabilité pondérée du résultat prédit |
| Bonus de consensus | 0–15 | +15 si les trois modèles s’accordent, +7 si deux s’accordent |
| Bonus de marge | 0–10 | À quel point le résultat principal se détache des autres |
| Bonus de consensus de buts | 0–15 | Ajouté quand les modèles s’accordent fortement sur les buts |
Les quatre composantes sont additionnées et plafonnées à 100 pour donner la note finale.
Comment nous choisissons les pronostics à publier
Générer une prédiction n’est que la moitié du travail. Nous appliquons ensuite des filtres stricts avant de publier.
- Publication sélective. Nous publions des pronostics sur un ensemble restreint de championnats bien couverts plutôt que sur tous les matchs.
- Seuils de confiance et plafond de surconfiance. Les pronostics sous un certain seuil de confiance sont écartés, et un filtre limite les notes irréalistement élevées.
- Lignes de handicap asiatique conscientes de l’écart. Pour les pronostics de handicap, nous ne devinons pas la ligne : nous écartons les cas où notre modèle et le bookmaker divergent trop fortement.
- Contrôles de sécurité inter-divisions. Les matchs de coupe et de barrage peuvent opposer des équipes de divisions différentes ; nous les détectons pour éviter les classements erronés.
Calibration : la métrique qui compte
La précision indique à quelle fréquence le résultat prédit se produit ; la calibration indique si les probabilités elles-mêmes sont fiables. C’est ce que reflète notre étiquette Confiance IA (Élevée / Moyenne / Faible).
Voyez le modèle en action
Consultez les pronostics du jour et leurs notes de confiance.
Questions fréquentes
Quels modèles de prédiction Daily Sport Pick utilise-t-il ?
Nous combinons trois approches en un seul ensemble : un modèle de machine learning (gradient boosting), un modèle de Poisson et un modèle de Dixon-Coles, pondérés 60/20/20.
Qu’est-ce que la note d’ensemble ?
La note d’ensemble (0–100) combine la probabilité pondérée du résultat, un bonus de consensus entre modèles, un bonus de marge et un bonus de consensus sur les buts.
Quelle est la précision du modèle d’IA ?
Sur un jeu de test strictement chronologique, le modèle atteint environ 45 % de bons résultats 1X2 — nettement au-dessus du hasard et de la base majoritaire.
Pourquoi votre précision est-elle inférieure à celle d’autres sites ?
Parce que nous la mesurons honnêtement. Une division aléatoire des données gonfle artificiellement les chiffres ; notre division chronologique donne une précision réaliste.
Que montre la carte de chaleur des scores ?
La carte de chaleur des scores montre la probabilité de chaque score exact, calculée par le modèle de Dixon-Coles, pour visualiser les résultats les plus probables.
Pourquoi Poisson et Dixon-Coles ont-ils un poids plus faible ?
Ils ne sont pas principalement conçus pour prédire le vainqueur 1X2 ; ils excellent sur les marchés de buts et de scores, d’où un poids de 20 % chacun.
