Vous êtes sur la page 1sur 10

"Modèles de probabilité pour les paris sur le hockey

Ravi Patel IB SL Math


Le hockey s'est indéfiniment imposé comme l'un des sports les plus en croissance en
Amérique du Nord. Depuis l'époque où, enfant, je regardais Hockey Night in Canada, j'ai développé
une véritable passion pour le sport d'hiver national du Canada. Tout au long de ma vie de
téléspectateur, j'ai développé une passion pour la grande rivalité entre les deux franchises géantes de
la NHL. Il s'agit bien sûr de la célèbre rivalité entre les Maple Leafs de Toronto et les Canadiens de
Montréal.

Tout au long de mes journées passées à regarder ces matchs de hockey, j'ai toujours remarqué
des publicités de sociétés de paris encourageant les téléspectateurs à parier sur le score et le
vainqueur de ces rivalités sportives de haut niveau en échange d'argent. Le concept de paris sportifs
me semblait extrêmement compliqué, surtout lorsque je suis tombé sur une vidéo de la CBC
montrant que les grands gagnants des sites de paris sportifs étaient des intellos qui avaient créé des
modèles mathématiques pour prédire les gagnants/classements des futurs matchs et/ou saisons. La
complexité de ces modèles mathématiques n'est apparue que lorsque j'ai finalement appris les
concepts de statistiques et de distribution de probabilités dans mon cours de mathématiques SL. J'ai
remarqué que des distributions de probabilité spécifiques peuvent être analysées et extrapolées à
l'aide de théorèmes de probabilité afin de créer des modèles mathématiques de probabilité pour des
situations futures.

Au début, j'avais des doutes sur la corrélation entre les distributions de probabilités normales
et les paris sur le hockey, mais après avoir fait des recherches sur différents concepts dans le manuel
de mathématiques du secondaire, j'ai trouvé un sujet. La raison d'être de cette évaluation interne est
de créer des modèles de probabilité à partir des statistiques de buts marqués de Toronto et de
Montréal de la saison 2017-18 de la Ligue nationale de hockey, puis de trouver l'équation d'un
modèle de probabilité qui correspond le mieux aux données afin de prédire le score d'un futur match
de la ligue. Afin de limiter les paramètres de l'équation et d'éviter tout biais de l'équipe locale dans
mon modèle mathématique, je vais supposer que le match sera joué à Los Angeles dans le cadre d'un
"Winter Classic Game" annuel. Pour créer des données extrêmement précises, je n'arrondirai aucun
des chiffres affichés par ma calculatrice graphique afin de m'assurer que les valeurs de mes
paramètres sont aussi précises que possible. En outre, j'accéderai et réfléchirai aux différentes
variables qui affecteront mes calculs. Ces précautions mathématiques garantiront que mes
probabilités attendues finales seront aussi précises que possible.
La première étape du processus de modélisation mathématique consiste à déterminer la valeur
attendue des buts que chaque équipe peut marquer au cours du match. Pour ce faire, nous avons créé
un histogramme des buts inscrits par chaque équipe au cours de la saison 2017-18 (82 matches). J'ai
également choisi d'ajouter une ligne de tendance pour afficher la tendance des moyennes de buts
marqués par les Maple Leafs tout au long de la saison. Les données recueillies seront affichées sur un
histogramme dans la figure ci-dessous.

(Figure 1.0)

GF of the Toronto Maple Leafs


25
20
20 18
FREQUENCY

15 13
11
10 7 6
5 2 3 2
0
0 1 2 3 4 5 6 7 8
# of goals forwarded

Maintenant que nous avons créé un tableau de fréquence pour les buts marqués par Toronto, ces
données doivent être converties en un graphique affichant les probabilités afin qu'elles puissent être
interprétées pour trouver les valeurs attendues des tendances de l'équipe à marquer des buts. Au
début, il m'a été difficile de trouver un modèle de courbe distinct (par exemple exponentiel, normal)
qui corresponde à mes données car elles sont discrètes. Après avoir effectué des recherches plus
approfondies, je constate que ce modèle correspond le mieux à une courbe de distribution de Poisson.
La distribution de Poisson est une distribution de fréquence discrète qui donne la probabilité qu'un
certain nombre d'événements indépendants se produisent dans un temps donné. Pour déterminer si le
nombre d'arrivées par minute suit une distribution de Poisson, les hypothèses nulle et alternative sont
écrites ci-dessous :
H 0: Le nombre d'arrivées par minute suit une distribution de Poisson.

H 1: Le nombre d'arrivées par minute ne suit pas une distribution de Poisson.

Pour analyser si mes données suivent un processus de Poisson, je dois d'abord déterminer le
paramètre de mes données, qui est la moyenne, modélisée par Lambda ( ƛ ).
c

∑ mj f j
X = j=1
n
277
X= =3.37805= ƛ
82
Cette valeur de X ne sera pas arrondie à trois chiffres significatifs car j'utilise cette valeur moyenne
comme estimation de ƛ . Par conséquent, en utilisant Lambda comme estimation de la moyenne, les
fréquences des succès X pour ( X =1 ,2 , 3 , 4 , 5 , 6 , 7 , 8) peuvent être trouvées. En outre, la fréquence
théorique pour chaque valeur de X est obtenue en multipliant la taille de l'échantillon (N) par la
probabilité de Poisson de chaque valeur de X.

Maintenant que j'ai trouvé l'estimation de la moyenne pour l'ensemble des données, je dois calculer la
probabilité de Poisson pour 10 intervalles de X. Ces intervalles comprennent (
X =1 ,2 , 3 , 4 , 5 , 6 , 7.8.9∨more ). Je dois calculer la probabilité de 9 ou plus, car il est important de
noter que la probabilité de Poisson présente un concept théorique des buts marqués par les Toronto
Maple Leafs. Ainsi, puisqu'il est théoriquement possible de marquer plus de 9 buts dans un match,
notre estimation de la moyenne (3,37805) fournira la valeur attendue de ( X =[ 9 , ∞ ])
Pour trouver la probabilité théorique de Poisson de X, j'ai découvert la formule de la distribution de
Poisson qui est affichée ci-dessous :
x −ƛ
ƛ e
P ( X=x ) =
x!
Où ?
ƛ = Utilisé comme paramètre dans l'équation (comme mentionné précédemment)
e =Nombre d'Euler, une constante mathématique dont la valeur est 2,71828
Calculer les probabilités attendues de chaque but transmis semble assez facile à première vue, mais j'ai
abordé une étape alambiquée lorsque j'ai dû trouver la probabilité attendue de (X=0). C'est alors que je me
suis souvenu de la méthode que mon tuteur m'avait enseignée pour montrer que la factorielle de 0 est
égale à 1.

n !=n ( n−1 )( n−2 ) ( n−3 ) … .


n !=n(n−1)!
1 !=1(1−1)!
1=1(0! )
1=0!
En utilisant l'expression de n !=n ! ,, j'ai remplacé une valeur de n par 1, car je savais que sa
factorielle serait simplement 1 (1x1). De plus, la valeur (n-1) me donnerait également zéro et j'en ai
donc trouvé une qui 1= 0 ! Je peux maintenant poursuivre mes calculs de la probabilité de Poisson en
remplaçant X par 0 et ƛ par 3,37805.
0 −3.37805
( ) 3.37805 e
P X=0 =
0!
P ( X=0 )=1 e−3.37805 ¿ ¿
0!
1(0.03411)
P ( X=0 )=
1
P ( X=0 )=0.03411
Maintenant que j'ai calculé ma probabilité de Poisson attendue pour (X=0), je dois continuer à faire
de même pour tous les autres intervalles de X, qui comprennent (X= 0,1,2,3,4,5,6,7,8,9 ou plus). Les
probabilités attendues suivantes sont énumérées ci-dessous :
Tableau 1.1
# Nombre de P(X) de la distribution
buts transmis de Poisson avec
(X) ƛ=3.37805
0 0.03411 J'ai également éprouvé quelques difficultés à
1 0.11524 trouver la probabilité de 9 ou plus, mais j'ai
2 0.19464 simplement appliqué mes connaissances en
3 0.21917 matière de statistiques et de probabilités pour
4 0.18509 obtenir la probabilité attendue.
5 0.12505
P ( X ≥ 9 )=1− [ P ( X =0 ) + P ( X =1 ) + P ( X=2 ) + P ( X =3 ) + P ( X=4 )+
6 0.07040
7 0.03398 P ( X ≥ 9 )=0.00744
8 0.01435
9 ou plus 0.00744

Maintenant que je dispose de tous les P(X) pour les buts marqués par les Toronto Maple Leaf's,
je peux prendre ces données et créer une courbe visuelle, qui devrait reproduire le graphique
original GF vs Fréquence de la figure 1.1.

Figure 1.2
GF Probablity with Lambda = 3.37805
0.25
0.21917
0.2 0.19464
0.18509
Probability of (X)

0.15
0.12505
0.11524
0.1
0.0704

0.05 0.03411 0.03398


0.01435 0.00744
0
0 1 2 3 4 5 6 7 8 9
# of goals forwarded (X)

Je peux évidemment constater que cette distribution est une distribution de Poisson, car la figure 1.2,
qui utilise Lambda comme paramètre de probabilité théorique, correspond au modèle original de la
figure 1.1. Je peux le confirmer car les lignes de tendance présentent les mêmes intervalles
d'augmentation et de diminution entre les différents points. Cependant, le graphique ne représente
pas parfaitement les données des objectifs transmis.
Au lieu d'utiliser des modèles mathématiques qualitatifs, je devais trouver un moyen d'obtenir un
processus mathématique capable de prendre mes données et de déterminer si elles étaient de Poisson
de la manière la plus précise possible. Pour obtenir une représentation plus précise de la proximité de
mes données avec un modèle de Poisson, j'ai décidé d'effectuer un test du chi carré. Le test
d'adéquation du chi carré est un test non paramétrique utilisé pour déterminer dans quelle mesure la
valeur observée d'un phénomène donné est significativement différente de la valeur attendue.
L'équation est affichée comme suit :
❑ 2
(f 0−f e )
=∑
2
ƛ k− p−1
k fe

Où ?
f 0 = est la fréquence observée

f e = Fréquence théorique ou attendue

k = Le nombre de catégories ou de classes restantes après la combinaison des classes


p = Nombre de paramètres estimés à partir des données
En examinant l'équation ci-dessous, il est évident qu'il manque certaines variables dans l'équation. Je
dois trouver la probabilité théorique ( f e). Cette fréquence peut être trouvée à l'adresse suivante :
f e =( n ) ( P ( X ) ) . Le tableau suivant montre les calculs que j'ai effectués pour obtenir la valeur
approximative finale de Lambda carré. Pour ce faire, j'ai établi un tableau d'équations dans lequel je
procède étape par étape pour tenter d'obtenir la somme de la formule finale, qui figure dans le tableau
ci-dessous :
Tableau 1.2
fe ¿) ¿ 2
( f 0−f e )
fe
2.79702 0.79702 0.635241 0.227113
9.44968 1.55032 2.40349 0.254346
15.9605 -2.9605 8.76456 0.549141
17.9719 2.0281 4.11319 0.228868
15.1774 2.8226 7.96707 0.52493
10.2541 -3.2541 10.5892 1.03268
5.7728 0.2272 0.05162 0.008942
2.78636 0.21364 0.045642 0.016381
1.1767 0.8233 0.677823 0.576037
0.61008 0.61008 0.372198 0.61008
Total : 4.02652

Après avoir rempli le tableau, je me demande comment le chiffre correspondant à la fréquence


théorique de 10,2541 a pu prendre une valeur aussi élevée par rapport aux autres. Néanmoins, la
somme de cette équation de la distribution de Poisson indique que ƛ 2=4.02652 .

Maintenant que le processus étape par étape est terminé, je dois continuer à trouver l'indice sous ƛ.
Pour déterminer l'indice sous ƛ, je dois déterminer un concept associé à la distribution de Poisson
connu sous le nom de degrés de liberté. L'équation s'écrit ci-dessous comme suit :
2
ƛ =k −p−1
Nous rappelons que les définitions des variables k et p ont déjà été énoncées plus haut. Par
conséquent, la valeur de k, qui est le nombre de classes restantes une fois les classes combinées, est
de 9, car il s'agit de la classe théorique qui n'apparaît pas dans les fréquences observées. De plus, la
valeur de p est de 1 car le seul paramètre considéré est Lambda qui est en corrélation avec le test du
Khi-deux. Par conséquent, je peux trouver les degrés de liberté comme suit :
k − p−1=9−1−1=7
Maintenant que nos degrés de liberté sont trouvés, nous devons utiliser la méthode des tests
d'hypothèses alternatives pour déterminer enfin si la distribution est une distribution de Poisson. Pour
poursuivre cette méthode de test, je dois utiliser la même hypothèse de rejet que celle mentionnée à
la page 1. Au début, je n'arrivais pas à trouver la relation entre le test de l'hypothèse nulle et
l'adéquation de mes données à une distribution de Poisson. J'ai alors décidé de regarder des vidéos
sur YouTube et d'apprendre à appliquer la méthode de test, qui fait appel à un concept que l'on m'a
enseigné en classe, à savoir les points critiques. J'ai commencé par mettre en place le théorème de
rejet :
H 0 : ƛ=3.37805

H 1 : ƛ ≠3.37805

Il faudra continuer à travailler sur ce point. Je suis passé à l'étape suivante de mon analyse d'impact
car je pouvais déjà déduire que ma distribution était de Poisson à partir d'observations qualitatives,
mais je dois encore travailler sur ce calcul.

Maintenant que mon test du chi-carré a prouvé que la distribution du nombre de buts marqués par les
Toronto Maple Leafs est une distribution de Poisson, mon travail n'est pas encore terminé. Puisque
mon objectif final est de créer une matrice de probabilités pour montrer la force d'attaque de chaque
équipe, je dois également déterminer la distribution de Poisson des Canadiens de Montréal.
Puisque mon test du chi carré précédent a prouvé que la distribution des buts marqués par les Maple
Leafs était effectivement une distribution de poison, je peux maintenant conclure que les buts
marqués dans le sport du hockey sont un processus de Poisson. Avec ces connaissances, je peux
maintenant créer un modèle P(X) des buts marqués en relation avec la valeur Lambda trouvée des
Canadiens de Montréal.
Figure 2
GF by the Montreal Canadiens
20
15 17 18
Frequency

14
10 12
10
5 6
0 2 1 1 1
0 1 2 3 4 5 6 7 8 9 10
# of goals forwaded

Cette figure ressemble beaucoup à la figure 1, dans laquelle les données sur les objectifs transmis
étaient réparties selon une courbe similaire. Pour continuer et trouver mon graphique P(X), je dois
déterminer la valeur de ƛ et refaire le calcul.
c

∑ mj f j
X = j=1
n
209
X= =2.54878=ƛ
82
# Nombre de buts P(X) de la distribution
transmis (X) de Poisson avec
ƛ=2.54878
0 0.07818
1 0.19926
2 0.25393 P ( X ≥11 )=1− [ P ( X =0 ) + P ( X =1 )+ P ( X=2 ) + P ( X =3 ) + P ( X=
3 0.21574
4 0.13747 P ( X ≥11 )=0.00006
5 0.07007
6 0.02977
7 0.01084
8 0.00345
9 0.00098
10 0.00025
11 ou plus 0.00006
Figure 2.1
Probability of GF with Lambda = 2.54878
0.3
0.25393
0.25
0.21574
0.19926
0.2
Probability of (X)

0.15 0.13747

0.1 0.07818
0.07007
0.05 0.02977
0.01084 0.00345 0.00098 0.00025 0.00006
0
0 1 2 3 4 5 6 7 8 9 10 11 or
more
# of goals scored (X)

La figure 2.1 ressemble au graphique calculé à partir des données de la figure 2. J'ai remarqué que les
probabilités théoriques de P(7 ≤ X ≤ 11∨more ) ne correspondaient pas vraiment aux résultats du
graphique original. Si l'on réfléchit aux facteurs limitants possibles, la raison en est que la fréquence
observée des buts marqués dans des fourchettes élevées est extrêmement rare, ce qui explique les
faibles fluctuations entre o et 1 pour P(7 ≤ X ≤ 11∨more ), mais une diminution progressive dans le
graphique de probabilité théorique.
Maintenant que toutes les probabilités de Poisson ont été trouvées pour les buts marqués par les
Maple Leafs de Toronto et les Canadiens de Montréal, je dois recalculer les probabilités dans la
formule de distribution de Poisson, puis créer une matrice de probabilités avec les résultats possibles.

Vous aimerez peut-être aussi