Académique Documents
Professionnel Documents
Culture Documents
Latour Nathanaël
Le Mercier Aurore
Projet de statistique
Introduction :
Nous avons réalisé une étude statistique pour répondre à cette problématique : Peut-on
déterminer l’efficacité d’un joueur seulement à partir de ses statistiques ?
Pour ce faire nous avons étudier certaines variables sur un échantillon de 100 joueurs de NBA.
Ces variables sont la moyenne de point par match, de rebond par match ou encore de passe
décisive par match. Nous avons réalisé l’étude sur trois saisons différentes : 2018-2019, 2019-
2020 et 2020-2021 afin de nous assurer de la fiabilité de notre étude. Vous trouverez en
dessous le code R attribué a notre étude de l’année 18-19. Il s’agit du même code pour les
autres années.
Code R:
# Installation des librairies
install.packages("car")
library(readxl)
#Nous cherchons a voir s'il y a des liens entre les differentes variables : Points par match (PPM), Rebonds par
Match (RPM) et Passe decisives par Match (PDPM)
X <- Stat_2018_et_2019$PPM
X2 <- Stat_2018_et_2019$RPM
ks.test(X, X2)
X <- Stat_2018_et_2019$PPM
X2 <- Stat_2018_et_2019$PDPM
ks.test(X, X2)
X <- Stat_2018_et_2019$RPM
X2 <- Stat_2018_et_2019$PDPM
ks.test(X, X2)
# Chargement de la librairie
library(car)
#Le but est de determiner si entre nos variables nous avons une distrbution lineaire et si c'est le cas quels sont les
coefficients.
summary(Regression1)
#On peut voir que r-squared est tres faible, egal e 0.074 ce qui signifie que la regression lineaire n'est pas le bon
choix pour notre modele.
Bellotto Anthony
Latour Nathanaël
Le Mercier Aurore
#Le r-squared est tres faible, cela signifie que l'equation de la droite de regression determine 7.4% de la
distribution des points.
#Cela signifie que le modele mathematique utilise n'explique pas la distribution des points.
summary(Regression2)
#On peut voir que r-squared est de 0.33 ce qui signifie que la regression lineaire n'est pas le bon choix pour notre
modele.
#Cela signifie que l'equation de la droite de regression determine 33.06% de la distribution des points.
summary(Regression3)
#On peut voir que r-squared est tres faible, egal e 0.045 ce qui signifie que la regression lineaire n'est pas le bon
choix pour notre modele.
#Le r-squared est tres faible, cela signifie que l'equation de la droite de regression determine 4.5% de la
distribution des points.
#Cela signifie que le modele mathematique utilise n'explique absolument pas la distribution des points.
# Avoir dix fois plus d'evenements que de parametres dans le monde : On a deux Parametres => Il nous faut au
minimum
#On a une surdispersion puisque le ration de la deviance residuelle sur le nombre de degres de libertes est
superieur a 1
#On a 215.69/98 = 2.20. Puisque nous avons des sudispersions, nous allons utiliser la loi quasipoisson.
#Neanmoins l'utilisation de la structure d'erreur "Quasi Poisson a pour concequence d'augmenter l'erreur
standard des parametres"
summary(Regressionlogistique)
Bellotto Anthony
Latour Nathanaël
Le Mercier Aurore
#Le coefficients 0.045 associe e RPM signifie qu'une augmentation d'une unite de RPM de chaque joueur, est
associee avec une augmentation de 0.045 du PPM.
#Ainsi on peut predire le nombre de points en fonction du nombre de rebonds. Neanmoins, il y a une marge
d'erreur a prendre en compte.
head(predicted)
library(ggplot2)
#Ainsi on voit qu'avec le nombre de rebond, on peut prevoir le nombre de point mis par le joueur grace a la courbe.
summary(Regressionlogique2)
#Le coefficients 0.1 associe e PDPM signifie qu'une augmentation d'une unite de PDPM de chaque joueur, est
associee avec une augmentation de 0.1 du PPM.
#Ainsi on peut predire le nombre de points en fonction du nombre de rebonds. Neanmoins, il y a une marge
d'erreur a prendre en compte.
head(predicted)
library(ggplot2)
#Ainsi on voit qu'avec le nombre de passe decisive, on peut prevoir le nombre de point mis par le joueur grace a
la courbe.
summary(Regressionlogique2)
#Le coefficients 0.1 associe e RPM signifie qu'une augmentation d'une unite de RPM de chaque joueur, est
associee avec une augmentation de 0.1 du PDPM.
#Ainsi on peut predire le nombre de points en fonction du nombre de rebonds. Neanmoins, il y a une marge
d'erreur a prendre en compte.
head(predicted)
library(ggplot2)
#Ainsi on voit qu'avec le nombre de passe decisive, on peut prevoir le nombre de rebond mis par le joueur grace
a la courbe.
#Nous comparons l'efficacite et les minutes par match jouees. On cherche a savoir s'ils sont independant.
X <- Stat_2018_et_2019$EFF
X2 <- Stat_2018_et_2019$MPM
ks.test(X, X2)
summary(Regression4)
#On peut voir que r-squared est de 0.38 ce qui signifie que la regression lineaire n'est pas le bon choix pour notre
modele.
##Cela signifie que l'equation de la droite de regression determine 38% de la distribution des points.
#Donc le modele mathematique utilise n'explique pas vraiment la distribution des points.
#---------------------------- Calcul de l'efficacite theorique sans les coefficients trouves avant ------------------
#On essaye de calculer une efficacite en partant de l'hypothèse que tous les parametres se valent pour calculer
l'efficacite
#On vient alors verifier notre hypothese de distrubution en effectuant une regression lineaire a variables multiples.
model
summary(model)
summary(model)$coefficient
confint(model)
#On peut voir que r-squared est de 0.87 ce qui signifie que la regression lineaire est le bon choix pour notre
modele.
##Cela signifie que l'equation de la droite de regression determine 87.97% de la distribution des points.
#Par consequent on deduit cette equation : EFFth= 0.15442 + 0.48981*PPM + 1.07985*RPM + 0.78953*PDPM
#On remarque donc que les rebonds represente la statistique qui compte le plus suivie par le nombre de point et
enfin les passes decisives.
Bellotto Anthony
Latour Nathanaël
Le Mercier Aurore
#On prends une nouvelle base de donnees avec les MVP des 67 annees precedentes. Dans cette base de donnees,
on retrouve les PPM, PDPM et les RPM.
#On calcule leur efficacite grace a l'equation qu'on a trouve juste avant.
shapiro.test(MVP$EFF)
library(Hmisc)
Annee2=seq(1956,2022,1)
basePQFinale=data.frame(Annee2,resultat)
basePQFinale
#Par cette extrapolation, on prédit que pour la saison 20-21, le MVP aurait 31.11 d'efficacite.