Académique Documents
Professionnel Documents
Culture Documents
Carrere
Duua Jimil
Chapitre 9: droite de régression
Plan:
• Droite de régression
• Interprétation et R²
• Conditions d’utilisation
Je trace une droite, n'importe laquelle, et pour chaque point de mon nuage de points, je trace un trait
vertical qui va de ce point jusqu'à la droite
1
Chacun de ces petits traits bleus s'appelle un résidu et je peux définir grand S, la somme de tous ces résidus
au carré.
Ce que l'on appelle la droite de régression linéaire, c'est la seule droite qui minimise cette quantité,
c’est-à-dire la droite avec les traits bleus les plus courts.
Par ailleurs, elle passe par le point mx; my, où mx est la moyenne de la variable x, et my est la moyenne de
la variable y.
Rappel: loi de Fisher est la loi sur les comparaisons de variances qu'on avait vue au tout début du cours sur
l’ANOVA
II. Interprétation et R²
Attention! On peut avoir une droite avec une régression linéaire significativement différente de zéro, mais
avoir quand même beaucoup de bruit autour.
Les données sont « toutes pourries », un patient ne pourra jamais savoir s' il
y a réellement un bénéfice à prendre votre médicament (oui la prof change
d’exemple là) puisqu’il n’a aucune idée de où il pourrait se situer.
Ainsi, p ne va pas être suffisant pour nous dire si le lien est vraiment fort
entre la variable X et la variable Y
2
Il nous faut donc un indice plus fiable, le coefficient de détermination R².
Le trait rouge étant la différence entre le point sur la droite et le point qu’il y aurait eu sur la droite
horizontale (passant par la moyenne).
Sur la droite de régression linéaire on a toujours cette relation que la somme des yi-mi (la somme des
grands traits) est égale à la somme des petits traits rouges au carré plus la somme des petits traits bleus au
carré, c’est la variabilité totale.
On va mettre tout ça dans un seul coefficient qui va être la partie rouge sur la partie totale. C'est un
coefficient qui est compris strictement entre 0 et 1.
S'il est proche de 0, ça veut dire que la partie rouge est petite par rapport à la partie noire.
Donc la partie rouge est petite par rapport à la partie bleue → le modèle n'explique absolument rien.
Et s'il est proche de 1, la variabilité totale est presque entièrement dans l'explication →le modèle explique
absolument tout.
En gros:
3
Selon ce qu’on est en train de faire, les seuils sont différents, la prof ne nous embêtera pas avec ça à l’exam.
Aux QCM: en dessous de 0,5 c'est faible au-dessus de 0,5 c'est fort.
R² va être un indice qui va nous permettre de comparer différentes causes. Si on a une cause pour laquelle
la régression linéaire nous donne un R² à 0,3 et une autre cause qui nous donne un R² à 0,7, on va pouvoir
dire qu'on a besoin d'agir plus sur la cause numéro 2 que sur la cause numéro 1.
Utilisation de R
Exemple:
On a mesuré la VO2max de 100 patients lors d’un test d’effort, ainsi que le marqueur clinico-biologique
PCB1. Y a-t-il un lien entre les deux ?
4
Sur cette ligne là, le R² est calculé et cela de deux manières:
On a le R² ajusté, il est à 70 % donc ici on a une droite de pente positive différente de 0 avec un P très petit
inférieur à 0,05 et un R² égal à 70 % .
Donc en conclusion:
VO2Max est linéairement corrélée positivement à PCB1 avec p inf à 10 -15 et un R2 égal à 0,7.
Quand on regarde les données dans le graphique, on voit bien qu’il y a bien un lien positif entre VO2 max
et PCB1.
Exemple :
On a un tableau, une variable X et une variable Y. Sans tracer la droite, on regarde directement la droite de
régression.
On voit une pente négative avec p inf à 0.05.
5
Quand on affiche la courbe, on a quelque chose comme ça :
Pourquoi ?
À cause du R² qui est très faible (0,29).
Énoncé :
1- Il faut que toutes les mesures de la variable Y soient indépendantes les unes des autres.
2- Il faut que le lien entre X et Y soit linéaire.
3-Il faut que la distribution Y soit normale pour chaque valeur de X et de variance constante.
NB2 : pour voir la linéarité entre X et Y, il faut visualiser les données à l'œil nu et puis un test de linéarité.
Exemple : étude du poids en fonction de la taille —> le poids évolue comme le carré ou le cube de la taille.
3
Le volume d’une sphère : 3/4 2π x poids est proportionnel 𝑅 .
6
1) Comment on effectue un test de linéarité ?
Pour cela, on rentre plot de régression. Régression ça va être un objet R où il contient toutes les
informations de la régression linéaire. On peut le tracer.
Tous les points sont transférés d’une manière penchée. On obtient la répartition des résidus. On a une
courbe rouge qui nous montre comment devrait être la droite pour qu’on ait autant de résidus au-dessus
que au-dessous.
—> Ce test visuel montre que si la courbe rouge est à peu près horizontale, le test est suffisamment linéaire.
7
Exemple de non linéarité :
● Réfléchir si un modèle non linéaire est plus approprié (carré, cube, exponentiel, logarithmique…)
● Tester ces nouveaux modèles jusqu’à avoir de beaux résidus.
R trace les quantiles des résidus en fonction des quantiles de la distribution normale.
Si les résidus sont normaux, on a à peu près une droite (tous les points sont bien sur la droite).
8
On voit que pour chaque valeur de X, on a beaucoup plus de points vers X.
Au lieu d’avoir une courbe en cloche, on a plutôt une queue lourde.
Sur la deuxième courbe, la droite a l’air d’être linéaire puisque la ligne rouge est presque droite. Le lien a
l’air d’être linéaire. Mais dans la troisième courbe, il y a pleins de quantiles qui s’écartent énormément sur
le graphique.
Et donc la, on a suffisamment de quoi se méfier, la distribution des quantités n’est pas normale et donc la
régression linéaire ne peut pas être appliquée ici.
● Réfléchir s’il y a une raison pour que les résidus ne soient pas normaux?
● Appeler un statisticien
NB : la droite de régression existe encore, et R2 est toujours valable, mais le calcul de p n’est plus bon. On
ne peut pas assurer que notre modèle assure une interaction positive ou négative entre les deux variables.
QCM :
9
QCM 2: A et B: le modèle est expliqué lorsque …
QCS 1 : pourquoi les modèles de régression linéaire sont sensibles aux valeurs extrêmes ?
A) Les valeurs extrêmes influencent fortement les résultats des test statistiques
B) Elles peuvent affecter la pente et l’intercept de la droite de régression
C) Elles réduisent la précision du modèle
D) Elles ne sont pas prises en compte dans le calcul du R2.
QCS 2 : pourquoi est-il important de vérifier la normalité des résidus dans une analyse de régression
linéaire?
A) Pour s’assurer que la distribution des résidus est symétrique
B) Pour garantir que la variance des résidus est constante
C) Pour évaluer la linéarité entre les variables
D) Pour vérifier la normalité des coefficients de régression
Correction:
A) Faux
B)Faux
C)Faux
D) Vrai
E) Vrai
A) Vrai
B) Faux
C) Vrai
D) Vrai
E) Faux
QCS1:
A)FAUX
B)VRAI.
C)FAUX
D)FAUX
QCS2 :
A)VRAI
10
B )FAUX
C)FAUX
D)FAUX
11