Vous êtes sur la page 1sur 11

Hamza Boudour 05/04 - Statistiques- Pr.

Carrere
Duua Jimil
Chapitre 9: droite de régression
Plan:
• Droite de régression
• Interprétation et R²
• Conditions d’utilisation

I. Qu’est-ce que c’est?

On souhaite examiner le lien entre deux


variables quantitatives continues où l’une
est peut-être la cause de l’autre

X : variable explicative (cause)


Y : variable dépendante (conséquence)

Pour le coefficient de corrélation, il n’y a pas


de réel lien de cause à effet entre les deux.

Là, l’un est peut-être la cause de l’autre, et


c’est essentiel pour interpréter une droite de
régression.

On voudrait savoir quelle droite va le mieux


approcher ce nuage de points.

Le problème : on peut en tracer plein qui


ont l’air toutes aussi bien à l'œil nu. (Cf
droites toutes claquées que je vous ai
dessiné juste à côté).

La solution : La somme des résidus carrés.

Je trace une droite, n'importe laquelle, et pour chaque point de mon nuage de points, je trace un trait
vertical qui va de ce point jusqu'à la droite

1
Chacun de ces petits traits bleus s'appelle un résidu et je peux définir grand S, la somme de tous ces résidus
au carré.
Ce que l'on appelle la droite de régression linéaire, c'est la seule droite qui minimise cette quantité,
c’est-à-dire la droite avec les traits bleus les plus courts.
Par ailleurs, elle passe par le point mx; my, où mx est la moyenne de la variable x, et my est la moyenne de
la variable y.

Question: On peut toujours calculer la droite


des moindres carrés, mais est-elle significative ?
C’est à dire est-ce que mon modèle où y dépend
linéairement de x, est validé ?

H0: Y ne dépend pas de x, il y a autant de points


au dessus qu’en dessous, et la droite horizontale
« aurait fait tout aussi bien ».

H1: Y dépend linéairement de X. La pente de


cette droite est différente de 0 (donc pas
horizontale).

Ça tombe bien! La pente de la droite suit une loi


type Fisher : R peut déterminer sa probabilité p
d’être ≠ 0.

Rappel: loi de Fisher est la loi sur les comparaisons de variances qu'on avait vue au tout début du cours sur
l’ANOVA

II. Interprétation et R²

Attention! On peut avoir une droite avec une régression linéaire significativement différente de zéro, mais
avoir quand même beaucoup de bruit autour.

n = 30, p = 0.11, la pente n’est pas significativement différente de 0.

n = 80, p = 0.02, la pente est significativement différente de 0. Lorsque l’on


rajoute des points (c’est à dire du bruit), le p va toujours baisser et passer
en dessous de 0,05, notre seuil.

Les données sont « toutes pourries », un patient ne pourra jamais savoir s' il
y a réellement un bénéfice à prendre votre médicament (oui la prof change
d’exemple là) puisqu’il n’a aucune idée de où il pourrait se situer.

Ainsi, p ne va pas être suffisant pour nous dire si le lien est vraiment fort
entre la variable X et la variable Y
2
Il nous faut donc un indice plus fiable, le coefficient de détermination R².

Le trait rouge étant la différence entre le point sur la droite et le point qu’il y aurait eu sur la droite
horizontale (passant par la moyenne).

Sur la droite de régression linéaire on a toujours cette relation que la somme des yi-mi (la somme des
grands traits) est égale à la somme des petits traits rouges au carré plus la somme des petits traits bleus au
carré, c’est la variabilité totale.

Si , le modèle n’explique rien.

Si , le modèle explique tout!

La variabilité se trouve dans la variabilité expliquée, et non


résiduelle. On a une bonne adéquation entre les données et la
droite de régression linéaire.

On va mettre tout ça dans un seul coefficient qui va être la partie rouge sur la partie totale. C'est un
coefficient qui est compris strictement entre 0 et 1.

S'il est proche de 0, ça veut dire que la partie rouge est petite par rapport à la partie noire.
Donc la partie rouge est petite par rapport à la partie bleue → le modèle n'explique absolument rien.

Et s'il est proche de 1, la variabilité totale est presque entièrement dans l'explication →le modèle explique
absolument tout.

En gros:

Si R² ≈ 0 le modèle n’explique rien


Si R² ≈ 1 le modèle explique tout !

3
Selon ce qu’on est en train de faire, les seuils sont différents, la prof ne nous embêtera pas avec ça à l’exam.
Aux QCM: en dessous de 0,5 c'est faible au-dessus de 0,5 c'est fort.

R² va être un indice qui va nous permettre de comparer différentes causes. Si on a une cause pour laquelle
la régression linéaire nous donne un R² à 0,3 et une autre cause qui nous donne un R² à 0,7, on va pouvoir
dire qu'on a besoin d'agir plus sur la cause numéro 2 que sur la cause numéro 1.

Utilisation de R

Exemple:

On a mesuré la VO2max de 100 patients lors d’un test d’effort, ainsi que le marqueur clinico-biologique
PCB1. Y a-t-il un lien entre les deux ?

Variables : VO2max et PCB1


Commande : régression = lm(VO2maw ~ PCB1)
-> « LM disons que c’est pour linear machine » -la prof
-> Variable dépendante ~ variable explicative

Lecture des résultats : summary(regression) :

4
Sur cette ligne là, le R² est calculé et cela de deux manières:
On a le R² ajusté, il est à 70 % donc ici on a une droite de pente positive différente de 0 avec un P très petit
inférieur à 0,05 et un R² égal à 70 % .

Donc, le modèle explique plutôt bien le VO2Max.


Le marqueur PCB1 explique à 70 % la VO2Max.

Donc en conclusion:

VO2Max est linéairement corrélée positivement à PCB1 avec p inf à 10 -15 et un R2 égal à 0,7.
Quand on regarde les données dans le graphique, on voit bien qu’il y a bien un lien positif entre VO2 max
et PCB1.

Une mise en garde :


Les modèles de régression linéaires sont très sensibles aux valeurs extrêmes.

Exemple :
On a un tableau, une variable X et une variable Y. Sans tracer la droite, on regarde directement la droite de
régression.
On voit une pente négative avec p inf à 0.05.

5
Quand on affiche la courbe, on a quelque chose comme ça :

Pourquoi ?
À cause du R² qui est très faible (0,29).

Si on change le R² en une valeur plus élevée, R2=0,664.


On va avoir une pente positive :

Dans les deux cas, on a des p très faibles.

Attention : toujours bien connaître et visualiser ses données,


puisqu’une seule valeur peut fausser une courbe.

III. Conditions d’utilisation :

Énoncé :
1- Il faut que toutes les mesures de la variable Y soient indépendantes les unes des autres.
2- Il faut que le lien entre X et Y soit linéaire.
3-Il faut que la distribution Y soit normale pour chaque valeur de X et de variance constante.

NB : X ne doit pas être le temps.


Exemple : étude du poids de l’enfant en fonction du poids de la mère —> penser à ne prendre qu’un enfant
par mère puisque on pense à l’indépendance des données entre eux. On ne peut pas prendre plusieurs
enfants pour une seule mère.

NB2 : pour voir la linéarité entre X et Y, il faut visualiser les données à l'œil nu et puis un test de linéarité.
Exemple : étude du poids en fonction de la taille —> le poids évolue comme le carré ou le cube de la taille.
3
Le volume d’une sphère : 3/4 2π x poids est proportionnel 𝑅 .

NB3 : il faut visualiser les données et aussi un test de normalité.


Exemple : la durée d’une grossesse en France n’est pas « en cloche » : on interrompt les grossesses sup à 42
semaines. Les médecins allemands interrompent la grossesse après 43 semaines.
On a besoin d’avoir des données correctes avant de pouvoir faire une étude numérique et statistique.

6
1) Comment on effectue un test de linéarité ?

Pour cela, on rentre plot de régression. Régression ça va être un objet R où il contient toutes les
informations de la régression linéaire. On peut le tracer.

Le premier graphique va être : régression=lm(Y X)

Tous les points sont transférés d’une manière penchée. On obtient la répartition des résidus. On a une
courbe rouge qui nous montre comment devrait être la droite pour qu’on ait autant de résidus au-dessus
que au-dessous.

—> Ce test visuel montre que si la courbe rouge est à peu près horizontale, le test est suffisamment linéaire.

7
Exemple de non linéarité :

À l'œil nu, on peut voir que ce n’est pas linéaire.


Pourtant, le test R nous a trouvé une pente positive avec une certitude élevée (p très petit ).
Donc même si, d’après le test de la régression linéaire, la variable Y dépend bien linéairement de X mais
visuellement ce n’est pas le cas. On affirme que ce n’est pas linéaire.

Que fait on dans ce cas la ?

● Réfléchir si un modèle non linéaire est plus approprié (carré, cube, exponentiel, logarithmique…)
● Tester ces nouveaux modèles jusqu’à avoir de beaux résidus.

NB :Exponentiel et logarithmique sont les plus souvent utilisés !

2) Comment effectuer un test de normalité ?

Donc on a la courbe 2 tracée qui dépend des résidus de la première courbe.

R trace les quantiles des résidus en fonction des quantiles de la distribution normale.
Si les résidus sont normaux, on a à peu près une droite (tous les points sont bien sur la droite).

Exemple : une distribution non normale

8
On voit que pour chaque valeur de X, on a beaucoup plus de points vers X.
Au lieu d’avoir une courbe en cloche, on a plutôt une queue lourde.

Sur la deuxième courbe, la droite a l’air d’être linéaire puisque la ligne rouge est presque droite. Le lien a
l’air d’être linéaire. Mais dans la troisième courbe, il y a pleins de quantiles qui s’écartent énormément sur
le graphique.
Et donc la, on a suffisamment de quoi se méfier, la distribution des quantités n’est pas normale et donc la
régression linéaire ne peut pas être appliquée ici.

Ici, encore complètement visuel mais suffisant pour juger.

Que faire quand on a des résidus non normaux ?

● Réfléchir s’il y a une raison pour que les résidus ne soient pas normaux?
● Appeler un statisticien

NB : la droite de régression existe encore, et R2 est toujours valable, mais le calcul de p n’est plus bon. On
ne peut pas assurer que notre modèle assure une interaction positive ou négative entre les deux variables.

QCM :

QCM 1: Droite de régression

A) X représente la variable dépendante (cause)


B) X représente la variable explicative (conséquence)
C) Y représente la variable dépendante (cause)
D) Y représente la variable dépendante (conséquence)
E) X représente la variable explicative (cause)

9
QCM 2: A et B: le modèle est expliqué lorsque …

A) variabilité expliquée > variabilité résiduelle


B) Variabilité expliquée < variabilité résiduelle
C) Si R² ≈ 0 le modèle n’explique rien
D) Si R² ≈ 1 le modèle explique tout
E) Si R² ≈ 0 le modèle explique tout

QCS 1 : pourquoi les modèles de régression linéaire sont sensibles aux valeurs extrêmes ?
A) Les valeurs extrêmes influencent fortement les résultats des test statistiques
B) Elles peuvent affecter la pente et l’intercept de la droite de régression
C) Elles réduisent la précision du modèle
D) Elles ne sont pas prises en compte dans le calcul du R2.

QCS 2 : pourquoi est-il important de vérifier la normalité des résidus dans une analyse de régression
linéaire?
A) Pour s’assurer que la distribution des résidus est symétrique
B) Pour garantir que la variance des résidus est constante
C) Pour évaluer la linéarité entre les variables
D) Pour vérifier la normalité des coefficients de régression

Correction:

QCM 1: Droite de régression

A) Faux
B)Faux
C)Faux
D) Vrai
E) Vrai

QCM 2: A et B: le modèle est expliqué lorsque …

A) Vrai
B) Faux
C) Vrai
D) Vrai
E) Faux

QCS1:
A)FAUX
B)VRAI.
C)FAUX
D)FAUX

QCS2 :
A)VRAI
10
B )FAUX
C)FAUX
D)FAUX

11

Vous aimerez peut-être aussi