Stéphane Ducay 1
S3 Maths et Info-MIAGE 2011-2012 Statistique et Probabilités Régression - Droite des moindres carrés
n n
Covariance : cov x, y 1 xi x yi y 1 xiyi xy.
n n
i 1 i 1
On a alors : cov x, y xy a s 2x x 2 bx 0 et y ax b 0.
De b y ax on déduit cov x, y xy a s 2x x 2 y ax x 0,
cov x, y
soit cov x, y as 2x 0, soit a .
s 2x
On admet que ce couple a, b minimise f a, b .
Nuage de points
cov x, y
La droite de regression de y en x a pour équation : y ax b, avec a et b y ax.
s 2x
n n
xi y i x i y i x 2i 1 1 1 1
On a x n xi 15 3, y n yi 35 7,
2 4 8 4 i 1 5 i 1 5
n
3 9 27 9 cov x, y 1 xiyi xy 1 125 3 7 4,
n 5
i 1
5 11 55 25 n
s 2x 1 x 2i x 2 1 55 3 2
2.
1 3 3 1 n 5
i 1
4 8 32 16 cov x, y
On en déduit que a 4 2 et b y ax 7 2 3 1.
s 2x 2
15 35 125 55 La droite de regression de y en x a donc pour équation : y 2x 1.
12
y
10
8
6
4
2
0
0 1 2 3 4 5 6
x
Stéphane Ducay 2
S3 Maths et Info-MIAGE 2011-2012 Statistique et Probabilités Régression - Droite des moindres carrés
Remarque. Cette droite passe par deux des points du nuage : c’est une coïncidence ! Cela ne se produit
pas en général.
2. Droite des moindres carrés de x en y.
On suit une démarche analogue à celle qui a donné la droite des moindres carrés de y en x :
cov x, y
D y/x : y ax b, avec a et b y ax.
s 2x
On cherche à ajuster une droite D x/y d’équation x a y b au nuage de points.
On obtient la droite des moindres carrés de x en y :
cov x, y
D x/y : x a y b , avec a et b x a y.
s 2y
Remarque. Ces équations peuvent aussi s’écrire :
D y/x : y y a x x
D x/y : x x a y y
Les droites D y/x et D x/y se coupent donc au point G x, y .
Exemple.
Reprenons l’exemple précédent. On a toujours x 3, y 7, cov x, y 4, s 2x 2 et a 2.
n
1 1 291 7 cov x, y 4 1 .
On calcule s 2y n y 2i y 2 2
9, 2, d’où a
i 1 5 s 2x 9, 2 2, 3
La droite de regression de x en y a donc pour équation x x a y y , soit x 3 1 y 7 ,
2, 3
c’est-à-dire y 2, 3x 0, 1.
On retrouve également une équation de la droite de régression de y en x : y y a x x , soit
y 7 2 x 3 , c’est-à-dire y 2x 1.
Les droites D y/x et D x/y se coupent au point G x, y G 3, 7 .
12
y
10
8
6
4
2
0
0 1 2 3 4 5 6
x
Droites de régression de y en x et de x en y
Qualité de l’ajustement.
n 2
On peut démontrer que r 2x,y 1 1 1 yi ax i b 1. On en déduit que r 2x,y 1 si et seulement
s 2y n i 1
n 2
si yi ax i b 0, c’est-à-dire y i ax i b 0, pour tout i 1, , n, soit M i x i , y i D y/x . Ainsi,
i 1
r 2x,y 1 si et seulement si les points M i sont alignés sur D y/x .
De façon générale, plus r 2x,y est proche de 1, meilleur est l’ajustement de la droite des moindres carrés au
Stéphane Ducay 3
S3 Maths et Info-MIAGE 2011-2012 Statistique et Probabilités Régression - Droite des moindres carrés
nuage de points. Le signe de r x,y (même signe que celui de a) indique le sens de la liaison (croissante si
r x,y 0, décroissante si r x,y 0) entre X et Y.
Signification de r x,y .
La question se pose de savoir si une forte valeur de r x,y (en valeur absolue) ou de r 2x,y prouve qu’il y a une
forte corrélation entre les deux caractères X et Y (par exemple lorsque l’ajustement est bon) ou si elle est due
au hasard de l’échantillonage (par exemple lorsque n est petit). Pour obtenir une réponse, on peut utiliser des
tests statistiques (voir statistique inférentielle).
Formule de décomposition.
La notion de liaison entre X et Y signifie qu’une variation de X entraîne une variation de Y. La formule de
décomposition permet de préciser la part de variation de Y expliquée par la variation de X :
n n n
2 2 2
yi y yi y yi yi , avec y i ax i b.
i 1 i 1 i 1
La démonstration repose sur le fait que le double produit s’annule :
n n
yi y yi yi a xi x ei 0, avec e i yi y i (erreur observée), et grâce aux équations
i 1 i 1
définissant a et b.
n
2
La somme des carrés totale : yi y mesure la variation globale des y i autour de leur moyenne y.
i 1
n n
2
La somme des carrés expliquée par la variable X : yi y a2 xi x 2
mesure la variation de
i 1 i 1
Y expliquée par la variable X. Ce terme n’est d’ailleurs fonction que de la pente de la droite des moindres
carrés et des valeurs de X.
n n
2
La somme des carrés résiduelle : yi yi e 2i mesure la variation de Y non expliquée par la
i 1 i 1
variable X.
Coefficient de détermination.
Il est naturel de mesurer la force de la liaison entre les variables X et Y à l’aide du coefficient de
détermination :
n
2
yi y
i 1 somme des carrés expliquée
R2 n
yi y 2 somme des carrés totale
i 1
On peut vérifier que R 2 r 2x,y . Ce qui explique que r x,y mesure la force de la liaison entre X et Y.
Stéphane Ducay 4
S3 Maths et Info-MIAGE 2011-2012 Statistique et Probabilités Régression - Droite des moindres carrés
B
xU Vx
Vy
U Mx
Vx
O A
Définition de Vx Représentation de Vx et Vy
Réciproquement, si les vecteurs V x et V y sont colinéaires (non nuls), il existe un réel a non nul tel que, par
exemple, V y aV x , soit M y yU a M x xU . Ce qui signifie que pour tout entier i entre 1 et n,
y i y a x i x , soit y i ax i y ax. Autrement dit, il existe une liaison fonctionnelle affine entre Y et X
du type Y aX b, avec b y ax.
Dans ce cas, cos V x , V y 1 suivant que V x et V y sont dans le même sens ou pas.
A contrario, si les vecteurs V x et V y sont orthogonaux (cosinus nul), on dit que les variables X et Y sont
non corrélées. Dans ce cas, on a la double équivalence
n
Vx. Vy 0 Mx xU My yU 0 xi x yi y 0
i 1
Entre ces deux situations extrêmes, l’écart angulaire des vecteurs V x et V y , ou plus précisément son
cosinus, fournit une mesure du degré de corrélation linéaire entre les deux variables X et Y étudiées. On a
alors
r x,y cos V x , V y
Partageant arbitrairement le plan en secteurs de 30°, on obtient 5 zones permettant de définir une bonne,
3 1 , ce
médiocre ou mauvaise corrélation entre X et Y. Sachant que cos 30° 0, 866 et cos 60°
2 2
critère graphique se traduit numériquement par :
3
- si |r x,y | 1, il existe une bonne corrélation linéaire entre X et Y ;
2
3
- si 1 |r x,y | , la corrélation linéaire entre X et Y est médiocre ;
2 2
- si 0 |r x,y | 1 , la corrélation linéaire entre X et Y est mauvaise.
2
4.3. Coefficients de régression
Considérons les vecteurs M y de coordonnées y i ax i b , V y M y yU de coordonnées y i y ,
M e M y M y de coordonnées e i y i y i , V e V y V y de coordonnées e i e y i y y i y .
La méthode des moindres carrés (appliquées aux écarts verticaux) consiste à déterminer les réels a et b de
2
façon que M e soit minimale.
Il est clair que M e V e eU. Les vecteurs V y et V y étant orthogonaux à U, il en est de même pour V e .
Puisque U n , il s’ensuit (théorème de Pythagore)
2 2
Me Ve ne 2
Cette somme de deux carrés indépendants est minimale lorsque chacun de ses termes est minimal.
Pour n 0, le terme ne 2 est minimal lorsque e 0, c’est-à-dire y y : la variable Y et son modèle affine
Y ont alors la même moyenne. Or y ax b, donc y ax b, d’où b y ax.
Par ailleurs, pour tout entier i entre 1 et n, y i y ax i b ax b a x i x , d’où V y aV x . Les
vecteurs V y et V x sont donc colinéaires.
Notant OA V x , OB V y et OH V y , il en résulte que les points O, H et A sont alignés.
Vy
Vx
O V~y H A
Position du point H
2
Comme HB V e , on voit que Ve est minimale si et seulement si H appartient à la droite OA et la
Stéphane Ducay 6
S3 Maths et Info-MIAGE 2011-2012 Statistique et Probabilités Régression - Droite des moindres carrés
5. Généralisation
On considère une population sur laquelle on étudie deux caractères quantitatifs X et Y pouvant prendre
respectivement r et s valeurs distinctes.
On extrait de cette population un échantillon de taille n et on note n ij l’effectif observé d’individus
prenant la i ème valeur de X et la j ème valeur de Y.
La représentation graphique d’une telle série statistique à deux variables pourra se faire à l’aide d’un
stéréogramme (en 3 dimensions). On pourra aussi la représenter à l’aide d’une nuage de points (en 2
dimensions), en indiquant, entre parenthèses à coté de chaque point de coordonnées x i , y j , l’effectif n ij
correspondant.
Les effectifs marginaux observés sont :
s r
ni n ij n i1 n i2 n is et n j n ij n 1j n 2j n rj .
j 1 i 1
X \ Y y1 y2 ys ni
x1 n 11 n 12 n 1s n 1
x2 n 21 n 22 n 2s n 2
xr n r1 n r2 n rs n r
n j n 1 n 2 n s n
r s
Moyennes : x 1 ni xi, y 1 n jyj,
n n
i 1 j 1
r r s
Variances : s 2x 1 ni xi x 2 1 n i x 2i x , 2
s 2y 1 n j y 2j y 2
n n n
i 1 i 1 j 1
Stéphane Ducay 7
S3 Maths et Info-MIAGE 2011-2012 Statistique et Probabilités Régression - Droite des moindres carrés
r s r s
Covariance : cov x, y 1 n ij x i x yi y 1 n ij x i y j xy.
n n
i 1 j 1 i 1 j 1
On reporte ces nouvelles valeurs dans les équations des droites des moindres carrés et dans la formule du
coefficient de corrélation linéaire.
Exemple.
Une statistique effectuée sur 800 personnes donnent la répartition suivante :
xi \ yj 3 2 1 0 ni
1 74 116 68 82 340
0 126 174 82 78 460
n j 200 290 150 160 800
On présente les calculs dans les tableaux suivant :
xi \ yj 3 2 1 0 ni n i x i n i x 2i
1 74 116 68 82 340 340 340
0 126 174 82 78 460 0 0
n j 200 290 150 160 800 340 340
n jyj 600 580 150 0 1330
n j y 2j 1800 1160 150 0 3110
xi \ yj 3 2 1 0
1 222 232 68 0
n ij x i y j
0 0 0 0 0
522
On a alors :
r
x 1 ni xi 1 340 0, 425,
n 800
i 1
s
y 1 n jyj 1 1330 1, 663,
n 800
j 1
r
s 2x 1 n i x 2i x 2 1 340 0, 425 2
0, 244,
n 800
i 1
s
s 2y 1 n j y 2j y 2 1 3110 1, 6625 2
1, 124,
n 800
j 1
r s
cov x, y 1 n ij x i y j xy 1 522 0, 425 1, 6625 0, 054.
n 800
i 1 j 1
On en déduit :
cov x, y
D y/x : y ax b, avec a 0, 221 et b y ax 1, 757,
s 2x
cov x, y
D x/y : x ay b , avec a 0, 048 et b x a y 0, 505,
s 2y
cov x, y 0, 054
r x,y sxsy 0, 103
0, 494 1, 056
Stéphane Ducay 8
S3 Maths et Info-MIAGE 2011-2012 Statistique et Probabilités Régression - Droite des moindres carrés
6. Exercices
Exercice 1.
Dans la série statistique suivante, x représente le nombre de jours d’exposition au soleil d’une feuille et y
le nombre de stomates aérifères au millimètre carré :
x 2 4 8 10 24 40 52
y 6 11 15 20 39 62 85
1) Déterminer une équation de la droite de regression de y en x.
2) Calculer le coefficient de corrélation linéaire entre x et y. Commenter le résultat.
3) Quel nombre de stomates peut-on prévoir après 30 jours d’exposition au soleil ? après 60 jours ?
Exercice 2.
On a procédé à l’ajustement affine d’un nuage de points. Les équations obtenues sont les suivantes :
- droite d’ajustement de y en x : D : y x 30
- droite d’ajustement de x en y : D : x 1/4y 60
1) Calculer le coefficient de corrélation linéaire.
2) Calculer les moyennes arithmétiques de x et de y.
3) Calculer la covariance entre x et y et la variance de x, sachant que la variance de y est égale à 40.
Exercice 3.
On sélectionne 12 personnes inscrites à un stage de formation. Avant le début de la formation, ces
stagiaires subissent une épreuve A notée de 0 à 20. A l’issue du stage, une épreuve B identique à la première
est aussi notée de 0 à 20. Considérant les deux variables X note de A et Y note de B, on a obtenu les
résultats suivants :
stagiaire 1 2 3 4 5 6 7 8 9 10 11 12
xi 3 4 6 7 9 10 9 11 12 13 15 4
yi 8 9 10 13 15 14 13 16 13 19 6 19
1) a) Représenter ces résultats par un nuage de points.
b) Quelle courbe d’ajustement ce nuage vous suggère-t-il ?
2) A partir des résulats obtenus, on a déterminé la droite de régression de y en x, ainsi le coefficient de
corrélation linéaire entre x et y. On a obtenu l’équation y 0, 108 x 11, 990 et le coefficient r 0, 101.
A partir de ces résultats, expliquer pourquoi l’ajustement n’est pas bon.
3) On décide d’éliminer les stagiaires 11 et 12, et donc de ne tenir compte que des stagiaires 1 à 10.
a) Déterminer une équation de la droite de régression de y en x par la méthode des moindres carrés.
b) Calculer le coefficient de corrélation linéaire entre x et y. Interpréter le résultat obtenu.
Stéphane Ducay 9
S3 Maths et Info-MIAGE 2011-2012 Statistique et Probabilités Régression - Droite des moindres carrés
3) A partir du tableau de données, le logiciel Excel propose un ajustement polynomial par l’équation
y 130x 2 100x 68.
a) S’agit-il du même ajustement que celui obtenu dans le 2) ? Expliquer cette situation.
b) Déduire de cet ajustement une prévision du montant d’achats pour l’année 2005.
4) Le montant des achats en ligne en 2005 a été de 7700 millions d’euros. Lequel des trois ajustements
précédents vous parait-il le plus conforme à la réalité ? Jutifier votre réponse.
Exercice 6.
Une enquête porte sur lemploi du temps des élèves de Licence mention mathématiques de l’UPJV. Après
leur avoir demandé de noter durant une semaine le temps de leurs activités, on sélectionne les trois questions
suivantes :
Q1 : pendant combien d’heures (y compris d’enseignement) avez-vous travaillé dans la semaine ?
Q2 : pendant combien d’heures avez-vous regardé la télévision dans la semaine ?
Q3 : pendant combien d’heures avez-vous lu dans la semaine ?
Afin de faciliter les calculs, on n’a retenu que 10 étudiants tirés au hasard. Leurs réponses (arrondies en
heures) figurent dans le tableau suivant :
Travail 45 40 47 48 39 43 47 43 40 38
Télévision 7 8 12 13 7 14 5 7 8 9
Lecture 5 3 2 1 8 1 9 7 3 1
On désigne respectivement par X, Y et Z les variables (ou caractères) nombres d’heures hebdomadaires
passées au travail, à la télévision et à la lecture.
1) Etudier successivement les trois couples X, Y , X, Z et Y, Z . Pour chacun des couples, tracer le
nuage des 10 points et calculer les indicateurs statistiques : moyennes, écart-types, coefficient de corrélation
linéaire.
2) Pour le(s) couple(s) pour le(s)quel(s) cela se justifie, écrire l’équation de la droite de régression
linéaire.
3) Quelle conclusion peut-on suggérer sur l’emploi du temps de ces étudiants ?
Stéphane Ducay 10