Vous êtes sur la page 1sur 7

LEON N 8 :

Sries statistiques deux variables


numriques. Nuage de points associ.
Ajustement affine par la mthode des
moindres carrs. Droites de rgression.
Applications. Lexpos pourra tre illustr
par un ou des exemples faisant appel
lutilisation dune calculatrice.

Pr-requis :
Rsultats sur les sries statistiques une variable ;
Trinme du second degr (forme canonique, minimum) ;
Equation dune droite dans P.



On se place dans un plan affine euclidien P, rapport un repre orthogonal 1 (O,~i, ~j), de direction P .

8.1 Sries statistiques deux variables


Dfinition 1 : Soit = {1 , . . . , n } une population de taille n N . On dit que deux variables X et
Y dfinissent sur une srie statistique double (xi , yi )16i6n , avec X(i ) = xi et Y (i ) = yi , lorsque :
x1 6 6 xn ;
X() et Y () ne sont pas des singletons.

Consquence - notation : Nous avons donc les rsultats suivants (aussi valables en remplaant X par Y et
xi par yi ), qui introduisent des notations utilises dans la suite :
n n
1X 2 1X 2
X= xi et V(X) = X = (xi X)2 = X 2 X .
n i=1 n i=1

Hi car yi axi b 6= Mi Hi si le repre nest pas orthogonal. En effet, pour le calcul, Mi Hi


1 correspond la longueur du segment bleu, et yi axi b correspond la longueur du segment
: Mi
~j rouge. Cette notion dorthogonalit doit tre prsente, et amne la variante de dmonstration
0 du thorme 1 prsente en fin de leon.
~i
2 Sries statistiques deux variables numriques

Exemple : On demande 8 lves de terminale leur taille (T ) et leur poids (M ) (ou plutt. . . masse pour
tre physiquement exact !). Voici les rsultats :

Taille (cm) 158 159 165 165 172 174 180 182
Poids (kg) 54 53 58 53 63 69 81 84

On entre (xi ) et (yi ) dans les deux premires colonnes de lditeur de listes de la calculatrice, et on fait
tracer le nuage de points associ cette srie statistique double (attention bien configurer la fentre gra-
phique ! ! !) :

Cet exemple sera utilis dans toute la suite de cette leon.

Dfinition 2 : Dans (O,~i, ~j), on appelle nuage de points associ la srie statistique double (xi , yi )i6i6n
lensemble des points Mi P de coordonnes (xi , yi ). Le point de coordonnes (X, Y ) est appel
point moyen et est not G.

Remarque 1 : G est lisobarycentre du systme de points {Mi }16i6n .

Dfinition 3 : Soit (xi , yi )i6i6n une srie statistique double. On appelle covariance du couple (X, Y ) le
rel not Cov(X, Y ) ou X,Y , gal
n
1X
Cov(X, Y ) = X,Y = (xi X)(yi Y ).
n i=1
Sries statistiques deux variables numriques 3

 
1355 129 1503
Exemple : G = , = (169, 375; 64, 5) et T,M = = 93, 9375.
8 2 16

Proposition 1 :
n
1X
(i) X,Y = xi yi X Y ;
n i=1
(ii) Pour tous rels a, b, c, d, aX+b,cY +d = ac X,Y ;
(iii) |X,Y | 6 X Y , avec galit si et seulement si les Mi sont tous aligns.

dmonstration :
(i) Il suffit de faire quelques calculs pour dmontrer cette galit :
n n
1X 1X
X,Y = (xi X)(yi Y ) = (xi yi Y xi X yi + X Y )
n n
i=1 i=1
n n
1X 1X
= xi yi 2X Y + X Y = xi yi X Y .
n n
i=1 i=1

(ii) Il suffit nouveau de faire des calculs, en utilisant le rsultat prcdent :


n
1X
aX+b,cY +d = (axi + b)(cyi + d) aX + b cY + d
n
i=1
n
1X
= (acxi yi + adxi + bcyi + bd) (aX + b)(cY + d)
n
i=1
n
1X
= ac xi yi + adX + bcY + bd acX Y adX bcY bd
n
i=1
n
!
1X
= ac xi yi X Y = ac X,Y .
n
i=1

(iii) Pour tout 2 2


> 0. Or X+Y = = 2 X
2 +2 2
R, on a X+Y X,Y +Y . Notons que X 6= 0
car X() nest par dfinition pas un singleton. Nous sommes donc en prsence dun trinme du
2
second degr qui est positif, son discriminant est donc ngatif, cest--dire X,Y 2 2 6 0,
X Y
soit |X,Y | 6 X Y .
2 = X 2 2 = 0 R | 2 2
De plus, X,Y Y 0 0 X+Y = 0. Or 0 X+Y = 0
i {1, . . . , n}, 0 (xi X) + (yi Y ) = 0 i, Mi (xi , yi ) d, o d est la droite dquation
0 (x X) + (y Y ) = 0. Rciproquement, sil existe une droite dquation y = ax + b telle que
pour tout i, yi = axi + b, alors Y = aX + b, et le calcul donne X,Y 2 = a2 X 2 = .
X Y


Remarque 2 : Lingalit de (iii) porte gnralement le nom dingalit de Schwarz.

8.2 Ajustement affine


On cherche une droite dquation y = ax + b qui approche au mieux tous les points du nuage dune srie
statistique double. Soit (xi , yi )16i6n une telle srie. Il existe alors plusieurs mthodes :
4 Sries statistiques deux variables numriques

manuelle : on trace une telle droite selon le bon sens sur le graphique, et lon en dduit a et b.
moyenne : il sagit de calculer pour chaque sous-nuage les coordonnes du point moyen. On obtient donc
un nouveau nuage de points : G1 , G2 , . . . et lon recommence avec ce nuage.
des moindres carrs : cest celle que lon va dvelopper ci-dessous.

On cherche a et b tels que (a, b) = ni=1 (yi axi b)2 soit minimale. Dans (O,~i, ~j), si lon se donne la
P
droite D dquation y = ax + b et Hi le projet de Mi paralllement laxe (Oy) pour tout i entre 1 et n,
alors on a
Xn
(a, b) = (Mi Hi )2 .
i=1

Dfinition 4 : Si a et b minmisent , alors D : y = ax + b est la droite ralisant un ajustement affine


du nuage de points selon la mthode des moindres carrs. On dit que D est la droite de rgression de
Y en X.

Thorme 1 : Il existe une unique droite D ralisant un ajustement affine du nuage de points selon la
2
mthode des moindres carrs. Son coefficient directeur est a = X,Y /X et elle passe par le point
moyen. On a donc :
X,Y
D :y= 2
x + (Y aX).
X

dmonstration : On a :
n
X n
X n
X
2 2
(Mi Hi ) = (yi axi b) = [(yi axi )2 2b(yi axi ) + b2 ]
i=1 i=1 i=1
n n n
X X X 2
= yi2 2a xi yi + a 2
x2i + n b (Y aX) n(Y aX)2
i=1 i=1 i=1
n n n
! ! !
X 2 X X 2 2
= yi2 nY 2a xi yi nX Y + a2 x2i nX + n b (Y aX)
i=1 i=1 i=1
" #
X,Y 2
 
2 1 2 2 2
= n (b Y + aX) + a X + 2 (Y X X,Y ) .
X X

2 2 2 2
Or X (Y X X,Y ) est un nombre positif indpendant de a et b, donc
n
X 1
(Mi Hi )2 > 2 2 2
2 (Y X X,Y ),
i=1
X

avec galit si et seulement si

a = X,Y
(
b Y + aX = 0
X,Y 2
X

a X =0 b=Y
X aX.

En fin de leon est propose une variante cette dmonstration. 


Sries statistiques deux variables numriques 5

Remarques :
1. Daprs cette dmonstration, ni=1 Mi Hi = 0 X 2
Y2 X,Y
2
P 2
(X ) = 0 |X,Y | = X Y , et
lon retrouve un rsultat prcdent ;
2. On peut aussi dterminer la droite D de rgression de X en Y . Si lon note D : x = a y + b , alors
(en inversant les rles de X et Y dans le thorme prcdent), on a
X,Y
a = et b = X a Y .
Y2
Donc :
* D G car X = a Y + b .
* Si X,Y = 0, alors a = a = 0, donc D// (Ox) et D // (Oy).
* Si X,Y 6= 0, alors a 6= 0 et donc
1 b
D : y = x .
a a
2 2 2
Alors D = D a = 1/a X,Y = X Y Mi aligns. Il est noter que la condition

b = b /a nest pas utile puisque les deux droites passent par le point moyen.
* a et a ont mme signe, celui de X,Y , donc

2 2 2
1
X,Y 6 X Y |a| 6 .
a

Dfinition 5 : On appelle coefficient de corrlation linaire entre X et Y le rel not R gal


X,Y
R= .
X Y

Remarque 4 :
1 6 R 6 1 (car |X,Y | 6 X Y ) ;
Plus les points du nuage sont aligns , plus |R| sera proche de 1.

Exemple : On dtermine dans notre exemple que

D : y = 1, 305x 156, 53 et D : y = 1, 424x 176, 66,

ainsi que R = 0, 957, do une bonne corrlation entre P et T . Voici la capture dcran obtenue la
calculatrice (dans lditeur de liste, la possibilit de calculer lquation dune droite de rgression et de la
mmoriser dans une variable se fait via le menu F5) :
6 Sries statistiques deux variables numriques

8.3 Applications
8.3.1 Ajustement par une fonction exponentielle
Si lon a limpression la calculatrice que le nuage de points pourrait tre approch par une fonction ex-
ponentielle, on dtermine dabord une droite de rgression y = mx + p = ln(a)x + ln() (a et existent
dans R+ car ln : R+ 7 R est une bijection) du nuage de points associ la srie double (xi , ln yi ). Alors
le nuage de points initial est ajust par y) exp(ax + b) = ax .

8.3.2 Ajustement par une fonction puissance


Si les points Mi (xi , yi ) sont proche de la courbe dquation y = xa , alors les points (ln xi , ln yi ) sont
proches de la droite dquation y = ax + ln, et rciproquement.

8.3.3 Autres
Evolution (linaire, exponentielle, . . .) dune statistique simple (par exemple une population, le tarif dun
produit, . . .) en fonction du temps.

Variante de la dmonstration du thorme 1


On pose Y = (y1 , . . . , yn ), X = (x1 , . . . , xn ), U = (1, . . . , 1) et (a, b) = kY aX BU k22 :

aX + bU H
X

0 U


On cherche donc a et b tels que aX + bU = OH. Sachant que OY OH = HY , on a

(Y aX bU ) X = 0 (1)
(Y aX bU ) U = 0. (2)

(a, b) est unique par unicit du projet orthogonal H de Y (si X et U sont non colinaires, ce qui est exclus
par le fait que X() nest pas un singleton). Alors (2) nY anX bn = 0 b = Y aX (ou encore
Sries statistiques deux variables numriques 7

Y = aX + b, donc G est sur la droite). On conclut ensuite avec lquation (1) :


n
X n
X n
X n
X
(1) (yi axi b) xi = 0 xi yi a x2i b xi = 0
i=1 i=1 i=1 i=1

nXY anX 2 (Y aX)nX = 0


2
aX 2 aX = XY XY
X,Y
a= 2 .
X

Vous aimerez peut-être aussi