Académique Documents
Professionnel Documents
Culture Documents
2.1 INTRODUCTION
Le but de la statistique descriptive à deux dimensions est de mettre en évidence les
relations qui existent entre deux séries d’observations considérées simultanément. Comme en
statistique descriptive à 1 dimension, trois aspects peuvent être envisagés :
𝑥1 𝑥2 . . . 𝑥𝑖 … 𝑥𝑛
𝑦1 , 𝑦2 , . .. , 𝑦𝑖 , . .. 𝑦𝑛
Exemple 2.1 : tailles (x en cm) et poids (y en Kg) d’un groupe de dix individus
Individu 1 2 3 4 5 6 7 8 9 10
xi 157 160 160 165 167 167 170 178 182 185
yi 51.5 55.0 53.5 61.0 60.0 63.5 67.0 75.5 78.0 81.0
Une distribution de fréquence se présente sous la forme d’un tableau statistique à double
entrée, dont une ligne est réservée à chaque valeur xi de x et une colonne à chaque valeur yj de
y. Dans le cas des distributions groupées, les valeurs xi et yj représentent les points centraux des
classes, mais le plus souvent, on représente dans les lignes et/ou les colonnes du tableau, les
intervalles de classes.
La distribution marginale de x :
La distribution marginale de x est la distribution de fréquence à une dimension
constituée des valeurs xi et des fréquences marginales ni. correspondantes.
La distribution marginale de y :
De même pour y, la distribution marginale est constituée des valeurs yj et des fréquences
marginales n.j .
Les fréquences marginales relatives :
Elles sont définies par :
q p
ou ni'. = nij' , n.' j = nij'
j =1 i =1
p q p q
avec : ni'. = n.' j = nij' = 1
i =1 j =1 i =1 j =1
Exemple 2.2. On a observé la distribution suivante relative aux poids et tailles de 300 individus.
190
185
180
Poids en kg (x)
25
20
15
10 0
5
4
0 3
0 2
1 1
2
3 0
4
5
6
70
60
50
40
30
20
199,5
10
189,5
179,5
0
169,5
49,5
59,5
69,5
159,5
79,5
89,5
99,5
109,5
1 n 1 p
Moyennes marginales : x= xi
n i =1
ou ni . x i
n i =1
1 n 1 q
y= yi
n i =1
ou n. j y j
n j =1
1 n 1 p
Variances marginales : s = ( xi − x ) 2
2
x
n i =1
ou
n i =1
ni . ( x i − x ) 2
1 n 1 q
s y2 = ( yi − y ) 2
n i =1
ou
n j =1
n. j ( y j − y ) 2
p
1
Moyennes conditionnelles : x j ou x y =
n. j
n
i =1
ij xi
1 q
y i ou y x = nij y j
ni . j =1
p
1
Variances conditionnelles : s x2 / j ou s x2 / y =
n. j
n
i =1
ij ( xi − x j ) 2
q
1
s y2 / i ou s y2 / x =
ni .
nj =1
ij ( y j − yi ) 2
• La description des relations existant entre deux variables considérées simultanément fait
intervenir d’autres paramètres faisant l’objet des paragraphes suivants.
1 7
Moyennes marginales : x= ni. xi =3.23 bovins,
225 i =1
1 5
y= n. j y j =2.44 ouvriers,
225 j =1
1 7
Variances marginales : s x2 =
225 i =1
ni. ( xi − x ) 2 =2.61 bovins²,
1 5
s y2 = n. j ( y j − y ) 2 =1.47 ouvriers²,
225 j =1
1 7
Moyennes conditionnelles : x2 = nij xi =1.88 bovins,
n.2 i =1
1 5
y7 = nij y j =3.65 ouvriers,
n7 . j =1
1 7
Variances conditionnelles : s x2 / 2 =
n.2 i =1
nij ( xi − x j ) 2 =1.38 bovins²,
1 5
s y2 / 7 = nij ( y j − yi ) 2 =0.35 ouvriers².
n7. j =1
2.4.2 La covariance
a. Définition
La covariance entre deux séries d’observation x, y est définie par:
1 n
Séries statistiques : cov(x, y ) = ( xi − x )( yi − y )
n i =1
Formules de calcul :
1 n q
Distributions de fréquences : cov(x, y ) = ni ( xi − x )( y j − y )
n i =1 j =1 j
Formules de calcul :
1 p q 1 p q
1 p q
cov(x, y) = ij i j n x y − ( n i i
. x )( n. j j =
y ) nij xi y j −nx y
n i =1 j =1 n i =1 j =1 n i =1 j =1
p q
1 SPE
= ni j xi y j − x y =
n i =1 j =1 n
190
185
- +
180
175
170
y
165
160
155 + -
150
40 50 60 x 70 80 90
b. Propriétés
• La covariance est influencée par les changements d’unités, mais pas par les changements
d’origine :
si 𝑥’ = 𝑎 + 𝑏𝑥 et 𝑦’ = 𝑐 + 𝑑𝑦 alors 𝐶𝑜𝑣(𝑥’, 𝑦’) = 𝑏𝑑 𝐶𝑜𝑣(𝑥, 𝑦)
Cov ( x, y ) s x s y
1 7 5
Pour les données de l’exemple 2.3 : Cov(x,y)= ni xi y j − xy =1.44
225 i =1 j =1 j
Cov( x, y ) SPE
r= =
sx s y SCE x SCE y
Il mesure la netteté de la relation qui existe entre les deux variables, pour autant que
cette relation soit linéaire ou presque linéaire. Il possède le même signe que la covariance.
Propriétés
• r est compris entre -1 et +1 puisque Cov ( x, y ) s x s y
- r=1 si tous les points se trouvent sur une droite de coefficient angulaire positif ;
- r1 lorsque tous les points observés sont situés à proximité d’une telle droite;
- 0<r<1 lorsque le nuage de points est allongé parallèlement à une telle droite;
- r=0 lorsque le nuage de points est allongé parallèlement à l’un des axes de
coordonnées ou s’il a une forme arrondie ;
- -1<r<0 lorsque le nuage de points est allongé parallèlement à une droite de coefficient
angulaire négatif ;
- r-1 lorsque tous les points observés se trouvent à proximité d’une telle droite;
- r=-1 lorsque tous les points observés sont situés exactement sur une telle droite.
Cov( x, y ) 1.44
Pour les données de l’exemple 2.3 : r = = = 0.74
sx s y 1.62 *1.21
Cov 2 ( x, y ) SPE 2
r2 = =
s x2 s y2 SCE x SCE y
Remarque :
diagramme de régression
190
185
180
175
yi170
165
160
155
150
40 60 80 100
xi
b. La droite de régression de y en x
( yi − y( xi )) 2 = ( yi − a − bxi ) 2
i =1 i =1
Les xi et yi étant connus, alors le minimum peut être déterminé en dérivant par rapport à a et b,
et en annulant ces dérivées soit:
On appelle résidus de y par rapport x, les écarts entre les valeurs observées (yi)de la
variable dépendante et les valeurs correspondantes de la droite de régression (y(xi)):
di = yi-y(xi) = yi-a-bxi
1 n 1 p q
s 2
y. x = ( yi − y ( xi )) 2
n i =1
ou
n i =1 i =1
nij ( y j − y ( xi )) 2
La somme des carrés des résidus appelée somme des carrés des écarts résiduelle est la
quantité :
n p q
SCE y. x = ( yi − y ( xi )) 2 = ns 2 y. x
i =1
ou n
i =1 j =1
ij ( y j − y ( xi )) 2
Cov 2 ( x, y )
s y2. x = s y2 1 − = s y2 (1 − r 2 )
s 2 2
s
x y
On en déduit que :
0 s²y.x s²y
s²y.x = s²y si Cov(x,y)=0 ou r=0
s²y.x = 0 si Cov²(x,y)=s²xs²y ou r=1
s²y.x est un indice de la dispersion des points observés autour de la droite de régression de y en
x. La variance résiduelle est la partie de la variance de y inexpliquée par la régression de y en
x.
Cov 2 ( x, y ) 2
or r 2 = / s y est la part relative de la variance de y expliquée par la régression.
s2x
Donc, le coefficient de détermination exprimé en % représente le pourcentage de la variance
de y expliquée par la variable x.
Exemple 2.4. Pendant plusieurs années consécutives, on a observé le prix de vente moyen (en
Dh/Kg) d’un certain type d’aliment d’origine animale. Déterminez l’équation de régression
linéaire qui s’ajuste à ces données. Que pensez-vous de la qualité de l’ajustement ? A quel prix
doit-on s’attendre les deux années suivantes ?
Années (x) 2006 2007 2008 2009 2010 2011 2012 2013 2014 2015 2016 2017 2018 2019 2020
Prix (y) 50 51 55 54 60 58 63 66 69 67 70 75 76 78 81
Qualité de l’ajustement
r=0,989, r²=0,979
s y. x = 94.116 * (1 − 0.979 ) = 2.00
2
PH 5.3 5.3 5.4 5.6 5.6 5.7 6.0 6.0 6.2 6.3 6.4 6.4 6.6 6.6 6.8
Conc. 145 200 160 140 160 185 125 155 120 130 110 125 90 125 70
x en jours 1 2 4 6 10 15 20 30 40 50 60
y en cm 2.5 4.1 6.4 8.2 10.5 12.3 13.6 14.3 15.1 15.0 14.9
ax
y=
b+x
a. En fonction des résultats obtenus, estimez d’une manière approchée les paramètres du
modèle par la méthode des moindres carrés.
b. Que pensez-vous de ce modèle.
a. Linéarisation (Y=A+BX) ;
Y= X= A= B=
1/y 1/x 1/a b/a
a=1/A b=B/A
16.392 x
y=
5.672 + x
b. r² ~ 0.997