Vous êtes sur la page 1sur 27

Chapitre 2

Statistique Descriptive à deux


dimensions

Des fois, on est amené à étudier le lien qu’il peut y avoir entre deux caractères. Il est
donc nécessaire de s’intéresser aux deux caractères simultanément et non séparément
comme on l’a fait au premier chapitre.

2.1 Définitions de base


Définition 2.1.1. — On appelle caractère à deux dimensions, tout couple (X, Y )
où X et Y sont deux caractères statistiques étudiés au chapitre 1, définis sur une même
population P de taille N . On l’appelle aussi caractère bidimensionnel ou couple
statistique.
Exemple 2.1.1.
– Sur la population marocaine, on peut étudier les couples statistiques : (Sexe,Age):=
(S, A), (Nombre d’enfants , état matrimonial):= (X, Y ), ...
– Les pièces fabriquées peuvent être décrites par les caractères bidimensionnels :
(Poids , diamètre), (durée de vie , nombre de pièces défectueuses), ...
– Le personnel d’une entreprise peut être décrit par les caractères de dimension
deux : (Ancienneté , CSP), (nombre d’absence en un mois , nombre d’enfants),
...
Remarque. Les caractères du couple peuvent être de toutes les natures, qualitatifs
ou quantitatifs discrets caractérisés par leurs modalités qu’on appellera possibilités, ou
quantitatifs continus caractérisés par leurs classes ou leurs centres qu’on appellera aussi
possibilités.
Définition 2.1.2. — La liste des (ωi ; Xi , Yi ), 1 ≤ i ≤ N , avec ωi ∈ P et Xi (resp. Yi )
valeur ou observation de X (resp. Y ) pour ωi , est appelée série statistique brute du
couple statistique (X, Y ). On la note aussi tout simplement (Xi , Yi )1≤i≤N .
Définition 2.1.3. — Soit xi , i = 1, ..., p (resp. yj , j = 1, ..., q) les p (resp. q) possibilités
(= modalités ou centres de classe) de X (resp. de Y ). Alors, le couple (xi , yj ) est une
modalité ! du couple (X, Y ). Il y en a p × q.

1
2 CHAPITRE 2. STATISTIQUE DESCRIPTIVE À DEUX DIMENSIONS

Notation. On rappelle que X = xi signifie que l’individu prend (ou présente) la


possibilité xi de X, ou une valeur appartenant à la classe [ei , ei+1 [ de centre xi dans le
cas continu, au quel cas on la notera encore X ∈ [ei , ei+1 [.

Définition 2.1.4. — Le nombre d’individus présentant à la fois xi et yj est appelé


effectif de la modalité (xi , yj ) du couple (X, Y ). On le note nij .
La détermination des nij est appelée dépouillement de la série statistique brute
du couple.

p ∑
q ∑
q ∑
p
Théorème 2.1.1. — On a : nij = nij = N
i=1 j=1 j=1 i=1

Preuve :
Evident 
( )
Définition 2.1.5. — La liste des (xi , yj ) ; nij est appelée série ou dis-
1≤i≤p , 1≤j≤q
tribution pondérée du couple statistique (X, Y ). On l’appelle aussi série ou distri-
bution dépouillée du couple statistique (X, Y ).

q ∑
p
Notation. ni. := nij et n.j := nij
j=1 i=1

Définition 2.1.6. — Soit (xi , yj ) une modalité d’effectif nij du couple (X, Y ). Le
nombre ni. (resp. n.j ) est appelé effectif partiel de xi (resp. de yj ). C’est le nombre
d’individus ayant xi (resp. yj ), ou ayant une valeur appartenant à la classe de centre
xi (resp. yj ), indépendamment du caractère Y (resp. X).

Définition 2.1.7. — On appelle fréquence de la modalité (xi , yj ) d’effectif nij du


couple (X, Y ), le nombre noté fij et défini par :
nij
fij :=
N
On dit aussi proportion de la modalité (xi , yj ).

p ∑
q ∑
q ∑
p
Théorème 2.1.2. — On a : fij = fij = 1
i=1 j=1 j=1 i=1

Preuve :

p ∑
q ∑
p ∑
q
nij 1 ∑p ∑ q
1
fij = = nij = .N = 1 
i=1 j=1 i=1 j=1 N N i=1 j=1 N

Théorème
( 2.1.3.) — La série statistique du couple (X, Y ) est aussi définie par la liste
des (xi , yj ) ; fij .
1≤i≤p , 1≤j≤q

Preuve :
Evidente 
2.2. REPRÉSENTATION DES DONNÉES 3

( )
Définition 2.1.8. — Soit (X, Y ) un couple statistique de distribution (xi , yj ) ; fij .
On appelle fréquence partielle de xi (resp. yj ), le nombre noté fi. (resp. f.j ) et défini
par : (
ni. n.j )
fi. := resp. f.j :=
N N
Théorème 2.1.4. — On a :

q
1. fi. = fij ∀i = 1, ..., p
j=1
∑p
2. f.j = fij ∀j = 1, ..., q
i=1
Preuve :
ni. 1 ∑q ∑q
nij ∑q
1. ∀i = 1, ..., p : fi. = = nij = = fij
N N j=1 j=1 N j=1
2. On fait de même 

2.2 Représentation des données


2.2.1 Cas d’une série brute
La série brute (ωi ; Xi , Yi )1≤i≤N du couple (X, Y ) est représentée par un tableau
statistique dont la forme générale est :
i 1 2 3 ... ... i ... ... N ///
population ω1 ω2 ω3 ... ... ωi ... ... ωN Σ
X (ou Xi ) X1 X2 X3 ... ... Xi ... ... XN
Y (ou Yi ) Y1 Y2 Y3 ... ... Yi ... ... YN
Remarques.
• On peut omettre d’écrire une des deux premières lignes
• Le tableau peut être aussi présenté par colonnes.
Exemple 2.2.1.
i 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Σ
Xi 3 3 3 4 4 4 4 3 3 3 4 2 3 3 4 2 4 3 3 2 64
Yi 2 1 2 2 2 5 2 2 5 1 5 1 2 1 5 5 2 2 5 5 57
On a par exemple, l’individu n˚5 a la valeur 4 pour X et la valeur 2 pour Y .
Définition 2.2.1. — Soit (ωi ; Xi , Yi )1≤i≤N la série brute du couple (X, Y ). La représentation
graphique dans un repère orthogonal, des points de coordonnées (Xi , Yi ) est appelée nuage de
points.
Exemple 2.2.2. Pour un échantillon de 15 individus, on a mesuré leur taille X en cm et
leur poids Y en Kg et on a obtenu les données suivantes :
i 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
X 170 175 180 164 173 179 169 175 180 162 173 178 175 170 162
Y 67 80 96 68 78 85 70 76 85 63 73 80 90 70 59
Le nuage statistique de la distributin brute de (X, Y ) est :
4 CHAPITRE 2. STATISTIQUE DESCRIPTIVE À DEUX DIMENSIONS

2.2.2 Cas d’une série pondérée


( )
La série pondérée (xi , yj ) ; nij 1≤i≤p , 1≤j≤q est représentée par un tableau dit à double
entrée, appelé encore tableau de contingence ou tableau croisé, dont la forme générale
est :
H ∑
HH Y
H y1 . . . yj . . . yq
X HH
x1 n11 . . . n1j . . . n1q n1.
.. .. .. .. .. .. ..
. . . . . . .
.. .. .. .. .. .. ..
. . . . . . .
xi ni1 . . . nij . . . niq ni.
.. .. .. .. .. .. ..
. . . . . . .
.. .. .. .. .. .. ..
. . . . . . .
xp np1 . . . npj . . . npq np.

n.1 . . . n.j . . . n.q N

Exemple 2.2.3. Le dépouillement de la série brute de l’exemple 2.2.1 donne le tableau de


contingence suivant :
H ∑
HH Y
1 2 5
X HH H
2 1 0 2 3
3 3 5 2 10
4 0 4 3 7

4 9 7 20

On a ainsi 20 individus dans cette population, parmi eux 2 ont X = 3 et Y = 5 ; 7 ont


seulement X = 4 et 9 présente la valeur 2 pour Y seul ; ...

Remarque. Les caractères du couple peuvent être de toutes les natures, qualitatifs ou quan-
titatifs discrets ou quantitatifs continus.
2.3. DISTRIBUTIONS MARGINALES 5

Exemple 2.2.4. L’étude, par zone économique et par secteur, de la production en milliard
de Dirhams, a donné le tableau de contingence suivant :
```
``` ∑
``Y=Secteur
``` Agro-alimentaire Chimique Textile
X=Zone ```
Nord 1 1.5 0.5 3
Sud 3 2 2 7
Centre 4 2.5 2 8.5
Est 0.2 0.5 3 3.7

8.2 6.5 7.5 22.2
( )
Remarque. De la même manière, on représente la série pondérée (xi , yj ) ; fij 1≤i≤p , 1≤j≤q
.

Exemple 2.2.5. La distribution qui suit est la répartition suivant l’Age et la qualification
du personnel d’une certaine entreprise :

/// j 1 2 3 ///
hhhh
hhhh Y=Qualification ∑
i hhhh employé gradé cadre
X=Age (ans) hhhh
h
1 moins de 25 0.075 0 0 0.075
2 25 − 35 0.125 0.125 0.05 0.3
3 35 − 45 0.1 0.05 0.05 0.2
4 45 − 55 0.1 0.025 0.075 0.2
5 55 − 60 0.075 0.025 0.075 0.175
6 plus de 60 0 0.025 0.025 0.05

/// 0.475 0.25 0.275 1

On relève entre autres de ce tableau, que dans cette entreprise 30% du personnel sont âgés
de 25 à moins de 35 ans, que les gradés âgés de 35 à moins de 45 ans représentent 5% du
personnel et que 47.5% de la population sont des employés,...

2.3 Distributions marginales


( )
Définition 2.3.1. — Soit (xi , yj ); nij 1≤i≤p , 1≤j≤q
la distribution statistique du couple (X, Y ).
On appelle
1. Distribution marginale de X, la liste des (xi ; ni. )1≤i≤p ou (xi ; fi. )1≤i≤p . C’est la
dernière colonne du tableau de contingence.
2. Distribution marginale de Y , la liste des (yj ; n.j )1≤j≤q ou (yj ; f.j )1≤j≤q . C’est la
dernière ligne du tableau de contingence.

Remarques.
• En général, la connaissance des distributions marginales ne permettent pas de reconsti-
tuer le tableau de contingence.
• Les distributions marginales sont des distributions d’un des deux caractères quel que soit
la valeur de l’autre caractère. Ce sont donc des distributions à une dimension étudiées
au chapitre 1. On retrouve alors les caractéristiques usuelles vues au chapitre précédent,
auxquelles on attribue le qualificatif marginal. En particulier :
6 CHAPITRE 2. STATISTIQUE DESCRIPTIVE À DEUX DIMENSIONS

1 ∑ ∑
p p
1. Moyenne marginale de X : X = xi ni. = xi fi.
N i=1 i=1
1 ∑ ∑
q q
2. Moyenne marginale de Y : Y = yj n.j = yj f.j
N j=1 j=1
3. Variance marginale de X :
1∑ 2 ∑ 1∑ ∑
p p p p
2 2
σ 2 (X) = xi ni. − X = x2i fi. − X = (xi − X)2 ni. = (xi − X)2 fi.
N i=1 i=1
N i=1 i=1
4. Variance marginale de Y :
1∑ 2 ∑ 1∑ ∑
q q q q
2 2
σ 2 (Y ) = yj n.j − Y = yj2 f.j − Y = (yj − Y )2 n.j = (yj − Y )2 f.j
N j=1 j=1
N j=1 j=1

Exemple 2.3.1. Reprenons la série pondérée de l’exemple 2.2.3, on a :


HH Y
HH 1 2 5 ni. xi ni. x2i ni.
X HH
2 1 0 2 3 6 12
3 3 5 2 10 30 90
4 0 4 3 7 28 112
n.j 4 9 7 20 64 214
yj n.j 4 18 35 57
yj2 n.j 4 36 175 215

On a donc :
1 ∑3
1
1. Moyenne marginale de X (resp. Y ) : X = xi ni. = × 64 = 3.2
N i=1 20
1 ∑3
1
2. Moyenne marginale de Y : Y = yj n.j = × 57 = 2.85
N j=1 20

1∑ 3
2 214
3. Variance marginale de X : σ 2 (X)
= x2i ni. − X = − (3.2)2 = 0.46
N i=1 20
√ √
4. Ecart-type marginal de X : σ(X) = σ 2 (X) = 0.46 = 0.678 ≃ 0.68
1∑ 3
2 215
5. Variance marginale de Y : σ 2 (Y ) = yj2 n.j −Y = − 2.852 = 2.6275 ≃ 2.63
N j=1 20
√ √
6. Ecart-type marginal de Y : σ(Y ) = σ 2 (Y ) = 2.63 = 1.621 ≃ 1.62

Remarque. Lorsque la série statistique est une série brute (Xi , Yi )1≤i≤N , les formules pré-
cédentes deviennent :
1 ∑N
1 ∑N
1. Moyenne marginale de X (resp. Y ) : X = Xi (resp. Y = Yi )
N i=1 N I=1

1∑ N
2 1∑ N
2. Variance marginale de X : σ 2 (X) = Xi2 − X = (Xi − X)2
N i=1 N i=1

1∑ N
2 1∑ N
3. Variance marginale de Y : σ 2 (Y )= Y −Y =
2
(Yi − Y )2
N i=1 i N i=1
2.4. DISTRIBUTIONS CONDITIONNELLES 7

Exemple 2.3.2. En reprenant la série brute de l’exemple 2.2.1, on a :


i 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Σ
Xi 3 3 3 4 4 4 4 3 3 3 4 2 3 3 4 2 4 3 3 2 64
Yi 2 1 2 2 2 5 2 2 5 1 5 1 2 1 5 5 2 2 5 5 57
Xi2 9 9 9 16 16 16 16 9 9 9 16 4 9 9 16 4 16 9 9 4 214
Yi2 4 1 4 4 4 25 4 4 25 1 25 1 4 1 25 25 4 4 25 25 215

Et on retrouve encore une fois :


1 ∑
20
1 1 ∑20
57
X= Xi = × 64 = 3.2 Y = Yi = = 2.85
N i=1 20 N i=1 20
1∑ 20
2 214
σ 2 (X) = X2 − X = − (3.2)2 = 0.46
N i=1 i 20
1∑ 20
2 215
σ 2 (Y ) = Yi2 − Y = − 2.852 ≃ 2.63
N i=1 20

2.4 Distributions conditionnelles


2.4.1 Définitions
Ce sont les distributions statistiques d’un caractère en fixant l’autre en une des ses pos-
sibilités.
( )
Définition 2.4.1. — Soit (xi , yj ); nij 1≤i≤p , 1≤j≤q
la distribution statistique du couple (X, Y ).
Alors,
1. La liste (yj , nij )1≤j≤q pour i fixé dans {1, ..., p}, définit une distribution statistique
appelée distribution conditionnelle de Y lorsque (ou sachant que) X = xi , notée
Y |X = xi . Il y en a p, qu’on appelle distributions conditionnelles de Y en X
notées Y |X. Ce sont chacune des lignes du tableau de contingence.
2. La liste (xi , nij )1≤i≤p pour j fixé dans {1, ..., q}, définit une distribution statistique
appelée distribution conditionnelle de X lorsque (ou sachant que) Y = yj , notée
X|Y = yj . Il y en a q, qu’on appelle distributions conditionnelles de X en Y
notées X|Y . Ce sont chacune des colonnes du tableau de contingence.

Exemple 2.4.1. Pour la série pondérée de l’exemple 2.2.3, il y a 6 distributions condition-


nelles.
– Trois distributions de Y sachant X = xi qui sont :

Y |X = 2 n1j Y |X = 3 n2j Y |X = 4 n3j


1 1 1 3 1 0
2 0 2 5 2 4
5 2 5 2 5 3
Σ 3 Σ 10 Σ 7

qu’on peut résumer dans un seul tableau par :


8 CHAPITRE 2. STATISTIQUE DESCRIPTIVE À DEUX DIMENSIONS

Y |X = 2 3 4
1 1 3 0
2 0 5 4
5 2 2 3

3 10 7
On a par exemple : 1 individu, parmi les 3 qui ont X = 2, qui a en plus Y = 1 et que
parmi les 7 ayant X = 4, il y a 3 qui ont Y = 5.
– Trois distributions de X sachant Y = yj qui sont :
X|Y = 1 ni1 X|Y = 2 ni2 X|Y = 5 ni3
2 1 2 0 2 2
3 3 3 5 3 2
4 0 4 4 4 3
Σ 4 Σ 9 Σ 7
qu’on peut résumer en un seul tableau par :
X|Y = 1 2 5
2 1 0 2
3 3 5 2
4 0 4 3

4 9 7
( )
Définition 2.4.2. — Soit (xi , yj ) ; nij 1≤i≤p , 1≤j≤q
la distribution du couple (X, Y ). Alors,
1. On appelle fréquence conditionnelle de yj lorsque (ou sachant que) X = xi , le
nombre noté fj/i ou fyj /xi ou plus précisemment fY =yj /X=xi et défini par :
nij
fj/i :=
ni.
C’est la fréquence (ou proportion) des individus ayant Y = yj dans la sous population
des individus ayant X = xi .
2. On appelle fréquence conditionnelle de xi lorsque (ou sachant que) Y = yj , le
nombre noté fi/j ou fxi /yj ou plus précisemment fX=xi /Y =yj et défini par :
nij
fi/j :=
n.j
C’est la fréquence (ou proportion) des individus ayant X = xi dans la sous population
des individus ayant Y = yj .
n11 1 1
Exemple 2.4.2. Pour l’exemple 2.2.3, on a fY =1/X=2 = = et fX=2/Y =1 = = 0.25
n1. 3 4
( )
Théorème 2.4.1. — Soit (xi , yj ) ; nij 1≤i≤p , 1≤j≤q
la distribution du couple (X, Y ). Alors,
1. La distribution conditionnelle de Y lorsque X = xi , pour i fixé dans {1, ..., p}, est aussi
définie par la liste des (yj , fj/i )1≤j≤q .
2. La distribution conditionnelle de X lorsque Y = yj , pour j fixé dans {1, ..., q}, est aussi
définie par la liste des (xi , fi/j )1≤i≤p .

Preuve :
Evidente 
2.4. DISTRIBUTIONS CONDITIONNELLES 9

Exemple 2.4.3. Pour l’exemple 2.2.3, les distributions conditionnelles sont aussi données
par :
Y |X fj/1 fj/2 fj/3 X|Y fi/1 fi/2 fi/3
1 3 2
1 3 10 0 2 0.25 0 7
1 4 5 2
2 0 2 7 3 0.75 9 7
2 1 3 4 3
5 3 5 7 4 0 9 7
Ces tableaux sont aussi appelés respectivement tableau des profils lignes et tableau des
profils colonnes .

2.4.2 Caractéristiques conditionnelles


Les distributions conditionnelles sont des distributions à une dimension étudiées au cha-
pitre 1. On définit donc leurs caractéristiques de la même manière qu’au chapitre 1. D’où,
( )
Définition 2.4.3. — Soit (xi , yj ); nij 1≤i≤p , 1≤j≤q la distribution statistique du couple (X, Y ).
Alors,
1. On appelle moyenne conditionnelle de X lorsque (ou sachant que) Y = yj , le nombre
noté m(X|Y = yj ) ou tout simplement X j et défini par :
1 ∑ ∑
p p
m(X|Y = yj ) := xi nij = xi fi/j
n.j i=1 i=1

2. On appelle moyenne conditionnelle de g(X) lorsque (ou sachant que) Y = yj , le


nombre noté m(g(X)|Y = yj ) et défini par :
1 ∑ ∑
p p
( )
m g(X)|Y = yj := g(xi ) nij = g(xi ) fi/j
n.j i=1 i=1

3. On appelle moyenne conditionnelle de Y lorsque (ou sachant que) X = xi , le nombre


noté m(Y |X = xi ) ou tout simplement Y i et défini par :
1 ∑ ∑
q q
m(Y |X = xi ) := yj nij = yj fj/i
ni. j=1 j=1

4. On appelle moyenne
(
conditionnelle
)
de h(Y ) lorsque (ou sachant que) X = xi , le
nombre noté m h(Y )|X = xi et défini par :
1 ∑ ∑
q q
( )
m h(Y )|X = xi := h(yj ) nij = h(yj ) fj/i
ni. j=1 j=1

Exemple 2.4.4. Pour l’exemple 2.2.3, on a d’après les résultats de l’exemple 2.4.1 et l’exemple 2.4.3
respectivement

Y |X = 2 n1j yj n1j yj2 n1j X|Y = 2 fi/2 xi fi/2 x2i fi/2


1 1 1 1 2 0 0 0
5 5
2 0 0 0 3 9 3 5
4 16 64
5 2 10 50 4 9 9 9
31 109
Σ 3 11 51 Σ 1 9 9
10 CHAPITRE 2. STATISTIQUE DESCRIPTIVE À DEUX DIMENSIONS

Alors,
1 ∑ 3
11
– Moyenne de Y lorsque X = 2 : m(Y |X = 2) = Y 1 = yj n1j = ≃ 3.67
n1. j=1 3
1 ∑ 3
51
– Moyenne de Y 2 lorsque X = 2 : m(Y 2 |X = 2) = yj2 n1j = = 17
n1. j=1 3

3
31
– Moyenne de X lorsque Y = 2 : m(X|Y = 2) = X 2 = xi fi/2 = ≃ 3.44
i=1
9

3
109
– Moyenne de X 2 lorsque Y = 2 : m(X 2 |Y = 2) = x2i fi/2 = ≃ 12.11
i=1
9

Exemple 2.4.5. Calculons maintenant toutes les moyennes conditionnelles de Y lorsque


1 ∑ 3
X = xi de l’exemple 2.2.3, à savoir m(Y |X = xi ) := yj nij . On présente les calculs
ni. j=1
 
comme suit, où les cellules ont la forme
nij
 

 yj nij
H ∑
HH Y
1 2 5 ni. yj nij m(Y |X = xi )
X HHH j
  
2
1
 0  2  3 11 3.67
 1  0  10
 5  2
 
3
3
   10 23 2.3
 3  10  10
  3
 
0  4   7
4    23 3.29
 0  8  15

Exemple 2.4.6. Calculons maintenant toutes les moyennes conditionnelles de X lorsque


1 ∑ 3
Y = yj de l’exemple 2.2.3, à savoir m(X|Y = yj ) := xi fij . On présente les calculs
f.j i=1


 fij
comme suit, où les cellules ont la forme  xi fij

PP
PP Y
PP 1 2 5
X PPP 
 
 
0.05  0  0.1  
2  0.1 
 
 

0

  0.2

0.15   0.25   0.1 

3  0.45 

0.75 

 
 

0.3

0   0.2   0.15  
 
4   0.8 

 0  0.6
f.j 0.2 0.45 0.35

xi fij 0.55 1.55 1.1
i
m(X|Y = yj ) 2.75 3.44 3.14
2.4. DISTRIBUTIONS CONDITIONNELLES 11

( )
Définition 2.4.4. — Soit (xi , yj ); nij 1≤i≤p , 1≤j≤q
la distribution statistique du couple (X, Y ).
Alors,
1. On appelle variance conditionnelle de X lorsque (ou sachant que) Y = yj , le nombre
noté σ 2 (X|Y = yj ) ou σj2 (X) ou Vj (X) et défini par :

( )2 ( )
σ 2 (X|Y = yj ) := m(X 2 |Y = yj ) − m(X|Y = yj ) = m (X − X j )2 |Y = yj

Sa racine carrée est appelée écart-type conditionnel de X lorsque (ou sachant que)
Y = yj , noté σ(X|Y = yj ) ou σj (X).
2. On appelle variance conditionnelle de Y lorsque (ou sachant que) X = xi , le nombre
noté σ 2 (Y |X = xi ) ou σi2 (Y ) ou Vi (Y ) et défini par :

( )2 ( )
σ 2 (Y |X = xi ) := m(Y 2 |X = xi ) − m(Y |X = xi ) = m (Y − Y i )2 |X = xi

Sa racine carrée est appelée écart-type conditionnel de Y lorsque (ou sachant que)
X = xi , noté σ(Y |X = xi ) ou σi (Y ).

Exemple 2.4.7. Pour l’exemple 2.2.3 et vu les résultats obtenus à l’exemple 2.4.4, on a :
2
– Variance de Y lorsque X = 2 : V1 (Y ) = m(Y 2 |X = 2) −√ Y 1 = 17 − 3.67 ≃ 3.53
2

– Ecart-type conditionnel de Y lorsque X = 2 : σ1 (Y ) = 3.53 ≃ 1.88


2
– Variance de X sachant Y = 2 : σ22 (X) = m(X 2 |Y = 2) −√X 2 = 12.11 − 3.442 ≃ 0.28
– Ecart-type conditionnel de X sachant Y = 2 : σ2 (X) = 0.28 ≃ 0.53

Exemple 2.4.8. Calculons maintenant toutes les variances conditionnelles de Y lorsque


1 ∑ 3
X = xi de l’exemple 2.2.3, à savoir σ 2 (Y |X = xi ) := y 2 nij − (Y i )2 . On présente les
ni. j=1 j

calculs comme suit, où les cellules ont la forme
nij

 y nij et en utilisant les moyennes

2
j
conditionnelles trouvées à l’exemple 2.4.5

HH Y ∑
HH 1 2 5 ni. yj2 nij m(Y 2 |X = xi ) Yi σi2 (Y )
X HH j
  
2
1
 0  2  3 51 17 3.67 3.53
 1  0  50
3 
 5  2 
3     10 73 7.3 2.3 2.01
 3  20  50
0  4  3 
4    7 91 13 3.29 2.18
 0  16  75

Exemple 2.4.9. Calculons maintenant toutes les variances conditionnelles de X lorsque


1 ∑ 3
Y = yj de l’exemple 2.2.3, à savoir σ 2 (X|Y = yj ) := x2 nij − (X j )2 . On présente les
n.j i=1 i
 
2
nij
calculs comme suit, où les cellules ont la forme  et en utilisant les moyennes
 xi nij
12 CHAPITRE 2. STATISTIQUE DESCRIPTIVE À DEUX DIMENSIONS

conditionnelles trouvées à l’exemple 2.4.6

XXX
XXX Y
XXX 1 2 5
X XX
1  0  2 
2    
 4  0  8
3  5  2 
3   
 27  45  18
  
4
0
 4
  3

 0  64  48
n.j 4 9 7

x2i nij 31 109 74
i
m(X 2 |Y = yj ) 7.75 12.11 10.57
m(X|Y = yj ) 2.75 3.44 3.14
σ 2 (X|Y = yj ) 0.19 0.28 0.71

2.5 Covariance
( )
Définition 2.5.1. — Soit (xi , yj ); nij 1≤i≤p , 1≤j≤q la distribution statistique du couple (X, Y ).
On appelle covariance de (on dit aussi entre) X et Y , le nombre noté Cov(X, Y ) et défini
par :

1 ∑∑ 1 ∑∑
p q q p
Cov(X, Y ) := xi yj nij − X.Y = xi yj nij − X.Y
N i=1 j=1 N j=1 i=1

Remarque. La covariance peut être positive ou négative ou nulle.

( )
Théorème 2.5.1. — Soit (xi , yj ); fij 1≤i≤p , 1≤j≤q
la distribution statistique du couple (X, Y ).
On a :


p ∑
q ∑
q ∑
p
Cov(X, Y ) = xi yj fij − X.Y = xi yj fij − X.Y
i=1 j=1 j=1 i=1

Preuve :

1 ∑∑ ∑
p q p ∑ q ∑p ∑ q
nij
Cov(X, Y ) := xi yj nij − X.Y = xi yj − X.Y = xi yj fij − X.Y 
N i=1 j=1 i=1 j=1
N i=1 j=1

Exemple 2.5.1. Reprenons la série pondérée de l’exemple 2.2.3, on a : où les cellules ont la
2.5. COVARIANCE 13

 

nij
forme 
 xi yj nij
PP ∑ ∑
PPY
PP 1 2 5 = ni. xi ni. nij xi yj
X PP
P j j
1  0  2 
2    3 6 22
 2  0  20
  2 
3
3
 5
   10 30 69
 9  30  30
  
4
0
 4
  3
 7 28 92
∑  0  32  60
= n.j 4 9 7 20 64 183
i
yj n.j 4 18 35 57

xi yj nij 11 62 110 183
i

On a donc :
1 ∑
3
64
– X= xi ni. = = 3.2
N i=1 20
1 ∑3
57
– Y = yj n.j = = 2.85
N j=1 20
1 ∑3 ∑ 3
183
– Cov(X, Y ) = xi yj nij − X.Y = − 3.2 × 2.85 = 0.03
N i=1 j=1 20

Théorème 2.5.2. — Soient X, X ′ , Y et Y ′ des caractères statistiques, et soient α et β deux


réels. On a :
1. Cov(X, X) = V ar(X)
donc la covariance est une généralisation de la notion de la variance.
2. Cov(X, Y ) = Cov(Y, X)
3. Cov(αX, βY ) = αβ Cov(X, Y )
4. Cov(α, X) = 0
5. Cov(X + X ′ , Y + Y ′ ) = Cov(X, Y ) + Cov(X ′ , Y ) + Cov(X, Y ′ ) + Cov(X ′ , Y ′ )
6. Cov(X + α, Y + β) = Cov(X, Y )
7. V ar(X + Y ) = V ar(X) + V ar(Y ) + 2 Cov(X, Y )
1 ∑∑ ∑
p q p ∑ q
8. Cov(X, Y ) = (xi − X)(yj − Y ) nij = (xi − X)(yj − Y ) fij
N i=1 j=1 i=1 j=1
9. |Cov(X, Y )| ≤ σ(X)σ(Y ) (inégalité de Cauchy-Schwarz)
10. Cov(X, Y ) positive signifie que X et Y varient dans même sens.
11. Cov(X, Y ) négative signifie que X et Y varient en sens contraire.

Preuve :
1. Evidente.
2. Evidente, puisque l’addition et la multiplication sont commutatives.
14 CHAPITRE 2. STATISTIQUE DESCRIPTIVE À DEUX DIMENSIONS

p ∑
∑ q p ∑
∑ q
3. Cov(αX, βY ) = αxi βyj fij −αX.βY = αβ xi yj fij −αβX.Y = αβCov(X, Y )
i=1 j=1 i=1 j=1
4. ∑
p ∑
q ∑
p ∑
q
Cov(α, X) = αxi fij − α × X = α xi fij − αX
i=1 j=1 i=1 j=1
∑p
= α xi fi. − αX = αX − αX = 0
i=1
5. Quitte à ajouter des possibilités d’effectifs nuls, on peut supposer que X et X ′ (resp. Y
et Y ′ ) ont le même nombre de modalités. Alors,

p ∑
q
Cov(X + X ′, Y +Y ′) = (xi + x′i )(yj + yj′ )fij − X + X ′ × Y + Y ′
i=1 j=1

p ∑
q
= (xi yj + x′i yj + xi yj′ + x′i yj′ )fij − (X + X ′ )(Y + Y ′ )
i=1 j=1

p ∑
q ∑
p ∑
q ∑
p ∑
q
= xi yj fij + x′i yj fij + xi yj′ fij
i=1 j=1 i=1 j=1 i=1 j=1


p ∑
q
+ x′i yj′ fij − X.Y − X ′ .Y − X.Y ′ − X ′ .Y ′
i=1 j=1

p ∑
q ∑
p ∑
q
= xi yj fij − X.Y + x′i yj fij − X ′ .Y
i=1 j=1 i=1 j=1


p ∑
q ∑
p ∑
q
+ xi yj′ fij − X.Y ′ + x′i yj′ fij − X ′ .Y ′
i=1 j=1 i=1 j=1
= Cov(X, Y ) + Cov(X ′ , Y ) + Cov(X, Y ′ ) + Cov(X ′ , Y ′ )

6. Cov(X + α, Y + β) = Cov(X, Y ) + Cov(α, Y ) + Cov(X, β) + Cov(α, β)


= Cov(X, Y ) + 0 + 0 + 0 = Cov(X, Y )
7. V ar(X + Y ) = Cov(X + Y, X + Y )
= Cov(X, X) + Cov(Y, X) + Cov(X, Y ) + Cov(Y, Y )
= V ar(X) + Cov(X, Y ) + Cov(X, Y ) + V ar(Y )
= V ar(X) + 2Cov(X, Y ) + V ar(Y )
8. ∑
p ∑
q
(xi − X)(yj − Y ) fij = Cov(X − X, Y − Y ) (car X − X = Y − Y = 0)
i=1 j=1
= Cov(X, Y ) (d′ après la propriété 6)
9. On a, pour tout λ : V ar(X + λY ) ≥ 0.
C’est-à-dire d’après la 7), λ2 V ar(Y ) + 2λCov(X, Y ) + V ar(X) ≥ 0, pour tout λ.
Ce qui signifie que le discriminant réduit est toujours négatif ou nul, à savoir

Cov 2 (X, Y ) − V ar(X).V ar(Y ) ≤ 0

D’où, on tire l’inégalité.


10. Admise
11. Admise 
2.6. INDÉPENDANCE 15

Remarque. Lorsque la série statistique est une série brute (Xi , Yi )1≤i≤N , la covariance est
donnée par :

1 ∑N
1 ∑N
Cov(X, Y ) = Xi Yi − X.Y = (Xi − X)(Yi − Y )
N i=1 N i=1

Exemple 2.5.2. En reprenant la série brute de l’exemple 2.2.1, on a :

i 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Σ
Xi 3 3 3 4 4 4 4 3 3 3 4 2 3 3 4 2 4 3 3 2 64
Yi 2 1 2 2 2 5 2 2 5 1 5 1 2 1 5 5 2 2 5 5 57
Xi Yi 6 3 6 8 8 20 8 6 15 3 20 2 6 3 20 10 8 6 15 10 183

Et on retrouve encore une fois :

1 ∑N
183 64 57
Cov(X, Y ) = Xi Yi − X.Y = − × = 0.03
N i=1 20 20 20

2.6 Indépendance
( )
Définition 2.6.1. — Soit (xi , yj ); fij 1≤i≤p , 1≤j≤q la distribution statistique du couple (X, Y ).
On dit que X et Y sont indépendants si

fi/j = fi. (ou fj/i = f.j ) ∀i et ∀j

Remarque. L’indépendance de 2 caractères signifie que pour tout individu, la valeur d’un
caractère n’a rien avoir avec celle de l’autre caractère.
( )
Théorème 2.6.1. — Soit (xi , yj ); fij 1≤i≤p , 1≤j≤q la distribution statistique du couple (X, Y ).
Alors, X et Y sont indépendants si et seulement si

fij = fi. × f.j ∀i et ∀j

Preuve :

X et Y sont indépendants ⇐⇒ fi/j = fi. ∀i, j


fij
⇐⇒ = fi. ∀i, j
f.j
⇐⇒ fij = fi. × f.j ∀i, j 

Remarque. Sous l’hyppothèse d’indépendance de 2 caractères, on peut reconstituer la distri-


bution conjointe (tableau de contingence) à partir des distributions marginales.
( )
Théorème 2.6.2. — Soit (xi , yj ); nij 1≤i≤p , 1≤j≤q la distribution statistique du couple (X, Y ).
Alors, X et Y sont indépendants si et seulement si

ni. × n.j
nij = ∀i et ∀j
N
16 CHAPITRE 2. STATISTIQUE DESCRIPTIVE À DEUX DIMENSIONS

Preuve :
X et Y sont indépendants ⇐⇒ fij = fi. × f.j ∀i, j
nij ni. n.j
⇐⇒ = × ∀i, j
N N N
ni. × n.j
⇐⇒ nij = ∀i, j 
N
Remarque. L’indépendance signifie donc que les colonnes (et les lignes) du tableau de contin-
gence des effectifs sont proportionnelles entre elles. En effet, pour deux lignes i et i′ , il existe
α indépendant de la colonne j tel que :
n.j ni′ j ni.
nij = ni. × = ni. × = × ni′ j = α × ni′ j
N ni′ . ni′ .

Théorème 2.6.3. — Si les deux caractères statistiques X et Y sont indépendants, alors


Cov(X, Y ) = 0
Preuve :

p ∑
q ∑
p ∑
q
Cov(X, Y ) = xi yj fij − X.Y = xi yj fi. f.j − X.Y
i=1 j=1 i=1 j=1
(∑p
)( ∑
q
)
= xi fi. yj f.j − X.Y = X.Y − X.Y = 0 
i=1 j=1

Remarque. Attention, on n’a pas la réciproque du Théorème 2.6.3 précédent. Mais on a bien
sûr : Cov(X, Y ) ̸= 0 =⇒ X et Y sont dépendants.
Exemple 2.6.1. Soit (X, Y ) un couple statistique dont le tableau de contingence est :
HH Y
HH 0 1 2
X H H
0 0 1 0
1 1 0 1

En considérant les cellules de la forme
nij
 , on a

 xi yj nij
HH Y ∑ ∑
H 0 1 2 = ni. xi ni. nij xi yj
X HHH j j
0  1
  0 

0    1 0 0
 0  0  0
1 
 0  1 

1     2 2 2
∑  0  0  2
= n.j 1 1 1 3 2 2
i
yj n.j 0 1 2 3
1 ∑ 2 1 ∑ 3
On a, X = xi ni. = , Y = yj n.j = = 1
N i 3 N j 3
1 ∑ ∑ 2 2
Donc, Cov(X, Y ) = xi yj nij − X.Y = − × 1 = 0
N i j 3 3
n1. × n.1 1×1 1
et pourtant, X et Y ne sont pas indépendants puisque n11 = 0 ̸= = =
N 3 3
2.7. DÉPENDANCE TOTALE 17

Théorème 2.6.4. — Si les deux caractères statistiques X et Y sont indépendants, alors


V ar(X + Y ) = V ar(X) + V ar(Y )

Preuve :
On a en général (voir propriété 7 du Théorème 2.5.2)

V ar(X + Y ) = V ar(X) + V ar(Y ) + 2 Cov(X, Y )

ce qui donne le résultat, puisque d’après le Théorème 2.6.3, on a Cov(X, Y ) = 0 

2.7 Dépendance totale


Définition 2.7.1. — Soit (X, Y ) un couple statistique. On dit que le caractère Y est totale-
ment ou fonctionnellement dépendant du caractère X, si la connaissance de X entraine
celle de Y .
On définit de même la liaison fonctionnelle de X avec Y .

Théorème 2.7.1. — Soit (X, Y ) un couple statistique.


1. Si Y est fonctionnellement dépendant du caractère X, alors à chaque possibilité xi de
X correspond une seule possibilité yj de Y . Ainsi, dans chaque ligne du tableau de
contingence, un terme et un seul est non nul. En revanche, il peut y avoir plusieurs
termes non nuls dans une même colonne.
2. Si X est fonctionnellement dépendant du caractère Y , alors à chaque possibilité yj de
Y correspond une seule possibilité xi de X. Ainsi, dans chaque colonne du tableau de
contingence, un terme et un seul est non nul. En revanche, il peut y avoir plusieurs
termes non nuls dans une même ligne.

Preuve :
1. Puisqu’il y a une liaison fonctionnelle de Y avec X, alors à toute valeur xi de X
correspondra au plus une seule valeur yj0 de Y et par suite on a : nij = 0 ∀j ̸= j0 et
nij0 = n.j0 .
2. se démontre de la même manière 

Remarque. A la différence de l’indépendance, la dépendance totale n’est pas réciproque.

Exemple 2.7.1. On considère l’exemple ci-après :


HH Y ∑
H y1 y2 y3 y4
X HH H j
x1 4 0 7 0 11
x2 0 6 0 0 6
x3 0 0 0 9 9

4 6 7 9 26
i

Le caractère X est lié fonctionnellement au caractère Y . Mais la réciproque est fausse.


18 CHAPITRE 2. STATISTIQUE DESCRIPTIVE À DEUX DIMENSIONS

2.8 Corrélation
2.8.1 Généralités
L’indépendance (= liaison nulle) et la liaison fonctionnelle (= liaison totale) vues pré-
cédemment, sont deux cas extrêmes de liaison entre deux caractères quantitatifs. Mais en
pratique, on se trouve souvent entre ces deux cas, c’est par exemple le cas du lien entre le
poids et la taille, entre la saison et les ventes des glaces, etc... .
Ainsi, lorsque le caractère X prend la valeur x, la valeur prise par le caractère Y dépend
"un peu" de x restreignant ses possibilités sans qu’elle ne soit prédéderminée à l’avance. On
dit alors que le caractère Y est en corrélation (ou est corrélé) avec le caractère X.
Lorsque les variations des deux caractères se produisent dans le même sens, on dit que
la corrélation est positive, et lorsque les variations sont en sens contraire, on dit que la
corrélation est négative.

Exemple 2.8.1. La demande pour une marchandise a tendance à diminuer lorsque le prix
est haussé, mais elle a tendance à augmenter lorsque les sommes allouées à la publicité sont
accrues, donc il y a une corrélation négative entre la demande et le prix, mais une corrélation
positive entre la demande et le budget de la pub.

Remarques.
• La forme du nuage statistique nous permet de savoir si les caractères quantitatifs sont
en corrélation et de préciser l’intensité de cette liaison : si la corrélation est forte, les
points semblent dessiner une courbe régulière.
• La corrélation ou l’absence de corrélation n’est pas réciproque. Par exemple, les individus
les plus grands sont en général les plus lourds, mais pas l’inverse.
• L’indépendance des caractères entraine l’absence de corrélation, mais la réciproque est
fausse.
• L’existence d’une corrélation n’implique pas nécessairement un lien de causalité, mais
simplement que les deux caractères peuvent tous les deux être attribuables aux variations
d’une cause commune. Par exemple, on peut constater une corrélation entre les ventes
d’huile pour bronzage et les ventes des glaces, mais il n’y a pas de lien direct, la cause
est une cause climatique.

2.8.2 Corrélation linéaire


Définition 2.8.1. — Soient X et Y deux caractères quantitatifs.
On dit qu’il y a corrélation linéaire entre Y et X si les points du nuage statistique ont
tendance à s’approcher d’une droite.
La corrélation linéaire est dite positive (resp. négative) si le nuage est plus ou moins
allongé dans le sens de la première (resp. deuxième) bissectrice.

Exemple 2.8.2. On considère la série brute suivante :

X 84 71 71 65 74 76 68 75 78 77
Y 30 20 24 18 24 26 20 22 28 26

Son nuage statistique est :


2.8. CORRÉLATION 19

On note donc que les points sont sensiblement alignés dans le sens de la première bissec-
trice, ce qui prouve qu’il y a vraisemblablement une corrélation linéaire positive.

2.8.3 Cœfficient de corrélation linéaire


Après avoir noté graphiquement l’existence de la corrélation linéaire entre les caractères
considérés, on désire mesurer le degré de cette liaison sur la base des informations recueillies.

Définition 2.8.2. — Soit (X, Y ) un couple statistique de caractères quantitatifs. On appelle


cœfficent de corrélation linéaire entre X et Y , le nombre noté r ou r(X, Y ) et défini par :
Cov(X, Y ) Cov(X, Y )
r := =√
σ(X).σ(Y ) V ar(X).V ar(Y )
Théorème 2.8.1. — On a :
1. −1 ≤ r ≤ 1
2. r(αX + β, aY + b) = r(X, Y ) ∀ α, β, a, b dans R

Preuve :
1. D’après l’inégalité de Cauchy-Schwarz (Théorème 2.5.2), on a
Cov(X, Y )
|Cov(X, Y )| ≤ σ(X)σ(Y ) ⇐⇒ | | ≤ 1 ⇐⇒ |r| ≤ 1
σ(X)σ(Y )
2. D’après les résultats du Théorème 2.5.2, on a :
Cov(αX + β, aY + b) αaCov(X, Y ) Cov(X, Y )
r(αX + β, aY + b) = = = = r(X, Y ) 
σ(αX + β)σ(aY + b) ασ(X)aσ(Y ) σ(X)σ(Y )

Théorème 2.8.2. — On a :
1. r > 0 ⇐⇒ corrélation linéaire positive
2. r = 0 ⇐⇒ pas de corrélation linéaire
3. r < 0 ⇐⇒ corrélation linéaire négative
4. r ± 1 ⇐⇒ tous les points sont sur une droite (=liaison fonctionnelle)
5. Plus r est proche de 1, plus la corrélation linéaire est forte
Plus r est proche de 0, plus la corrélation linéaire est faible

Preuve : Admise 
20 CHAPITRE 2. STATISTIQUE DESCRIPTIVE À DEUX DIMENSIONS

Remarques.
• r = 0 n’implique rien en ce qui concerne la corrélation non linéaire, et on peut aussi
bien avoir indépendance que liaison fonctionnnelle.
• En pratique, la corrélation linéaire est considérée comme significative si |r| ≥ 0.9.

Exemple 2.8.3. On reprend l’exemple 2.8.2. On a,

i 1 2 3 4 5 6 7 8 9 10 Σ
Xi 84 71 71 65 74 76 68 75 78 77 739
Yi 30 20 24 18 24 26 20 22 28 26 238
Xi Yi 2 520 1 420 1 704 1 170 1 776 1 976 1 360 1 650 2 184 2 002 17 762
Xi2 7 056 5 041 5 041 4 225 5 476 5 776 4 624 5 625 6 048 5 929 54 877
Yi2 900 400 576 324 576 676 400 484 784 676 5 796

D’où, on tire
1 ∑ 739
X= Xi = = 73.9
N i 10
1 ∑ 238
Y = Yi = = 23.8
N i 10
1 ∑ 17 762
Cov(X, Y ) = Xi Yi − X × Y = − 73.9 × 23.8 = 17.38
N i 10
1 ∑ 2 2 54 877
σ 2 (X) = Xi − X = − 73.92 = 26.49
N i 10
1 ∑ 2 2 5 796
σ 2 (Y ) = Y −Y = − 23.82 ≃ 13.16
N i i 10
et par suite on a,

Cov(X, Y ) 17.38
r := √ =√ = 0.9308 ≃ 0.93
V ar(X).V ar(Y ) 26.49 × 13.16

Donc, il y a une bonne corrélation linéaire positive entre X et Y .

2.9 Ajustement linéaire


Une fois la corrélation linéaire entre deux caractères est visualisée graphiquement par le
nuage statistique et confirmée par le calcul du cœfficient de corrélation linéaire, on envisage
d’établir à l’aide d’une méthode d’ajustement appropriée, l’équation de la liaison existante
entre les deux caractères, équation qui nous permettra d’obtenir un outil de prévision.
Diverses sortes d’ajustements linéaires sont possibles. On se limitera ici à l’ajustement par
la méthode des moindres carrés (=m.m.c).

2.9.1 Principe général de la m.m.c


Il s’agit de faire passer une droite d’équation y = ax + b, la plus proche possible de tous
les points du nuage statistique du couple (X, Y ) de distribution brute (Xi , Yi )1≤i≤N . Reste à
préciser la notion de "plus proche".
On considère alors M un point quelconque du nuage statistique de coordonnées (Xi , Yi ).
On l’approchera par m, le point de la droite de coordonnées (Xi , aXi + b) comme suit
2.9. AJUSTEMENT LINÉAIRE 21

On commet ainsi l’erreur ei := Yi − aXi − b appelée résidu qui peut être positif ou négatif.
En considérant tous les points du nuage, on commet l’erreur totale suivante


N ∑
N
e2i = (Yi − aXi − b)2
i=1 i=1

qui mesure l’ampleur de l’éparpillement vertical des points (Xi , Yi ) autour de la droite. L’ajus-
tement est alors d’autant meillleur que l’erreur totale est faible. D’où, la définition suivante
de la méthode dite des moindres carrés.

Définition 2.9.1. — Soit une série brute (Xi , Yi )1≤i≤N d’un couple statistique (X, Y ). On
appelle droite d’ajustement des moindres carrés ou tout simplement droite de régres-
sion de Y en X, la droite DY /X qui minimise la quantité

1 ∑N
Q(a, b) := (Yi − aXi − b)2
N i=1

Remarque. Si X est le caractère temps, les données sont appelées série chronologique et
la droite de régression de Y en X est dite droite de tendance ou droite de Trend.

2.9.2 Droite de regression


Théorème 2.9.1. — Soit une série brute (Xi , Yi )1≤i≤N d’un couple statistique (X, Y ). La
droite de régression DY /X de Y en X, a pour équation y = âx + b̂ avec

Cov(X, Y )
â = b̂ = Y − âX
σ 2 (X)
C’est-à-dire l’équation s’écrit :

Cov(X, Y )
y= (x − X) + Y
σ 2 (X)
22 CHAPITRE 2. STATISTIQUE DESCRIPTIVE À DEUX DIMENSIONS

Preuve :
Le point (â, b̂), réalisant le minimum de Q(a, b), s’obtient en annulant les dérivées partielles
de Q par rapport à a et b. Donc,

 
 1 ∑N
∂Q 
−2 Xi (Yi − âXi − b̂) = 0

 (â, b̂) = 0 


 
 N i=1
∂a
⇐⇒

 


 ∂Q (â, b̂) = 0 
 1 ∑N

 −2 (Yi − âXi − b̂) = 0
∂b 
 N i=1


 1 ∑N
1 ∑N
1 ∑N

 X Y − â X 2
− b̂ Xi = 0

 i i i

 N i=1 N i=1 N i=1
⇐⇒



 1 ∑N
1 ∑N
1 ∑N

 Yi − â Xi − b̂

 1=0
N i=1 N i=1 N i=1


 1 ∑
N
1 ∑
N

 Xi Yi − â Xi2 − b̂X = 0

N N
⇐⇒ i=1 i=1





Y − âX − b̂ = 0


 1 ∑
N
1 ∑
N

 X Y − â Xi2 − (Y − âX)X = 0
 i i
N N
⇐⇒ i=1 i=1





b̂ = Y − âX


 1 ∑
N
(1 ∑
N
2)

 Xi Yi − X.Y − â Xi2 − X = 0

N N
⇐⇒ i=1 i=1





b̂ = Y − âX 
  Cov(X, Y )

Cov(X, Y ) − âσ (X) = 0
 â =
2
 2
σ (X)
⇐⇒ ⇐⇒

 

b̂ = Y − âX 
 b̂ = Y − âX

En outre, en calculant les dérivées secondes, on a

∂2Q 2 ∑N
2 ∂2Q 2 ∑N
∂2Q 2 ∑N
r := (â, b̂) = Xi , s := (â, b̂) = X i = 2X, t := (â, b̂) = 1=2
∂a2 N i=1 ∂a∂b N i=1 ∂b2 N i=1

de sorte que,

2 4 ∑N
s2 − rt = 4X − X 2 = −4V ar(X) < 0 et r>0
N i=1 i

Ce qui prouve que Q admet bien un minimum au point (â, b̂) 


2.9. AJUSTEMENT LINÉAIRE 23

Cov(X, Y )
Définition 2.9.2. — La pente â := de la droite de régression de Y en X est
σ 2 (X)
appelé cœfficient de régression de Y en X.

Remarque. Notons que la droite de regression passe par le point G du nuage de coordonnées
(X, Y ) appelé point moyen ou centre de gravité du nuage.

Exemple 2.9.1. Reprenons la série brute de l’exemple 2.2.1. On a, d’après les résultats
trouvés à l’exemple 2.8.3,
Cov(X, Y ) 17.38
â = 2
= = 0.6560 ≃ 0.66
σ (X) 26.49
b̂ = Y − âX = 23.8 − 0.66 × 73.9 = −24.974 ≃ −24.97
Donc, la droite de régression DY /X de Y en X a pour équation
y = 0.66x − 24.97
qu’on peut tracer sur le graphique du nuage en choisissant deux points particuliers, soit

Théorème 2.9.2. — Le coefficient de régression de Y en X est donné aussi par :



σ(Y ) V ar(Y )
â = r =r
σ(X) V ar(X)

et par suite, l’équation de la droite de régression de Y en X s’écrit encore :


σ(Y ) σ(Y ) y−Y x−X
y=r .x + Y − r X ⇐⇒ = r.
σ(X) σ(X) σ(Y ) σ(X)
Preuve :
Cov(X, Y ) rσ(X) σ(Y ) σ(Y )
â = 2
= 2
=r 
σ (X) σ (X) σ(X)
Exemple 2.9.2. Pour la série brute de l’exemple 2.2.1 et d’après les résultats de l’exemple 2.8.3,
on retrouve √ √
V ar(Y ) 13.16
â = r = 0.93 × = 0.6554 ≃ 0.66
V ar(X) 26.49
24 CHAPITRE 2. STATISTIQUE DESCRIPTIVE À DEUX DIMENSIONS

Remarque. La droite de régression DY /X de Y en X, permet de donner une estimation de


Y pour une certaine valeur Xk de X, on la note Ŷk . Quand Xk est une valeur observée, on
parlera plutôt de valeur ajustée Ŷk .
Exemple 2.9.3. Pour l’exemple 2.2.1 et pour la valeur 75 de X, la valeur observée de Y
était 22 et celle estimée (ajustée) par la droite de régression est Ŷ = 0.66 × 75 − 24.97 ≃ 24.53
Théorème 2.9.3. — La quantité r2 est la proportion de la variance marginale de Y expliquée
par la droite de régression de Y en X. Et par conséquent 1 − r2 est la proportion inexpliquée
par la droite.
Preuve :
Admise 
Définition 2.9.3. — Le coefficient r2 est appelé cœfficient de détermination.
Exemple 2.9.4. Si X = âge et Y = montant d’argent de poche. Alors, r2 = 0.90 signifie que
90% des variations des montants d’argent de poche entre les individus peuvent être expliquées
par l’influence linéaire de l’âge sur ce montant. Les 10% qui restent sont donc expliquées par
d’autres influences et d’autres caractères que l’âge.
Remarque. On définit de même la droite de regression DX/Y de X en Y . Mais attention,
son équation ne se déduit pas de celle de la droite de regression des moindres carrés DY /X de
Y en X.

2.10 Ajustements non linéaires


Il existe des problèmes d’ajustements non linéaires qui se ramènent au moyen d’un chan-
gement de variables, à des problèmes d’ajustements linéaires. Voici quelques exemples

2.10.1 Liaison exponentielle


C’est une liaison du type Y = k eαX . On a,
Y = keαX ⇐⇒ ln(Y ) = ln(k) + |{z}
α .X
| {z }
b a

Donc, le caractère ln(Y ) est linéairement


( )
lié au caractère
(
X. Par la méthode des moindres
carrés, on détermine donc a = â ln(Y )|X et b = b̂ ln(Y )|X).
D’où on tire,
k = eb̂ et α = â

2.10.2 Liaison puissance


C’est une liaison du type Y = kX α . On a,
Y = kX α ⇐⇒ ln(Y ) = ln(k) + |{z}
α . ln(X)
| {z }
b a

Donc, le caractère ln(Y ) est linéairement


(
lié au) caractère( ln(X). Par la) méthode des moindres
carrés, on détermine donc a = â ln(Y )| ln(X) et b = b̂ ln(Y )| ln(X) .
D’où on tire,
k = eb̂ et α = â
2.10. AJUSTEMENTS NON LINÉAIRES 25

αX
2.10.3 Liaison du type Y =
X +k
On a,
αX 1 1 X +k 1( k) 1 k 1
Y = ⇐⇒ = = 1+ = + .
X +k Y α X α X α
|{z} α X
|{z}
b a

1 1
Donc, le caractère est linéairement lié au caractère . Par la méthode des moindres carrés,
Y ( ) ( ) X
on détermine donc a = â Y1 | X1 et b = b̂ Y1 | X1 .
D’où on tire,
1
α= et k = α.â

♢♢♢ ♢
Index

Caractère partielle, 3
à deux dimensions, 1
bidimensionnel, 1 Inégalité de Cauchy-Schwarz, 13
Centre Indépendants, 15
de gravité, 23
Méthode des moindres carrés, 20
Coefficient
Modalité
de corrélation linéaire, 19
du couple, 1
de régression, 23
Moyenne
Corrélé avec, 18
conditionnelle, 9
Corrélation, 18
marginale, 6
linéaire, 18
marginale cas brute, 6
linéaire négative, 18
linéaire positive, 18 Nuage de points, 3
négative, 18
positive, 18 Point moyen, 23
Couple statistique, 1 Proportion, 2
Covariance, 12
cas brute, 15 Résidu, 21

Dépouillement, 2 Série
Distribution chronologique, 21
conditionnelle, 7 dépouillée du couple, 2
dépouillée du couple, 2 pondérée du couple, 2
marginale, 5 statistique brute du couple, 1
pondérée du couple, 2 Tableau
Droite à double entrée, 4
d’ajustement des moindres carrés, 21 croisé, 4
de régression, 21 de contingence, 4
de tendance, 21 des profils colonnes , 9
de Trend, 21 des profils lignes , 9
Ecart Totalement dépendant, 17
-type conditionnel, 11 Valeur ajustée, 24
Effectif, 2 Variance
partiel, 2 conditionnelle, 11
Erreur totale, 21 marginale, 6
Estimation, 24 marginale cas brute, 6
Fonctionnellement dépendants, 17
Fréquence, 2
conditionnelle , 8

26
Sommaire

2 Statistique Descriptive à deux dimensions 1


2.1 Définitions de base . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
2.2 Représentation des données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
2.2.1 Cas d’une série brute . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
2.2.2 Cas d’une série pondérée . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2.3 Distributions marginales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.4 Distributions conditionnelles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.4.1 Définitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.4.2 Caractéristiques conditionnelles . . . . . . . . . . . . . . . . . . . . . . . 9
2.5 Covariance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.6 Indépendance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.7 Dépendance totale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.8 Corrélation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.8.1 Généralités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.8.2 Corrélation linéaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.8.3 Cœfficient de corrélation linéaire . . . . . . . . . . . . . . . . . . . . . . 19
2.9 Ajustement linéaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.9.1 Principe général de la m.m.c . . . . . . . . . . . . . . . . . . . . . . . . 20
2.9.2 Droite de regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.10 Ajustements non linéaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.10.1 Liaison exponentielle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.10.2 Liaison puissance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
αX
2.10.3 Liaison du type Y = . . . . . . . . . . . . . . . . . . . . . . . . . 25
X +k

27

Vous aimerez peut-être aussi