Vous êtes sur la page 1sur 14

Dr KRAMOH

Enseignant-chercheur

STATSTIQUE ET PROBABILITES

1
Chapitre 3 :
SERIES STATISTIQUES A DEUX
CARACTERES

Le but de ce chapitre est d’évaluer l’évolution simultanée de deux caractères.

INTRODUCTION

L’étude de deux caractères sur chaque individu d’une population permet d’obtenir une série
statistique à deux variables.

I. Tableaux, NUAGES DE POINTS

I.1. Hypothèses simples


Exemple : voici deux séries d’évolution des prix et du pouvoir d’achat (base 100 en 1950).

Années 1960 1961 1962 1963 1964

Indices des 176 182 191 200 207


prix 𝑥𝑖
Pouvoir 152 159 167 175 180
d’achat 𝑦𝑖

2
Années 1980 1981 1982 1983 1984

Indices des 658 746 834 914 982


prix 𝑥𝑖
Pouvoir 291 297 296 296 294
d’achat 𝑦𝑖

Les deux caractères sont disposés de la même façon (horizontalement ou verticalement).


I.2. Tableaux de contingence
Les résultats des observations d’une série statistique à deux variables sont présentés dans un
tableau à double entrée appelé tableau de contingence, comprenant :
- Les modalités des deux variables ;
- Les effectifs associés aux modalités des deux variables simultanément, appelé séries ou
distributions conditionnelles, suivis de l’effectif total appelé effectif marginal pour chaque
modalité.

Exemple : Répartition des employés d’une entreprise dans ses usines A, B, C.

3
Usines 𝑦𝑗

Catégories Usine A Usine B Usine C Totaux

Professionnelles 𝑥𝑖 𝑛𝑖⦁

Administratifs 10 12 21 43

Magasiniers 42 30 45 117

Livreurs 20 19 40 79

Totaux 𝑛⦁𝑗 72 61 106 𝑁 = 239

- Distributions marginales de 𝑋
Catégories Administratifs Magasiniers Livreurs Total
professionnelles
Effectifs 𝑛𝑖⦁ 43 117 79 𝑁 = 239

- Distributions marginales de 𝑌

Usines Usine A Usine B Usine C Total

Effectifs 𝑛⦁𝑗 72 61 106 𝑁 = 239

- Distributions conditionnelles de 𝑋/𝑌 = Usine B

4
Catégories Administratifs Magasiniers Livreurs Total
professionnelles
Effectifs 𝑛𝑖2 12 30 19 61

- Distributions conditionnelles de 𝑌/𝑋 = Administratifs

Usines Usine A Usine B Usine C Total

Effectifs 𝑛1𝑗 10 12 21 43

I.3. Indépendance
Etant donné le tableau de contingence suivant :

5
𝑌 𝑦1 𝑦2 … … … 𝑦𝑝 𝑛𝑖⦁
𝑋
𝑥1 𝑛12 … … … 𝑛1𝑝 𝑛1⦁

𝑥2 𝑛21 … … … 𝑛2𝑝 𝑛2⦁

… … … … … … … …

… … … … … … … …

… … … … … … … …

𝑥𝑚 𝑛𝑚1 𝑛𝑚2 … … … 𝑛𝑚𝑝 𝑛𝑚⦁

𝑛⦁𝑗 𝑛⦁1 𝑛⦁2 … … … 𝑛⦁𝑝 𝑁

𝑋 et 𝑌 sont indépendants si et seulement si :


𝑛𝑖⦁ ×𝑛⦁𝑗
𝑛𝑖𝑗 = ⟺ 𝑓𝑖𝑗 = 𝑓𝑖⦁ × 𝑓⦁𝑗 .
𝑁

Exemple : On donne le tableau suivant :

6
𝑌 250 500 100 𝑛𝑖⦁
𝑋
3 1 2 3 5

5 3 6 9 15

7 4 8 12 20

10 2 4 6 10

𝑛⦁𝑗 10 20 30 𝑁 = 50

On vérifie aisément que les deux caractères 𝑋 et 𝑌 sont indépendants.


Remarque : Dans le cas où les deux caractères sont indépendants, les colonnes sont deux à deux
proportionnelles et les lignes sont deux à deux proportionnelles.
I.4. Nuages de points
Représentons les tableaux dans le cas de l’hypothèse simple. Les éléments de la population sont
les années. On représente ces deux séries statistiques en portant en abscisses les valeurs du
caractère 𝑋 : indice des prix, et en ordonnées les valeurs du caractère 𝑌 : pouvoir d’achat. Pour
avoir une bonne représentation, il faut faire en sorte que les points du nuage ne soient pas trop
concentrés. Le choix des unités est particulièrement important.
Années 60 : abs : 1𝑐𝑚 ⟷ 10
ord : 1𝑐𝑚 ⟷ 10
Années 80 : abs : 1𝑐𝑚 ⟷ 100
ord : 1𝑐𝑚 ⟷ 1.

7
Evolution du pouvoir d'achat en fonction des indices de
prix de 1960 à 1964
185

180

175
Pouvoir d'achat

170

165

160

155

150
170 175 180 185 190 195 200 205 210
Indices de Prix

Evolution du Pouvoir d'achat en fonction de l'indice de Prix


de 1980 à 1984
298

297

296
Pouvoir d'achat

295

294

293

292

291

290
0 200 400 600 800 1000 1200
Indices de Prix

Remarques :

8
Un nuage de points peut prendre des formes très variées. Sur le premier graphique (années 60),
le pouvoir d’achat évolue comme l’indice de prix ; les points du nuage sont sensiblement
alignés, ce qui suggère une relation fonctionnelle du type affine : 𝑦 = 𝑎𝑥 + 𝑏, entre les deux
caractères. Sur le deuxième graphique (années 80), la dispersion est beaucoup plus grande.
Cependant, un ajustement linéaire est possible sur les années 81 − 84.

II. AJUSTEMENT LINEAIRE

I.1. Méthode de Mayer


Etant donné un nuage de points de coordonnées (𝑥𝑖 , 𝑦𝑖 ), on appelle le point moyen du nuage, le
point 𝐺(𝑋̅, 𝑌̅), où 𝑋̅ désigne la moyenne du caractère 𝑋 et 𝑌̅ désigne la moyenne du caractère 𝑌.
La méthode de Mayer consiste à partager les points du nuage en deux ensembles d’égal effectif
(ou à peu près, si le nombre de points est impair). Si 𝐺1 et 𝐺2 sont les points moyens des deux
ensemble, la droite (𝐺1 𝐺2 ) est une droite d’ajustement linéaire.
Exemple : Evolution des prix et du pouvoir d’achat entre 1960 et 1964.
Le premier ensemble est constitué des années 1960 et 1961 ; le second ensemble est constitué
des années 1962, 1963 et 1964.
176+182
𝑋̅1 = = 179 et ̅1 = 152+159 = 155,5.
𝑌
2 2
191+200+207
𝑋̅2 = = 199,3 et ̅2 = 167+175+180 = 174.
𝑌
3 3

L’équation de la droite (𝐺1 𝐺2 ) est :


𝑌̅2 −𝑌̅1 𝑌̅ −𝑦
= 𝑋̅2 −𝑥 ⟹ (𝐺1 𝐺2 ) ∶ 𝑦 = 0,91𝑥 − 7,4.
𝑋̅2 −𝑋̅1 2

Remarques :
- Le premier ensemble pouvait être constitué des années 1960, 1961 et 1962 tandis que le
second ensemble pouvait être constitué des années 1963 et 1964.
- Si l’on étudiait l’évolution des prix et du pouvoir d’achat entre 1980 et 1984, il allait
considérer les quatre points des années 1981 − 1984.

I.1. Méthode des moindres carrés

9
I.1.1. Droite d’ajustement de 𝒚 en 𝒙

L’équation de la droite (𝐷1 ) d’ajustement de 𝑦 en 𝑥 s’écrit :

𝑐𝑜𝑣(𝑋,𝑌)
𝑦 − 𝑌̅ = (𝑥 − 𝑋̅).
𝑉(𝑋)

𝑐𝑜𝑣(𝑋,𝑌)
Soit : 𝑦 = 𝑎𝑥 + 𝑏, 𝑎 = et 𝑏 = 𝑌̅ − 𝑎𝑋̅.
𝑉(𝑋)

I.1.2. Droite d’ajustement de 𝒙 en 𝒚

L’équation de la droite (𝐷2 ) d’ajustement de 𝑥 en 𝑦 s’écrit :

𝑐𝑜𝑣(𝑋,𝑌) 𝑉(𝑌)
𝑥 − 𝑋̅ = (𝑦 − 𝑌̅) ⟺ 𝑦 − 𝑌̅ = (𝑥 − 𝑋̅).
𝑉(𝑌) 𝑐𝑜𝑣(𝑋,𝑌)
𝑉(𝑌)
Soit : 𝑦 = 𝑎̃𝑥 + 𝑏̃, 𝑎̃ = 𝑐𝑜𝑣(𝑋,𝑌) et 𝑏̃ = 𝑌̅ − 𝑎̃𝑋̅.
1 1
𝑉(𝑋) = 𝑁 ∑𝑘𝑖=1 𝑛𝑖 (𝑥𝑖 − 𝑋̅)2 ou 𝑉(𝑋) = 𝑁 ∑𝑘𝑖=1 𝑛𝑖 𝑥𝑖2 − 𝑋̅ 2 .
1 1
𝑉(𝑌) = 𝑁 ∑𝑘𝑖=1 𝑛𝑖 (𝑦𝑖 − 𝑌̅)2 ou 𝑉(𝑌) = 𝑁 ∑𝑘𝑖=1 𝑛𝑖 𝑦𝑖2 − 𝑌̅ 2.
1
̅̅̅̅ − 𝑋̅𝑌̅, où 𝑋𝑌
𝑐𝑜𝑣(𝑋, 𝑌) = 𝑋𝑌 ̅̅̅̅ = ∑𝑘𝑖=1 𝑛𝑖 𝑥𝑖 𝑦𝑖 .
𝑁

Les droites (𝐷1 ) et (𝐷2 ) se coupent au point moyen 𝐺(𝑋̅, 𝑌̅) du nuage. Elles sont confondues
lorsque :
𝑐𝑜𝑣(𝑋,𝑌) 𝑉(𝑌)
= 𝑐𝑜𝑣(𝑋,𝑌) ou 𝑐𝑜𝑐 2 (𝑋, 𝑌) = 𝑉(𝑋) × 𝑉(𝑌).
𝑉(𝑋)

Attention ! : la covariance peut être négative.


I.1.3. Coefficient de corrélation linéaire
Pour mesurer la proximité des points du nuage aux droites d’ajustement, on utilise le coefficient
de corrélation linéaire, noté 𝑟 et défini par :
𝑐𝑜𝑣(𝑋,𝑌) 𝑐𝑜𝑣(𝑋,𝑌)
𝑟= = .
√𝑉(𝑋)×𝑉(𝑌) 𝜎𝑋 ×𝜎𝑋

On peut montrer que : −1 ≤ 𝑟 ≤ 1. Plus |𝑟| est proche de 1, plus la corrélation est bonne et les
deux caractères ont une très forte dépendance linéaire mutuelle. Plus |𝑟| est proche de 0, moins

10
la corrélation est bonne et les deux caractères ont une très faible dépendance linéaire mutuelle ;
mais cela ne signifie pas que les deux caractères sont indépendants, car il peut exister une autre
relation non linéaire entre les deux caractères.
Exemple : on donne la série statistique suivante :
𝑋 = 𝑥𝑖 1 2 3

𝑌 = 𝑦𝑖 1 2 4

Déterminer l’équation de la droite d’ajustement de 𝑦 en 𝑥 ainsi que le coefficient de corrélation


linéaire. Interpréter.

𝑋 = 𝑥𝑖 1 2 3 𝑘

∑ 𝑥𝑖 = 6
𝑖=1

𝑌 = 𝑦𝑖 1 2 4 𝑘

∑ 𝑦𝑖 = 7
𝑖=1

𝑥𝑖2 1 4 9 𝑘

∑ 𝑥𝑖2 = 14
𝑖=1

𝑦𝑖2 1 4 16 𝑘

∑ 𝑦𝑖2 = 21
𝑖=1

𝑥𝑖 𝑦𝑖 1 4 12 𝑘

∑ 𝑥𝑖 𝑦𝑖 = 17
𝑖=1

𝑁=3

11
1 6
𝑋̅ = 𝑁 ∑𝑘𝑖=1 𝑥𝑖 = 3 ⟺ 𝑋̅ = 2.
1 7 7
𝑌̅ = 𝑁 ∑𝑘𝑖=1 𝑦𝑖 = 3 ⟺ 𝑌̅ = 3.
1 17 7
𝑐𝑜𝑣(𝑋, 𝑌) = 𝑁 ∑𝑘𝑖=1 𝑥𝑖 𝑦𝑖 − 𝑋̅𝑌̅ = 3 − 2 × 3 ⟺ 𝑐𝑜𝑣(𝑋, 𝑌) = 1.
1 14 2
𝑉(𝑋) = 𝑁 ∑𝑘𝑖=1 𝑥𝑖2 − 𝑋̅ 2 = 3 − 22 ⟺ 𝑉(𝑋) = 3.
1 21 7 2 14
𝑉(𝑌) = 𝑁 ∑𝑘𝑖=1 𝑦𝑖2 − 𝑌̅ 2 = − (3) ⟺ 𝑉(𝑌) = .
3 9

L’équation de la droite d’ajustement de 𝑦 en 𝑥 est :


7 3 3 2
𝑦 − 3 = 2 (𝑥 − 2) ⟺ 𝑦 = 2 𝑥 − 3.
𝑐𝑜𝑣(𝑋,𝑌) 1
𝑟= = ⟺ 𝑟 ≈ 0,98.
√𝑉(𝑋)×𝑉(𝑌) 2 14
√ ×
3 9

Interprétation : 𝑟 est très proche de 1 ; la corrélation est très forte. Il y a donc une très forte
dépendance linéaire mutuelle entre les deux caractères.
III. AJUSTEMENT NON LINEAIRE

Il peut arriver que l’allure générale du nuage de points laisse pressentir une relation
fonctionnelle entre les deux caractères 𝑋 et 𝑌 qui ne soit pas de type linéaire (affine). On peut
alors tenter de l’ajuster par un autre type de fonction ; par exemple, une fonction exponentielle
ou une fonction puissance.
III.1. Ajustement exponentielle
La forme générale du nuage des points ressemble à la courbe d’une fonction exponentielle ;
c’est-à-dire une fonction du type : 𝑦 = 𝜆𝑎 𝑥 . On cherche 𝜆 et 𝑎 de façon à obtenir la meilleure
approximation possible. En prenant le logarithme décimal :
𝑙𝑜𝑔𝑦 = 𝑙𝑜𝑔𝜆 + 𝑥𝑙𝑜𝑔𝑎.
Posons : 𝑌 = 𝑙𝑜𝑔𝑦 ; 𝛼 = 𝑙𝑜𝑔𝑎 et 𝛽 = 𝑙𝑜𝑔𝜆.
On obtient alors : 𝑌 = 𝛼𝑥 + 𝛽.
𝑌 est donc une fonction affine de 𝑥. On calcule donc les valeurs :
𝑌𝑖 = 𝛼𝑥𝑖 + 𝛽 et on cherche un ajustement linéaire entre les 𝑌𝑖 et les 𝑥𝑖 .
Exemple : Le coût annuel 𝐶 d’entretien et de la répartition d’un équipement d’âge 𝑇 est donné
par le tableau suivant :

12
Années 𝑡𝑖 1 2 3 4 5

Coût annuel (en 13,3 14,2 16,1 18,9 23,6


milliers de Francs) 𝑐𝑖

Coût annuel
25

23
Coôt annuel d'entretien

21

19

17

15

13
0 1 2 3 4 5 6
Années

La forme du nuage suggère un ajustement par une fonction exponentielle. On calcule


𝑌𝑖 = 𝑙𝑜𝑔𝑐𝑖 .
Années 𝑡𝑖 1 2 3 4 5

𝑌𝑖 = 𝑙𝑜𝑔𝑐𝑖 1,1238 1,1523 1,2068 1,2765 1,3729

Le calcule du coefficient de corrélation linéaire donne 𝑟 = 0,979.


L’équation de la droite de régression de 𝑌 en 𝑡 est : 𝑌 = 0,0622𝑡 + 1,0398.
Comme 𝑌 = 𝑙𝑜𝑔𝐶 alors 𝐶 = 10𝑌 .
Soit 𝑐 = 100,0622𝑡+1,0398 .

III.2. Ajustement par une fonction de puissance


Si les points du nuage ont des coordonnées (𝑥𝑖 , 𝑦𝑖 ) vérifiant approximativement une relation du
type : 𝑦𝑖 = 𝜆𝑥𝑖𝑎 , alors :

13
𝑙𝑜𝑔𝑦𝑖 = 𝑙𝑜𝑔𝜆 + 𝑎𝑙𝑜𝑔𝑥𝑖 .
En posant : 𝑌𝑖 = 𝑙𝑜𝑔𝑦𝑖 et 𝑋𝑖 = 𝑙𝑜𝑔𝑥𝑖 , 𝑌𝑖 et 𝑋𝑖 sont liés par la relation de type affine :
𝑌𝑖 = 𝑎𝑋𝑖 + 𝑙𝑜𝑔𝜆.
Il suffit alors de chercher l’équation de la droite de régression de 𝑌 en 𝑋 :
𝑌 = 𝑎𝑋 + 𝑏.
La valeur de 𝑏 donne la valeur de 𝜆 puisque :
𝑏 = 𝑙𝑜𝑔𝜆 ⟺ 𝜆 = 10𝑏 .

14

Vous aimerez peut-être aussi