Académique Documents
Professionnel Documents
Culture Documents
File 20231101 164621
File 20231101 164621
Enseignant-chercheur
STATSTIQUE ET PROBABILITES
1
Chapitre 3 :
SERIES STATISTIQUES A DEUX
CARACTERES
INTRODUCTION
L’étude de deux caractères sur chaque individu d’une population permet d’obtenir une série
statistique à deux variables.
2
Années 1980 1981 1982 1983 1984
3
Usines 𝑦𝑗
Professionnelles 𝑥𝑖 𝑛𝑖⦁
Administratifs 10 12 21 43
Magasiniers 42 30 45 117
Livreurs 20 19 40 79
- Distributions marginales de 𝑋
Catégories Administratifs Magasiniers Livreurs Total
professionnelles
Effectifs 𝑛𝑖⦁ 43 117 79 𝑁 = 239
- Distributions marginales de 𝑌
4
Catégories Administratifs Magasiniers Livreurs Total
professionnelles
Effectifs 𝑛𝑖2 12 30 19 61
Effectifs 𝑛1𝑗 10 12 21 43
I.3. Indépendance
Etant donné le tableau de contingence suivant :
5
𝑌 𝑦1 𝑦2 … … … 𝑦𝑝 𝑛𝑖⦁
𝑋
𝑥1 𝑛12 … … … 𝑛1𝑝 𝑛1⦁
… … … … … … … …
… … … … … … … …
… … … … … … … …
6
𝑌 250 500 100 𝑛𝑖⦁
𝑋
3 1 2 3 5
5 3 6 9 15
7 4 8 12 20
10 2 4 6 10
𝑛⦁𝑗 10 20 30 𝑁 = 50
7
Evolution du pouvoir d'achat en fonction des indices de
prix de 1960 à 1964
185
180
175
Pouvoir d'achat
170
165
160
155
150
170 175 180 185 190 195 200 205 210
Indices de Prix
297
296
Pouvoir d'achat
295
294
293
292
291
290
0 200 400 600 800 1000 1200
Indices de Prix
Remarques :
8
Un nuage de points peut prendre des formes très variées. Sur le premier graphique (années 60),
le pouvoir d’achat évolue comme l’indice de prix ; les points du nuage sont sensiblement
alignés, ce qui suggère une relation fonctionnelle du type affine : 𝑦 = 𝑎𝑥 + 𝑏, entre les deux
caractères. Sur le deuxième graphique (années 80), la dispersion est beaucoup plus grande.
Cependant, un ajustement linéaire est possible sur les années 81 − 84.
Remarques :
- Le premier ensemble pouvait être constitué des années 1960, 1961 et 1962 tandis que le
second ensemble pouvait être constitué des années 1963 et 1964.
- Si l’on étudiait l’évolution des prix et du pouvoir d’achat entre 1980 et 1984, il allait
considérer les quatre points des années 1981 − 1984.
9
I.1.1. Droite d’ajustement de 𝒚 en 𝒙
𝑐𝑜𝑣(𝑋,𝑌)
𝑦 − 𝑌̅ = (𝑥 − 𝑋̅).
𝑉(𝑋)
𝑐𝑜𝑣(𝑋,𝑌)
Soit : 𝑦 = 𝑎𝑥 + 𝑏, 𝑎 = et 𝑏 = 𝑌̅ − 𝑎𝑋̅.
𝑉(𝑋)
𝑐𝑜𝑣(𝑋,𝑌) 𝑉(𝑌)
𝑥 − 𝑋̅ = (𝑦 − 𝑌̅) ⟺ 𝑦 − 𝑌̅ = (𝑥 − 𝑋̅).
𝑉(𝑌) 𝑐𝑜𝑣(𝑋,𝑌)
𝑉(𝑌)
Soit : 𝑦 = 𝑎̃𝑥 + 𝑏̃, 𝑎̃ = 𝑐𝑜𝑣(𝑋,𝑌) et 𝑏̃ = 𝑌̅ − 𝑎̃𝑋̅.
1 1
𝑉(𝑋) = 𝑁 ∑𝑘𝑖=1 𝑛𝑖 (𝑥𝑖 − 𝑋̅)2 ou 𝑉(𝑋) = 𝑁 ∑𝑘𝑖=1 𝑛𝑖 𝑥𝑖2 − 𝑋̅ 2 .
1 1
𝑉(𝑌) = 𝑁 ∑𝑘𝑖=1 𝑛𝑖 (𝑦𝑖 − 𝑌̅)2 ou 𝑉(𝑌) = 𝑁 ∑𝑘𝑖=1 𝑛𝑖 𝑦𝑖2 − 𝑌̅ 2.
1
̅̅̅̅ − 𝑋̅𝑌̅, où 𝑋𝑌
𝑐𝑜𝑣(𝑋, 𝑌) = 𝑋𝑌 ̅̅̅̅ = ∑𝑘𝑖=1 𝑛𝑖 𝑥𝑖 𝑦𝑖 .
𝑁
Les droites (𝐷1 ) et (𝐷2 ) se coupent au point moyen 𝐺(𝑋̅, 𝑌̅) du nuage. Elles sont confondues
lorsque :
𝑐𝑜𝑣(𝑋,𝑌) 𝑉(𝑌)
= 𝑐𝑜𝑣(𝑋,𝑌) ou 𝑐𝑜𝑐 2 (𝑋, 𝑌) = 𝑉(𝑋) × 𝑉(𝑌).
𝑉(𝑋)
On peut montrer que : −1 ≤ 𝑟 ≤ 1. Plus |𝑟| est proche de 1, plus la corrélation est bonne et les
deux caractères ont une très forte dépendance linéaire mutuelle. Plus |𝑟| est proche de 0, moins
10
la corrélation est bonne et les deux caractères ont une très faible dépendance linéaire mutuelle ;
mais cela ne signifie pas que les deux caractères sont indépendants, car il peut exister une autre
relation non linéaire entre les deux caractères.
Exemple : on donne la série statistique suivante :
𝑋 = 𝑥𝑖 1 2 3
𝑌 = 𝑦𝑖 1 2 4
𝑋 = 𝑥𝑖 1 2 3 𝑘
∑ 𝑥𝑖 = 6
𝑖=1
𝑌 = 𝑦𝑖 1 2 4 𝑘
∑ 𝑦𝑖 = 7
𝑖=1
𝑥𝑖2 1 4 9 𝑘
∑ 𝑥𝑖2 = 14
𝑖=1
𝑦𝑖2 1 4 16 𝑘
∑ 𝑦𝑖2 = 21
𝑖=1
𝑥𝑖 𝑦𝑖 1 4 12 𝑘
∑ 𝑥𝑖 𝑦𝑖 = 17
𝑖=1
𝑁=3
11
1 6
𝑋̅ = 𝑁 ∑𝑘𝑖=1 𝑥𝑖 = 3 ⟺ 𝑋̅ = 2.
1 7 7
𝑌̅ = 𝑁 ∑𝑘𝑖=1 𝑦𝑖 = 3 ⟺ 𝑌̅ = 3.
1 17 7
𝑐𝑜𝑣(𝑋, 𝑌) = 𝑁 ∑𝑘𝑖=1 𝑥𝑖 𝑦𝑖 − 𝑋̅𝑌̅ = 3 − 2 × 3 ⟺ 𝑐𝑜𝑣(𝑋, 𝑌) = 1.
1 14 2
𝑉(𝑋) = 𝑁 ∑𝑘𝑖=1 𝑥𝑖2 − 𝑋̅ 2 = 3 − 22 ⟺ 𝑉(𝑋) = 3.
1 21 7 2 14
𝑉(𝑌) = 𝑁 ∑𝑘𝑖=1 𝑦𝑖2 − 𝑌̅ 2 = − (3) ⟺ 𝑉(𝑌) = .
3 9
Interprétation : 𝑟 est très proche de 1 ; la corrélation est très forte. Il y a donc une très forte
dépendance linéaire mutuelle entre les deux caractères.
III. AJUSTEMENT NON LINEAIRE
Il peut arriver que l’allure générale du nuage de points laisse pressentir une relation
fonctionnelle entre les deux caractères 𝑋 et 𝑌 qui ne soit pas de type linéaire (affine). On peut
alors tenter de l’ajuster par un autre type de fonction ; par exemple, une fonction exponentielle
ou une fonction puissance.
III.1. Ajustement exponentielle
La forme générale du nuage des points ressemble à la courbe d’une fonction exponentielle ;
c’est-à-dire une fonction du type : 𝑦 = 𝜆𝑎 𝑥 . On cherche 𝜆 et 𝑎 de façon à obtenir la meilleure
approximation possible. En prenant le logarithme décimal :
𝑙𝑜𝑔𝑦 = 𝑙𝑜𝑔𝜆 + 𝑥𝑙𝑜𝑔𝑎.
Posons : 𝑌 = 𝑙𝑜𝑔𝑦 ; 𝛼 = 𝑙𝑜𝑔𝑎 et 𝛽 = 𝑙𝑜𝑔𝜆.
On obtient alors : 𝑌 = 𝛼𝑥 + 𝛽.
𝑌 est donc une fonction affine de 𝑥. On calcule donc les valeurs :
𝑌𝑖 = 𝛼𝑥𝑖 + 𝛽 et on cherche un ajustement linéaire entre les 𝑌𝑖 et les 𝑥𝑖 .
Exemple : Le coût annuel 𝐶 d’entretien et de la répartition d’un équipement d’âge 𝑇 est donné
par le tableau suivant :
12
Années 𝑡𝑖 1 2 3 4 5
Coût annuel
25
23
Coôt annuel d'entretien
21
19
17
15
13
0 1 2 3 4 5 6
Années
13
𝑙𝑜𝑔𝑦𝑖 = 𝑙𝑜𝑔𝜆 + 𝑎𝑙𝑜𝑔𝑥𝑖 .
En posant : 𝑌𝑖 = 𝑙𝑜𝑔𝑦𝑖 et 𝑋𝑖 = 𝑙𝑜𝑔𝑥𝑖 , 𝑌𝑖 et 𝑋𝑖 sont liés par la relation de type affine :
𝑌𝑖 = 𝑎𝑋𝑖 + 𝑙𝑜𝑔𝜆.
Il suffit alors de chercher l’équation de la droite de régression de 𝑌 en 𝑋 :
𝑌 = 𝑎𝑋 + 𝑏.
La valeur de 𝑏 donne la valeur de 𝜆 puisque :
𝑏 = 𝑙𝑜𝑔𝜆 ⟺ 𝜆 = 10𝑏 .
14