File 20231101 164621

Dr KRAMOH
Enseignant-chercheur
STATSTIQUE ET PROBABILITES
1
Chapitre 3 :
SERIES STATISTIQUES A DEUX
CARACTERES
Le but de ce chapitre est d’évaluer l’évolution simultanée de deux caractères.
INTRODUCTION
L’étude de deux caractères sur chaque individu d’une population permet d’obtenir une série
statistique à deux variables.
I. Tableaux, NUAGES DE POINTS
I.1. Hypothèses simples

Exemple : voici deux séries d’évolution des prix et du pouvoir d’achat (base 100 en 1950).
Années 1960 1961 1962 1963 1964
Indices des 176 182 191 200 207

prix 𝑥𝑖
Pouvoir 152 159 167 175 180
d’achat 𝑦𝑖
2
Années 1980 1981 1982 1983 1984
Indices des 658 746 834 914 982

prix 𝑥𝑖
Pouvoir 291 297 296 296 294
d’achat 𝑦𝑖
Les deux caractères sont disposés de la même façon (horizontalement ou verticalement).

I.2. Tableaux de contingence
Les résultats des observations d’une série statistique à deux variables sont présentés dans un
tableau à double entrée appelé tableau de contingence, comprenant :
- Les modalités des deux variables ;
- Les effectifs associés aux modalités des deux variables simultanément, appelé séries ou
distributions conditionnelles, suivis de l’effectif total appelé effectif marginal pour chaque
modalité.
Exemple : Répartition des employés d’une entreprise dans ses usines A, B, C.
3
Usines 𝑦𝑗
Catégories Usine A Usine B Usine C Totaux
Professionnelles 𝑥𝑖 𝑛𝑖⦁
Administratifs 10 12 21 43
Magasiniers 42 30 45 117
Livreurs 20 19 40 79
Totaux 𝑛⦁𝑗 72 61 106 𝑁 = 239
- Distributions marginales de 𝑋
Catégories Administratifs Magasiniers Livreurs Total
professionnelles
Effectifs 𝑛𝑖⦁ 43 117 79 𝑁 = 239
- Distributions marginales de 𝑌
Usines Usine A Usine B Usine C Total
Effectifs 𝑛⦁𝑗 72 61 106 𝑁 = 239
- Distributions conditionnelles de 𝑋/𝑌 = Usine B
4
Catégories Administratifs Magasiniers Livreurs Total
professionnelles
Effectifs 𝑛𝑖2 12 30 19 61
- Distributions conditionnelles de 𝑌/𝑋 = Administratifs
Usines Usine A Usine B Usine C Total
Effectifs 𝑛1𝑗 10 12 21 43
I.3. Indépendance
Etant donné le tableau de contingence suivant :
5
𝑌 𝑦1 𝑦2 … … … 𝑦𝑝 𝑛𝑖⦁
𝑋
𝑥1 𝑛12 … … … 𝑛1𝑝 𝑛1⦁
𝑥2 𝑛21 … … … 𝑛2𝑝 𝑛2⦁
… … … … … … … …
… … … … … … … …
… … … … … … … …
𝑥𝑚 𝑛𝑚1 𝑛𝑚2 … … … 𝑛𝑚𝑝 𝑛𝑚⦁
𝑛⦁𝑗 𝑛⦁1 𝑛⦁2 … … … 𝑛⦁𝑝 𝑁
𝑋 et 𝑌 sont indépendants si et seulement si :

𝑛𝑖⦁ ×𝑛⦁𝑗
𝑛𝑖𝑗 = ⟺ 𝑓𝑖𝑗 = 𝑓𝑖⦁ × 𝑓⦁𝑗 .
𝑁
Exemple : On donne le tableau suivant :
6
𝑌 250 500 100 𝑛𝑖⦁
𝑋
3 1 2 3 5
5 3 6 9 15
7 4 8 12 20
10 2 4 6 10
𝑛⦁𝑗 10 20 30 𝑁 = 50
On vérifie aisément que les deux caractères 𝑋 et 𝑌 sont indépendants.

Remarque : Dans le cas où les deux caractères sont indépendants, les colonnes sont deux à deux
proportionnelles et les lignes sont deux à deux proportionnelles.
I.4. Nuages de points
Représentons les tableaux dans le cas de l’hypothèse simple. Les éléments de la population sont
les années. On représente ces deux séries statistiques en portant en abscisses les valeurs du
caractère 𝑋 : indice des prix, et en ordonnées les valeurs du caractère 𝑌 : pouvoir d’achat. Pour
avoir une bonne représentation, il faut faire en sorte que les points du nuage ne soient pas trop
concentrés. Le choix des unités est particulièrement important.
Années 60 : abs : 1𝑐𝑚 ⟷ 10
ord : 1𝑐𝑚 ⟷ 10
Années 80 : abs : 1𝑐𝑚 ⟷ 100
ord : 1𝑐𝑚 ⟷ 1.
7
Evolution du pouvoir d'achat en fonction des indices de
prix de 1960 à 1964
185
180
175
Pouvoir d'achat
170
165
160
155
150
170 175 180 185 190 195 200 205 210
Indices de Prix
Evolution du Pouvoir d'achat en fonction de l'indice de Prix

de 1980 à 1984
298
297
296
Pouvoir d'achat
295
294
293
292
291
290
0 200 400 600 800 1000 1200
Indices de Prix
Remarques :
8
Un nuage de points peut prendre des formes très variées. Sur le premier graphique (années 60),
le pouvoir d’achat évolue comme l’indice de prix ; les points du nuage sont sensiblement
alignés, ce qui suggère une relation fonctionnelle du type affine : 𝑦 = 𝑎𝑥 + 𝑏, entre les deux
caractères. Sur le deuxième graphique (années 80), la dispersion est beaucoup plus grande.
Cependant, un ajustement linéaire est possible sur les années 81 − 84.
II. AJUSTEMENT LINEAIRE
I.1. Méthode de Mayer

Etant donné un nuage de points de coordonnées (𝑥𝑖 , 𝑦𝑖 ), on appelle le point moyen du nuage, le
point 𝐺(𝑋̅, 𝑌̅), où 𝑋̅ désigne la moyenne du caractère 𝑋 et 𝑌̅ désigne la moyenne du caractère 𝑌.
La méthode de Mayer consiste à partager les points du nuage en deux ensembles d’égal effectif
(ou à peu près, si le nombre de points est impair). Si 𝐺1 et 𝐺2 sont les points moyens des deux
ensemble, la droite (𝐺1 𝐺2 ) est une droite d’ajustement linéaire.
Exemple : Evolution des prix et du pouvoir d’achat entre 1960 et 1964.
Le premier ensemble est constitué des années 1960 et 1961 ; le second ensemble est constitué
des années 1962, 1963 et 1964.
176+182
𝑋̅1 = = 179 et ̅1 = 152+159 = 155,5.
𝑌
2 2
191+200+207
𝑋̅2 = = 199,3 et ̅2 = 167+175+180 = 174.
𝑌
3 3
L’équation de la droite (𝐺1 𝐺2 ) est :

𝑌̅2 −𝑌̅1 𝑌̅ −𝑦
= 𝑋̅2 −𝑥 ⟹ (𝐺1 𝐺2 ) ∶ 𝑦 = 0,91𝑥 − 7,4.
𝑋̅2 −𝑋̅1 2
Remarques :
- Le premier ensemble pouvait être constitué des années 1960, 1961 et 1962 tandis que le
second ensemble pouvait être constitué des années 1963 et 1964.
- Si l’on étudiait l’évolution des prix et du pouvoir d’achat entre 1980 et 1984, il allait
considérer les quatre points des années 1981 − 1984.
I.1. Méthode des moindres carrés
9
I.1.1. Droite d’ajustement de 𝒚 en 𝒙
L’équation de la droite (𝐷1 ) d’ajustement de 𝑦 en 𝑥 s’écrit :
𝑐𝑜𝑣(𝑋,𝑌)
𝑦 − 𝑌̅ = (𝑥 − 𝑋̅).
𝑉(𝑋)
𝑐𝑜𝑣(𝑋,𝑌)
Soit : 𝑦 = 𝑎𝑥 + 𝑏, 𝑎 = et 𝑏 = 𝑌̅ − 𝑎𝑋̅.
𝑉(𝑋)
I.1.2. Droite d’ajustement de 𝒙 en 𝒚
L’équation de la droite (𝐷2 ) d’ajustement de 𝑥 en 𝑦 s’écrit :
𝑐𝑜𝑣(𝑋,𝑌) 𝑉(𝑌)
𝑥 − 𝑋̅ = (𝑦 − 𝑌̅) ⟺ 𝑦 − 𝑌̅ = (𝑥 − 𝑋̅).
𝑉(𝑌) 𝑐𝑜𝑣(𝑋,𝑌)
𝑉(𝑌)
Soit : 𝑦 = 𝑎̃𝑥 + 𝑏̃, 𝑎̃ = 𝑐𝑜𝑣(𝑋,𝑌) et 𝑏̃ = 𝑌̅ − 𝑎̃𝑋̅.
1 1
𝑉(𝑋) = 𝑁 ∑𝑘𝑖=1 𝑛𝑖 (𝑥𝑖 − 𝑋̅)2 ou 𝑉(𝑋) = 𝑁 ∑𝑘𝑖=1 𝑛𝑖 𝑥𝑖2 − 𝑋̅ 2 .
1 1
𝑉(𝑌) = 𝑁 ∑𝑘𝑖=1 𝑛𝑖 (𝑦𝑖 − 𝑌̅)2 ou 𝑉(𝑌) = 𝑁 ∑𝑘𝑖=1 𝑛𝑖 𝑦𝑖2 − 𝑌̅ 2.
1
̅̅̅̅ − 𝑋̅𝑌̅, où 𝑋𝑌
𝑐𝑜𝑣(𝑋, 𝑌) = 𝑋𝑌 ̅̅̅̅ = ∑𝑘𝑖=1 𝑛𝑖 𝑥𝑖 𝑦𝑖 .
𝑁
Les droites (𝐷1 ) et (𝐷2 ) se coupent au point moyen 𝐺(𝑋̅, 𝑌̅) du nuage. Elles sont confondues
lorsque :
𝑐𝑜𝑣(𝑋,𝑌) 𝑉(𝑌)
= 𝑐𝑜𝑣(𝑋,𝑌) ou 𝑐𝑜𝑐 2 (𝑋, 𝑌) = 𝑉(𝑋) × 𝑉(𝑌).
𝑉(𝑋)
Attention ! : la covariance peut être négative.

I.1.3. Coefficient de corrélation linéaire
Pour mesurer la proximité des points du nuage aux droites d’ajustement, on utilise le coefficient
de corrélation linéaire, noté 𝑟 et défini par :
𝑐𝑜𝑣(𝑋,𝑌) 𝑐𝑜𝑣(𝑋,𝑌)
𝑟= = .
√𝑉(𝑋)×𝑉(𝑌) 𝜎𝑋 ×𝜎𝑋
On peut montrer que : −1 ≤ 𝑟 ≤ 1. Plus |𝑟| est proche de 1, plus la corrélation est bonne et les
deux caractères ont une très forte dépendance linéaire mutuelle. Plus |𝑟| est proche de 0, moins
10
la corrélation est bonne et les deux caractères ont une très faible dépendance linéaire mutuelle ;
mais cela ne signifie pas que les deux caractères sont indépendants, car il peut exister une autre
relation non linéaire entre les deux caractères.
Exemple : on donne la série statistique suivante :
𝑋 = 𝑥𝑖 1 2 3
𝑌 = 𝑦𝑖 1 2 4
Déterminer l’équation de la droite d’ajustement de 𝑦 en 𝑥 ainsi que le coefficient de corrélation

linéaire. Interpréter.
𝑋 = 𝑥𝑖 1 2 3 𝑘
∑ 𝑥𝑖 = 6
𝑖=1
𝑌 = 𝑦𝑖 1 2 4 𝑘
∑ 𝑦𝑖 = 7
𝑖=1
𝑥𝑖2 1 4 9 𝑘
∑ 𝑥𝑖2 = 14
𝑖=1
𝑦𝑖2 1 4 16 𝑘
∑ 𝑦𝑖2 = 21
𝑖=1
𝑥𝑖 𝑦𝑖 1 4 12 𝑘
∑ 𝑥𝑖 𝑦𝑖 = 17
𝑖=1
𝑁=3
11
1 6
𝑋̅ = 𝑁 ∑𝑘𝑖=1 𝑥𝑖 = 3 ⟺ 𝑋̅ = 2.
1 7 7
𝑌̅ = 𝑁 ∑𝑘𝑖=1 𝑦𝑖 = 3 ⟺ 𝑌̅ = 3.
1 17 7
𝑐𝑜𝑣(𝑋, 𝑌) = 𝑁 ∑𝑘𝑖=1 𝑥𝑖 𝑦𝑖 − 𝑋̅𝑌̅ = 3 − 2 × 3 ⟺ 𝑐𝑜𝑣(𝑋, 𝑌) = 1.
1 14 2
𝑉(𝑋) = 𝑁 ∑𝑘𝑖=1 𝑥𝑖2 − 𝑋̅ 2 = 3 − 22 ⟺ 𝑉(𝑋) = 3.
1 21 7 2 14
𝑉(𝑌) = 𝑁 ∑𝑘𝑖=1 𝑦𝑖2 − 𝑌̅ 2 = − (3) ⟺ 𝑉(𝑌) = .
3 9
L’équation de la droite d’ajustement de 𝑦 en 𝑥 est :

7 3 3 2
𝑦 − 3 = 2 (𝑥 − 2) ⟺ 𝑦 = 2 𝑥 − 3.
𝑐𝑜𝑣(𝑋,𝑌) 1
𝑟= = ⟺ 𝑟 ≈ 0,98.
√𝑉(𝑋)×𝑉(𝑌) 2 14
√ ×
3 9
Interprétation : 𝑟 est très proche de 1 ; la corrélation est très forte. Il y a donc une très forte
dépendance linéaire mutuelle entre les deux caractères.
III. AJUSTEMENT NON LINEAIRE
Il peut arriver que l’allure générale du nuage de points laisse pressentir une relation
fonctionnelle entre les deux caractères 𝑋 et 𝑌 qui ne soit pas de type linéaire (affine). On peut
alors tenter de l’ajuster par un autre type de fonction ; par exemple, une fonction exponentielle
ou une fonction puissance.
III.1. Ajustement exponentielle
La forme générale du nuage des points ressemble à la courbe d’une fonction exponentielle ;
c’est-à-dire une fonction du type : 𝑦 = 𝜆𝑎 𝑥 . On cherche 𝜆 et 𝑎 de façon à obtenir la meilleure
approximation possible. En prenant le logarithme décimal :
𝑙𝑜𝑔𝑦 = 𝑙𝑜𝑔𝜆 + 𝑥𝑙𝑜𝑔𝑎.
Posons : 𝑌 = 𝑙𝑜𝑔𝑦 ; 𝛼 = 𝑙𝑜𝑔𝑎 et 𝛽 = 𝑙𝑜𝑔𝜆.
On obtient alors : 𝑌 = 𝛼𝑥 + 𝛽.
𝑌 est donc une fonction affine de 𝑥. On calcule donc les valeurs :
𝑌𝑖 = 𝛼𝑥𝑖 + 𝛽 et on cherche un ajustement linéaire entre les 𝑌𝑖 et les 𝑥𝑖 .
Exemple : Le coût annuel 𝐶 d’entretien et de la répartition d’un équipement d’âge 𝑇 est donné
par le tableau suivant :
12
Années 𝑡𝑖 1 2 3 4 5
Coût annuel (en 13,3 14,2 16,1 18,9 23,6

milliers de Francs) 𝑐𝑖
Coût annuel
25
23
Coôt annuel d'entretien
21
19
17
15
13
0 1 2 3 4 5 6
Années
La forme du nuage suggère un ajustement par une fonction exponentielle. On calcule

𝑌𝑖 = 𝑙𝑜𝑔𝑐𝑖 .
Années 𝑡𝑖 1 2 3 4 5
𝑌𝑖 = 𝑙𝑜𝑔𝑐𝑖 1,1238 1,1523 1,2068 1,2765 1,3729
Le calcule du coefficient de corrélation linéaire donne 𝑟 = 0,979.

L’équation de la droite de régression de 𝑌 en 𝑡 est : 𝑌 = 0,0622𝑡 + 1,0398.
Comme 𝑌 = 𝑙𝑜𝑔𝐶 alors 𝐶 = 10𝑌 .
Soit 𝑐 = 100,0622𝑡+1,0398 .
III.2. Ajustement par une fonction de puissance

Si les points du nuage ont des coordonnées (𝑥𝑖 , 𝑦𝑖 ) vérifiant approximativement une relation du
type : 𝑦𝑖 = 𝜆𝑥𝑖𝑎 , alors :
13
𝑙𝑜𝑔𝑦𝑖 = 𝑙𝑜𝑔𝜆 + 𝑎𝑙𝑜𝑔𝑥𝑖 .
En posant : 𝑌𝑖 = 𝑙𝑜𝑔𝑦𝑖 et 𝑋𝑖 = 𝑙𝑜𝑔𝑥𝑖 , 𝑌𝑖 et 𝑋𝑖 sont liés par la relation de type affine :
𝑌𝑖 = 𝑎𝑋𝑖 + 𝑙𝑜𝑔𝜆.
Il suffit alors de chercher l’équation de la droite de régression de 𝑌 en 𝑋 :
𝑌 = 𝑎𝑋 + 𝑏.
La valeur de 𝑏 donne la valeur de 𝜆 puisque :
𝑏 = 𝑙𝑜𝑔𝜆 ⟺ 𝜆 = 10𝑏 .
14

File 20231101 164621

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

File 20231101 164621

Transféré par

Droits d'auteur :

Formats disponibles

Dr KRAMOH

Le but de ce chapitre est d’évaluer l’évolution simultanée de deux caractères.

I. Tableaux, NUAGES DE POINTS

I.1. Hypothèses simples

Années 1960 1961 1962 1963 1964

Indices des 176 182 191 200 207

Indices des 658 746 834 914 982

Les deux caractères sont disposés de la même façon (horizontalement ou verticalement).

Exemple : Répartition des employés d’une entreprise dans ses usines A, B, C.

Catégories Usine A Usine B Usine C Totaux

Totaux 𝑛⦁𝑗 72 61 106 𝑁 = 239

Usines Usine A Usine B Usine C Total

Effectifs 𝑛⦁𝑗 72 61 106 𝑁 = 239

- Distributions conditionnelles de 𝑋/𝑌 = Usine B

- Distributions conditionnelles de 𝑌/𝑋 = Administratifs

Usines Usine A Usine B Usine C Total

𝑥2 𝑛21 … … … 𝑛2𝑝 𝑛2⦁

𝑥𝑚 𝑛𝑚1 𝑛𝑚2 … … … 𝑛𝑚𝑝 𝑛𝑚⦁

𝑛⦁𝑗 𝑛⦁1 𝑛⦁2 … … … 𝑛⦁𝑝 𝑁

𝑋 et 𝑌 sont indépendants si et seulement si :

Exemple : On donne le tableau suivant :

On vérifie aisément que les deux caractères 𝑋 et 𝑌 sont indépendants.

Evolution du Pouvoir d'achat en fonction de l'indice de Prix

II. AJUSTEMENT LINEAIRE

I.1. Méthode de Mayer

L’équation de la droite (𝐺1 𝐺2 ) est :

I.1. Méthode des moindres carrés

L’équation de la droite (𝐷1 ) d’ajustement de 𝑦 en 𝑥 s’écrit :

I.1.2. Droite d’ajustement de 𝒙 en 𝒚

L’équation de la droite (𝐷2 ) d’ajustement de 𝑥 en 𝑦 s’écrit :

Attention ! : la covariance peut être négative.

Déterminer l’équation de la droite d’ajustement de 𝑦 en 𝑥 ainsi que le coefficient de corrélation

L’équation de la droite d’ajustement de 𝑦 en 𝑥 est :

Coût annuel (en 13,3 14,2 16,1 18,9 23,6

La forme du nuage suggère un ajustement par une fonction exponentielle. On calcule

𝑌𝑖 = 𝑙𝑜𝑔𝑐𝑖 1,1238 1,1523 1,2068 1,2765 1,3729

Le calcule du coefficient de corrélation linéaire donne 𝑟 = 0,979.

III.2. Ajustement par une fonction de puissance

Vous aimerez peut-être aussi