Vous êtes sur la page 1sur 12

Cours de Statistique et analyse des données L3 écologie et environnement

Dr Khodja I. Chapitre I1I : Statistique descriptive bivariée


Chapitre III : Statistique descriptive bivariée

3.1. Série statistique bivariée


On s’intéresse à deux variables x et y. Ces deux variables sont mesurées sur les n unités
d’observation. Pour chaque unité, on obtient donc deux mesures. La série statistique est alors
ensuite de n couples des valeurs prises par les deux variables sur chaque individu :
(𝑥1 , 𝑦1 ), …., (𝑥𝑖 , 𝑦𝑖 ), …., (𝑥𝑛 , 𝑦𝑛 )
Chacune des deux variables peut être, soit quantitative, soit qualitative. On examine deux cas ;
-Les deux variables sont quantitatives
-Les deux variables sont qualitatives
-Une variable quantitative et une variable qualitative
3.2. Deux variables quantitatives
3.2.1. Données non groupées
3.2.1.1. Représentation graphique de deux variables
Dans ce cas, chaque couple est composé de deux valeurs numériques. Un couple de nombre
(entiers ou réels) peut toujours être représenté comme un point dans un plan
(𝑥1 , 𝑦1 ), …., (𝑥𝑖 , 𝑦𝑖 ), …., (𝑥𝑛 , 𝑦𝑛 )
Ex. On mesure le poids Y et la taille X de 20 individus
𝑦𝑖 𝑥𝑖 𝑦𝑖 𝑥𝑖
60 155 75 180
61 162 76 175
64 157 78 173
67 170 80 175
68 164 85 179
69 162 90 175
70 169 96 180
70 170 96 185
72 178 98 189
73 173 101 187

Nuage de point (Variation du poids en fonction de la taille)


105
y = 1,1802x - 126,61
95 R² = 0,7703

85
Poids

75

65

55
150 155 160 165 170 175 180 185 190 195
Taille

1
Cours de Statistique et analyse des données L3 écologie et environnement
Dr Khodja I. Chapitre I1I : Statistique descriptive bivariée

3.2.1.2. Analyse des variables


Les variables x et y peuvent être analysées séparément. On peut calculer tous les paramètres dont
les moyennes et les variances
1 1 𝑘
𝑥̅ = 𝑛 ∑𝑁 2
𝑖=1 𝑛𝑖 𝑥𝑖 , 𝑆𝑥 = 𝑛−1 ∑𝑖=1 𝑛𝑖 (𝑥𝑖 − 𝑥̅ )²
1 1𝑘
𝑦̅ = 𝑛 ∑𝑁 2
𝑖=1 𝑛𝑖 𝑦𝑖 , 𝑆𝑦 = 𝑛−1 ∑𝑖=1 𝑛𝑖 (𝑦𝑖 − 𝑦)²
Ces paramètres sont appelés paramètres marginaux ; variances marginales, moyennes marginales,
écart-types marginaux, quantiles marginaux, … etc.

3.2.1.3. Covariance
La covariance est définie comme
1
𝑆𝑥,𝑦 = 𝑛 ∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )(𝑦𝑖 − 𝑦̅) Lorsqu’il s’agit d’une covariance d’une population
1
Et 𝑆𝑥,𝑦 = 𝑛−1 ∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )(𝑦𝑖 − 𝑦̅) Lorsqu’il s’agit d’une covariance d’un échantillon
La covariance peut prendre des valeurs positives, négatives ou nulles
Quand 𝑥𝑖 = 𝑦𝑖 , pour tout i=1, …, n, la covariance est égale à la variance
La covariance peut également s’écrire :
1
𝑆𝑥,𝑦 = ∑𝑛𝑖=1 𝑥𝑖 𝑦𝑖 − 𝑥̅ 𝑦̅ Lorsqu’il s’agit d’une covariance d’une population
𝑛

1
𝑆𝑥,𝑦 = ∑𝑛𝑖=1 𝑥𝑖 𝑦𝑖 − 𝑥̅ 𝑦̅ Lorsqu’il s’agit d’une covariance d’un échantillon
𝑛

3.2.1.4. Corrélation linéaire et détermination


Le coefficient de corrélation est la covariance divisée par les deux écart-type marginaux
𝑆𝑥𝑦
𝑟𝑥𝑦 =
𝑆𝑥 𝑆𝑦
-1 < 𝑟𝑥𝑦 < 1
Si le coefficient de corrélation est positif, les points sont alignés le long d’une droite croissance
Si le coefficient de corrélation est négatif, les points sont alignés le long d’une droite décroissante
Si le coefficient de corrélation est nul ou proche de zéro, il n’y a pas de dépendance linéaire. On
peut cependant une dépendance non-linéaire avec un coefficient de corrélation nulle.

2
Cours de Statistique et analyse des données L3 écologie et environnement
Dr Khodja I. Chapitre I1I : Statistique descriptive bivariée

Exemple de nuage de point et coefficients de corrélation


Le coefficient de détermination est le carré du coefficient de corrélation
2
2
𝑆𝑥𝑦
𝑟𝑥𝑦 = 2 2
𝑆𝑥 𝑆𝑦
Le coefficient de corrélation mesure la dépendance linéaire entre deux variables
2
0 < 𝑟𝑥𝑦 <1
Proche de 1 : le modèle est meilleur, la connaissance des valeurs de X permet de déterminer
celle de Y avec précision
Proche de 0 : X n’apporte aucune information utile sur Y. La connaissance des valeurs de X
n’explique pas celles de Y.

3.2.1.5. Droite de régression linéaire simple


La droite de régression est la droite qui ajuste au mieux un nuage de points au sens des moindres
carrés.
On considère que la variable X est explicative et que la variable Y est dépendante. L’équation
d’une droite est
y= a + bx
Le problème consiste à identifier une droite qui ajuste bien le nuage de points. Si les coefficients
a et b étaient connues, on pourrait calculer les résidus de la régression définis par
Les coefficients a et b sont calculé par la méthode des moindres carrés
𝑆𝑥,𝑦 ∑𝑛 ̅)
𝑖=1(𝑥𝑖 −𝑥̅ )(𝑦𝑖 −𝑦
b= 𝑆2 = ∑𝑛
et a=𝑦̅ − 𝑏𝑥̅
𝑥 𝑖=1(𝑥𝑖 −𝑥̅ )²
Le b est la pente et le a est la constante ou l’ordonnée à l’origine
La droite de régression de y en x n’est pas la même que la droite de régression de x en y

3.2.1.6. Résidus et valeurs ajustées


Les valeurs ajustées sont obtenues au moyen de la droite de régression
𝑦𝑖∗ = 𝑎 + 𝑏𝑥𝑖
Les valeurs ajustées sont les prédictions des 𝑦𝑖 réalisées au moyen de la variable x et de la droite
de régression de y en x.
3
Cours de Statistique et analyse des données L3 écologie et environnement
Dr Khodja I. Chapitre I1I : Statistique descriptive bivariée
Les résidus sont les différences entre les valeurs observées et les valeurs ajustées de la variable
dépendante.
𝑒𝑖 = 𝑦𝑖 − 𝑦𝑖∗ = 𝑦𝑖 − 𝑎 − 𝑏𝑥𝑖

Le résidu 𝑒𝑖 est l’erreur que l’on commet en utilisant la droite de régression pour prédire 𝑦𝑖 à
partir de 𝑥𝑖 (c’est la partie inexpliquée des 𝑦𝑖 par la droite de régression. Les résidus peuvent être
positifs ou négatifs.
La moyenne des résidus est nulle
1 𝑛 1
∑ 𝑒 = ∑𝑛𝑖=1(𝑦𝑖 − 𝑦𝑖∗ ) = 𝑦̅ − 𝑦̅ = 0
𝑛 𝑖=1 𝑖 𝑛

3.2.1.7. Sommes de carrés et variances


a. On appelle somme des carrés totale la quantité
𝑛

𝑆𝐶𝑇 = ∑(𝑦𝑖 − 𝑦̅)2


𝑖=1
La variance marginale peut alors être définie par
𝑛
𝑆𝐶𝑇 1
𝑆𝑦2 = = ∑(𝑦𝑖 − 𝑦̅)2
𝑛 𝑛
𝑖=1
b. On appelle somme des carrées de la régression (expliqué) la quantité
𝑛

𝑆𝐶𝐸 = ∑(𝑦𝑖∗ − 𝑦̅)2


𝑖=1
La variance de régression est la variance des valeurs ajustées
𝑛
𝑆𝐶𝐸 1
2
𝑆𝑦∗ = = ∑(𝑦𝑖∗ − 𝑦̅)2 = 𝑆𝑦2 𝑟 2
𝑛 𝑛
𝑖=1
c. On appelle somme des carrées des résidus (ou résiduelle) la quantité
𝑛 𝑛

𝑆𝐶𝑅 = ∑ 𝑒𝑖2 = ∑(𝑦𝑖 − 𝑦𝑖∗ )2


𝑖=1 𝑖=1
La variance résiduelle est la variance des résidus

4
Cours de Statistique et analyse des données L3 écologie et environnement
Dr Khodja I. Chapitre I1I : Statistique descriptive bivariée
𝑛
𝑆𝐶𝑅 1
𝑆𝑒2 = = ∑ 𝑒𝑖2 = 𝑆𝑦2 (1 − 𝑟 2 )
𝑛 𝑛
𝑖=1
Il n’est pas nécessaire de centrer les résidus sur leurs moyennes pour calculer la variance, car la
moyenne des résidus est nulle.
𝑆𝐶𝑇 = 𝑆𝐶𝐸 + 𝑆𝐶𝑅
SCT indique la variabilité totale de Y, c’est-à-dire l’information disponible dans les données
SCE indique la variabilité expliquée par le modèle, c’est-à-dire la variation de Y expliquée par X
SCR indique la variabilité non-expliquée par le modèle, c’est-à-dire entre les valeurs observées et
prédites
Mesure de la qualité d’ajustement
𝑆𝐶𝐸 ∑𝑛𝑖=1(𝑦𝑖∗ − 𝑦̅)2 𝑆𝐶𝑅 ∑𝑛𝑖=1(𝑦𝑖 − 𝑦𝑖∗ )2
𝑟2 = = 𝑛 = 1 − = 1 −
𝑆𝐶𝑇 ∑𝑖=1(𝑦𝑖 − 𝑦̅)2 𝑆𝐶𝑇 ∑𝑛𝑖=1(𝑦𝑖 − 𝑦̅)2

3.2.1.8. Décomposition de la variance


La variance marginale est la somme de la variance de régression et de la variance résiduelle,
𝑆𝑦2 = 𝑆𝑦∗
2
+ 𝑆𝑒2
3.2.2. Données groupées
3.2.2.1. Tableau de contingence
Les données observées peuvent être regroupées sous la forme d’un tableau de contingence

𝒚𝟏 𝒚𝒌 𝒚𝑲 𝑛𝑗.
𝒙𝟏 𝒏𝟏𝟏 𝒏𝟏𝒌 𝒏𝟏𝑲 𝒏𝟏. Effectifs marginaux de x
. . . .
. . . .
. . . .
𝒙𝒋 𝒏𝒋𝟏 𝒏𝒋𝒌 𝒏𝒋𝑲 𝒏𝒋.
. . . .
. . . .
. . . .
𝒙𝑱 𝒏𝑱𝟏 𝒏𝑱𝒌 𝒏𝑱𝑲 𝒏𝑱.
𝑛.𝑘 𝒏.𝟏 𝒏.𝒌 𝒏.𝑲 𝑛.. = 𝑛
Effectifs marginaux de y
Les 𝒏𝒋. et les 𝒏.𝒌 sont appelés les effectifs marginaux. Dans ce tableau,
𝒏𝒋. représente le nombre de fois que la modalité 𝒙𝒋 apparaît, le (.) signifie que l’on ne tient pas
compte de Y (Y n’est pas fixé, elle change) (ex 𝒏𝟏. Désigne tout l’effectif des individus qui ont la
modalité/ valeur 1 de X).
𝒏.𝒌 représente le nombre de fois que la modalité 𝒚𝒌 apparaît, le (.) signifie que l’on ne tient pas
compte de X (ex 𝒏.𝟏 Désigne tout l’effectif des individus qui ont la modalité/ valeur 1 de Y).
𝒏𝒋𝒌 représente le nombre de fois que les modalités 𝒙𝒋 et 𝒚𝒌 apparaissent ensemble.
𝒏.. effectif total

5
Cours de Statistique et analyse des données L3 écologie et environnement
Dr Khodja I. Chapitre I1I : Statistique descriptive bivariée
On a les relations
∑𝐽𝑗=1 𝑛𝑗𝑘 = 𝑛1𝑘 + 𝑛2𝑘 + ⋯ + 𝑛𝐽𝑘 = 𝑛.𝑘 , pour tout k=1, …, K
∑𝐾𝑘=1 𝑛𝑗𝑘 = 𝑛𝑗1 + 𝑛𝑗2 + ⋯ + 𝑛𝑗𝐾 = 𝑛𝑗. , pour tout j=1, …, J
𝐽 𝐾 𝐽 𝐾

∑ 𝑛𝑗. = ∑ 𝑛.𝑘 = ∑ ∑ 𝑛𝑗𝑘 = 𝑛


𝑗=1 𝑘=1 𝑗=1 𝑘=1

Ex. Soit le tableau de contingence suivant d’un groupe de 50 personnes réparties par groupe d’âge
(x) et par sexe (y)

H F 𝑛𝑗. 𝑓𝑗.
[0-18[ 10 20 30 30/50=0.6
[18-45[ 5 15 20 20/50=0.4
𝑛.𝑘 15 35 50
𝑓.𝑘 15/50=0.3 35/50
𝑛11 =10, 𝑛12 =20, 𝑛21 =5, 𝑛22 =15
𝑛1. = 𝑛11 +𝑛12 =10+20=30
𝑛2. = 𝑛21 +𝑛22 =5+15=20
𝑛.1 = 𝑛11 +𝑛21 =10+5=15
𝑛.2 = 𝑛12 +𝑛22 =20+15=35
𝑛.. = 𝑛11 + 𝑛12 + 𝑛21 + 𝑛22 = 10 + 20 + 5 + 15 = 50
𝑛.. = 𝑛1. + 𝑛2. = 30 + 20 = 50
𝑛.. = 𝑛.1 + 𝑛.2 = 15 + 35 = 50

3.2.2.2. Les fréquences marginales


Les fréquences marginales de x s’obtiennent en divisant la colonne par son total soit dans
l’exemple 30+20=50. De même, les fréquences marginales de y s’obtiennent en divisant la ligne
par son total soit dans l’exemple 15+35=50.

Les définitions des fréquences marginales sont données par :


Fréquences marginales de x :
𝑛
𝑓𝑗. = 𝑛𝑗. pour j=1, …, J
..
Fréquences marginales de y :
𝑛
𝑓.𝑘 = 𝑛.𝑘 pour k=1, …, K
..

Ainsi, dans l’exemple précédent, nous avons


𝑛 30 𝑛 15
𝑓1. = 𝑛1. = 50 = 0.6 et 𝑓2. = 𝑛2. = 50 = 0.3
.. ..
𝑛.1 15 𝑛.2 35
𝑓.1 = = 50 = 0.3 et 𝑓.2 = = 50 = 0.7
𝑛.. 𝑛..

6
Cours de Statistique et analyse des données L3 écologie et environnement
Dr Khodja I. Chapitre I1I : Statistique descriptive bivariée
3.2.2.3. Les fréquences partielles sur effectif total
Les fréquences partielles sur effectif total s’obtiennent en divisant chaque 𝑛𝑗𝑘 par l’effectif total.
𝑛𝑗𝑘
𝑓𝑗𝑘 =
𝑛..
La somme des effectifs partiels sur effectif total est égale à 1.
3.2.2.4. Profils lignes et profils colonnes
Un tableau de contingence s’interprète toujours en comparant des fréquences en lignes ou des
fréquences en colonnes (appelés aussi profils lignes et profils colonnes)
Les profils lignes sont définis par
(𝑗) 𝑛𝑗𝑘 𝑓𝑗𝑘
𝑓𝑘 = = , k=1, …, K, j=1,…,J
𝑛𝑗. 𝑓𝑗.
Et les profils colonnes par
(𝑘) 𝑛𝑗𝑘 𝑓𝑗𝑘
𝑓𝑗 = = , j=1, …, J, k=1,…,K
𝑛.𝑘 𝑓.𝑘

H F 𝑛𝑗.
[0-18[ 10 20 30
[18-45[ 5 15 20
𝑛.𝑘 15 35 50
Profil ligne
H F 𝑛𝑗. Total
[0-18[ =10/30=0.33 =20/30=0.66 30 1
[18-45[ =5/20=0.25 =15/20=0.75 20 1
𝑛.𝑘 15 3 50
Total =15/50=0.5 =3/50=0.06 1
Profil colonne
H F 𝑛𝑗. Total
[0-18[ =10/15=0.67 =20/35=0.57 30 =30/50=0.6
[18-45[ =5/15=0.33 =15/35=0.43 20 =20/50=0.4
𝑛.𝑘 15 3 50
Total 1 1 1

3.2.2.5. Moyennes marginales


Les moyennes marginales de x et y se calculent à partir des distributions marginales suivant les
formules suivantes :
𝐽
1
𝑥̅̅ = ∑ 𝑛𝑗. 𝑥𝑗
𝑛..
𝑗=1
𝐾
1
𝑦̅ = ∑ 𝑛.𝑘 𝑥𝑘
𝑛..
𝑘=1

Où le signe « = » situé sur le x et y permet de rappeler qu’il s’agit de moyennes de distributions


marginales.

7
Cours de Statistique et analyse des données L3 écologie et environnement
Dr Khodja I. Chapitre I1I : Statistique descriptive bivariée
3.2.2.6. Variances marginales
Les variances marginales de x et de y se calculent à partir des distributions marginales suivant les
formules suivantes
𝐽
1
σ2𝑥 = ∑ 𝑛𝑗. (𝑥𝑗 − 𝑥̅̅ )²
𝑛..
𝑗=1
𝐾
1
σ2𝑦 = ∑ 𝑛.𝑘 (𝑦𝑘 − 𝑦̅ )²
𝑛..
𝑘=1

Ex.
1 4 𝑛𝑗.
2 3 5 8
8 4 12 16
𝑛.𝑘 7 17 24

Distribution marginale de x Distribution marginale de y


𝑥𝑗 𝑛𝑗. 𝑛𝑗. 𝑥𝑗 𝐽 𝑦𝑘 𝑛.𝑘 𝑛.𝑘 𝑦𝑘 𝐾
∑ 𝑛𝑗. (𝑥𝑗 − 𝑥̅̅ )² ∑ 𝑛.𝑘 (𝑦𝑘 − 𝑦̅ )²
𝑗=1 𝑘=1
2 8 16 128 1 7 7 31.61
8 16 128 64 4 17 68 13.02

La moyenne marginale de x
1 1
𝑥̅̅ = 𝑛 ∑𝐽𝑗=1 𝑛𝑗. 𝑥𝑗 = 24 [(8𝑋2) + (16𝑋8)] = 6
..

La moyenne marginale de y
1 1
𝑦̅ = 𝑛 ∑𝐾
𝑘=1 𝑛.𝑘 𝑥𝑘 = 24 [(7𝑋1) + (17𝑋4)] = 3.125
..

La variance marginale de x
1 128+64
σ2𝑥 = 𝑛 ∑𝐽𝑗=1 𝑛𝑗. (𝑥𝑖 − 𝑥̅̅ )² = 24 = 8
..
La variance marginale de y
1 31.61+13.02
σ2𝑦 = 𝑛 ∑𝐾 ̅
𝑘=1 𝑛.𝑘 (𝑦𝑘 − 𝑦)²= = 1.86
.. 24

3.2.2.7. La covariance
La covariance dans le cas des données groupées est définie comme
𝐽 𝐾
1
𝑆𝑥,𝑦 = ∑ ∑ 𝑛𝑗𝑘 𝑥𝑗 𝑦𝑘 − 𝑥̅̅ 𝑦̅)
𝑛..
𝑗=1 𝑘=1

8
Cours de Statistique et analyse des données L3 écologie et environnement
Dr Khodja I. Chapitre I1I : Statistique descriptive bivariée
3.2.2.8. Le coefficient de corrélation
La formule du coefficient de corrélation devient
1 𝐽
∑ ∑𝐾 ̅
𝑛.. 𝑗=1 𝑘=1 𝑛𝑗𝑘 𝑥𝑗 𝑦𝑘 − 𝑥̅ 𝑦̅)
𝑟=
1 1
√ ∑𝐽𝑗=1 𝑛𝑗. (𝑥𝑗 − 𝑥̅̅ )² √ ∑𝐾
𝑛.. 𝑛.. 𝑘=1 𝑛.𝑘 (𝑦𝑘 − 𝑦̅)²

Ex.
y [0-3[ [3-9[ 𝑛𝑗. 𝑛𝑗. 𝑥𝑗 𝑛𝑗. (𝑥𝑗 − 𝑥̅̅ )²
x cc 1,5 6
[0-4[ 2 2 4 6 12 90,44
[4-12[ 8 8 3 11 88 49,33
𝑛.𝑘 10 7 17 100 139,76
𝑛.𝑘 𝑦𝑘 15 42 57
𝑛.𝑘 (𝑦𝑘 − 𝑦̅)² 34,33 49,05 83,38

Calcul de 𝑛𝑗𝑘 𝑥𝑗 𝑦𝑘 pour la covariance


=1.5 X 2 X 2=6 =6 X 2 X 4= 48
=1.5 X 8 X 8=96 =6 X 8 X 3= 144
294

̅
𝒚 3,35 ̅
𝒙 5,88 𝑺𝒙,𝒚 -2,43
𝛔𝟐𝒚 4,90 𝛔𝟐𝒙 8,22 r -0,38
𝛔𝒚 2,21 𝛔𝒙 2,87 r² 0,15

9
Cours de Statistique et analyse des données L3 écologie et environnement
Dr Khodja I. Chapitre I1I : Statistique descriptive bivariée
3.2.3. Le test de Student de l’indépendance
Le principe est de formuler 2 hypothèses : H0 et son alternative H1
H0 : absence de différence ou d’effet (la variable x et y ne sont pas liées ainsi, il n’existe pas de
corrélation linéaire)
H1 : attente d’une différence ou d’un effet quelconque (+ ou -) (il existe un lien de corrélation entre
la variable x et y)

On teste statistiquement l’hypothèse H0,


Si H0 est rejetée alors H1 est validée
Si H1 n’est pas rejetée alors H1 n’est pas validée

Pour utiliser ce test, il est obligatoire que x et y suivent des distributions normal (suivent la loi
normal)

𝑛−2
𝑡 = 𝑟√
1 − 𝑟²
On compare ensuite le tcalculé à une valeur de tcritique lue dans une table de Student, en fonction du
nombre de degrés de liberté et la probabilité d’erreur qu’on accepte en rejetant H0
Ddl=N-2
Si |tcalculé| > tcritique = H0 rejetée et il existe un lien de corrélation linéaire
Si |tcalculé| < tcritique = H0 est accepté et il n’existe pas de lien de corrélation linéaire

Ex.
X : ancienneté dans une entreprise
Y : salaire
N=32
r=0,4
r²=0,16
tcalculé = 2.390 > tcritique =2.042 pour 5% d’erreur accepté
H0 est rejeté, H1 est accepté, ainsi, il existe un lien entre l’ancienneté dans une entreprise et le
salaire, ici c’est plutôt l’ancienneté qui influence le salaire. Le salaire est expliqué par l’ancienneté.
Dans ce cas le r²=0.16, ce qui veut dire que 16% du salaire est expliqué par l’ancienneté et cela est
statistiquement significative.

10
Cours de Statistique et analyse des données L3 écologie et environnement
Dr Khodja I. Chapitre I1I : Statistique descriptive bivariée
3.3. Deux variables qualitatives

3.3.1. Test du khi-deux ꭓ2 de Pearson


Lorsque les caractères sont qualitatifs, l’étude de la corrélation se fait par un test statistique
développé par Karl Pearsons et appelé test d’indépendance du « Khi deux ».
On cherche souvent une interaction entre des lignes et des colonnes, un lien entre les variables.
Pour mettre en évidence ce lien, on construit un tableau d’effectifs théoriques qui représente la
situation où les variables ne sont pas liées (indépendance). Ces effectifs théoriques sont construits
de la manière suivante et en considérant que l’hypothèse H0 qui supporte que x et y sont
indépendants

𝑛𝑗. 𝑛.𝑘
𝑛𝑗𝑘 =
𝑛
Les écarts à l’indépendance sont définis par

𝑒𝑗𝑘 = 𝑛𝑗𝑘 − 𝑛𝑗𝑘
La dépendance du tableau se mesure au moyen du khi-carré défini par
𝐾 𝐽 𝐾 𝐽
∗ 2 2
(𝑛𝑗𝑘 − 𝑛𝑗𝑘 ) 𝑒𝑗𝑘
ꭓ2𝑜𝑏𝑠 = ∑∑ ∗ = ∑ ∑ ∗
𝑛𝑗𝑘 𝑛𝑗𝑘
𝑘=1 𝑗=1 𝑘=1 𝑗=1
La valeur du ꭓ2𝑜𝑏𝑠 est comparé à une valeur théorique obtenue de la table du ꭓ2 . Pour cela, nous
devons dans un premier temps calculer le degré de liberté [ddl= (nombre de ligne – 1) (nombre de
colonne – 1)] et ensuite choisir le seuil de signification du test : le plus souvent on utilise 0.05 qui
correspond à 5% de chance de se tromper ou 0.01 qui correspond à 1% de chance de se tromper.
A partir du ddl et le seuil de signification, on lit dans la table du ꭓ2 la valeur du ꭓ2𝑐𝑟𝑖𝑡𝑖𝑞𝑢𝑒
Si ꭓ2𝑜𝑏𝑠 >ꭓ2𝑐𝑟𝑖𝑡𝑖𝑞𝑢𝑒 , H0 rejetée et H1 acceptée, il existe un lien entre les deux variables (corrélation)
Si ꭓ2𝑜𝑏𝑠 >ꭓ2𝑐𝑟𝑖𝑡𝑖𝑞𝑢𝑒 , H0 acceptée et H1 rejetée, il n’existe pas un lien entre les deux variables (pas de
corrélation)

Ex.
Le tableau ci-dessous donne la répartition de 200 naissances en fonction de la parité de la maman
et le poids du nouveau-né
Primipares Multipares
Poids inférieur à 3 kg 26 20
Entre 3 et 4 kg 61 63
Supérieur à 4 kg 8 22
Est-ce qu’il existe une corrélation entre les deux caractères, la parité de la mère et le poids du
nouveau-né, sont-ils statistiquement reliés ?
Primipares Multipares 𝑛𝑗.
Poids inférieur à 3 kg 26 20 46
Entre 3 et 4 kg 61 63 124
Supérieur à 4 kg 8 22 30
𝑛.𝑘 95 105 200
H0 la parité de la mère et le poids des nouveau-nés sont indépendants
H1 la parité de la mère et le poids des nouveau-nés sont dépendants

11
Cours de Statistique et analyse des données L3 écologie et environnement
Dr Khodja I. Chapitre I1I : Statistique descriptive bivariée
Calcul de l’effectif théorique n*
Primipares Multipares
Poids inférieur à 3 kg 21.85 24.15
Entre 3 et 4 kg 58.9 65.1
Supérieur à 4 kg 14.25 15.75

Colonne 1 Colonne 2
∗ 95 𝑋 46 ∗ 105 𝑋 46
𝑛11 = 200 = 21.85 𝑛12 = 200 = 24.15
∗ 95 𝑋 124 ∗ 105 𝑋 124
𝑛21 = = 58.9 𝑛22 = = 65.1
200 200
∗ 95 𝑋 30 ∗ 105 𝑋 30
𝑛31 = = 14.25 𝑛23 = = 15.75
200 200

ꭓ2𝑜𝑏𝑠 =
∗ 2
𝐽 (𝑛𝑗𝑘 −𝑛𝑗𝑘 ) (21.85−26)² (58.9−61)² (14.25−8)² (24.15−20)² (65.1−63)² (15.75−22)²
∑𝐾
𝑘=1 ∑𝑗=1 ∗ = + + + + + =6.88
𝑛𝑗𝑘 21.85 58.9 14.25 24.15 65.1 15.75
Ddl=(2-1)(3-1)=2
En considérant le seuil de significativité de 5%, le ꭓ20.05 =5.99
Ainsi, ꭓ2𝑜𝑏𝑠 > ꭓ20.05, l’hypothèse H0 rejetée et H1 acceptée, il existe une corrélation entre les deux
variables étudiées.

12

Vous aimerez peut-être aussi