Les Tests de Khi-Deux

A.
U : 2020/2021
Les tests de khi-deux
Pr. Y.BENGHABRIT
y.benghabrit@umi.ac.ma
Rappel : Notion des tests
❖ Soit X un caractère mesurable de loi de probabilité , paramètre inconnu. On a n
observations de X.
❖ Soit un échantillon empirique réalisation de échantillon

aléatoire non exhaustif (avec remise).Les sont indépendantes identiquement distribuées
(i.i.d) de même loi que X.
❖ Problématique : Pour estimer la valeur du paramètre inconnu, on hésite entre

l’hypothèse nulle : et l’hypothèse alternative :
❖ Soit B0 la région d’acceptation de H0 et B1 la région de rejet de H0 (acceptation de H1)
Si alors on accepte H0, sinon on la rejette et on accepte H1.

Pr Y.BENGHABRIT
Deux types d’erreurs :
❖ Erreur du premier espèce (est donnée et à minimiser) = P(rejeter H0/H0)
❖ Erreur du second espèce (est à chercher et à minimiser) = P(accepter H0/H1)
❖Puissance du test (est à maximiser) :
❖ Un bon test est tel que l’erreur du premier espèce est petite et la puissance est
grande.
Pr Y.BENGHABRIT
Procédure à suivre pour faire un test sur le paramètre inconnu
1. On détermine un bon estimateur de
2. Sous H0, on doit avoir une idée sur la loi ou la loi limite de l’estimateur.
3. On teste si la statistique associée appartient ou pas à la zone d’acceptation B0.
4. Si c’est le cas on accepte H0 au seuil pour l’échantillon observé sinon on rejette H0.
5. On calcul ensuite la puissance du test dans la mesure du possible.
6. Si est grande, la décision est bonne sinon la décision prise n’est pas confiante.
7. Quand on ne peut pas calculer la puissance du test, on le considère puissant quand la

valeur de la statistique et du quantile sont loin l’un de l’autre. Pr Y.BENGHABRIT
Les différents tests de khi-deux
❖ Les tests du Khi-deux (χ ²), chi-carré ou chi-square en anglais, sont des tests non
paramétriques qui permettent de tester une hypothèse nulle H0 en se basant sur des
données observées. Ils couvrent principalement trois tests :
❖ Le test d’ajustement qui compare globalement la distribution observée dans un

échantillon statistique à une distribution théorique.
❖ Le test d'indépendance qui permet de se prononcer sur la significativité de la

dépendance entre deux variables.
❖ Le test d'homogénéité qui teste si des populations données sont homogènes ou pas.
Pr Y.BENGHABRIT
Test d’ajustement
❖ Soit X un caractère mesurable qu’on observe, X est une variable aléatoire de loi de
probabilité inconnue.
❖ Problématique : Trouver une loi f0 qui peut remplacer d’une manière rigoureuse la loi f
inconnue de X. Pour ce faire deux étapes s’imposent :
1. Chercher un moyen pour obtenir la loi remplaçante f0 .
2. Justifier le choix de f0.
❖ Il faut ainsi tester l'ajustement de la loi inconnue f à une loi connue f0 retenue comme
étant un modèle convenable. Ce qui revient à tester l’hypothèse nulle :
contre l’hypothèse :
Pr Y.BENGHABRIT
Test d’ajustement
❖ Soit un échantillon empirique réalisation de échantillon aléatoire
non exhaustif (avec remise). Les sont i.i.d de même loi que X.
❖ Cas où X est une variable aléatoire discrète :
❖ On répartit l’ensemble des valeurs en I classes d’effectifs
et de fréquences tel que . Les yi représentent les xi ordonnées et sans

répétition et I est le nombre de valeurs xi distinctes (nombre des valeurs yi).
❖ La décision du test doit être prise à partir de l’échantillon , . Soient

les probabilités et avec
❖ L’hypothèse du test devient alors : contre :

Pr Y.BENGHABRIT
Test d’ajustement
❖ La fréquence étant une bonne estimation de la probabilité, l’hypothèse du test s’écrit
alors comme suit : contre :
Ce qui revient à comparer deux vecteurs, Ainsi :
❖ Soit la distance réalisation de et qu’on corrige par
Ainsi la distance corrigée est .
❖ On opte alors pour réalisation de
Pr Y.BENGHABRIT
Test d’ajustement
❖ Théorème 1 : (Pearson 1929)
Si (80% des cas) et si f0 est complètement spécifiée (on a rien à estimer pour
connaître f0), alors sous H0
Décision du test : Si alors on accepte H0 au seuil pour l’échantillon

observé sinon on rejette H0.
tel que
N.B : Si on a pas dans 80% des cas, on
peut regrouper les yi en I’ classes (I’<I) de telle
sorte à vérifier cette condition.
Pr Y.BENGHABRIT
Test d’ajustement
❖ Théorème 2 :
Si (80% des cas) et si on a estimé l paramètres pour connaître, alors sous H0
Décision du test : Si alors on accepte H0 au seuil pour l’échantillon

observé sinon on rejette H0. tel que
❖ La puissance du test :
Le test de khi-deux étant un test non
paramétrique, on ne peut pas calculer sa
puissance. On ne connait pas la loi de sous H1.
Pr Y.BENGHABRIT
Test d’ajustement
❖Cas où X est une variable aléatoire continue :
❖ On répartit l’ensemble des valeurs en I classes d’effectifs
et de fréquences tel que .
❖ La décision du test doit être prise à partir de l’échantillon , . Soient

les probabilités et
❖ L’hypothèse du test devient alors : contre :
Pr Y.BENGHABRIT
Test d’ajustement : Etude de cas
Suite à une étude sur des bébés normaux, on a pu déterminer qu’à un âge donné, la
probabilité que :
❖ les bébés normaux marchent est de 0.5,
❖ les bébés ont une ébauche de marche est 0.12,
❖ les bébés ne marchent pas est 0.38 .
On aimerait savoir si on peut tirer les mêmes conclusions sur les bébés prématurés. Pour ce
faire, 80 d’eux à l’âge donné ont été observés :
❖ 35 de ces bébés marchent,
❖ 4 ont une ébauche de marche,
❖ 41 ne marchent pas. Pr Y.BENGHABRIT

Soit :
❖ X la variable aléatoire qualitative à trois modalités "marcher à un âge donné".
❖ n = 80 la taille de l’échantillon.
❖ Le risque = 5%.
❖ H0 : X suit la loi théorique : oui : 0.5, ébauche : 0.12 non : 0.38.
❖ Pour toutes les modalités :
❖ On n’a rien estimé pour connaître la loi théorique.
❖ On cherche donc la valeur du quantile : = 5.99
Pr Y.BENGHABRIT
❖ On calcule la statistique associée :
Oui 35 0.5 40 0.625 0.625
Ebauche 4 0.12 9.6 3.267 3.892
Non 41 0.38 30.4 3.696 7.588
❖ La statistique est supérieure à la valeur du quantile :
❖ Conclusion : On rejette l’hypothèse nulle H0. La distribution de la marche pour les

prématurés est significativement différente de la distribution de la marche pour les
enfants normaux , au seuil 5% pour l’échantillon observé.
Pr Y.BENGHABRIT
Test d’indépendance
❖ Le test de khi-deux d’indépendance permet de savoir si deux variables sont dépendantes ou pas
autrement dit si l’une des variables s’exprime en fonction de l’autre.
❖ Dépendance, corrélation et causalité :

❖ La corrélation peut mesurer l’intensité de la dépendance entre deux variables, mais
n’implique pas qu'il existe un lien de causalité entre ces deux variables. L'existence de la
corrélation implique simplement que les deux variables ne sont pas indépendantes, mais ne
renseigne en rien sur un éventuel lien de causalité.
❖ Exemple: on peut trouver que le nombre de prix de Nobel par pays et la consommation de
chocolat sont linéairement corrélés (coefficient de corrélation linéaire r = 0.79) mais ils n’y a
certainement pas un lien de causalité. Effet cigogne : penser il y a corrélation alors il y a
causalité.
Pr Y.BENGHABRIT
❖ Soient X et Y deux caractères mesurables à étudier sur une population P. Observant X et
Y sur la population P, on obtient un échantillon de dimension deux
tel que le caractère X présente I modalités (I classes si X est quantitatif et I valeurs
ordonnées sans répétition si valeurs discrètes). De même pour Y qui présente J modalités.
❖On appelle Nij l'effectif observé de la modalité conjointe Ai f Bj dans l'échantillon étudié
de taille n = n i j . , réalisation de la variable aléatoire Nij . est l'effectif marginal de
la modalité Ai réalisation de la variable aléatoire ans.
❖ On note Pi. la probabilité marginal de X pour la modalité , P.j la probabilité marginal

de Y pour la modalité Bj et Pij la probabilité conjointe.
Pr Y.BENGHABRIT
L’échantillon étudié est représenté dans un tableau de contingence.
Y B1 …. Bj … BJ Y B1 …. Bj … BJ
X X
A1 A1
… …
Ai nij ni. Ai Pij Pi.
… …
AI AI
n.j n P.j 1
Tableau de contingence empirique Pr Y.BENGHABRIT Tableau de contingence théorique

❖ Problématique : Etudier le lien entre deux variables X et Y sans avoir recours aux lois de
probabilité.
1. Apprécier l’existence ou non d’un lien (la dépendance) entre X et Y au sein de la

population P.
2. Chercher ce lien et son type quand il existe.
❖ Il faut ainsi d’abord tester l’indépendance entre X et Y. Ce qui revient à tester

l’hypothèse nulle : 𝐻0 ∶ 𝑃𝑖𝑗 = 𝑃𝑖. ∗ 𝑃.𝑗 ∀ 𝑖 ∈ 1, … 𝐼 , ∀ 𝑗 ∈ {1, … , 𝐽} contre l’hypothèse:
𝐻1 ∶ ∃ 𝑖 ∈ 1, … 𝐼 , ∃ 𝑗 ∈ {1, … , 𝐽}𝑃𝑖𝑗 ≠ 𝑃𝑖. ∗ 𝑃.𝑗
❖ La fréquence étant une bonne estimation de la probabilité, l’hypothèse du test s’écrit
𝑛𝑖𝑗 𝑛𝑖. 𝑛.𝑗
alors comme suit : 𝐻0 ∶ = ∗ ∀ 𝑖 ∈ 1, … 𝐼 , ∀ 𝑗 ∈ {1, … , 𝐽} contre :
𝑛 𝑛 𝑛
𝑛𝑖𝑗 𝑛𝑖. 𝑛.𝑗
𝐻1 ∶ ∃ 𝑖 ∈ 1, … 𝐼 , ∃ 𝑗 ∈ {1, … , 𝐽} ≠ ∗
𝑛 𝑛 𝑛
Pr Y.BENGHABRIT
❖ Soit la statistique réalisation de la v.a
❖Théorème : Si (80% des cas), alors sous H0
❖ Décision du test : Si alors on accepte H0 au seuil pour l’échantillon

❖ N.B : il vaut mieux que chaque variable aléatoire ait

au moins 2 lignes et 2 colonnes pour éviter des
quantiles à degrés de liberté inférieur ou égale à un.
Pr Y.BENGHABRIT
Test d’indépendance : Etude de cas
❖ Pour tester si le sexe est indépendant du niveau d'éducation, un échantillon aléatoire de
395 personnes a été interrogé et chaque personne a été invitée à déclarer le niveau
d'éducation le plus élevé qu'elle a obtenu. Les données issues de l'enquête sont résumées
dans le tableau suivant :
Baccalauréat Licence Master Doctorat Total
Femme 60 54 46 41 201
Homme 40 44 53 57 194
Total 100 98 99 98 395
❖ Tout calcul fait on obtient . Par la suite, on rejette l’hypothèse

nulle H0 : le niveau d’éducation est dépendant du sexe au seuil 5% pour l’échantillon
observé. Cependant le test n’est pas très puissant puisque la valeur de la statistique et
du quantile sont proches. Pr Y.BENGHABRIT
Test d’indépendance et droite de régression linéaire
❖ Dans le cas où on rejette l’hypothèse nulle du test d’indépendance et le nuage de
points est allongé, on peut penser à modéliser la dépendance par une droite appelée
droite de régression (cas de variables quantitatives sinon on peut toujours transformer
les variables qualitatives en variables quantitatives).
❖ Soient X et Y deux caractères mesurables à étudier sur une population. La régression

linéaire simple cherche une relation linéaire entre X et Y. Plus exactement on cherche
à exprimer Y en fonction de X (𝒀 = 𝜶 𝑿 + 𝜷) ou X en fonction de Y (X= 𝜶′ 𝐘 + 𝜷′).
❖ Pour tracer le nuage de points, on a le choix de le faire soit à partir de l’échantillon de

données soit à partir du tableau de contingence.
Pr Y.BENGHABRIT
Droite de régression linéaire
Représentation du nuage de points à partir de
l’échantillon de données Y
Pour ce faire, on effectue une série d’observations

sur X et Y ((𝒙𝒊 , 𝒚𝒊 ), i= 1, …, n)
𝒙𝒊
Représentation du nuage de points à partir du X
𝟏
ഥ𝒚/𝑨𝒊 = σ𝑱𝒋=𝟏 𝒏𝒊𝒋 𝑩𝒋 ( ഥ𝒚 𝒔𝒂𝒄𝒉𝒂𝒏𝒕 𝑨𝒊 )
𝒏𝒊.
tableau de contingence
ഥ/𝑨𝒊
𝒚
Pour ce faire, on prend les centres des intervalles α
dans le cas de variables continues ou les valeurs
exactes ordonnées dans le cas de variables discrètes
𝑨𝒊 XX
soit pour X et Y ((𝑨𝒊 , 𝑩𝒊 ), i= 1, …, I et j= 1, …, J)
Pr Y.BENGHABRIT
Détermination de la droite de régression
❖ On cherche donc 𝐘෠ = 𝛂 𝐗 + 𝛃. y
❖ Ainsi, pour tout i on cherche 𝒚ෝ𝒊 = 𝜶 𝒙𝒊 + 𝜷.

pente = α
❖ Soit l’erreur 𝒆𝒊 = 𝒚𝒊 − 𝒚ෝ𝒊 . 𝒚𝒊
𝒆𝒊
❖ Par la suite, on cherche 𝛂 et 𝛃 de telle sorte ෝ𝒊
𝒚
à minimiser la somme des erreurs au carrées

σ𝒏𝒊=𝟏 𝒆𝒊 ². 𝛽
𝒙𝒊 X
X
❖ Selon la méthode des moindres carrées on
𝐬𝐗𝐘 𝐬𝐗𝐘
obtient : 𝛂 = et 𝛃 = 𝐲ത − 𝐱ത .
𝐬𝐗 ² 𝐬𝐗𝟐 Pr Y.BENGHABRIT
Qualité de l’approximation de l’échantillon par la droite de régression linéaire : Coefficient
de corrélation
𝒔𝑿𝒀
❖ Le coefficient de corrélation est défini par : 𝒓𝑿𝒀 =
𝒔𝑿 𝒔𝒀
❖ Ses caractéristiques sont :
❖ 𝐫𝐗𝐘 ≤ 𝟏
❖ 𝐫𝐗𝐘 = 𝟏  Tous les points de l’échantillon sont allongés.
❖ Si 𝐫𝐗𝐘 ≈ 𝟏, le modèle 𝐘 = 𝛂 𝐗 + 𝛃 est bon.
❖ N.B. Pour un modèle donné par exemple Y = g(X), l’erreur est 𝒆𝒊 = 𝒚𝒊 −g(𝒙𝒊 ) et les
coefficients sont déterminés par la méthode des moindres carrées.
Pr Y.BENGHABRIT
❖ Application :
X 1 1 1 2 2 2 3 3 3
Y 1 2 3 1 2 3 1 2 3
La recherche d’une relation entre X (nombre de modules non validés) et Y (nombre

d’absences) par une régression linéaire simple.
On obtient la droite X = 2 avec un coefficient de corrélation nulle. Ainsi, il n’y a pas de

relation entre X et Y.
❖Exercice : Chercher la droite de régression si elle existe des données relatives au niveau
d’éducation et le genre.
Pr Y.BENGHABRIT
Test d’indépendance avec d’autres modèles
❖ Modèle 1 : Y = a 𝑿𝒌 + b, on posant Z = 𝑿𝒌 on se retrouve avec le modèle de la droite
de régression : Y = a Z + b.
❖ Modèle 2 : Y = a 𝑿𝒃 , une transformation en logarithme rend le modèle linéaire :
ln(Y)=bln(X)+ln(a). On pose donc Z = ln(Y) et T = ln(X).
❖ Modèle 3 : Y = a exp(bX), de même que le modèle 2 une transformation en
logarithme s’impose : ln(Y) = ln(a) + bX. On pose donc Z = ln(Y).
Pr Y.BENGHABRIT
Test d’homogénéité
❖ Dans une population formée d’individus répartis en différentes catégories
(hommes/femmes, classes d’âges, niveaux socio-économiques, etc...), on observe une
variable (effet d’un médicament, présence d’un comportement à risque, performances
...).
❖ Problématique : on se demande si ses variations selon les différentes catégories de la

population mère sont simplement dues au fluctuations d’échantillonnage ou si au
contraire elles révèlent des comportements différents de la variable dans chacune de
ces catégories (populations filles).
❖ Solution : Effectuer un test d’homogénéité sur les différentes populations filles pour la
suite les considérer comme une seule population. Pr Y.BENGHABRIT
❖ Soit X un caractère mesurable présentant I modalités (I classes si X est quantitatif), à
étudier sur J populations . Le problème est de savoir si la répartition du
caractère X dépend ou non de la population. Autrement dit tester l'hypothèse nulle H0 :
la répartition du caractère X est indépendante de la population (homogéniété), contre :
l'hypothèse alternative H1 : la répartition du caractère X est dépendante de la population.
❖ On appelle Nij l'effectif observé de la modalité Ai pour la population Bj dans l'échantillon

étudié de taille n = n i j , réalisation de la variable aléatoire Nij . ni.est l'effectif marginal
de la modalité Ai réalisation de la variable aléatoire an .
❖ On note Pi. la probabilité marginal de X pour la modalité Ai et Pij la probabilité d'obtenir

une observation possédant la modalité i de X lorsqu'on est en présence de la population j.
Pr Y.BENGHABRIT
L’échantillon étudié est représenté dans un tableau de contingence.
P P1 …. Pj … PJ P P1 …. Pj … PJ
X X
A1 A1
… …
Ai nij ni. Ai Pij Pi.
… …
AI AI
nj n 1
Tableau de contingence empirique Pr Y.BENGHABRIT Tableau de contingence théorique

❖ Le test d’homogénéité peut s’écrire alors sous la forme :
contre :
❖ Ce qui revient à tester :
contre :
❖ La fréquence étant une bonne estimation de la probabilité, on teste alors :
contre :
Pr Y.BENGHABRIT
❖ Soit la statistique réalisation de la v.a
❖Théorème : Si (80% des cas), alors sous H0
❖ Décision du test : Si alors on accepte H0 au seuil pour l’échantillon

❖ N.B : il vaut mieux que le nombre de modalités de

la variable aléatoire et le nombre de populations
soient au moins est égale à 2 pour éviter des
quantiles à degrés de liberté inférieur ou égale à un.
Pr Y.BENGHABRIT
Test d’homogénéité: Etude de cas
❖ Pour tester si la réussite au test de TOEIC (Test of English for International
Communication) dépend de l’Ecole d’Ingénieurs d’appartenance ou pas, un échantillon
aléatoire de 110 élèves ingénieurs a été extrait. Les données issues de deux de trois Ecoles
d’Ingénieurs sont résumées dans le tableau suivant :
E.I.1 E.I.2 Total
Echec 12 26 38
Réussite 38 34 72
Total 50 60 110
❖ Tout calcul fait on obtient . Par la suite, on accepte

l’hypothèse nulle H0 : les résultats du test de TOEIC ne sont pas significativement
différents dans les deux Ecoles d’Ingénieurs au seuil 1% pour l’échantillon observé.
Pr Y.BENGHABRIT

Les Tests de Khi-Deux

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Les Tests de Khi-Deux

Transféré par

Droits d'auteur :

Formats disponibles

A.

Les tests de khi-deux

❖ Soit un échantillon empirique réalisation de échantillon

❖ Problématique : Pour estimer la valeur du paramètre inconnu, on hésite entre

❖ Soit B0 la région d’acceptation de H0 et B1 la région de rejet de H0 (acceptation de H1)

Si alors on accepte H0, sinon on la rejette et on accepte H1.

❖ Erreur du premier espèce (est donnée et à minimiser) = P(rejeter H0/H0)

❖ Erreur du second espèce (est à chercher et à minimiser) = P(accepter H0/H1)

❖Puissance du test (est à maximiser) :

1. On détermine un bon estimateur de

3. On teste si la statistique associée appartient ou pas à la zone d’acceptation B0.

5. On calcul ensuite la puissance du test dans la mesure du possible.

7. Quand on ne peut pas calculer la puissance du test, on le considère puissant quand la

❖ Le test d’ajustement qui compare globalement la distribution observée dans un

❖ Le test d'indépendance qui permet de se prononcer sur la significativité de la

1. Chercher un moyen pour obtenir la loi remplaçante f0 .

2. Justifier le choix de f0.

❖ Cas où X est une variable aléatoire discrète :

❖ On répartit l’ensemble des valeurs en I classes d’effectifs

et de fréquences tel que . Les yi représentent les xi ordonnées et sans

❖ La décision du test doit être prise à partir de l’échantillon , . Soient

❖ L’hypothèse du test devient alors : contre :

Ce qui revient à comparer deux vecteurs, Ainsi :

❖ Soit la distance réalisation de et qu’on corrige par

Ainsi la distance corrigée est .

❖ On opte alors pour réalisation de

Décision du test : Si alors on accepte H0 au seuil pour l’échantillon

Si (80% des cas) et si on a estimé l paramètres pour connaître, alors sous H0

Décision du test : Si alors on accepte H0 au seuil pour l’échantillon

❖ On répartit l’ensemble des valeurs en I classes d’effectifs

et de fréquences tel que .

❖ La décision du test doit être prise à partir de l’échantillon , . Soient

❖ L’hypothèse du test devient alors : contre :

❖ les bébés normaux marchent est de 0.5,

❖ les bébés ont une ébauche de marche est 0.12,

❖ les bébés ne marchent pas est 0.38 .

❖ 35 de ces bébés marchent,

❖ 4 ont une ébauche de marche,

❖ 41 ne marchent pas. Pr Y.BENGHABRIT

❖ X la variable aléatoire qualitative à trois modalités "marcher à un âge donné".

❖ H0 : X suit la loi théorique : oui : 0.5, ébauche : 0.12 non : 0.38.

❖ Pour toutes les modalités :

❖ On n’a rien estimé pour connaître la loi théorique.

❖ On cherche donc la valeur du quantile : = 5.99

Oui 35 0.5 40 0.625 0.625

Ebauche 4 0.12 9.6 3.267 3.892

Non 41 0.38 30.4 3.696 7.588

❖ La statistique est supérieure à la valeur du quantile :

❖ Conclusion : On rejette l’hypothèse nulle H0. La distribution de la marche pour les

❖ Dépendance, corrélation et causalité :

❖ On note Pi. la probabilité marginal de X pour la modalité , P.j la probabilité marginal

Ai nij ni. Ai Pij Pi.

Tableau de contingence empirique Pr Y.BENGHABRIT Tableau de contingence théorique

1. Apprécier l’existence ou non d’un lien (la dépendance) entre X et Y au sein de la

2. Chercher ce lien et son type quand il existe.

❖ Il faut ainsi d’abord tester l’indépendance entre X et Y. Ce qui revient à tester

❖Théorème : Si (80% des cas), alors sous H0

❖ Décision du test : Si alors on accepte H0 au seuil pour l’échantillon

❖ N.B : il vaut mieux que chaque variable aléatoire ait

❖ Tout calcul fait on obtient . Par la suite, on rejette l’hypothèse

❖ Soient X et Y deux caractères mesurables à étudier sur une population. La régression

❖ Pour tracer le nuage de points, on a le choix de le faire soit à partir de l’échantillon de

Pour ce faire, on effectue une série d’observations

❖ Ainsi, pour tout i on cherche 𝒚ෝ𝒊 = 𝜶 𝒙𝒊 + 𝜷.