Vous êtes sur la page 1sur 32

A.

U : 2019/2020

Les tests de khi-deux

Pr. Youssef BENGHABRIT


you_benghabrit@yahoo.fr
Rappel : Notion des tests
 Soit X un caractère mesurable de loi de probabilité , paramètre inconnu. On a n
observations de X.

 Soit un échantillon empirique réalisation de échantillon


aléatoire non exhaustif (avec remise).Les sont indépendantes identiquement distribuées
(i.i.d) de même loi que X.

 Problématique : Pour estimer la valeur du paramètre inconnu, on hésite entre


l’hypothèse nulle : et l’hypothèse alternative :

 Soit B0 la région d’acceptation de H0 et B1 la région de rejet de H0 (acceptation de H1)

Si alors on accepte H0, sinon on la rejette et on accepte H1.

Pr Y.BENGHABRIT
Rappel : Notion des tests
Deux types d’erreurs :

 Erreur du premier espèce (est donné et à minimiser) = P(rejeter H0/H0)

 Erreur du second espèce (est à chercher et à minimiser) = P(accepter H0/H1)

Puissance du test (est à maximiser) :

 Un bon test est tel que l’erreur du premier espèce est petite et la puissance est
grande.
Pr Y.BENGHABRIT
Rappel : Notion des tests
Procédure à suivre pour faire un test sur le paramètre inconnu

1. On détermine un estimateur de

2. Sous H0, on doit avoir une idée sur la loi ou la loi limite de l’estimateur.

3. On teste si la statistique associée appartient ou pas à la zone d’acceptation B0.

4. Si c’est le cas on accepte H0 au seuil pour l’échantillon observé sinon on rejette H0.

5. On calcul ensuite la puissance du test dans la mesure du possible.

6. Si est grande, la décision est bonne sinon la décision prise n’est pas confiante.

7. Quand on ne peut pas calculer la puissance du test, on le considère puissant quand la


valeur de la statistique et du quantile sont loin l’un de l’autre. Pr Y.BENGHABRIT
Les différents tests de khi-deux
 Le test du Khi-deux (χ ²), chi-carré ou chi-square en anglais, est un test non paramétrique
qui permet de tester l'hypothèse nulle H0 selon laquelle les données observées sont
engendrées par un modèle faisant intervenir une loi de probabilité, ou une famille de
lois de probabilité. Il couvre trois tests principalement :

 Le test d’ajustement qui compare globalement la distribution observée dans un


échantillon statistique à une distribution théorique.

 Le test d'indépendance qui permet de se prononcer sur la significativité de la


dépendance entre deux variables.

 Le test d'homogénéité qui teste si des populations données sont homogènes ou pas.

Pr Y.BENGHABRIT
Test d’ajustement
 Soit X un caractère mesurable qu’on observe, X est une variable aléatoire de loi dont la
fonction de densité est inconnue.

 Problématique : Trouver une loi f0 qui peut remplacer d’une manière rigoureuse la loi f
inconnue de X. Pour ce faire deux étapes s’imposent :

1. Chercher un moyen pour obtenir la loi remplaçante f0.


2. Justifier le choix de f0.

 Il faut ainsi tester l'ajustement de la loi inconnue f à une loi connue f0 retenue comme
étant un modèle convenable. Ce qui revient à tester l’hypothèse nulle :
contre l’hypothèse :
Pr Y.BENGHABRIT
Test d’ajustement
 Soit un échantillon empirique réalisation de échantillon aléatoire
non exhaustif (avec remise). Les sont i.i.d de même loi que X.

 Cas où X est une variable aléatoire discrète :

 On répartit l’ensemble des valeurs en I classes d’effectifs

et de fréquences tel que . Les yi représentent les xi ordonnées et sans


répétition et I est le nombre de valeurs xi distinctes (nombre des valeurs yi).

 La décision du test doit être prise à partir de l’échantillon , . Soient


les probabilités et avec

 L’hypothèse du test devient alors : contre :


Pr Y.BENGHABRIT
Test d’ajustement
 La fréquence étant une bonne estimation de la probabilité, l’hypothèse du test s’écrit
alors comme suit : contre :

 Soit la distance réalisation de et qu’on corrige par

Ainsi la distance corrigée est .

 On opte alors pour réalisation de

Pr Y.BENGHABRIT
Test d’ajustement
 Théorème 1 : (Pearson 1929)

Si (80% des cas) et si f0 est complétement spécifiée (on a rien à estimer pour
connaître f0), alors sous H0

Décision du test : Si alors on accepte H0 au seuil pour l’échantillon


observé sinon on rejette H0.
tel que
N.B : Si on a pas dans 80% des cas, on
peut regrouper les yi en I’ classes (I’<I) de telle
sorte à vérifier cette condition.

Pr Y.BENGHABRIT
Test d’ajustement
 Théorème 2 :

Si (80% des cas) et si on a estimé l paramètres pour connaître, alors sous H0

Décision du test : Si alors on accepte H0 au seuil pour l’échantillon


observé sinon on rejette H0. tel que
 La puissance du test :
Le test de khi-deux étant un test non
paramétrique, on ne peut pas calculer sa
puissance. On ne connait pas la loi de sous H1.
Pr Y.BENGHABRIT
Test d’ajustement
Cas où X est une variable aléatoire continue :

 On répartit l’ensemble des valeurs en I classes d’effectifs

et de fréquences tel que .

 La décision du test doit être prise à partir de l’échantillon , . Soient


les probabilités et

 L’hypothèse du test devient alors : contre :

Pr Y.BENGHABRIT
Test d’ajustement : Etude de cas
Suite à une étude sur des bébés normaux, on a pu déterminer qu’à un âge donné, la
probabilité que :

 les bébés normaux marchent est de 0.5,

 les bébés ont une ébauche de marche est 0.12,

 les bébés ne marchent pas est 0.38 .

On aimerait savoir si on peut tirer les mêmes conclusions sur les bébés prématurés. Pour ce
faire, 80 d’eux à l’âge donné ont été observés :

 35 de ces bébés marchent,

 4 ont une ébauche de marche,

 41 ne marchent pas. Pr Y.BENGHABRIT


Test d’ajustement : Etude de cas
Soit :

 X la variable aléatoire qualitative à trois modalités "marcher à un âge donné".

 n = 80 la taille de l’échantillon.

 Le risque = 5%.
 H0 : X suit la loi théorique : oui : 0.5, ébauche : 0.12 non : 0.38.

 Pour toutes les modalités :

 On n’a rien estimé pour connaître la loi théorique.

 On cherche donc la valeur du quantile : = 5.99

Pr Y.BENGHABRIT
Test d’ajustement : Etude de cas
 On calcule la statistique associée :

Oui 35 0.5 40 0.625 0.625

Ebauche 4 0.12 9.6 3.267 3.892

Non 41 0.38 30.4 3.696 7.588

 La statistique est supérieure à la valeur du quantile :

 Conclusion : On rejette l’hypothèse nulle H0. La distribution de la marche pour les


prématurés est significativement différente de la distribution de la marche pour les
enfants normaux , au seuil 5% pour l’échantillon observé.
Pr Y.BENGHABRIT
Test d’indépendance
 Le test de khi-deux d’indépendance permet de savoir si deux variables sont dépendantes ou pas
autrement dit si l’une des variables s’exprime en fonction de l’autre.

 Dépendance, corrélation et causalité :


 La corrélation peut mesure l’intensité de la dépendance entre deux variables, mais n’implique
pas qu'il existe un lien de causalité entre ces deux variables. L'existence de la corrélation
implique simplement que les deux variables ne sont pas indépendantes, mais ne renseigne en
rien sur un éventuel lien de causalité.
 Exemple: on peut trouver que le nombre de prix de Nobel par pays et la consommation de
chocolat sont linéairement corrélés (coefficient de corrélation linéaire r = 0.79) mais ils n’y a
certainement pas un lien de causalité. Effet cigogne : penser il y a corrélation alors il y a
causalité.

Pr Y.BENGHABRIT
Test d’indépendance
 Soient X et Y deux caractères mesurables à étudier sur une population P. Observant X et
Y sur la population P, on obtient un échantillon de dimension deux
tel que le caractère X présente I modalités (I classes si X est quantitatif et I valeurs
ordonnées sans répétition si valeurs discrètes). De même pour Y qui présente J modalités.

On appelle Nij l'effectif observé de la modalité conjointe Ai f Bj dans l'échantillon étudié
de taille n = n i j . , réalisation de la variable aléatoire Nij . est l'effectif marginal de
la modalité Ai réalisation de la variable aléatoire ans.

 On note Pi. la probabilité marginal de X pour la modalité , P.j la probabilité marginal


de Y pour la modalité Bj et Pij la probabilité conjointe.

Pr Y.BENGHABRIT
Test d’indépendance
L’échantillon étudié est représenté dans un tableau de contingence.
Y B1 …. Bj … BJ Y B1 …. Bj … BJ
X X

A1 A1

… …

Ai nij ni. Ai Pij Pi.

… …

AI AI

n.j n P.j 1

Tableau de contingence empirique Pr Y.BENGHABRIT Tableau de contingence théorique


Test d’indépendance
 Problématique : Etudier le lien entre deux variables X et Y sans avoir recours aux lois de
probabilité.

1. Apprécier l’existence ou non d’un lien (la dépendance) entre X et Y au sein de la


population P.

2. Chercher ce lien et son type quand il existe.

 Il faut ainsi d’abord tester l’indépendance entre X et Y. Ce qui revient à tester


l’hypothèse nulle : contre l’hypothèse:

 La fréquence étant une bonne estimation de la probabilité, l’hypothèse du test s’écrit


alors comme suit : contre :
Pr Y.BENGHABRIT
Test d’indépendance
 Soit la statistique réalisation de la v.a

Théorème : Si (80% des cas), alors sous H0

 Décision du test : Si alors on accepte H0 au seuil pour l’échantillon


observé sinon on rejette H0. tel que

 N.B : il vaut mieux que chaque variable aléatoire ait


au moins 2 lignes et 2 colonnes pour éviter des
quantiles à degrés de liberté inférieur ou égale à un.

Pr Y.BENGHABRIT
Test d’indépendance : Etude de cas
 Pour tester si le sexe est indépendant du niveau d'éducation, un échantillon aléatoire de
395 personnes a été interrogé et chaque personne a été invitée à déclarer le niveau
d'éducation le plus élevé qu'elle a obtenu. Les données issues de l'enquête sont résumées
dans le tableau suivant :
Baccalauréat Licence Master Doctorat Total
Femme 60 54 46 41 201
Homme 40 44 53 57 194
Total 100 98 99 98 395

 Tout calcul fait on obtient . Par la suite, on rejette l’hypothèse


nulle H0 : le niveau d’éducation est dépendant du genre au seuil 5% pour l’échantillon
observé. Cependant le test n’est pas très puissant puisque la valeur de la statistique et
du quantile sont proches. Pr Y.BENGHABRIT
Test d’indépendance et droite de régression linéaire
 Dans le cas où on rejette l’hypothèse nulle du test d’indépendance et le nuage de
points est allongé, on peut penser à modéliser la dépendance par une droite appelée
droite de régression (cas de variables quantitatives sinon on peut toujours transformer
les variables qualitatives en variables quantitatives).

 Soient X et Y deux caractères mesurables à étudier sur une population. La régression


linéaire simple cherche une relation linéaire entre X et Y. Plus exactement on cherche
à exprimer Y en fonction de X (𝒀 = 𝜶 𝑿 + 𝜷) ou X en fonction de Y (X= 𝜶′ 𝐘 + 𝜷′).

 Pour tracer le nuage de points, on a le choix de le faire soit à partir de l’échantillon de


données soit à partir du tableau de contingence.

Pr Y.BENGHABRIT
Droite de régression linéaire
Représentation du nuage de points à partir de
l’échantillon de données Y

Pour ce faire, on effectue une série d’observations


sur X et Y ((𝒙𝒊 , 𝒚𝒊 ), i= 1, …, n)
𝒙𝒊
Représentation du nuage de points à partir du X
𝟏
ഥ𝒚/𝑨𝒊 = σ𝑱𝒋=𝟏 𝒏𝒊𝒋 𝑩𝒋 ( ഥ𝒚 𝒔𝒂𝒄𝒉𝒂𝒏𝒕 𝑨𝒊)
𝒏𝒊.
tableau de contingence
ഥ/𝑨𝒊
𝒚
Pour ce faire, on prend les centres des intervalles α
dans le cas de variables continues ou les valeurs
exactes ordonnées dans le cas de variables discrètes
𝑨𝒊 XX
soit pour X et Y ((𝑨𝒊 , 𝑩𝒊 ), i= 1, …, I et j= 1, …, J)
Pr Y.BENGHABRIT
Droite de régression linéaire
 On cherche donc 𝐘෠ = 𝛂 𝐗 + 𝛃.

 Ainsi, pour tout i on cherche 𝒚ෝ𝒊 = 𝜶 𝒙𝒊 + 𝜷. y

 Soit l’erreur 𝒆𝒊 = 𝒚𝒊 − 𝒚ෝ𝒊 .


pente = α
 Par la suite, on cherche 𝛂 et 𝛃 de telle sorte
𝒚𝒊
𝒆𝒊
à minimiser la somme des erreurs au carrées ෝ𝒊
𝒚

σ𝒏𝒊=𝟏 𝒆𝒊 ².

 Donc selon la méthode des moindres carrées 𝛽


𝐬𝐗𝐘 𝒙𝒊 X
(minimiser σ𝒏𝒊=𝟏 𝒆𝒊 ²) on obtient : 𝛂 = et X
𝐬𝐗 ²

𝐬𝐗𝐘
𝛃 = 𝐲ത − 𝐬𝟐
𝐱ത. Pr Y.BENGHABRIT
Droite de régression linéaire
Qualité de l’approximation de l’échantillon par la droite de régression linéaire : Coefficient
de corrélation

𝒔𝑿𝒀
 Le coefficient de corrélation est défini par : 𝒓𝑿𝒀 = 𝒔𝑿 𝒔𝒀

 Ses caractéristiques sont :

 𝐫𝐗𝐘 ≤ 𝟏

 𝐫𝐗𝐘 = 𝟏  Tous les points de l’échantillon sont allongés.


 Si 𝐫𝐗𝐘 ≈ 𝟏, le modèle 𝐘 = 𝛂 𝐗 + 𝛃 est bon.

 N.B. Pour un modèle donné par exemple Y = g(X), l’erreur est 𝒆𝒊 = 𝒚𝒊 −g(𝒙𝒊 ) et les
coefficients sont déterminés par la méthode des moindres carrées.
Pr Y.BENGHABRIT
Droite de régression linéaire
 Application :
X 1 1 1 2 2 2 3 3 3

Y 1 2 3 1 2 3 1 2 3

La recherche d’une relation entre X (nombre de modules non validés) et Y (nombre


d’absences) par une régression linéaire simple.

On obtient la droite X = 2 avec un coefficient de corrélation nulle. Ainsi, il n’y a pas de


relation entre X et Y.

Exercice : Chercher la droite de régression si elle existe des données relatives au niveau
d’éducation et le genre.
Pr Y.BENGHABRIT
Test d’indépendance avec d’autres modèles
 Modèle 1 : Y = a 𝑿𝒌 + b, on posant Z = 𝑿𝒌 on se retrouve avec le modèle de la droite

de régression : Y = a Z + b.

 Modèle 2 : Y = a 𝑿𝒃 , une transformation en logarithme rend le modèle linéaire :

ln(Y)=bln(X)+ln(a). On pose donc Z = ln(Y) et T = ln(X).

 Modèle 3 : Y = a exp(bX), de même que le modèle 2 une transformation en

logarithme s’impose : ln(Y) = ln(a) + bX. On pose donc Z = ln(Y).

Pr Y.BENGHABRIT
Test d’homogénéité
 Dans une population formée d’individus répartis en différentes catégories
(hommes/femmes, classes d’âges, niveaux socio-économiques, etc...), on observe une
variable (effet d’un médicament, présence d’un comportement à risque, performances
...).

 Problématique : on se demande si ses variations selon les différentes catégories de la


population mère sont simplement dues au fluctuations d’échantillonnage ou si au
contraire elles révèlent des comportements différents de la variable dans chacune de
ces catégories (populations filles).

 Solution : Effectuer un test d’homogénéité sur les différentes populations filles pour la
suite les considérer comme une seule population. Pr Y.BENGHABRIT
Test d’homogénéité
 Soit X un caractère mesurable présentant I modalités (I classes si X est quantitatif), à
étudier sur J populations . Le problème est de savoir si la répartition du
caractère X dépend ou non de la population. Autrement dit tester l'hypothèse nulle H0 :
la répartition du caractère X est indépendante de la population, contre : l'hypothèse
alternative H1 : la répartition du caractère X est dépendante de la population.

 On appelle Nij l'effectif observé de la modalité Ai pour la population Bj dans l'échantillon


étudié de taille n = n i j , réalisation de la variable aléatoire Nij . ni.est l'effectif marginal
de la modalité Ai réalisation de la variable aléatoire an .

 On note Pi. la probabilité marginal de X pour la modalité Ai et Pij la probabilité d'obtenir


une observation possédant la modalité i de X lorsqu'on est en présence de la population j.
Pr Y.BENGHABRIT
Test d’homogénéité
L’échantillon étudié est représenté dans un tableau de contingence.
P P1 …. Pj … PJ P P1 …. Pj … PJ
X X

A1 A1

… …

Ai nij ni. Ai Pij Pi.

… …

AI AI

nj n 1

Tableau de contingence empirique Pr Y.BENGHABRIT Tableau de contingence théorique


Test d’homogénéité
 Le test d’homogénéité peut s’écrire alors sous la forme :

contre :

 Ce qui revient à tester :

contre :

 La fréquence étant une bonne estimation de la probabilité, on teste alors :

contre :

Pr Y.BENGHABRIT
Test d’homogénéité
 Soit la statistique réalisation de la v.a

Théorème : Si (80% des cas), alors sous H0

 Décision du test : Si alors on accepte H0 au seuil pour l’échantillon


observé sinon on rejette H0. tel que

 N.B : il vaut mieux que le nombre de modalités de


la variable aléatoire et le nombre de populations
soient au moins est égale à 2 pour éviter des
quantiles à degrés de liberté inférieur ou égale à un.
Pr Y.BENGHABRIT
Test d’homogénéité: Etude de cas
 Pour tester si la réussite au test de TOEIC (Test of English for International
Communication) dépend de l’Ecole d’Ingénieurs d’appartenance ou pas, un échantillon
aléatoire de 110 élèves ingénieurs a été extrait. Les données issues de deux de trois Ecoles
d’Ingénieurs sont résumées dans le tableau suivant :
E.I.1 E.I.2 Total
Echec 12 26 38
Réussite 38 34 72
Total 50 60 110

 Tout calcul fait on obtient . Par la suite, on accepte


l’hypothèse nulle H0 : les résultats du test de TOEIC ne sont pas significativement
différents dans les deux Ecoles d’Ingénieurs au seuil 1% pour l’échantillon observé.
Pr Y.BENGHABRIT