Vous êtes sur la page 1sur 4
Auteur : Sylvain Hanneton (24/10/08)Maître de Conférences, Université Paris Descartes Le test du  2
Auteur : Sylvain Hanneton (24/10/08)Maître de Conférences, Université Paris Descartes
Le test du
 2
Table des matières
Objectif du test
Comparaison entre une distribution observée et une distribution théorique
Principe
Calculs
Exemple
Test de la liaison entre deux variables quantitatives
Principe
Le calcul du
Test de l'hypothèse
Les outils pour effectuer le test ?
Avec un tableur
Avec le logiciel R
Table du
Statut de la fiche : en cours
1
1
1
1
2
2
2
2
3
3
3
4
4
4
NB : La lettre grecque
peut aussi se noter indifféremment « khi » ou « chi ».
Objectif du test
Ce test paramétrique est utiliser pour cerner le lien pouvant exister entre deux variables qualitatives.
Rappel : Une variable aléatoire qualitative concernant une propriété peut être à deux classes
(pile/face, oui/non, gagne/perd), mais également comporter plusieurs classes (couleurs, équipe, vote pour/
contre/sans opinion etc
).
Si l'on peut utiliser la comparaison de pourcentages pour les variables
qualitatives à deux classes ou variables dichotomiques, ces techniques ne sont pas adaptées lorsque les
effectifs d’une population se distribue en plusieurs classes. Il faut alors utiliser les tests liés non pas à la
distribution de l’écart réduit, mais à la distribution dite du  2 .
Comparaison entre une distribution observée et une distribution
théorique
Principe
On cherche à savoir si la distribution des individus d'un échantillon dans plusieurs classes s'éloigne d'une
distribution théorique.
Hypothèse nulle : on suppose que l'échantillon a été prélevé dans une population dont la distribution en k
classes obéit à la distribution théorique. Autrement dit, on suppose que les différences observées entre la
distribution théorique et la distribution observée sont dues au hasard de l'échantillonnage.
Calculs
Pour comparer une distribution observée à une distribution théorique d’un caractère qualitatif à k
classes, il faut calculer la quantité (dite « le KHI deux ») :
Sauf mention contraire, le contenu de ce document et du site est placé sous la protection de cette licence Creative Commons.
1
Auteur : Sylvain Hanneton (24/10/08)Maître de Conférences, Université Paris Descartes i= t  2 k
Auteur : Sylvain Hanneton (24/10/08)Maître de Conférences, Université Paris Descartes
i=
t  2
k  n o i − n i
 2 =∑
(1)
t
i =1
n
i
où n i o est le nombre d'individus de l'échantillon appartenant à la classe i et n t i le nombre
d'individus appartenant à la classe i dans la distribution théorique.
On cherche ensuite la probabilité
correspondante dans la table de ² pour le nombre de
degrés de liberté ddl =  k − 1  . Si cette probabilité  est supérieure à 5% (0,05), la différence est
considéré comme n’étant pas significative. Si cette probabilité est inférieure ou égale à 5%, alors la
différence entre la distribution observée et la distribution théorique est significative, et la probabilité 
mesure son degré de signification. On rejette alors l’hypothèse nulle qui suppose que l’échantillon est
prélevé d’une population suivant la distribution théorique.
Exemple
On cherche à savoir si un dé n'est pas « pipé » : un dé est pipé si la distribution des n tirages
effectués en six classes (correspondant aux six faces du dé) obéit à la distribution théorique (n/6,n/6,n/6,n/
6,n/6,n/6).
Test de la liaison entre deux variables quantitatives
Principe
La comparaison de deux ou plusieurs échantillons se pose ici en terme de comparaison de
distributions des effectifs de ces échantillons. La question associée est la suivante : est-il raisonnable de
penser que les deux échantillons proviennent de la même population ? Répondre à cette question est
également un moyen d’étudier la dépendance ou l’indépendance de deux variables qualitatives. Par
exemple, on peut considérer la variable « couleur des cheveux » (blonds, bruns, noirs, roux) à 4 classes, et
étudier la distribution de ce caractère dans trois échantillons respectivement composés de personnes aux
yeux bleus, verts/gris et marrons (variable qualitative « couleur des yeux » à trois classes). Le test de
comparaison des distributions de couleurs de cheveux dans ces deux échantillons permettra d’établir s’il
est raisonnable que ces échantillons proviennent de la même population. Autrement dit, si cette dernière
hypothèse est rejetée, il sera raisonnable de considérer qu’il existe un lien entre la couleur des yeux et la
couleur des cheveux.
Hypothèse nulle : on suppose que les deux échantillons ont été prélevés dans la même population
Autrement dit, on suppose que les différences observées entre les deux distributions observées dans les
échantillons sont dues au hasard de l'échantillonnage. Autrement cette hypothèse suppose qu'il n'existe
pas de lien entre les deux variables qualitatives considérées.
Le calcul du  2
Pour éprouver l’indépendance de deux variables qualitatives V1 et V2 l’une à k classes, l’autre à r
classes, on fait d’abord l’hypothèse que ces deux variables sont indépendantes (hypothèse nulle) et puis
on calcule ensuite les effectifs théoriques associés à cette hypothèse d’indépendance.
Pour cela on dresse le tableau des contingences existant entre les deux variables qualitatives nommées
ici V1 et V2 :
Sauf mention contraire, le contenu de ce document et du site est placé sous la protection de cette licence Creative Commons.
2
Auteur : Sylvain Hanneton (24/10/08)Maître de Conférences, Université Paris Descartes V2 classe 1 V2 classe
Auteur : Sylvain Hanneton (24/10/08)Maître de Conférences, Université Paris Descartes
V2 classe 1
V2 classe 2
V2 classe j
V2 classe r
Total
V1 classe 1
o
o
o
o
n
n
n
n
TL 1
1,1
1,2
1, j
1, r
V1 classe 2
o
n
TL 2
2 ,1
V1 classe i
o
o
TL i
n i ,1
n i , j
V1 classe k
o
o
TL k
n k ,1
n k , r
Total
TC 1
TC 2
TC j
TC r
TG
Tableau 1: Tableau de contingence entre les variables V1 et V2
En effet, si les effectifs se distribuent de façon indépendante dans les différentes classes des deux
t
variables considérées, alors ces effectifs théoriques n i , j
sont données par la relation suivante :
= TC j ⋅TL i
t
(2)
n i , j
TG
où TG représente l'effectif total et
TC j et
TL i
les totaux respectifs de la colonne j et de la ligne i.
On calcule ensuite la valeur du
 2
:
i = k
j
=
k
o
t
 2
∑  n i , j − n i , j
 2 = ∑
(3)
t
i = 1
j = 1
n i , j
Test de l'hypothèse
Si, pour le risque  considéré et le nombre de degrés de liberté considérés (
2
ddl =  k − 1 ⋅ r − 1 
) la valeur du
 2
dépasse une valeur limite appellée ici
alors la
lim ¿
liaison sera considérée comme significative car la distribution des effectifs est trop éloignée de la
distribution attendue considérant l'hypothèse nulle. On dira donc qu'il existe une liaison significative entre
les deux variables.
2
La valeur de 
est donnée par la table de la distribution du
 2
pour le risque
et pour le
lim ¿
nombre de degrés de liberté
 k − 1 ⋅ r − 1  considérés. On utilise usuellement un risque  égal à 5%
(0,05).
Les outils pour effectuer le test ?
Avec un tableur
Il est très simple d'effectuer le test avec un tableur. Par exemple, le tableur d'OpenOffice propose
la fonction TEST.KHIDEUX qui propose de calculer la valeur du risque (probabilité) à partir de deux
plages de données : le tableau des données observées et celui des effectifs théoriques. Il est donc
nécessaire d'appliquer l'équation (2) ci-dessus permettant de calculer les effectifs théoriques. La fonction
LOI.KHIDEUX permet d'obtenir la probabilité  (ou p) associée à une valeur de  2 et à un nombre
de degrés de liberté donné.
Sauf mention contraire, le contenu de ce document et du site est placé sous la protection de cette licence Creative Commons.
3
Auteur : Sylvain Hanneton (24/10/08)Maître de Conférences, Université Paris Descartes Avec le logiciel R Le
Auteur : Sylvain Hanneton (24/10/08)Maître de Conférences, Université Paris Descartes
Avec le logiciel R
Le logiciel R propose une fonction permettant de réaliser sans problème ce test.
Table du
 2
ddl
0,5
0,3
0,2
0,1
0,05
0,025
0,01
0,001
1
0,455
1,074
1,642
2,706
3,841
5,024
6,635
10,827
2
1,386
2,408
3,219
4,605
5,991
7,378
9,210
13,815
3
2,366
3,665
4,642
6,251
7,815
9,348
11,345
16,266
4
3,357
4,878
5,989
7,779
9,488
11,143
13,277
18,466
5
4,351
6,064
7,289
9,236
11,070
12,832
15,086
20,515
6
5,348
7,231
8,558
10,645
12,592
14,449
16,812
22,457
7
6,346
8,383
9,803
12,017
14,067
16,013
18,475
24,321
8
7,344
9,524
11,030
13,362
15,507
17,535
20,090
26,124
9
8,343
10,656
12,242
14,684
16,919
19,023
21,666
27,877
10
9,342
11,781
13,442
15,987
18,307
20,483
23,209
29,588
11
10,341
12,899
14,631
17,275
19,675
21,920
24,725
31,264
12
11,340
14,011
15,812
18,549
21,026
23,337
26,217
32,909
13
12,340
15,119
16,985
19,812
22,362
24,736
27,688
34,527
14
13,339
16,222
18,151
21,064
23,685
26,119
29,141
36,124
15
14,339
17,322
19,311
22,307
24,996
27,488
30,578
37,698
16
15,338
18,418
20,465
23,542
26,296
28,845
32,000
39,252
17
16,338
19,511
21,615
24,769
27,587
30,191
33,409
40,791
18
17,338
20,601
22,760
25,989
28,869
31,526
34,805
42,312
19
18,338
21,689
23,900
27,204
30,144
32,852
36,191
43,819
20
19,337
22,775
25,038
28,412
31,410
34,170
37,566
45,314
21
20,337
23,858
26,171
29,615
32,671
35,479
38,932
46,796
22
21,337
24,939
27,301
30,813
33,924
36,781
40,289
48,268
23
22,337
26,018
28,429
32,007
35,172
38,076
41,638
49,728
24
23,337
27,096
29,553
33,196
36,415
39,364
42,980
51,179
25
24,337
28,172
30,675
34,382
37,652
40,646
44,314
52,619
26
25,336
29,246
31,795
35,563
38,885
41,923
45,642
54,051
27
26,336
30,319
32,912
36,741
40,113
43,195
46,963
55,475
28
27,336
31,391
34,027
37,916
41,337
44,461
48,278
56,892
29
28,336
32,461
35,139
39,087
42,557
45,722
49,588
58,301
30
29,336
33,530
36,250
40,256
43,773
46,979
50,892
59,702
500
499,334
516,087
526,401
540,930
553,127
563,851
576,493
603,446
NB : Cette table a été calculée avec la fonction KHIDEUX.INVERSE d'un tableur
Statut de la fiche : en cours de construction
Sauf mention contraire, le contenu de ce document et du site est placé sous la protection de cette licence Creative Commons.
4