Vous êtes sur la page 1sur 4

Test du khi-2 (Test d’homogénéité)

Comparer deux distributions observées sur deux échantillons indépendants

Deux échantillons indépendants, une variable nominale à plusieurs valeurs

Situation
On souhaite comparer deux distributions observées sur deux populations étudiées, les résultats
concernant les deux populations étant indépendants.

Exemple
Une recherche porte sur l’enseignement des équations du premier degré en classe de
quatrième. Le chercheur souhaite comparer les exercices proposés dans deux manuels
scolaires. Il distingue pour cela les équations proposées aux élèves suivant qu’elles
contiennent ou non des facteurs qui accroissent la difficulté de résolution :
parenthèses, fractions, carrés, plusieurs facteurs présents simultanément.
Les résultats obtenus sont les suivants :

Difficulté Aucune Parenthèses Fractions Carrés Multiples Total


Manuel A 28 21 11 9 2 71
Manuel B 36 8 25 0 8 77

Comparer la difficulté des exercices proposés dans les deux manuels.

Méthode statistique
La méthode statistique ressemble à celle utilisée pour comparer deux pourcentages.
1. On organise les données pour faire apparaître en un tableau de contingence la distribution
des effectifs observés sur chaque échantillon étudié. Puis on calcule les marges.
Difficulté Aucune Parenthèses Fractions Carrés Multiples Total
Manuel A 28 21 11 9 2 71
Manuel B 36 8 25 0 8 77
Total 64 29 36 9 10 148

2. On prend comme distribution théorique de référence, celle qu’on obtient à la lecture des
marges du tableau de contingence
Difficulté Aucune Parenthèses Fractions Carrés Multiples Total
Freq. Th. 43% 20% 24% 6% 7% 100%

3. On calcule les effectifs théoriques qu’on obtiendrait sur chaque échantillon dans le cas où
la distribution de référence s’appliquerait exactement à chacun des deux.
Difficulté Aucune Parenthèses Fractions Carrés Multiples Total
Manuel A 30,7 13,9 17,3 4,3 4,8 71
Manuel B 33,3 15,1 18,7 4,7 5,2 77
Total 64 29 36 9 10 148
4. Le tableau précédent a fait apparaître des effectifs théoriques inférieurs à 5. Le chercheur
doit renoncer à la finesse de l’analyse des difficultés et regrouper les deux dernières
modalités. D’où le tableau des effectifs observés et des effectifs théoriques :
Tableau des effectifs observés :
Difficulté Aucune Parenthèses Fractions Autres Total
Manuel A 28 16 11 11 71
Manuel B 36 8 25 8 77
Total 64 29 36 19 148

Tableau des effectifs théoriques :


Difficulté Aucune Parenthèses Fractions Autres Total
Manuel A 30,7 13,9 17,3 9,1 71
Manuel B 33,3 15,1 18,7 9,9 77
Total 64 29 36 19 148

5. On détermine l’écart entre ces deux tableaux avec la méthode du khi-2.


La distance entre les deux tableaux, calculée selon la méthode du khi-2 est :
Difficulté Aucune Parenthèses Fractions Autres Total
Manuel A 0,23 3,61 2,28 0,39 6,51
Manuel B 0,22 3,33 2,10 0,36 6,01

Le total est 12,52, c’est la valeur du khi-2 observé.


6. On formule l’hypothèse (notée H0 et dite hypothèse nulle) que le tableau de contingence
est obtenu par deux échantillonnages aléatoires indépendants au sein d’une même
population parente où les fréquences sont celles des marges du tableau théorique. Selon
cette hypothèse, les deux échantillons n’ont aucune caractéristique liée à la situation
étudiée qui les différencie.
7. On détermine la probabilité p d’obtenir, sous l’hypothèse nulle, un écart égal ou supérieur
à celui obtenu entre le tableau théorique et le tableau de contingence. Cette étape repose
de manière sous-jacente sur des résultats mathématiques de probabilité, des conditions sur
les valeurs du tableau théorique doivent être remplies pour que la méthode soit valide.
Elles doivent être au moins égales à 5 ; en outre les échantillons sont supposés être
indépendants1.
Le nombre de degré de liberté du tableau de contingence est 3. Selon la loi de khi-2 à
3 degrés de liberté, la probabilité d’obtenir une valeur supérieure ou égale à 12,52 est
0,579%2.
8. Si cette probabilité est faible (c’est-à-dire inférieure à un seuil décidé à l’avance qui est
généralement de 1% ou de 5%), on rejette l’hypothèse nulle : cela accrédite le fait que les
deux échantillons observés possèdent des caractéristiques particulières liées à la situation
étudiée et qui les différencient. On dit alors que la différence entre les distributions est
significative au seuil de 1% ou de 5%, on peut préciser le degré de signification p. Sinon,
on ne rejette pas l’hypothèse nulle, et on admet donc que les échantillons étudiés puissent

1
On admettra que c’est le cas ici, en s’appuyant sur le fait que les auteurs sont différents.
2
La valeur du khi-2 à 3 degrés de liberté qui correspond à 1% est 11,34, c’est le khi-2 théorique.
ne pas posséder de caractéristiques particulières qui les différencient, la différence entre
les distributions est attribuée aux fluctuations d’échantillonnage. On dit que la différence
n’est pas significative.
La différence entre les exercices proposés par les deux manuels est significative au
seuil de 1% (p < 0,58%).
Remarque complémentaire : la comparaison de la seule difficulté des exercices (43
exercices difficiles sur 71 pour A et 41 exercices difficiles sur 77 pour B) ne montre
pas de différence significative au seuil de 5%, c’est donc la nature des difficultés qui
distingue les manuels et non la difficulté elle-même.
Avec la feuille de calcul, on obtient les résultats automatiquement.

1. Avec les modalités de départ : test inutilisable.

2. Avec le regroupement : test utilisable et significatif au seuil de 1%.


3. Comparaison des fréquences des exercices « difficiles ».

Vous aimerez peut-être aussi