Vous êtes sur la page 1sur 11

Stratégie pédagogique de procéduralisation

Test du Khi 2 (χ²)


( Les données dans cet exercice ont été inventées, ils ont peu de chance de représenter une réalité quelconque.)

Phase d’acquisition :

1)    Formuler l’hypothèse statistique

(Dire quand on fait le Khi 2 dans la vie. Contextualiser l’étudiant pour qu’il sache pourquoi et quand on fait ce
genre de test.)

En science humaine, quand des chercheurs veulent savoir si une variable influences une autre variable, il recourt
le plus souvent au test du Khi2.  Précisément, ce test cherche la probabilité que, par exemple, une variable telle
que le salaire d’un personne puisse être influencé par le genre sexuel de celle-ci. Un exemple de question
pourrait ressembler à ceci : Est-ce qu’il y a une relation entre le revenu et le sexe d’un individu? Par la suite, si
les chercheurs se rendent compte que oui, il y à une variable qui influence l’autre, on peut alors tirer des
conclusion tel : Il semblerait que le femme soit moins bien payé que l’homme ; il n’y a pas de liens entre le
salaire et le sexe.

Vérification des préalables :

Chose importante à retenir ici ! Pour réaliser ce genre de test nous devons d’abord s’assurer que nous avons deux
variables qualitatives.

Aussi, il est important d’identifier notre variable dépendante et notre variable indépendante. La variable
dépendante est celle qui peut changer, tel le salaire. De l’autre côté, la variable indépendante, est celle qui ne
peut changer chez l’individu, comme son sexe. Bref, on peut comprendre que le montant d’argent qu’une
personne reçoit en salaire n’est pas en mesure de d’influencer le genre sexuel de la personne. C’est plutôt le
contraire ! C’est le salaire qui a tendance à augmenter ou diminuer selon le sexe.

 
 

Données observées : la relation entre le revenu et le sexe d'un individu

Salaire 1000- 2000- 3000- 4000- Total


2000 3000 4000 5000
Hommes 50 70 110 60 290
Femmes 60 75 100 50 285
Total 110 145 210 110 575

Question : Est-ce qu’il y a une relation entre le revenu et le sexe d’un individu?

Hypothèse nulle : Il n’y a pas de lien.

Hypothèse valable : Il y a un lien.

*On remarque que les femmes sont plus nombreuses dans les classes à bas salaires et moins nombreuses dans
celles à haut salaire que les hommes. Cette différence (c’est-à-dire cette dépendance entre les variables) est-elle
statistiquement significative? Bref, c’est ce que le Khi2 va nous permettre de découvrir!

2) Préparation

Tout d’abord, trouvons notre valeur critique en trois étapes.

1)    Trouver le degré de liberté : Pour trouver le degré de liberté, il faut trouver les valeurs dépendantes
dans ces lignes et colonnes du tableau. Cela s’obtient en multipliant le nombre de lignes du tableau
moins un par le nombre de colonnes moins un ; pour chaque ligne il y a 4-1 = 3 variables
indépendantes, et pour chaque colonne il y a 2-1 = 1 variable indépendante. Ce qui conduit à 3 x 1 = 3
degrés de liberté.

2)    Choisir le risque de se tromper : Maintenant, nous devons déterminer le pourcentage de chances de


se tromper, c’est-à-dire de rejeter à tort l'hypothèse nulle. 5 % de chance de se tromper est le seuil de
probabilité le plus souvent choisi. Mais, comme vous pouvez le voir dans la table des distributions du
Khi2, d’autres seuils de probabilité peuvent être choisis.

 
3)    Trouver notre valeur critique dans la table de distribution du Khi2.

Donc, on se souvient que notre degré de liberté (ddl) est de 3 et que notre seuil de probabilité est de 0.05 (5%).
Si on regarde dans la table, on obtient une valeur critique de 7,81.
 
4)    L’hypothèse nulle
.

Hypothèse 1000- 2000- 3000- 4000- Total


2000 3000 4000 5000
Hommes 55,5 73,1 105,9 55,5 290,0
Femmes 54,5 71,9 104,1 54,5 285,0
Total 110,0 145,0 210,0 110,0 575,0
 
Il faut bâtir l'hypothèse nulle qui, dans ce cas, ne dépend pas d'une loi de probabilité. On suppose qu'il n'y a pas
de différence entre les salaires des hommes et ceux des femmes, les proportions des différentes catégories de
salaires étant donc conservées d'une ligne à l'autre.

Pour obtenir une hypothèse nulle : On remplace la valeur de chaque cellule par le total de sa colonne, divisé par
le total général, et multiplié par le total de sa ligne. On vérifie que les totaux sont inchangés.

Ex : 110/575= 0,191*290=55,47

5) Calcul du Khi2

Le calcul du Khi2 des données s'effectue comme suit : La donnée observée moins la donnée de l’hypothèse nulle
mise au carré et finalement divisée par la donnée de l’hypothèse nulle.

*Le « O » est la donnée observée et le « E » est la donnée de l’hypothèse nulle.

 
 

On répète cette formule pour chaque cellule du tableau.

  1000-2000 2000-3000 3000-4000 4000-5000 Total


Hommes 0,54 0,13 0,16 0,37 1,20
Femmes 0,55 0,14 0,16 0,38 1,23
Total 1,09 0,27 0,32 0,75 2,43

Exemple de la cellule #1: (50-55,5)2 / 55,5 = 0,54

Par la suite, on répète cette formule pour toutes les cellules du tableau et le total général que nous obtiendrons
sera notre Khi2. Dans notre cas, le Khi2 est de 2,43.

6)    Conclusion

Le Khi 2 calculé (2,43) étant inférieur à notre valeur critique (7,81), il n'y a pas lieu de mettre en cause
l'égalité des salaires, avec un risque de se tromper égal à 5%. En d’autres mots, on ne doit pas croire que le
sexe influence le salaire des individus. Bref, ces variables sont indépendantes.

Mais si le Khi 2 avait été supérieur à la valeur critique (7,81), on aurait conclu que l'hypothèse nulle devrait
être rejetée et que le sexe influence le salaire des individus. Les variables auraient été considérées
dépendantes. Ainsi, nous aurions pu démontrer que la différence de salaire entre l’homme et la femme est
statistiquement significative

Statistique khi-carré:
Logements: date d'emménagement selon l'âge de la personne de référence

Source: INSEE Alsace. Fiche profil "Logements: date


d'emménagement"
Zone d'emploi: Molsheim-Schrimeck

Données:

  Durée d’occupation  
Age < 2 ans 2 - 9 ans plus de 9 ans total
15-29 1606 1592 140 3338
30-39 1761 5393 1393 8547
40-49 675 3053 5148 8876
50-59 341 1343 5132 6816 Fig. 1 La durée d'occupation d'un log
de la personne de référence
60-74 221 1227 7380 8828
75 + 95 393 3836 4324
Total 4699 13001 23029 40729
En fait, l’âge et la durée d’occupation sont des variables quantitatives, toutefois
dans cet exercice elles peuvent être considérées comme des variables
nominales.
*********
Conclusion symbolique:

La graphique (à droite) donne déjà une idée que la durée de l'occupation


d'un logement dépend de l'âge de la personne de référence.
 
 1. Calculer la fréquence conditionnelle en colonnes
  Durée d’occupation  
Age < 2 ans 2 - 9 ans plus de 9 ans total
15-29 34.2% 12.2% 0.6% 8%
30-39 37.5% 41.5% 6.0% 21%
40-49 14.4% 23.5% 22.4% 22%
50-59 7.3% 10.3% 22.3% 17%
60-74 4.7% 9.4% 32.0% 22%
75 + 2.0% 3.0% 16.7% 11%
Total 100.0% 100.0% 100.0% 100%
    Apparemment, il existe l’association entre l’âge et la durée d’occupation d’un logement.

 
2. Calculer l'efffectif attendu:

On suppose que s’il n’y aucune relation entre les variables, les fréquences dans les cellules du
tableau croisé doivent être proportionnelles aux valeurs marginales.

 Soit

nij – la fréquence (l’effectif) d’une cellule se trouvant sur le croisement de la ligne i et de la colonne j

mij – la fréquence (l’effectif) attendue dans la cellule se trouvant sur le croisement de la ligne i et de la
colonne j, si les variables sont indépendantes ou « indifférentes »  l’une par rapport à l’autre. 

 
 Effectif attendu :

  Durée d’occupation  
Age < 2 ans 2 - 9 ans plus de 9 ans total
15-29 385 1066 1887 3338
30-39 986 2728 4833 8547
40-49 1024 2833 5019 8876
50-59 786 2176 3854 6816
60-74 1019 2818 4992 8828
75 + 499 1380 2445 4324
Total 4699 13001 23029 40729
3. Calculer la fréquence conditionnelle en colonnes pour l'effectif attendu

  Durée d’occupation  
Age < 2 ans 2 - 9 ans plus de 9 ans total
15-29 8% 8% 8% 8%
30-39 21% 21% 21% 21%
40-49 22% 22% 22% 22%
50-59 17% 17% 17% 17%
60-74 22% 22% 22% 22%
75 + 11% 11% 11% 11%
Total 100% 100% 100% 100%
Les structures de l'effectif attendu (fréquence conditionnelle en colonnes) sont les même (Sic!)
Or c'est la structure attendue sous la condition qu'il n'y a aucune association entre les variables

 
4. Calculer la statistique khi-carré

On sait que  χ2 = khi – deux ou khi carré

   où O = ni j   effectif observé et    effectif espéré (attendu).

 Formule développée 

 ++   Calculer d'abord pour chaque cellule

  Durée d’occupation
Age < 2 ans 2 - 9 ans plus de 9 ans
15-29 3870.464 260.144 1617.757
30-39 608.962 2602.681 2448.176
40-49 118.972 17.038 3.333
50-59 252.247 318.708 423.863
60-74 624.461 898.225 1142.894
75 + 326.961 706.152 791.542
++ Calculer ensuite pour la somme des valeurs

Nombre de dergés de liberté est égale à 10: on a trois modalités pour la variable "durée" et six
modalités pour la variable "âge".

     DL = (n-1)(m-1) = (3-1)(6-1) = 2 x 5 = 10

++ Chercher la valeur critique de χ²  dans le tableau 

Pour 10 DL et la probabilité 0.005 la valeur de χ²  dans le tableau  est égale


à 25,18818 ce qui est largement inférieur à la statistique de khi-carré dans notre
tableau.

Donc on peut dire qu'avec la probabilité supérieur à 99,5% il y a une


association entre l'âge et la duréé d'occupation de logement.

En travaillant dans l'Excel on peut trouver la valeur critique de khi-carré avec la


fonction  =KHIDEUX.INVERSE("probabilité";"degrés_liberté").

Dans notre cas =KHIDEUX.INVERSE(0.005;10) = 25,18805486

 
On sait que la valeur de la statistique χ²  dépend beaucoup du nombre
d'observations.

5. Pour niveler l'effet du nombre d'observations, on calcule le coefficient χ² 


standardisé de Pearson (coefficient de contingence - C) et le coefficient  c de
Cramér (fi de Cramér) :

       χ²  standardisé ou coefficient C de contingence de Pearson

    
c le coefficient  de Cramér (fi de Cramér)

où k est la plus petite valeur entre le nombre de ligne (6


dans cet exercice) et de colonne (3 dans cette exercice).

On voit que l'association entre les deux variables est importante, mais pas très
forte.

Rappel:

Dans le cas des tableaux 2 x 2  on peut utiliser comme une mesure d'association des
statistique assez simples comme  ou ²

Variable A Valeu
rs
Variable B Modalité A1 Modalité margi
présente A1 absente nales

Modalité B1
présente a b a+b
 

Modalité B1
absente c d c+d
 

a+b
Valeurs
marginales a+c b+d +c+
d
l'indice d'association de Yule (Q) et l'indice de contingence de Pearson (Ф).

Les formules sont simples:

L'indice d'association de Yule (Q)


L'indice de contingence de Pearson (Ф)

La valeur de l'indice de contingence est toujours à peu près deux fois inférieur de
l'indice d'association,
puisque ce dernier montre les liens mutuels (association) de deux variable,
alors que le premier (l'indice de contingence) caractérise le lien unilatéral
(contingence)