Académique Documents
Professionnel Documents
Culture Documents
I - Introduction
Objet de l’étude
• Un tableau de fréquences (tableau de contingence) comportant de 2 à k
lignes et de 2 à g colonnes. Notation: Scherrer tableau 15.1.
Plusieurs applications
• Comparer plusieurs groupes indépendants décrits par une variable
qualitative: équivalent qualitatif de l’ANOVA.
• Mesurer la liaison entre deux variables qualitatives: équivalent
qualitatif de la corrélation.
• Estimer la conformité entre une distribution observée et une
distribution théorique.
Points à surveiller
• Calcul des degrés de liberté dans chaque cas.
• Conditions d’application. Que faire en dehors de ces limites?
Les tests khi-carré 2
Question: Considérant les proportions {pi, qi}, est-il possible que les
trois groupes (i = 1 … 3) proviennent de la même population statistique?
— Même question qu’en ANOVA.
Les tests khi-carré 3
Groupes
États de
classement 1 2 (j) g Σ
1 a11 a12 … a1g m1
2 a21 a22 … a2g m2
3 a31 a32 … a3g m3
(i) : : aij : (mi)
k ak1 ak2 … akg mk
Σ n1 n2 (nj) ng n
Évidemment, n = Σ aij = Σ nj = Σ mi .
2. Hypothèses:
• H0: ρ = 0, où ρ désigne le paramètre X2 de la population. Autrement dit,
les g groupes constituent un groupe homogène. Ils peuvent provenir de la
même population statistique.
• H1: ρ > 0. Les g groupes ne constituent pas un ensemble homogène.
2
2
k g [ a ij – E ( A ij ) ]
3. Statistique-test: X = ∑ ∑ ---------------------------------------
E ( A ij )
(éq. 15.2)
i=1 j=1
Les tests khi-carré 5
5. Comportement de la statistique-test:
• S’il n’y a aucune différence entre les valeurs observées aij et les
espérances E(Aij), la statistique-test X2 est égale à zéro.
• Si H0 et vraie, les valeurs prises par la statistique X2 obéissent à une loi
de χ2. En effet, la statistique X2 est une somme de termes obéissant
chacun à une loi de z au carré (Scherrer p. 587, éq. 15.1). Voir le point 7
(page suivante) pour le calcul des degrés de liberté de cette loi de χ2.
Les tests khi-carré 6
• Si H1 est vraie, la valeur de X2 sera d’autant plus grande que les aij
seront plus différents des espérances E(Aij). Plus cette différence
augmente, plus le numérateur de la statistique-test augmente, que la
différence soit positive ou négative; le dénominateur, lui, demeure
inchangé. On fera donc un test unilatéral.
Exemple:
Les tests khi-carré 7
Groupes
États de
classement 1 2 3 4 Σ
1 3 4 5 6 18
2 7 8 9 10 34
3 11 12 13 14 50
Σ 21 24 27 30 102
Pour calculer les espérances E(Aij) = mi × nj /n, il faut connaître les
sommes de lignes mi, les sommes de colonnes nj et la somme globale n.
Supposons que nous avons commencé par calculer les sommes des
colonnes (valeurs soulignées). Cela fait 4 paramètres. À partir de ces
valeurs, nous pouvons calculer la somme totale du tableau, n, sans
recourir de nouveau aux données.
Calculons ensuite la somme de la première et de la seconde ligne
(valeurs soulignées). Puisque nous connaissons n, nous pouvons calculer
la troisième somme: 102 – 18 – 34 = 50. Il n’a donc fallu calculer que
deux paramètres à partir des données pour obtenir les sommes de lignes.
Total des paramètres qu’il a fallu estimer à partir des données avant de
pouvoir calculer les espérances E(Aij): 4 + 2 = 6.
Dans tous les cas de tableaux de contingence à deux dimensions, il
faudra avoir estimé un nombre de paramètres égal à (k + g – 1) avant de
pouvoir calculer les espérances E(Aij).
• Le nombre de degrés de liberté associé à la statistique X2 est donc
d.l. = (k × g) – (k + g – 1) = (k – 1) (g – 1)
Les tests khi-carré 8
3 – Exemple
• Reprenons une partie des données de l’exemple 15.2 de Scherrer. Dans
le tableau ci-dessous, les valeurs observées aij sont comparées aux
espérances E(Aij) de chaque case. De plus, chaque case contient une
2
[ a ij – E ( A ij ) ]
statistique de contribution au X2: Stat = ---------------------------------------
E ( A ij )
Bassins hydrographiques
Région
Prélèvement Salmonelle hydrographique
1 oui Rhin-Meuse
2 non Rhin-Meuse
3 non Adour-Garonne
4 oui Adour-Garonne
5 oui Adour-Garonne
6 non Rhône-Méd.-Corse
7 oui Rhône-Méd.-Corse
: : :
46 oui Rhône-Méd.-Corse
On a vu à la section 3.4.2.1 (Scherrer p. 153) comment former un tableau
de contingence à partir de telles données.
Les tests khi-carré 10
• Dans ce nouveau contexte, les hypothèse du test que nous avons réalisé
ci-dessus pourrait être exprimées comme suit:
H0: φ = 0. Les deux variables qualitatives sont indépendantes l’une de
l’autre. φ (phi) désigne le paramètre X2 de la population, mais cette fois il
prend le sens d’une corrélation généralisée aux variables qualitatives.
H1: φ > 0. Les deux variables qualitatives sont liées.
Si elle est présente, la liaison s’exprimera par des valeurs observées aij
nettement plus grandes ou plus petites que les espérances
correspondantes E(Aij), ce qui augmentera la valeur de la statistique X2.
• Conceptuellement, le test X2 devient l’équivalent du r de Pearson ou du
τ de Kendall, à cette différence qu’il est calculé ici pour des variables
qualitatives. Les règles de décision sont les mêmes que pour le test χ2
présenté plus haut.
• Dans les cas où les deux variables à comparer sont binaires, on parle
d’un coefficient de corrélation de point (Scherrer section 17.3.1). La
formule à employer pour le calcul de la statistique X2 est alors différente.
Voir ci-dessous, section 5 (Tableaux 2 × 2), pour le calcul.
Caractéristiques du test et règles de décision: Scherrer tableau 17.20, p.
675-676.
⇒ Comparaison d’une variable qualitative à une variable quantitative ou
semi-quantitative: nous disposons de deux instruments pour tester une
hypothèse de type “corrélation” entre ces variables.
• On peut diviser la variable (semi-)quantitative en classes et construire
un tableau de contingence croisant les deux variables. On utilise alors un
test khi-carré pour tester H0 .
Les tests khi-carré 11
2 – Recherche de la correspondance
• Si on a rejeté H0, quelles sont les cases du tableau de contingence
responsables de cette relation?
• Dans le tableau de contingence de l’exemple, les cases dont la valeur
observée aij est la plus différente de l’espérance E(Aij) sont celles qui
contribuent le plus à la statistique X2. D’ailleurs, la contribution (“Stat”)
de chaque case à la statistique globale a été calculée (fournie par
StatView 4); elle est inscrite dans le tableau.
• Il est légitime de rechercher ces cases les plus importantes seulement si,
comme dans l’exemple présent, la statistique X2 globale est significative.
• Dans cet exemple, on voit que les principales contributions à la
statistique globale sont dues à
- dans la région Rhin-Meuse: un nombre de prélèvements plus faible que
l’espérance, montrant une absence de salmonelles;
- dans la région Rhône-Méditerranée-Corse: un nombre de prélèvements
plus élevé que l’espérance, montrant une absence de salmonelles.
On en conclut que la région Rhône-Méditerranée-Corse est moins
polluée que l’ensemble des bassins étudiés dans ce tableau, alors que la
région Rhin-Meuse l’est davantage.
Les tests khi-carré 12
3 – Autre exemple
• Interaction entre deux crevettes observés en laboratoire (Dingle, 1972).
5 – Tableaux 2 × 2
La formule générale du X2 de Pearson conduit à une formule simplifiée
de calcul pour le cas des tableaux 2 × 2. Représentons par a, b, c et d les
fréquences absolues des quatre cases d’un tel tableau:
Σ
Variable 2
Variable 1 1 2
1 a b a+b
2 c d c+d
Σ a+c b+d n = a+b+c+d
La formule
n 2
n ad – bc – ---
2 2
X = ----------------------------------------------------------------------------- , ν = (2–1) (2–1) = 1
( a + b) ( c + d ) ( a + c) ( b + d )
peut être employée
• si n > 40
• ou si n ≥ 24 (n/4 ≥ 6) pour un test au niveau α = 5%, ou n ≥ 40
(n/4 ≥ 10) pour un test au niveau α = 1% (Roscoe & Byars 1971).
La soustraction de la valeur n/2 est la “correction de continuité de Yates”.
Si n/4 est inférieur à la règle de Roscoe & Byars (1971):
• réaliser le test khi-carré par permutation;
• ou encore, réaliser le test par la méthode exacte de Fisher (1934) pour
tableaux 2 × 2 (Scherrer, section 15.1.2; Sokal & Rohlf, 1981, p. 740).
C’est le premier test par permutation à avoir été décrit dans la littérature
statistique.
Les tests khi-carré 15
- Pour la loi normale N (µ, σ): c = 3 dans le cas le plus général, car il faut
estimer (1) l’effectif n, (2) la moyenne µ et (3) l’écart type σ à partir des
données. Donc, ν = k – 3.
- Loi normale: si la moyenne µ et/ou l’écart type σ sont fournis par
l’hypothèse biologique, cela diminue d’autant la valeur de c.
⇒ Loi de Poisson et loi normale: Il existe de meilleurs tests de
conformité que le test khi-carré. Il s’agit du test de Kolmogorov-Smirnov
et du test de Shapiro-Wilk (Legendre & Legendre, 1984, section 4.9;
1998, section 4.7; Sokal & Rohlf, 1981 ou 1995). Le test de Shapiro-
Wilk est disponible dans le langage R (fonction shapiro.test ).
4. Conditions d’application: Les mêmes que pour le test X2 entre deux
variables qualitatives.
5. Exemples: Voir Scherrer, p. 634-635.
Références additionnelles
Cochran, W. G. 1954. Some methods for strengthening the common χ2
test. Biometrics 10: 417-451.
Dingle, H. 1972. Aggressive behavior in stomatopods and the use of
information theory in the analysis of animal communication.
Pp. 126-156 in: H. E. Winn & B. L. Olla, editors. Behavior of
marine animals – Current perspectives in research. Vol. 1:
Invertebrates. Plenum Press, New York.
Fisher, R. A. 1934. Statistical methods for research workers, 5th ed.
Oliver & Boyd, Edinburgh.