Vous êtes sur la page 1sur 23

Test(s) du χ2

A. Latouche

1 / 22
Contexte

I Les données sont des effectifs

I Le nombre de patients avec une certaine caractéristique

I Le nombre d’étudiants qui ont réussi un examen

I Le nombre de souris qui sont en vie

I Le test du Chi-2 (χ2 ) utilise un tableau de contingence et


compare effectifs observés aux effectifs théorique

2 / 22
Principe du χ2
I On dispose d’un échantillon avec ces 2 variables
qualitatives
I Couleurs des yeux : bleu ou brun
I ET couleur des cheveux : clair ou foncée

Bleu brun
Clair 38 11
Foncée 14 51

I On complète les marges du tableau

Bleu Brun Total


Clair 38 11 49
Foncée 14 51 65
Total 52 62 114

3 / 22
Calcul des effectifs attendus
I On calcule d’abord les effectifs attendus pour le couple
(clair, bleu)
I Si on suppose qu’avoir les cheveux clair et les yeux bleus
sont des événement indépendants alors cette probabilité se
calcule comme le produit de chaque événement
I P (yeux bleu) = 52/114 = 0.456 et
P (cheveux clairs) = 49/114 = 0.430.
I L’effectif attendu est donc
(52/114) ∗ (49/114) ∗ 114 = 22.35.
I On obtient donc

Bleu Brun Total


Clair 22.35 26.65 49
Foncée 29.65 35.35 65
Total 52 62 114

4 / 22
Calculer la statistique du χ2 d’indépendance
I La statistique de test s’écrit
X (O − E )2
χ2 =
E

I où O est l’effectif observé et E l’effectif attendu (ou


théorique)
(O−E )2
O E (O − E )2 E
Clair/bleu 38 22.35 244.92 10.96
Clair/Brun 11 26.65 244.92 9.19
Foncée/bleu 14 29.65 244.92 8.26
Foncée/Brun 51 35.35 244.92 6.93

I On calcule le χ2 comme 10.96 + 9.19 + 8.26 + 6.93 = 35.34.

Condition de validité : Si E ≥ 5
5 / 22
Degrés de liberté du χ2

I Pour un table de contingence , les ddl sont

df = (l − 1)(c − 1)
= (2 − 1)(2 − 1)
=1

I A partir ddl = 1 on calculs la valeur (critique) du χ2 au


risque α = 0.05
> qchisq(0.95,1)
[1] 3.841459

6 / 22
Pourquoi (l − 1)(c − 1)

Soit le table de contingence suivant:

5 10 50
20 40
7 60
100 20 30 150

4 cases sont suffisantes pour reconstruire tout le tableau et ici

4 = (3 − 1)(3 − 1)

7 / 22
Rejeter ou ne pas rejeter H0

I Comme χ2calc = 35.33 > χ2crit = 3.84 on rejete H0 1

I Syntaxe du test en R :
> haireye<-data.frame(eyes=rep(c("blue", "brown"), +
c(52,62)), hair=rep(c("fair", "dark", "fair", "dark"), +
c(38,14,11,51)))
> table(haireye)
hair
eyes dark fair
blue 14 38
brown 51 11

1
H0 :couleur des yeux et couleur des cheveux sont indépendantes
8 / 22
χ2 avec R
> chisq.test(table(haireye), correct=F)
Pearson's Chi-squared test
data: table(haireye)
X-squared = 35.3338, df = 1, p-value = 2.778e-09
> chisq.test(table(haireye), correct=F)$expected
hair
eyes dark fair
blue 29.64912 22.35088
brown 35.35088 26.64912
> table(haireye)
hair
eyes dark fair
blue 14 38
brown 51 11
On a mis en évidence une association entre les 2
variables
9 / 22
Analyse des résidus du χ2
Quand un test du χ2 est significatif (rejet de H0
I Permet de déterminer les catégories qui contribue le plus
au rejet de l’hypothèse H0
O −E
R= √
E
O E (O − E ) R
Fair/blue 38 22.35 15.65 3.31
Fair/brown 11 26.65 -15.65 -3.03
Dark/blue 14 29.65 -15.65 -2.87
Dark/brown 51 35.35 15.65 2.63
> chisq.test(table(haireye), correct=F)$resid
hair
eyes dark fair
blue -2.873982 3.310112
brown 2.632024 -3.031437
Si |R| est plus grand que 2
10 / 22
Test du χ2 d’adéquation (de conformité)

Contexte
I Comparer une répartition en classe par rapport à une
répartition théorique

I On observe pour les catégories 1, 2 et 3 respectivement 25,


9 et 3 cas. Les proportions théoriques sont 0.4, 0.3 et 0.3.

I Peut-on considérer que l’échantillon observé provient de la


loi théorique

11 / 22
Test du χ2 d’adéquation
Catégorie 1 Catégorie 2 Catégorie 3 | Total
25 9 3 37

Calcul des effectifs théorique


I Catégorie 1: 37 ∗ 0.4 = 14.8
I Catégorie 2: 37 ∗ 0.3 = 11.1
I Catégorie 3 : 37 ∗ 0.3 = 11.1

Catégorie 1 Catégorie 2 Catégorie 3


25 (14.8) 9 (11.1) 3 (11.1) 37

I Le χ2obs calculé vaut ici 13.3


I ddl=(c-1)=2
Or > qchisq(0.95,2)=5.991465
On rejette H0 car χ2obs > 5.99
12 / 22
Applications

Quel est l’impact de l’exposition aux poussières de ciment sur la


capacité respiratoire ?

Pb respiratoire Pas de Pb
Faible 6 96
Modérée 22 39
Elevée 4 50

H0 : l’exposition et les difficultés respiratoires sont indépendants

13 / 22
Calculs

I ddl =2

I χ2calc = 30.71

I χ2theo = 5.99 au risque α = 0.05

I χ2obs >> χ2theo

I Rejet de H0

14 / 22
Exercice Test du χ2

Dans un échantillon de 100 patients vous trouvez 20% de


patients dont la protéine P est de type A, 30% de type B et
50% de type C. Dans un échantillon de 50 patients ayant une
autre maladie vous trouvez 20%, 40% et 40%. Vous vous
intéressez au lien entre le type d’anomalie et le type de maladie.

Quel test effectuer ?

15 / 22
Correction
Etude du lien entre 2 variables qualitatives: type d’anomalie et
type de maladie.
I On effectue un test du χ2 d’indépendance.
I ddl=(3-1)(2-1)=2

Echantillon 1 Echantillon 2
A 20 (20) 10 (10) 30
B 30 (33.3) 20 (16.7) 50
C 50 (46.7) 20 (23.3) 70
Total 100 50 150

On obtient
χ2obs = 1.7143, df = 2, p-value = 0.4244
Conclusion : on ne rejette pas l’hypothèse d’indépendance entre
type d’anomalie et type de maladie
Code R : chisq.test(matrix(c(20,10,30,20,50,20),3,2,
byrow=TRUE)
16 / 22
Test du χ2 d’adéquation
Dans un centre de transfusion sanguine, on observe la
répartition suivante entre les 4 groupes sanguins chez 525
donneurs bénévoles :
I O : 251
I A : 219
I B : 29
I AB : 26
Sachant que la répartition des groupes sanguins dans la
population française est la suivante : O : 44.5%, A : 44%, B :
8%, AB : 3.5%. Testez si la répartition des groupes sanguins au
sein du centre est comparable à celle de la population française.

17 / 22
Test du χ2 d’adéquation
Dans un centre de transfusion sanguine, on observe la
répartition suivante entre les 4 groupes sanguins chez 525
donneurs bénévoles :
I O : 251
I A : 219
I B : 29
I AB : 26
Sachant que la répartition des groupes sanguins dans la
population française est la suivante : O : 44.5%, A : 44%, B :
8%, AB : 3.5%. Testez si la répartition des groupes sanguins au
sein du centre est comparable à celle de la population française.
ABO<-as.table(cbind(251,219,29,26));
prob<-c(0.445,0.44,0.08,0.035);
chisq.test(ABO,p=prob)

⇒ Rejet de H0
17 / 22
Test Exact de Fisher
I Quand l’approximation d’une loi binomiale par une loi
normale n’est pas possible

I Quand les conditions d’applications du χ2 ne sont pas


vérifiées
Effectifs Attendus plus petit que 5

I Utilisé en essai pré-clinique (n petit)


Exemple 2 groupes randomisé de 4 souris
Actif Inactif
Guérison 4 0
Mort 0 4

On rejette H0 au risque α = 5%
http://marne.u707.jussieu.fr/biostatgv/
18 / 22
Exemple (2)

Actif Inactif
Guérison 3 0
Mort 0 3

On ne rejette pas H0 au risque α = 5%


http://marne.u707.jussieu.fr/biostatgv/

19 / 22
Conditions de validité du χ2

Une étude rétrospective a pour but d’étudier les facteurs


associés à la survenue de complications à la suite d’une
opération chirurgicale chez 360 malades. La fréquence des
complications selon la durée de l’opération est donnée dans le
tableau suivant :
< 1h 1h-1h30 1h30-2h > 2h
Complication+ 7 19 26 8
Complication- 113 100 66 21

Effectuer au risque α = 5% le test permettant d’étudier le lien


éventuel entre la durée de l’opération et le nombre de
complication.

20 / 22
Effectifs Attendu

< 1h 1h-1h30 1h30-2h > 2h


Complication+ 7 19 26 8
Complication- 113 100 66 21

Effectifs théorique

1 2 3 4
Complication+ 20.00 19.83 15.33 4.83
Complication- 100.00 99.17 76.67 24.17

On réunit les 2 dernières classes car les effectifs théoriques sont


inférieurs à 5.

21 / 22
Test avec 3 durées d’opération

< 1h 1h-1h30 > 1h30


Complication+ 7 19 34
Complication- 113 100 87

chisq.test(matrix(c(7,19,34,113,100,87),2,3,
byrow=TRUE), correct=FALSE)
Statistique observée 21.57, p-value = 2 ∗ 10−5 , ddl=2

On rejette H0 au risque 5%.

22 / 22

Vous aimerez peut-être aussi