Vous êtes sur la page 1sur 14

Mathmatiques : Outils pour la Biologie Deug SV UCBL

D. Mouchiroud (25/02/2003)

..................................................

Chapitre 8

Tests du 2
Sommaire

1. Introduction..2 2. Principe des tests du 2....2


2.1. La statistique du ...2 2.2. Les conditions dapplication..3 2.3. Les degrs de libert.....3
2

3. Test du 2 d'ajustement........4
3.1. Principe du test.....4 3.2. Application et dcision.....4 3.3. Ajustements diffrentes lois de probabilit connues...6

3.3.1. Ajustement une loi binomiale ....6 3.3.2. Ajustement une loi de poisson .....6 3.3.3. Ajustement une loi normale ....7

4. Test du 2 d'galit des distributions.....8


4.1. Principe du test.....8 4.2. Application et dcision....10 4.3. Cas particulier de la comparaison de deux frquences..11

5. Test du 2 d'indpendance............12
5.1. Principe du test.....12

-1-

Mathmatiques : Outils pour la Biologie Deug SV UCBL

D. Mouchiroud (25/02/2003)

.................................................. 5.2. Application et dcision.....14

1 Introduction
Karl Pearson est un mathmaticien britannique qui a tablit la thorie gnrale de la corrlation et inventa la statistique du Khi-deux. Les diffrents tests qui relvent de la statistique du Khi-deux ou Chi-deux 2 ont pour objectif de dterminer dans quelle mesure les effectifs relatifs un ou plusieurs caractres qualitatifs (ou caractres quantitatifs regroups en classe) observs sur un ou plusieurs chantillons sont conformes aux effectifs attendus sous lhypothse nulle, soit dgalit des distributions observes (test dhomognit), Est-ce que la distribution des groupes sanguins prsente une rpartition gographique en comparant plusieurs populations gographiquement distinctes ? soit dindpendance entre deux caractres qualitatifs (test dindpendance) Est-ce quil y a indpendance entre la couleur des yeux et la couleur des cheveux ? soit de conformit une loi de probabilit connue (test dajustement) . Est-ce que la distribution des gnotypes observs pour un locus donn dans un chantillon est conforme la distribution attendue sous le modle de Hardy-Weinberg ? Quelques soit le test du 2 ralis, lobjectif est de dterminer si les carts entre la distribution des effectifs observs et la distribution des effectifs thoriques est significative ou imputable uniquement aux fluctuations dchantillonnage.

2 Principe des tests du 2


2.1 La statistique du 2

La statistique du Khi-deux 2 consiste mesurer lcart qui existe entre la distribution des effectifs thoriques ti et la distribution des effectifs observs ni et tester si cet cart est suffisamment faible pour tre imputable aux fluctuations dchantillonnage. Par exemple dans le cas dun test de 2 dajustement, o lon veut comparer pour un caractre qualitatif k modalits i ou un caractre quantitatif group en k classes i, une distribution observe et une distribution thorique, la statistique du 2 est la suivante :
k

2 obs .

=
i =1

( ni ti )
ti

suit une loi de Pearson ou 2

Ltablissement des distributions des probabilits pi va dpendre de la nature du test du 2 (hypothse H0) mais lestimation des effectifs thoriques ti sera identique tous les tests. -2-

Mathmatiques : Outils pour la Biologie Deug SV UCBL

D. Mouchiroud (25/02/2003)

..................................................

si n est leffectif total tudi, leffectif thorique attendu, ti pour la modalit i de la variable alatoire X est : (loi des grands nombres en probabilit) ti = n * pi Quelque soit lhypothse nulle teste, la stratgie est la mme pour tous les tests du 2. La statistique du 2 calcule (2obs.) est compare avec la valeur seuil, 2seuil lue sur la table du 2 pour k-c ddl (degrs de libert) et pour un risque derreur fix. si 2obs. 2seuil, lhypothse H0 ne peut tre rejete : distributions des effectifs thoriques et observs ne sont pas significativement diffrentes si 2obs. > 2seuil , lhypothse H0 est rejete au seuil de signification et lhypothse H1 est accepte.

2.2 Les conditions dapplication Quelque soit le test du 2, la taille de la distribution des effectifs thoriques est strictement identique celle des effectifs observs cest dire n effectif total. Lchantillon tudi doit tre de grande taille n 50 Le test 2 est fond sur lapproximation, des lois normales, dune loi multinomiale. Pour que cette approximation soit trs bonne et bien que le test du 2 savre robuste, il est conseill que les produits ti = n*pi, cest dire les effectifs thoriques ti, soient gaux ou suprieurs 5 et de regrouper les classes adjacentes lorsque ce minimum est rencontr. . 2.3 Les degrs de libert

Le nombre de degrs de libert (ddl) est gal au nombre de composantes indpendantes de la statistique du 2. Le nombre de composantes indpendantes dune distribution thorique ayant k modalits (effectifs thoriques suprieurs ou gaux 5) correspond au nombre de termes de la statistique du 2. Mais comme on impose que la taille de la distribution des effectifs thoriques soit identique la taille de la distribution des effectifs observs n, le kme effectif thorique est contraint do Le nombre de degrs de libert maximum est donc k-1. avec k le nombre de termes du 2 (effectifs thoriques 5) -3-

Mathmatiques : Outils pour la Biologie Deug SV UCBL

D. Mouchiroud (25/02/2003)

.................................................. Toutes les relations supplmentaires imposes pour le calcul des effectifs thoriques conduisent rduire dune unit le nombre de degrs de libert. Le nombre de composantes non indpendantes ou contraintes dpendra de la nature du test du 2 (n tant une de ces contraintes, commune tous les tests du 2) .

Le nombre de degrs de libert est donc k-c avec k le nombre de termes du 2 (effectifs thoriques 5) et c le nombre de contraintes entre les distributions compares.

3 Test du 2 dajustement
Le test du 2 dajustement correspond la comparaison dune distribution de frquences observes et dune distribution de frquences thoriques. Ce test est frquemment utilis en gntique, o lon confronte les rsultats exprimentaux de croisements pour un caractre donn ceux rsultant dune transmission mendlienne de ce caractre. Le champ dapplication de ces mthodes ne se limite pas la gntique. En effet lutilisation des tests dhypothse tels que nous les avons dfinis, implique la ralisation de certaines hypothses comme par exemple la normalit de la variable tudie. Il est donc ncessaire de comparer la distribution observe des valeurs celle attendue dans le cas dune distribution normale de celles-ci.

3.1

Principe du test

Le principe du test du 2 d'ajustement est destimer partir dune loi de probabilit connue ou infre, les effectifs thoriques pour les diffrentes modalits du caractre tudi (caractre qualitatif ou quantitatif regroup en classe) et les comparer aux effectifs observs dans un chantillon. Deux cas peuvent se prsenter : soit la loi de probabilit est spcifie a priori car elle rsulte par exemple dun modle dterministe tel que la distribution mendlienne des caractres, lvolution de la taille dune population, etc. soit la loi de probabilit thorique nest pas connue a priori et elle est dduite des caractristiques statistiques mesures sur lchantillon (distribution des frquences, moyenne et variance)(statistiques descriptives).

3.2 Application et dcision

-4-

Mathmatiques : Outils pour la Biologie Deug SV UCBL

D. Mouchiroud (25/02/2003)

.................................................. Ltablissement des distributions thoriques de probabilit se rfrent aux lois de probabilit. A chaque modalit ou valeur de la variable alatoire X, les probabilits associes la loi de probabilit sont calcules ainsi que les effectifs thoriques attendues sous cette loi :

Modalit du caractre A
A1 Effectif observ ni n1 A2 n2

... A i .. A k ..ni .. nk ...pi ... pk ..ti .. tk

n = ni
i =1

pi Effectif thorique ti = n * pi

p1 t1

p2 t2

p
i =1

=1

n = ti
i =1

Remarque : Si le caractre A ne prsente que deux modalits A = succs et A = chec, le test du 2 d'ajustement revient la comparaison dune frquence observe et dune frquence thorique (test de conformit).

La statistique du Khi deux consiste mesurer lcart qui existe entre la distribution thorique et la distribution observe et tester si cet cart est suffisamment faible pour tre imputable aux fluctuations dchantillonnage.
2

Lhypothse teste est la suivante : H0 : la distribution observe est conforme la distribution thorique. H1 : la distribution observe ne sajuste pas la distribution thorique.

2 obs .

=
i =1

( ni ti )
ti

k modalits du caractre tudi

avec ni leffectif observ et ti leffectif thorique attendu sous H0 2obs. est compare avec la valeur seuil, 2seuil lue sur la table du 2 pour k-c ddl (degrs de libert) et pour un risque derreur fix.

Remarque : Il est impratif que les conditions dapplication soient vrifies : taille de lchantillon n 50 et les npi 5. Exemple : Soit le locus bialllique codant pour la glucose 6 phosphate dhydrognase (G6PDH), enzyme participant au mtabolisme nergtique (dgradation des sucres), lanalyse lectrophortique des gnotypes chez lanophle, vecteur de la malaria, donne la rpartition suivante -5-

Mathmatiques : Outils pour la Biologie Deug SV UCBL

D. Mouchiroud (25/02/2003)

.................................................. FF = 44, FS = 121, SS = 105. La rpartition des gnotypes est-elle conforme au modle de Hardy-Weinberg ? Rponse.

3.3 Ajustements diffrentes lois de probabilit connues

3.3.1

Ajustement une loi binomiale

Application Est-ce que la distribution du nombre de filles observes dans 320 fratries de 5 enfants suit une loi binomiale de paramtre B(5, 0,5) ? Rponse.
X : Nbre de filles (i) Nbre de fratries observes (ni) 0 1 2 110 3 88 4 40 5 8

18 56

La distribution thorique suit une loi binomiale B(n, p)


k k n k pk = P ( X = k ) = Cn pq

avec n :nbre dpreuves p : probabilit du succs k : nbre de valeurs prises X

Le nombre de degrs de libert est : nombre de termes du 2 ( k) moins le nombre de contraintes c c = 1 (n) si p est connue

) si p est inconnue avec p = c = 2 (n et p

n x
i =1 k i =1

i i

n ni

nombre de succs nombre d ' observation

Exemple :

Refaire le test du 2 dajustement en utilisant pour p, la frquence du nombre de filles dans les fratries de 5 enfants, son estimation faite partir des donnes de lchantillon. Rponse .

3.3.2

Ajustement une loi de poisson

Application Est-ce que le nombre de cas graves traits chaque jour par un vtrinaire sur une priode de 200 jours suit une loi de poisson ? Rponse.

-6-

Mathmatiques : Outils pour la Biologie Deug SV UCBL

D. Mouchiroud (25/02/2003)

..................................................

X : Nbre de cas graves (i) Nbre de jours (ni)

2 50

3 21

4 4

5 et plus 1

50 74

La distribution thorique suit une loi de poisson P()

pk = P ( X = k ) = e

k
k!

k : nombre de valeurs prises X

Le nombre de degrs de libert est : nombre de terme du 2 ( k) moins le nombre de contraintes c c = 1 (n) si est connu ) si est inconnu avec = x c = 2 (n et

Remarque : La distribution de poisson ntant pas borne lorsque X + , il est ncessaire de borner la distribution en estimant la probabilit de la dernire classe par diffrence avec la somme des probabilits qui est de 1.

Exemple : En reprenant les donnes relatives la ccidomyie du htre , peut-on affirmer que la rpartition du nombre de galles par feuille suit une loi de poisson ? Rponse .

3.3.3

Ajustement une loi normale

Application Le caractre taille mesur sur 1000 individus peut-il tre considr comme suivant une loi normale ? Rponse.

X : taille en cm (xi) Nbre dindividus (ni)

< 155 1

[ 155-165 ] [ 165-175 ] 70 500

[ 175-185 ] 379

>185 50

-7-

Mathmatiques : Outils pour la Biologie Deug SV UCBL

D. Mouchiroud (25/02/2003)

..................................................

La distribution thorique suit une loi normale N(,) P(a X b) = P(za Z zb) = (b) - (a) (voir probabilits) X avec la variable centre rduite Z = et k : nombre de classes de la variable X

Le nombre de degrs de libert est : nombre de terme du 2 ( k) moins le nombre de contraintes c


c = 1 (n) si et connues ) si inconnue avec = x c = 2 (n ,

(mme chose si inconnue )

2 = , = x et ) si et inconnues avec c = 3 (n ,

n 2 s n 1

Remarque : La loi normale ntant pas borne aux deux extrmits de la distribution, lorsque X , il est ncessaire de borner la distribution en estimant la probabilit des deux classes extrmes par diffrence avec 0 et 1. Si n < 50, le test non paramtrique de Lilliefors permet de tester la normalit

dune variable dans le cas de faibles effectifs.


Exemple : En reprenant les donnes relatives la longueur de la rectrice de la glinotte hupe, peut-on affirmer que cette mesure suit une loi normale ? Rponse.

4 Test du 2dgalit de distributions


Comme pour le test du 2 dajustement, on considre un caractre (quantitatif group en classe ou qualitatif) prsentant plusieurs modalits (p modalits) mais dfinis sur plusieurs chantillons indpendants (q chantillons) .Lhypothse H0 teste est lgalit des q distributions observes du caractre tudi . Ce test sapparente aux tests dhomognit.
4.1 Principe du test

La statistique du Khi deux 2 va permettre de mesurer lcart qui existe entre les q distributions des effectifs observs pour la variable qualitative X sous lhypothse dgalit des distributions dans les q populations compares. On teste si cet cart est suffisamment faible pour tre imputable aux fluctuations dchantillonnage.
Les donnes sont structures sous forme dun tableau des effectifs observs ou
table de contingence.

-8-

Mathmatiques : Outils pour la Biologie Deug SV UCBL

D. Mouchiroud (25/02/2003)

..................................................

Caractre A modalit 1 Echantillon 1 n11 modalit i ni1 modalit p np1 Total n.1

Echantillon j

n1j

nij

npj

n.j

Echantillon q Total

n1q n 1.

niq ni.

npq np.

n.q n..= N

La nomenclature commune aux tables de contingence est base sur deux indices i et j : leffectif nij est celui de la colonne i et de la ligne j avec 1 i p et 1 j q leffectif ni. est la somme des effectifs de la colonne i leffectif n.j est la somme des effectifs de la ligne j leffectif n.. est leffectif total de la table de contingence
Le tableau des effectifs attendus sous lhypothse H0 : les q chantillons proviennent de q populations o la distribution en frquence du caractre tudi est identique :
Caractre A modalit 1 Echantillon 1 modalit i modalit p Total n.1

n n N
. 1

ni. n.1 N

n n
. p

n n
. 1

1 .
j .

1 .

n n
. i

n n
. p

n.j

j .

j .

Echantillon j

Echantillon q Total

n n
. 1

n n
. i

n n
. p

n.q

q .

q .

q .

N
n1.

N
ni.

N
np. n..= N

Sous H0, leffectif attendu tij correspondant la modalit i du caractre A (Ai) pour lchantillon j peut tre obtenu de la faon suivante :
P(Ai chantillon j) = P(Ai) x P(chantillon j) (deux vnements indpendants)

-9-

Mathmatiques : Outils pour la Biologie Deug SV UCBL

D. Mouchiroud (25/02/2003)

..................................................
t n n = ij N N N
j . . i

do do

Pij =

avec tij effectif attendu


tij = n n
. i j .

tij = N * Pij ainsi

Tous les effectifs attendus sont obtenus par le rapport du produit des distributions marginales sur leffectif total de la table de contingence. n n tij = N Ainsi, le nombre de degrs de libert correspondant au nombre deffectifs estims indpendants est (p - 1)(q - 1). Les effectifs associs la colonne p peuvent tre obtenus par diffrence avec la distribution marginale des lignes (p-1) et inversement pour les effectifs associs la ligne q (q-1) (cases indpendantes grises dans la table de contingence).
4.2 Application et dcision
. i j .

Lhypothse teste est la suivante : H0 : la distribution de frquence du caractre tudi est identique pour les diffrentes populations compares. H1 : la distribution de frquence du caractre tudi diffre entre les diffrentes populations compares.
2 obs . = i =1 j =1 p q

(n

ij

tij ) tij

p : nombre de colonnes, q : nombre de lignes

avec nij leffectif observ et tij leffectif thorique attendu sous H0


2obs. est compare avec la valeur seuil, 2seuil lue sur la table du 2 pour (p-1)(q-1)ddl (degrs de libert) et pour un risque derreur fix.
2 2 si obs . > seuil lhypothse H0 est rejete au risque derreur : les diffrents chantillons sont extraits de populations ayant des distributions diffrentes du caractre tudi. 2 2 si obs . seuil lhypothse H0 est accepte: les diffrents chantillons sont extraits de populations ayant la mme distribution du caractre tudi.

Remarque : La statistique du Khi-deux 2 ne peut tre calcule que si les effectifs thoriques tij sont suprieurs 5. Dans ce cas, il faut regrouper la fois toute la ligne et toute la colonne correspond la case possdant une valeur tij infrieur 5. Exemple :

- 10 -

Mathmatiques : Outils pour la Biologie Deug SV UCBL

D. Mouchiroud (25/02/2003)

.................................................. Les groupes sanguins A,B,AB et O ont t dtermins dans trois chantillons (E1 : France, E2 : Roumanie, E3 : Proche-Orient) dhommes adultes. La rpartition des groupes sanguins dpendelle dun facteur gographique ? Rponse.
A E1 E2 E3 54 45 33 B 14 14 34 AB 6 8 12 O 51 31 33

4.3 Cas particulier de la comparaison de deux frquences

Le test 2de comparaison de deux frquences est un cas particulier du test de comparaison de plusieurs distributions. Dans ce cas le caractre tudi prsente deux modalits (A = succs, A = chec) et est tudi sur deux chantillons indpendants extraits de deux populations. On fait lhypothse que les deux chantillons proviennent de 2 populations dont les probabilits de succs sont identiques : H0 : p1 = p2 .
Table de contingence des effectifs observs (voir nomenclature A et B)

Table A
Succs Echantillon 1 Echantillon 2 Total k1 k2 k1+k2 Echecs n1- k1 n2- k2 (n1+n2)-(k1+k2) Effectifs n1 n2 n1+n2 ou Succs n11 n12 n1.

Table B
Echecs n21 n22 n2. Total n.1 n.2 n..= N

Table de contingence des effectifs attendus sous H0 : p1 = p2

Succs Echantillon 1

Echecs

Total n.1

n1. n.1 N n1. n.2 N


n1.

n2. n.1 N n2. n.2 N


n 2.

Echantillon 2

n.2

Total

n..= N

- 11 -

Mathmatiques : Outils pour la Biologie Deug SV UCBL

D. Mouchiroud (25/02/2003)

..................................................

Lhypothse teste est la suivante : H0 : p1 = p2 contre H1 : p1 p2


2 obs . = i =1 j =1 2 2

(n

ij

tij ) tij

suit une loi du Khi-deux 2

avec nij leffectif observ et tij leffectif thorique attendu sous H0


2obs. est compare avec la valeur seuil, 2seuil lue sur la table du 2 pour 1 ddl (degrs de libert) et pour un risque derreur fix.

2 2 si obs . > seuil lhypothse H0 est rejete au risque derreur : les deux chantillons sont extraits de deux populations ayant des probabilits de succs respectivement p1 et p2. 2 2 si obs . seuil lhypothse H0 est accepte: les deux chantillons sont extraits de deux populations ayant mme probabilit de succs p.

Remarque : La statistique du Khi-deux 2 ne peut tre calcule que si les effectifs thoriques tij sont suprieurs 5. Dans ce cas, il faut regrouper la fois toute la ligne et toute la colonne correspond la case possdant une valeur tij infrieur 5. La statistique du Khi-deux 2 dune table de contingence 2 x 2 avec 1 ddl correspond au carr dune variable normale centre rduite 2 (dmonstration). Exemple :

Reprendre lexemple de limpact des travaux dirigs dans la russite lexamen de statistique avec le test du Khi-deux2. Rponse.

5 Test du 2dindpendance
5.1 Principe du test

Le test du 2 dindpendance constitue une autre formulation du test de comparaison de plusieurs distributions. Dans ce cas ce sont les distributions relatives deux caractres (quantitatifs groups en classe ou qualitatifs) prsentant plusieurs modalits et dfinis sur une mme population qui sont compares. On fait lhypothse quil y a indpendance entre les deux caractres dans la population : H0 : les deux caractres sont indpendants. H1 : les deux caractres ne sont pas indpendants .

- 12 -

Mathmatiques : Outils pour la Biologie Deug SV UCBL

D. Mouchiroud (25/02/2003)

..................................................
Les donnes sont structures sous forme dun tableau des effectifs observs pour les deux caractres compars ou table de contingence.
Caractre A modalit 1 n11 Modalit i ni1 modalit p np1 total n.1

modalit 1 Caractre B

modalit j

n1j

nij

npj

n.j

modalit q Total

n1q n1.

niq ni.

npq np.

n.q n..= N

avec leffectif nij correspond au nombre dindividus ayant la modalit i du caractre A avec 1 i p et 1 j q et la modalit j du caractre B leffectif ni. est la somme des effectifs de la colonne i leffectif n.j est la somme des effectifs de la ligne j leffectif n.. est leffectif total de la table de contingence
Le tableau des effectifs attendus sous lhypothse H0 : indpendance entre le caractre A et le caractre B.
Caractre A modalit 1 modalit 1

n n N
. 1

modalit i

ni. n.1 N n n
. i

modalit p

Total n.1

n n
. p

Caractre B

modalit j

n n
. 1

1 . j .

1 .

N n n
. p

j .

j .

n.j

modalit q Total

n n
. 1

n n
. i

n n
. p

q .

q .

q .

N
n1.

N
ni.

N
np.

n.q n..= N

Sous H0, leffectif attendu tij correspondant la modalit i du caractre A (Ai) et la modalit j du caractre B (Bj) peut tre obtenu de la faon suivante :

- 13 -

Mathmatiques : Outils pour la Biologie Deug SV UCBL

D. Mouchiroud (25/02/2003)

..................................................
P(Ai Bj) = Pij = P(Ai) x P(Bj) sous H0 : indpendance entre les deux caractres t n n do Pij = = ij avec tij effectif attendu N N N n n tij = do tij = N * Pij ainsi N
j .

5.2 Application et dcision

Lhypothse teste est la suivante : H0 : Indpendance entre le caractre A et le caractre B H1 : Non indpendance entre le caractre A et le caractre B
2 obs . = i =1 j =1 p q

avec nij leffectif observ et tij leffectif thorique attendu sous H0


2obs. est compare avec la valeur seuil, 2seuil lue sur la table du 2 pour (p-1)(q-1)ddl (degrs de libert) et pour un risque derreur fix.
2 2 si obs . > seuil lhypothse H0 est rejete au risque derreur : il ny a pas indpendance statistique entre les deux caractres tudis dans la population. 2 2 si obs . seuil lhypothse H0 est accepte: les deux caractres tudis dans la population sont statistiquement indpendants.

Remarque : La statistique du Khi-deux 2 ne peut tre calcule que si les effectifs thoriques tij sont suprieurs ou gaux 5. Dans ce cas, il faut regrouper la fois toute la ligne et toute la colonne correspond la case possdant une valeur tij infrieur 5. Exemple :

Sur un chantillon de la population franaise, on a not pour chaque personne, la couleur des yeux et celle des cheveux (naturelle). Peut-on conclure lindpendance de ces deux caractres qualitatifs ? Rponse.
Cheveux Yeux Marrons Vert-gris Bleus 152 73 36 247 114 102 83 37 127 11 8 10 Noirs Bruns Blonds Roux

. i

. i

j .

(n

ij tij )

tij

p : nombre de colonnes, q : nombre de lignes

- 14 -