Vous êtes sur la page 1sur 17

11

Chapter 2

Les tests d’hypothèse

2.1 Introduction
Un test d’hypothèse est un procédé d’inférence permettant d’accepter ou rejeter à
partir de l’étude d’un ou plusieurs échantillons aléatoires, la validité d’hypothèses
relatives à une ou plusieurs populations. Les méthodes de l’inférence statistique
nous permettent de déterminer, avec une probabilité donnée, si les différences con-
statées au niveau des échantillons peuvent être imputables au hasard ou si elles sont
suffisamment importantes pour signifier que les échantillons proviennent de popu-
lations vraisemblablement différentes.

2.2 Principe d’un test d’hypothèse


Un test d’hypothèse consiste à déterminer entre quelles valeurs peut varier la vari-
able aléatoire, en supposant l’hypothèse vraie, sur la seule considération du hasard
de l’échantillonnage. Le principe général d’un test d’hypothèse peut s’énoncer comme
suit :

• On étudie une population dont les éléments possèdent un caractère (mesurable


ou qualitatif) et dont la valeur du paramètre relative au caractère étudié est
inconnue.
• Une hypothèse est formulée sur la valeur du paramètre : cette formulation
résulte de considérations théoriques, pratiques ou encore elle est simplement
basée sur un pressentiment.
• On veut porter un jugement sur la base des résultats d’un échantillon prélevé
de cette population.

2.3 Définitions et concepts de base


2.3.1 Hypothèse statistique :
Une hypothèse statistique est un énoncé (une affirmation) concernant les caractéris-
tiques (valeurs des paramètres, forme de la distribution des observations) d’une
population.

2.3.2 Test d’hypothèse


Un test d’hypothèse (ou test statistique) est une démarche qui a pour but de fournir
une règle de décision permettant, sur la base de résultats d’échantillon, de faire un
choix entre deux hypothèses statistiques.
12 Chapter 2. Les tests d’hypothèse

2.3.3 Hypothèse nulle ( H0 ) et hypothèse alternative ( H1 )


L’hypothèse selon laquelle on fixe à priori un paramètre de la population à une
valeur particulière s’appelle l’hypothèse nulle et est notée H0 . N’importe quelle
autre hypothèse qui diffère de l’hypothèse H0 s’appelle l’hypothèse alternative (ou
contre-hypothèse) et est notée H1 . C’est l’hypothèse nulle qui est soumise au test et
toute la démarche du test s’effectue en considérant cette hypothèse comme vraie.

2.3.4 Seuil de signification du test


Le risque, consenti à l’avance et que nous notons α de rejeter à tort l’hypothèse nulle
H0 alors qu’elle est vraie, s’appelle le seuil de signification du test et s’énonce en
probabilité ainsi :

α = P(rejeterH0 | H0 vraie).
A ce seuil de signification, on fait correspondre sur la distribution d’échantillonnage
de la statistique une région de rejet de l’hypothèse nulle (appelée également ré-
gion critique). L’aire de cette région correspond à la probabilité α. Si par exem-
ple , on choisit α = 0.05, cela signifie que l’on admet d’avance que la variable
d’échantillonnage peut prendre, dans 5% des cas, une valeur se situant dans la
zone de rejet de H0 , bien que H0 soit vraie et ceci uniquement d’après le hasard
de l’échantillonnage.
Sur la distribution d’échantillonnage correspondra aussi une région complémen-
taire, dite région d’acceptation de H0 (ou région de non-rejet) de probabilité 1 − α.

2.3.5 La règle de décision


Les règles de décision sont établies afin d’accepter ou rejeter l’hypothèse nulle H0 .
La conclusion qui sera déduite des résultats de l’échantillon aura un caractère prob-
abiliste : on ne pourra prendre une décision qu’en ayant conscience qu’il y a un
certain risque qu’elle soit erronée. Ce risque nous est donné par le seuil de significa-
tion du test.

Remarques : Les seuils de signification les plus utilisés sont α = 0.05 et α = 0.01,
dépendant des conséquences de rejeter à tort l’hypothèse H0

2.3.6 Test bilatéral et test unilatéral


a. Un test bilatéral : est associé à une d’hypothèse alternative selon laquelle le signe
de la différence potentielle est inconnu. Par exemple, nous cherchons à comparer les
moyennes de deux échantillons A et B. Avant de mettre en place l’expérimentation
et de lancer le test, nous ne savons pas avec certitude si A serait supérieur à B ou
le contraire dans la situation où une différence entre A et B serait mise en relief
par le test. Ceci nous conduit à opter pour un test bilatéral, associé à l’hypothèse
alternative suivante :

moyenne A 6= moyenne B .
Les tests bilatéraux sont les tests les plus couramment utilisés.
b. Un test unilatéral : est associé à une hypothèse alternative selon laquelle le
signe de la différence potentielle est connu avant le lancement de l’expérimentation
et du test. Par exemple, l’hypothèse alternative associée à un test unilatéral peut
2.4. Tests permettant de déterminer si un échantillon appartient à une population
13
donnée

être écrite de la sorte : moyenne(A) < moyenne(B) ou moyenne(A) > moyenne(B), en


fonction du signe attendu de la différence.
Si on s’intéresse au changement du paramètre dans une seule direction, on opte
pour un test unilatéral, en choisissant comme hypothèse H1 soit θ > θ0 soit θ < θ0 .
La région critique est alors localisée uniquement à droite ou uniquement à gauche
de la région d’acceptation.
Exemple : Supposons que nous affirmions que la valeur d’un paramètre θ d’une
population est égale à la valeur θ0 . On s’intéresse au changement possible du paramètre
θ dans l’une ou l’autre direction (soit θ > θ0 soit < θ0 ). On effectue un test bilatéral.

H0 : θ = θ0
H1 : θ 6= θ0
Si, suite aux résultats de l’échantillon, la valeur de la statistique utilisée se situe
dans l’intervalle [θc1 , θc2 ], on acceptera H0 au seuil de signification choisi. Si, au
contraire, la valeur obtenue est supérieure à θc1 ou inférieure à θc2 , on rejette H0 et
on accepte H1 .

2.4 Tests permettant de déterminer si un échantillon appar-


tient à une population donnée
2.4.1 Tests sur une moyenne
Objectif :
• Comparaison d’une moyenne expérimentale à une moyenne théorique (carac-
tère qualitatif).

• Déterminer si l’échantillon de taille n dont nous disposons appartient à une


population de moyenne m0 au seuil de signification α.
La démarche à suivre :
1 ère étape : formulation des hypothèses.
L’échantillon dont nous disposons provient d’une population de moyenne m. Nous
voulons savoir si m = m0 .

H0 : m = m0 6 ∃ une différence significative → l’échantillon ∈ la population
H1 : m 6= m0 ∃ une différence significative → l’échantillon 6∈ la population

2 ème étape : détermination de la statistique du test.


• Si l’échantillon est de grande taille ( n ≥ 30) ou bien la population est normale
2 connue :
de variance σpop

X̄ − m0
Tcal = σpop

n

• Si l’échantillon est de petite taille (n < 30) ou bien la population est normale
2 inconnue :
de variance σpop

n( X̄ − m0 )
Tcal = q
1
∑ n− 1 ( xi − x̄ )
2
14 Chapter 2. Les tests d’hypothèse

F IGURE 2.1: Table Z

3 ème étape : détermination des zones d’acceptation et de rejet


Déterminer dans la table la valeur maximale t α2 de l’écart réduit imputable aux vari-
ations d’échantillonnage au seuil de signification α, c’est-à-dire vérifiant :
α α
P(− ≤T≥ )
2 2
.
4 ème étape : la règle de décision
• → Si la valeur t0 se trouve dans la zone de rejet, on dira que l’écart-réduit ob-
servé est statistiquement significatif au seuil α. Cet écart est anormalement
élevé et ne permet pas d’accepter H0 . On rejette H0 .

• → Si la valeur t0 se trouve dans la zone d’acceptation, on dira que l’écart-


réduit observé n’est pas significatif au seuil α. Cet écart est imputable aux
fluctuations d’échantillonnage. On accepte H0 .

2.4.2 Test sur une proportion


Objectif :

• Tester si la proportion p d’éléments dans la population (un échantillon de taille


n) présentant un certain caractère qualitatif peut être ou non considérée comme
égale à une valeur hypothétique p0 .
La démarche à suivre :
1 ère étape : formulation des hypothèses.
L’échantillon dont nous disposons provient d’une population dont la proportion
d’éléments présentant le caractère qualitatif est p. Nous voulons savoir si p = p0 .


H0 : p = p0 6 ∃ une différence significative → l’échantillon ∈ la population
H1 : p 6= p0 ∃ une différence significative → l’échantillon 6∈ la population
2.5. Tests sur deux échantillons 15

F IGURE 2.2: Table T de student

2 ème étape : Détermination de la statistique du test.

• On suppose que l’on dispose d’un grand échantillon (n ≥ 30) et que « p n’est
pas trop petit » (de manière que l’on ait np ≥ 15 et n(1 − p) ≥ 15).

F − p0
Tcal = q
p0 (1− p0 )
n

3 ème étape : Détermination des zones d’acceptation et de rejet


Déterminer dans la table la valeur maximale t α2 de l’écart réduit imputable aux vari-
ations d’échantillonnage au seuil de signification α, c’est-à-dire vérifiant :
α α
P(− ≤ T ≥ = 1 − α.
2 2
4 ème : La régle de décision

• → Si la valeur t0 se trouve dans la zone de rejet, on dira que l’écart-réduit


observé est statistiquement significatif au seuil α. Cet écart est anormalement
élevé et ne permet pas d’accepter H0 . On rejette H0 .
→ Si la valeur t0 se trouve dans la zone d’acceptation, on dira que l’écart-
réduit observé n’est pas significatif au seuil α. Cet écart est imputable aux
fluctuations d’échantillonnage. On accepte H0 .

2.5 Tests sur deux échantillons


Objectif :

• déterminer si deux échantillons appartiennent à la mme population.

• Comparer deux groupes d’individus en regard d’un caractère quantitatif par-


ticulier.
16 Chapter 2. Les tests d’hypothèse

Exemples :

• Comparer deux procédés de fabrication selon une caractéristique quantitative


particulière (résistance à la rupture, poids, diamètre, longueur,...).

• Comparer les proportions d’apparition d’un caractère qualitatif de deux popu-


lations (proportion de défectueux, proportion de gens favorisant un parti poli-
tique,...).

2.5.1 Test sur deux moyennes (caractère quantitatif)


Objectif :

• Tester si la moyenne de la première population (m1 ) peut être ou non consid-


érée comme égale à la moyenne de la deuxième population (m2 ).

• Comparer les deux moyennes d’échantillon x¯1 et x¯2 . Il est évident que si x¯1
et x¯2 diffèrent beaucoup, les deux échantillons n’appartiennent pas la même
population. Mais si x¯1 et x¯2 diffèrent peu, il se pose la question de savoir si
l’écart d = x¯1 − x¯2 peut être attribué aux hasards de l’échantillonnage.

La démarche à suivre :
1 ère étape : formulation des hypothèses.
Le premier échantillon dont nous disposons provient d’une population dont la moyenne
est m1 . Le deuxième échantillon dont nous disposons provient d’une population
dont la moyenne est m2 .
Nous voulons savoir si il s’agit de la même population en ce qui concerne les
moyennes, c’est-à-dire si m1 = m2 .


H0 : m1 = m2 6 ∃ une différence significative → les deux échantillons ∈ à la même population
H1 : m1 6= m2 ∃ une différence significative → les deux échantillons 6∈ à la même population

2 ème étape : Détermination de la statistique du test.

• On suppose que l’on dispose de grands échantillons (n1 ≥ 30etn2 ≥ 30) et que
2 etσ2
les deux variances d’échantillon σech1 ech2 sont connues.

X̄1 − X̄2
Tcal = q 2 2
σech1 σech1
n1 −1 + n2 −1

• On suppose que l’on dispose de petits échantillons (n1 ≤ 30etn2 ≤ 30) et que
2
les deux variances d’échantillon σech1 2
et σech2 sont connues, on doit utiliser la
loi de Student. Deux cas sont possibles :
⇒ Les deux échantillons sont indépendants :

X̄1 − X̄2
Tcal = q
S N11 + N12

( N1 × σ12 ) + ( N2 × σ22 )
S2 =
( N1 + N2 ) − 2
2.5. Tests sur deux échantillons 17

⇒ Les deux échantillons sont dépendants :



∑y N −1
Tcal = p
N ∑ y2 − ( ∑ y )2

y : la valeur absolue des différences respectives pour chaque sujet


3 ème étape : Détermination des zones d’acceptation et de rejet.
Il nous faut donc déterminer dans la table la valeur maximale t α2 de l’écart réduit
imputable aux variations d’échantillonnage au seuil de signification α, c’est-à-dire
vérifiant : P(− α2 ≤ T ≥ α2 = 1 − α.

4 ème étape : la règle de décision.


• → Si la valeur t0 se trouve dans la zone de rejet, on dira que l’écart-réduit
observé est statistiquement significatif au seuil α. Cet écart est anormalement
élevé et ne permet pas d’accepter H0 . On rejette H0 .
→ Si la valeur t0 se trouve dans la zone d’acceptation, on dira que l’écart-
réduit observé n’est pas significatif au seuil α. Cet écart est imputable aux
fluctuations d’échantillonnage. On accepte H0 .
Exemple1 : On désire comparer les glycémies de deux groupes de diabétiques,
les uns insulino dépendants (DID) les autres non insulino dépendants (DNIS)

Sujet Glycémie (gł) Sujet Glycémie (gł)


1 2.52 1 1.98
2 2.63 2 1.65
3 2.45 3 1.45
4 3.01 4 1.23
5 2.89 6 1.85
6 2.01 7 1.22
7 2.36 1.48
8 2.48
9 2.55
10 2.78
Question :Y-t-il une différence entre les deux catégories sur la base de la gly-
cémies?

Solution :

 L’hypothèse nulle et alternative :


H0 : m1 = m2 6 ∃ une différence significative → l’échantillon ∈ la population
H1 : m1 6= m2 ∃ une différence significative → l’échantillon 6∈ la population
Calcul des moyennes et écarts-type :

∑ xi
Moyenne =
N
. s
∑( xi − moyenne)2
Ecart − type =
N−1
18 Chapter 2. Les tests d’hypothèse

.
2.52 + 2.63 + 2.45 + 3.01 + 2.89 + 2.01 + 2.36 + 2.48 + 2.56 + 2.78
Moyenne DID = = 2.57
10
.
s
(2.52 − 2.57)2 + (2.63 − 2.57)2 + (2.45 − 2.57)2 + ...
Ecart − type DID = = 0.28
10 − 1

. Moyenne DN ID = 1.55

Ecart − typeDN ID = 0.29

Calcul de la variance totale :


( N1 × σ12 ) + ( N2 × σ22 )
S2 =
( N1 + N2 ) − 2
.
(10 × 0.282 ) + (7 × 0.292 )
S2 =
(10 + 7) − 2
. √
S = 0.09 = 0.30
. Calcul du t de Student
| moyenne1 − moyenne2 |
t= q
S N11 + N12
.
| 2.57 − 1.55 |
t= q = 6.90
1
0.30 10 + 17
. Comparer le t calculé au t de la table :
ddl = N1+N2-2
A partir de la table t de student :
t=2.13 pour un risque de 95%
t=2.94 pour un risque de 99%
t calculé=6.90 il est donc supérieur à t de la table à 95% et 99%
Il existe donc une différence significative entre les glycémies des DID et des DNID
pour nos

Exemple2 : Existe t-il une différence entre la calcémie et le taux de PTH chez 7
malades atteint de cancer du poumon.

Sujet Calcémie PTH


1 120 800
2 230 420
3 70 180
4 420 1780
5 300 500
6 100 300
7 52 400
2.5. Tests sur deux échantillons 19

Solution :

 L’hypothèse nulle et alternative :


H0 : calcmie = tauxdePTH 6 ∃ une différence significative → l’échantillon ∈ la population
H1 : calcmie 6= tauxdePTH ∃ une différence significative → l’échantillon 6∈ la population
Calcul de la valeur absolue des différences respectives pour chaque sujet :
yn =| Xn−1 − Xn |

Sujet Calcémie PTH Y = | Calcémie - PTH |


1 120 800 680
2 230 420 190
3 70 180 110
4 420 1780 1360
5 300 500 200
6 100 300 200
7 52 400 384

Calcul des carrés y2 des différences y :

Sujet Calcémie PTH Y = | Calcémie - PTH | Y 2 carré des différences


1 120 800 680 462400
2 230 420 190 36100
3 70 180 110 12100
4 420 1780 1360 1849600
5 300 500 200 40000
6 100 300 200 40000
7 52 400 384 121104

∑ Y = 680 + 190 + 110 + 1360 + 200 + 200 + 348 = 3088


. Somme des carrés des différences y :

∑ Y2 = 462400 + 36100 + 12100 + 1849600 + 40000 + 40000 + 121104 = 2561304


. Carré de la somme des différences y :

(∑ Y )2 = (3088)2 = 9535744

. p
3088 (7 − 1)
t= p ; t = 2.61
7 × 2561304 − (953574)
. Comparer le t calculé au t de la table :
ddl = N-1 t calculé = 2.61 est supérieur au T de la table = 2.44 Il est donc supérieur
à t de la table à 95% Donc il existe une différence significative entre la calcémie et le
taux de PTH chez ces patients.

2.5.2 Comparaison de deux variances : « test F »


Objectif :

• Décider si l’écart observé entre deux variances échantillonnales est significatif


où s’il est attribuable au hasard de l’échantillonnage.
20 Chapter 2. Les tests d’hypothèse

La démarche à suivre :
1 ère étape : formulation des hypothèses.
Le premier échantillon dont nous disposons provient d’une population dont l’écart-
type est σpop1 . Le deuxième échantillon dont nous disposons provient d’une popu-
lation dont l’écart-type est σpop2 . Nous voulons savoir si il s’agit de la même popu-
lation en ce qui concerne les écarts-type, c’est-à-dire si σpop1 = σpop2 .


H0 : σpop1 = σpop2 6 ∃ une différence significative → les deux échantillons 6∈ à la même population
H1 : σpop1 6= σpop2 ∃ une différence significative → les deux échantillons 6∈ à la même population

2 ème étape : Détermination de la statistique du test


S12
• F0 = S22
qui suit la loi de Fisher avec v1 = n1 − 1 et v2 = n2 − 1 degrés de liberté

3 ème étape : Détermination des zones d’acceptation et de rejet


On détermine la table de F de Fisher les deux valeurs Fα2 ,v1 ,v2 et F1−α ,v1 ,v2 telles que :
2

P( F1−α ,v1 ,v2 ≤ F0 ≥ Fα2 ,v1 ,v2 ) = 1 − α.


2

.
4 ème étape : Règle de décision

• → Si la valeur f 0 se trouve dans la zone d’acceptation, on dira que la valeur


observée pour F n’est pas significative au seuil α. L’écart constaté par rapport
à la valeur 1 attendue est imputable aux fluctuations d’échantillonnage. On
accepte H0 .

• → On rejettera H0 si la valeur f 0 prise par F0 dans l’échantillon se trouve à


l’extérieur de l’intervalle [ Fα2 ,v1 ,v2 , F1−α ,v1 ,v2 ].
2
Remarque : On notera que pour obtenir la valeur critique inférieure de F0 , on
doit utiliser la relation :
1
F1−α ,v1 ,v2 =
2 Fα2 ,v1 ,v2

2.5.3 Comparaison de deux proportions (caractère qualitatif)


Objectif :décider si l’écart observé entre deux proportions échantillonnales est sig-
nificatif où s’il est attribuable au hasard de l’échantillonnage.

La démarche à suivre :
1 ère étape : formulation des hypothèses.
Le premier échantillon dont nous disposons provient d’une population 1 dont les
éléments possèdent un caractère qualitatif dans une proportion inconnue p1 . Le
deuxième échantillon dont nous disposons provient d’une population 2 dont les élé-
ments possèdent le même caractère qualitatif dans une proportion inconnue p2 .

Nous voulons savoir si il s’agit de la même population en ce qui concerne les


proportions, c’est-à-dire si p1 = p2 .

H0 : p1 = p2
H1 : p1 6= p2
2.6. Test du Khi deux 21

F IGURE 2.3: Table de Fisher

2 ème étape : Détermination de la statistique du test


q
p1 (1− p1 )
• → F1 suit alors une loi normale de moyenne p1 et d’écart-type n1
q
p2 (1− p2 )
→ F2 suit alors une loi normale de moyenne p2 et d’écart-type n2
→ On pose :
D
T= q
p̂(1 − p̂)( n11 + n12 )

D = p1 − p2 .
n f +n f
p̂ ≈ 1n11 +n22 2
3 ème étape : Détermination des zones d’acceptation et de rejet
Déterminer dans la table la valeur maximale t α2 de l’écart réduit. imputable aux
variations d’échantillonnage au seuil de signification α, c’est-à-dire vérifiant :
α α
P(− ≤ T ≥ = 1 − α.
2 2
. 4 ème étape :Règle de décision
• ⇒ Si la valeur t0 se trouve dans la zone de rejet, on dira que la valeur observée
pour T est statistiquement significative au seuil α. Ce quotient est éloigné de 1
et ne permet pas d’accepter H0 . On rejette H0 .
⇒ Si la valeur t0 se trouve dans la zone d’acceptation, on dira que la valeur
observée pour T n’est pas significative au seuil α. L’écart constaté par rapport
à la valeur 1 attendue est imputable aux fluctuations d’échantillonnage. On
accepte H0 .

2.6 Test du Khi deux


Objectif :le test du χ2 (khi deux ou khi carré) fournit une méthode pour déterminer
la nature d’une répartition d’effectif, qui peut être continue ou discrète.
22 Chapter 2. Les tests d’hypothèse

La démarche à suivre :

• Formuler H0 (la distribution observée n’est pas différente de la distribution


supposée d’après la loi que l’on souhaite tester).

• Répartir les données en classes

• Déterminer le nombre de degrés de liberté à partir du nombre de classes

• fixer un risque d’erreur (la valeur 5 % est souvent choisie par défaut)

• Calculer la distance entre les ensembles de données à comparer

• Déterminer χ2 théorique (déduire la distance critique à l’aide d’une table de


χ2 )

• Conclure si cette distance est supérieure à la distance critique (on conclut que
le résultat n’est pas dû seulement aux fluctuations d’échantillonnage).

Remarque : Le rejet de H0 est une réponse négative dans les tests de χ2 d’adéquation
et d’homogénéité alors qu’il apporte une information positive dans le test de χ2
d’indépendance.

2.6.1 Test d’ajustement


Objectif:

• Les observations faites sur un échantillon conduisent à une certaine distribu-


tion de fréquences d’un modèle théorique connu.

• Les écarts entre les effectifs théoriques et ceux qui résultent des observations
sont significatifs d’une différence de distribution ou si ils sont dus aux fluctu-
ations d’échantillonnage.

La démarche à suivre :
1 ère étape : formulation des hypothèses.

H0 : Les observations suivent la distribution théorique spécifiée.
H1 : Les observations ne suivent pas la distribution théorique spécifiée
2 ème étape : Détermination de la statistique du test
k
(ni − npi )2
d= ∑ npi
i =1

ou ni = effectif observé dans la classe i


n = effectif total observé
pi = probabilité d’obtenir une observation de la loi de probabilité théorique dans la
classe i
npi = effectif théorique dans la classe i

3 ème étape : Détermination des valeurs critiques de χ2 délimitant les zones


d’acceptation et de rejet
On impose à la zone d’acceptation de H0 concernant la valeur du χ2 d’être un inter-
valle dont 0 est la borne inférieure (car un χ2 est toujours positif).
Il nous faut donc déterminer dans la table la valeur maximale χ2α,v de l’écart entre
2.6. Test du Khi deux 23

F IGURE 2.4: Table de Khi deux

les deux distributions imputable aux variations d’échantillonnage au seuil de signi-


fication α, c’est-à-dire vérifiant : P(χ2 > χ2α,v ) = α. χ2α,v représente donc la valeur
critique pour un test sur la concordance entre deux distributions et le test sera tou-
jours unilatéral à droite.

4 ème étape :Règle de décision


• ⇒ Si la valeur chi02 se trouve dans la zone de rejet, on dira que la valeur
observée pour F est statistiquement significative au seuil α. Ce quotient est
éloigné de 1 et ne permet pas d’accepter H0 . On rejette H0 .
⇒ Si la valeur chi02 se trouve dans la zone d’acceptation, on dira que la valeur
observée pour F n’est pas significative au seuil α. L’écart constaté par rapport
à la valeur 1 attendue est imputable aux fluctuations d’échantillonnage. On
accepte H0 .
Remarques: Le choix et le nombre de classes est arbitraire. Cependant pour
que l’approximation par la loi du χ2 soit bonne, il est nécessaire que les effectifs
théoriques dans chacune des classes soit au moins égal à 5. Si ce n’est pas le cas, il
faut au préalable regrouper les classes contigües afin d’avoir un effectif suffisant. La
valeur de k intervenant dans le nombre de degrés de liberté de la loi du χ2 est celle
obtenue après les éventuels regroupements.

2.6.2 Test d’indépendance


Lorsqu’on considère plusieurs populations auxquelles on associe le même ensemble
de critères qualitatifs, l’hypothèse à tester est l’indépendance entre la population
d’appartenance de l’individu et la valeur des critères. L’hypothèse affirme donc que
le fait de connaître la population d’un individu n’influence pas la valeur des critères.
Objectif :
1. Déterminer si deux variables (variables qualitatives catégorielles) observées
sur un échantillon sont indépendantes ou non.
24 Chapter 2. Les tests d’hypothèse

2. Démontrer l’indépendance ou la dépendance de deux critères dans une expéri-


ence.

3. Comparer les effectifs réels des croisements des modalités des deux variables
qualitatives avec les effectifs théoriques qu’on devrait obtenir dans le cas d’indépendance
de ces deux variables.

La démarche à suivre :
1 ère étape : formulation des hypothèses.

H0 : les deux distributions observées ne sont pas significativement différentes.
H1 : les deux distributions observées sont significativement différentes
2 ème étape : Détermination de la statistique du test
On construit un indice d mesurant l’écart constaté entre les deux effectifs.


(nij − npij )2
d= ∑ npij
ij

. où nij = effectif observé des individus possédant la modalité i de la 1 variable


et la modalité j de la 2 variable n = effectif total observé ;
pij = probabilité d’obtenir une observation possédant la modalité i de la 1ère
variable et la modalité j de la 2ème variable lorsqu’elles sont indépendantes;
npij = effectif théorique des individus possédant la modalité i de la 1ère vari-
able et la modalité j de la 2ème variable.
Remarques:

(∑ j nij )(∑i nij ) ni. n.j


nij = =
n n
. où ni. est l’effectif des individus possédant la modalité i de la 1 variable et n.j
l’effectif des individus possédant la modalité j de la 2 variable.

3 ème étape : Détermination des zones d’acceptation et de rejet


Déterminer dans la table la valeur maximale χ20 de l’écart réduit imputable aux vari-
ations d’échantillonnage au seuil de signification α, c’est-à-dire vérifiant :
α α
P(− ≤ χ2 ≥ = 1 − α.
2 2
.
4 ème étape :Règle de décision

• ⇒ Si la valeur χ20 se trouve dans la zone de rejet, on dira que la valeur observée
pour F est statistiquement significative au seuil α. Ce quotient est éloigné de 1
et ne permet pas d’accepter H0 . On rejette H0 .
⇒ Si la valeur χ20 se trouve dans la zone d’acceptation, on dira que la valeur
observée pour F n’est pas significative au seuil α. L’écart constaté par rapport
à la valeur 1 attendue est imputable aux fluctuations d’échantillonnage. On
accepte H0 .

Exercice d’application:
La distribution du revenu des hommes est-elle différente de celle des femmes ?
2.6. Test du Khi deux 25

Une représentation sur une table de contingence des occurrences des variables
permet d’illustrer la question.

Salire [1000-2000[ [2000-3000[ [3000-4000[ [4000-5000[ Total


Hommes 50 70 110 60 290
femmes 60 75 100 50 285
Total 110 145 210 110 575

On remarque que les femmes sont plus nombreuses dans les classes à bas salaires
et moins nombreuses dans celles à haut salaire que les hommes.

Cette différence (c’est-à-dire cette dépendance entre les variables) est-elle statis-
tiquement significative ?

Le test du χ2 aide à répondre à cette question.

L-1= 4-1 = 3 ; C-1=2-1 = 1 ; ddl =3 x 1 = 3

Pour α = 5 %, la valeur critique (Khi2 théorique) trouvée dans les tables de χ2 est
7,81.

Hypothèse : On suppose qu’il n’y a pas de différence entre les salaires des hommes
et ceux des femmes.

Tableau des fréquences théoriques :

Hypothèse [1000-2000[ [2000-3000[ [3000-4000[ [4000-5000[ Total


Hommes 55.5 73.1 105.9 55.5 290.0
femmes 54.5 71.9 104.1 54.5 285.0
Total 110.0 145.0 210.0 110.0 575

Le calcul du χ2 :

χ2 [1000-2000[ [2000-3000[ [3000-4000[ [4000-5000[ Total


Hommes 0.54 0.13 0.16 0.37 1.20
femmes 0.55 0.14 0.16 0.38 1.23
Total 1.09 0.27 0.32 0.75 2.43

Conclusion :
La distance calculée (2.43) étant inférieure à la distance critique (7.81), il n’y a pas
lieu de mettre en cause l’égalité des salaires, avec un risque de se tromper égal à 5%.

2.6.3 Test d’homogénéité


Objectif: Les observations d’une variable qualitative sur k échantillons permettent-
elles de conclure que les échantillons proviennent de la même population?

On prélève k échantillons de taille n1 , n2 , ...., nk de k populations. Les résultats


du caractère observé dans chaque population sont ensuite classés selon r modal-
ités. Il s’agit de savoir comparer les k populations entre elles et de savoir si elles
26 Chapter 2. Les tests d’hypothèse

ont un comportement semblable en regard du caractère étudié (qualitatif ou quanti-


tatif). On rassemble les données dans un tableau à double entrée appelé tableau de
contingence :
La démarche à suivre :
1 ère étape : formulation des hypothèses.

H0 : pi1 = pi2 = ... = pik pour i = 1, 2, ..., r les proportions d’individus présentant chaque modalité
H1 : pij1 6= pij2 pour au moins un i parmi 1, 2, ..., r et pour au moins deux ji1 et ji2 différe
2 ème étape : Détermination de la statistique du test
On construit un indice d mesurant l’écart constaté entre les deux effectifs.

(nij − npi )2
d= ∑ np j
i,j

. où nij = effectif observé des individus de l’échantillon i, possédant la modal-


ité j de la variable;
n = effectif total observé;
p j = probabilité d’obtenir une observation possédant la modalité j de la vari-
able lorsqu’on est en présence d’une seule population ;
np j = effectif théorique des individus possédant la modalité j de la variable
lorsqu’on est en présence d’une seule population;

(∑ j nij )(∑i nij ) ni. n.j


np j = =
n n
où ni. est l’effectif de l’échantillon i et n.j l’effectif des individus possédant la
modalité j de la variable.
3 ème étape : Détermination des valeurs critiques de χ2 délimitant les zones
d’acceptation et de rejet
On impose à la zone d’acceptation de H0 concernant la valeur du χ2 d’être un inter-
valle dont 0 est la borne inférieure (car un χ2 est toujours positif).
Il nous faut donc déterminer dans la table la valeur maximale χ2α,v de l’écart en-
tre les deux distributions imputable aux variations d’échantillonnage au seuil de
signification α, c’est-à-dire vérifiant : P(χ2 > χ2α,v ) = α. c’est-à-dire vérifiant :
P(χ2 > χ2α,v ) = α.

4 ème étape : Règle de décision


• ⇒ Si la valeur chi02 se trouve dans la zone de rejet, on dira que la valeur
observée pour F est statistiquement significative au seuil α. Ce quotient est
éloigné de 1 et ne permet pas d’accepter H0 . On rejette H0 .
⇒ Si la valeur chi02 se trouve dans la zone d’acceptation, on dira que la valeur
observée pour F n’est pas significative au seuil α. L’écart constaté par rapport
à la valeur 1 attendue est imputable aux fluctuations d’échantillonnage. On
accepte H0 .
Exemple :

Age du décès Nombre de grossesses inférieur à 3 Nombre de grossesses suprieur à 3


Inférieur à 3 mois 18 6
Supérieur à 3 mois 17 19
2.7. Exercices 27

Existe-il un lien entre le nombre de grossesse et le décès des bébés?

Solution :

Calculer la somme des colonnes et des rangées:

Age du décès Nombre de grossesses inférieur à 3 Nombre de grossesses suprieur à 3 Total lignes
Inférieur à 3 mois 18 6 24
Supérieur à 3 mois 17 19 36
Total colonnes 35 25 60

3. Calculer les fréquences théoriques :


Il s’agit du produit de la somme des colonnes par la somme des rangées, respectif,
divisé par la somme totale
Fréquences théoriques:

Age du décès Nombre de grossesses inférieur à 3 Nombre de grossesses suprieur à 3


Inférieur à 3 mois 35 × 24 = 840/60 = 14 25 × 24 = 600/60 = 10
Supérieur à 3 mois 35 × 36 = 1260/60 = 21 25 × 36 = 900/60 = 15

Calculer χ2

(14 − 18)2 (10 − 6)2 (21 − 17)2 (15 − 19)2


χ2 = + + +
14 10 21 15
16 16 16 16
χ2 = + + +
14 10 21 15
χ2 = 4.57
Calculer le degré de liberté :
ddl = (2-1)×(2-1) = 1

Comparer le Khi2 calculé au Khi2 de la table χ2calcul = 4,57 χ2 de la table est de


3,84 pour un ddl = 1 et un seuil de confiance à 95χ2calcul = 4,57 est supérieur au χ2 de
la table = 3,84

Conclusion χ2calcul est supérieur au χ2 de la table, donc il existe une différence


significative entre l’âge du décès du bébé et le nombre de grossesses.

2.7 Exercices
Exercice 1 :
Deux populations bactériennes ont une sensibilité différente à la pénicilline. La pre-
mière est caractérisée par un diamètre moyen de la zone d’inhibition de la croissance
de 11 mm, avec une déviation standard de 1 mm (la distribution est supposée nor-
male). La seconde a un diamètre moyen de 8 mm, avec une déviation standard de
0,8 mm. On désire déterminer la population d’origine d’une colonie en examinant
la taille d’une plage. On demande:

• De calculer les valeurs seuils menant à une erreur de type 1 de 5% et 1%.

Vous aimerez peut-être aussi