Explorer les Livres électroniques
Catégories
Explorer les Livres audio
Catégories
Explorer les Magazines
Catégories
Explorer les Documents
Catégories
Chapter 2
2.1 Introduction
Un test d’hypothèse est un procédé d’inférence permettant d’accepter ou rejeter à
partir de l’étude d’un ou plusieurs échantillons aléatoires, la validité d’hypothèses
relatives à une ou plusieurs populations. Les méthodes de l’inférence statistique
nous permettent de déterminer, avec une probabilité donnée, si les différences con-
statées au niveau des échantillons peuvent être imputables au hasard ou si elles sont
suffisamment importantes pour signifier que les échantillons proviennent de popu-
lations vraisemblablement différentes.
α = P(rejeterH0 | H0 vraie).
A ce seuil de signification, on fait correspondre sur la distribution d’échantillonnage
de la statistique une région de rejet de l’hypothèse nulle (appelée également ré-
gion critique). L’aire de cette région correspond à la probabilité α. Si par exem-
ple , on choisit α = 0.05, cela signifie que l’on admet d’avance que la variable
d’échantillonnage peut prendre, dans 5% des cas, une valeur se situant dans la
zone de rejet de H0 , bien que H0 soit vraie et ceci uniquement d’après le hasard
de l’échantillonnage.
Sur la distribution d’échantillonnage correspondra aussi une région complémen-
taire, dite région d’acceptation de H0 (ou région de non-rejet) de probabilité 1 − α.
Remarques : Les seuils de signification les plus utilisés sont α = 0.05 et α = 0.01,
dépendant des conséquences de rejeter à tort l’hypothèse H0
moyenne A 6= moyenne B .
Les tests bilatéraux sont les tests les plus couramment utilisés.
b. Un test unilatéral : est associé à une hypothèse alternative selon laquelle le
signe de la différence potentielle est connu avant le lancement de l’expérimentation
et du test. Par exemple, l’hypothèse alternative associée à un test unilatéral peut
2.4. Tests permettant de déterminer si un échantillon appartient à une population
13
donnée
X̄ − m0
Tcal = σpop
√
n
• Si l’échantillon est de petite taille (n < 30) ou bien la population est normale
2 inconnue :
de variance σpop
√
n( X̄ − m0 )
Tcal = q
1
∑ n− 1 ( xi − x̄ )
2
14 Chapter 2. Les tests d’hypothèse
H0 : p = p0 6 ∃ une différence significative → l’échantillon ∈ la population
H1 : p 6= p0 ∃ une différence significative → l’échantillon 6∈ la population
2.5. Tests sur deux échantillons 15
• On suppose que l’on dispose d’un grand échantillon (n ≥ 30) et que « p n’est
pas trop petit » (de manière que l’on ait np ≥ 15 et n(1 − p) ≥ 15).
F − p0
Tcal = q
p0 (1− p0 )
n
Exemples :
• Comparer les deux moyennes d’échantillon x¯1 et x¯2 . Il est évident que si x¯1
et x¯2 diffèrent beaucoup, les deux échantillons n’appartiennent pas la même
population. Mais si x¯1 et x¯2 diffèrent peu, il se pose la question de savoir si
l’écart d = x¯1 − x¯2 peut être attribué aux hasards de l’échantillonnage.
La démarche à suivre :
1 ère étape : formulation des hypothèses.
Le premier échantillon dont nous disposons provient d’une population dont la moyenne
est m1 . Le deuxième échantillon dont nous disposons provient d’une population
dont la moyenne est m2 .
Nous voulons savoir si il s’agit de la même population en ce qui concerne les
moyennes, c’est-à-dire si m1 = m2 .
H0 : m1 = m2 6 ∃ une différence significative → les deux échantillons ∈ à la même population
H1 : m1 6= m2 ∃ une différence significative → les deux échantillons 6∈ à la même population
• On suppose que l’on dispose de grands échantillons (n1 ≥ 30etn2 ≥ 30) et que
2 etσ2
les deux variances d’échantillon σech1 ech2 sont connues.
X̄1 − X̄2
Tcal = q 2 2
σech1 σech1
n1 −1 + n2 −1
• On suppose que l’on dispose de petits échantillons (n1 ≤ 30etn2 ≤ 30) et que
2
les deux variances d’échantillon σech1 2
et σech2 sont connues, on doit utiliser la
loi de Student. Deux cas sont possibles :
⇒ Les deux échantillons sont indépendants :
X̄1 − X̄2
Tcal = q
S N11 + N12
( N1 × σ12 ) + ( N2 × σ22 )
S2 =
( N1 + N2 ) − 2
2.5. Tests sur deux échantillons 17
Solution :
∑ xi
Moyenne =
N
. s
∑( xi − moyenne)2
Ecart − type =
N−1
18 Chapter 2. Les tests d’hypothèse
.
2.52 + 2.63 + 2.45 + 3.01 + 2.89 + 2.01 + 2.36 + 2.48 + 2.56 + 2.78
Moyenne DID = = 2.57
10
.
s
(2.52 − 2.57)2 + (2.63 − 2.57)2 + (2.45 − 2.57)2 + ...
Ecart − type DID = = 0.28
10 − 1
. Moyenne DN ID = 1.55
Exemple2 : Existe t-il une différence entre la calcémie et le taux de PTH chez 7
malades atteint de cancer du poumon.
Solution :
(∑ Y )2 = (3088)2 = 9535744
. p
3088 (7 − 1)
t= p ; t = 2.61
7 × 2561304 − (953574)
. Comparer le t calculé au t de la table :
ddl = N-1 t calculé = 2.61 est supérieur au T de la table = 2.44 Il est donc supérieur
à t de la table à 95% Donc il existe une différence significative entre la calcémie et le
taux de PTH chez ces patients.
La démarche à suivre :
1 ère étape : formulation des hypothèses.
Le premier échantillon dont nous disposons provient d’une population dont l’écart-
type est σpop1 . Le deuxième échantillon dont nous disposons provient d’une popu-
lation dont l’écart-type est σpop2 . Nous voulons savoir si il s’agit de la même popu-
lation en ce qui concerne les écarts-type, c’est-à-dire si σpop1 = σpop2 .
H0 : σpop1 = σpop2 6 ∃ une différence significative → les deux échantillons 6∈ à la même population
H1 : σpop1 6= σpop2 ∃ une différence significative → les deux échantillons 6∈ à la même population
.
4 ème étape : Règle de décision
La démarche à suivre :
1 ère étape : formulation des hypothèses.
Le premier échantillon dont nous disposons provient d’une population 1 dont les
éléments possèdent un caractère qualitatif dans une proportion inconnue p1 . Le
deuxième échantillon dont nous disposons provient d’une population 2 dont les élé-
ments possèdent le même caractère qualitatif dans une proportion inconnue p2 .
D = p1 − p2 .
n f +n f
p̂ ≈ 1n11 +n22 2
3 ème étape : Détermination des zones d’acceptation et de rejet
Déterminer dans la table la valeur maximale t α2 de l’écart réduit. imputable aux
variations d’échantillonnage au seuil de signification α, c’est-à-dire vérifiant :
α α
P(− ≤ T ≥ = 1 − α.
2 2
. 4 ème étape :Règle de décision
• ⇒ Si la valeur t0 se trouve dans la zone de rejet, on dira que la valeur observée
pour T est statistiquement significative au seuil α. Ce quotient est éloigné de 1
et ne permet pas d’accepter H0 . On rejette H0 .
⇒ Si la valeur t0 se trouve dans la zone d’acceptation, on dira que la valeur
observée pour T n’est pas significative au seuil α. L’écart constaté par rapport
à la valeur 1 attendue est imputable aux fluctuations d’échantillonnage. On
accepte H0 .
La démarche à suivre :
• fixer un risque d’erreur (la valeur 5 % est souvent choisie par défaut)
• Conclure si cette distance est supérieure à la distance critique (on conclut que
le résultat n’est pas dû seulement aux fluctuations d’échantillonnage).
Remarque : Le rejet de H0 est une réponse négative dans les tests de χ2 d’adéquation
et d’homogénéité alors qu’il apporte une information positive dans le test de χ2
d’indépendance.
• Les écarts entre les effectifs théoriques et ceux qui résultent des observations
sont significatifs d’une différence de distribution ou si ils sont dus aux fluctu-
ations d’échantillonnage.
La démarche à suivre :
1 ère étape : formulation des hypothèses.
H0 : Les observations suivent la distribution théorique spécifiée.
H1 : Les observations ne suivent pas la distribution théorique spécifiée
2 ème étape : Détermination de la statistique du test
k
(ni − npi )2
d= ∑ npi
i =1
3. Comparer les effectifs réels des croisements des modalités des deux variables
qualitatives avec les effectifs théoriques qu’on devrait obtenir dans le cas d’indépendance
de ces deux variables.
La démarche à suivre :
1 ère étape : formulation des hypothèses.
H0 : les deux distributions observées ne sont pas significativement différentes.
H1 : les deux distributions observées sont significativement différentes
2 ème étape : Détermination de la statistique du test
On construit un indice d mesurant l’écart constaté entre les deux effectifs.
•
(nij − npij )2
d= ∑ npij
ij
• ⇒ Si la valeur χ20 se trouve dans la zone de rejet, on dira que la valeur observée
pour F est statistiquement significative au seuil α. Ce quotient est éloigné de 1
et ne permet pas d’accepter H0 . On rejette H0 .
⇒ Si la valeur χ20 se trouve dans la zone d’acceptation, on dira que la valeur
observée pour F n’est pas significative au seuil α. L’écart constaté par rapport
à la valeur 1 attendue est imputable aux fluctuations d’échantillonnage. On
accepte H0 .
Exercice d’application:
La distribution du revenu des hommes est-elle différente de celle des femmes ?
2.6. Test du Khi deux 25
Une représentation sur une table de contingence des occurrences des variables
permet d’illustrer la question.
On remarque que les femmes sont plus nombreuses dans les classes à bas salaires
et moins nombreuses dans celles à haut salaire que les hommes.
Cette différence (c’est-à-dire cette dépendance entre les variables) est-elle statis-
tiquement significative ?
Pour α = 5 %, la valeur critique (Khi2 théorique) trouvée dans les tables de χ2 est
7,81.
Hypothèse : On suppose qu’il n’y a pas de différence entre les salaires des hommes
et ceux des femmes.
Le calcul du χ2 :
Conclusion :
La distance calculée (2.43) étant inférieure à la distance critique (7.81), il n’y a pas
lieu de mettre en cause l’égalité des salaires, avec un risque de se tromper égal à 5%.
Solution :
Age du décès Nombre de grossesses inférieur à 3 Nombre de grossesses suprieur à 3 Total lignes
Inférieur à 3 mois 18 6 24
Supérieur à 3 mois 17 19 36
Total colonnes 35 25 60
Calculer χ2
2.7 Exercices
Exercice 1 :
Deux populations bactériennes ont une sensibilité différente à la pénicilline. La pre-
mière est caractérisée par un diamètre moyen de la zone d’inhibition de la croissance
de 11 mm, avec une déviation standard de 1 mm (la distribution est supposée nor-
male). La seconde a un diamètre moyen de 8 mm, avec une déviation standard de
0,8 mm. On désire déterminer la population d’origine d’une colonie en examinant
la taille d’une plage. On demande: