Chapitre 10

Chapitre 10: Introduction aux tests
statistiques
1. Approche
• Hypothèse nulle
• p-value et niveau
• Statistique de test
• Hypothèse alternative
• Puissance
2. Formalisme général d’un test statistique
3. Intervalle de confiance
1
1. Approche
Exemple introductif (démonstration au cours)
On imagine un casino proposant un jeu basé sur le jet d’une pièce prétendument
équilibrée. On jette un certain nombre de fois la pièce et on obtient (ou prétend obtenir...)
“Pile” à chaque fois. Après chaque jet, on demande aux étudiants s’ils estiment que le
degré d’évidence quant au déséquilibre de la pièce est suffisant pour décider de fermer le
casino. Exemple de résultat obtenu:
Positions des étudiants après n lancers de pièce, tous "Pile"
Fermer le casino Ne pas fermer le casino

100 %
80 %
60 %
40 %
20 %
0%
1 2 3 4 5 6
2
Cet exemple montre qu’une même expérience n’amène pas spontanément tout le monde
aux mêmes conclusions.
La logique des tests statistiques permet de formaliser la façon de tirer des conlusions à
partir d’une expérience.
Ce chapitre expose cette logique, commune à toute procédure de test statistique, en

suivant deux exemples concrets.
3
Hypothèse nulle
Un test statistique se base sur les points suivants:
1. Formulation d’une hypothèse. Traditionnellement, on appelle cette hypothèse
l’hypothèse nulle et on la note H0. (La raison de cette appellation apparaı̂tra plus
clairement dans la suite.)
2. Utilisation de la théorie statistique pour déterminer si les données soutiennent cette
hypothèse H0 ou non.
3. Rejet de H0 si les données ne la soutiennent pas.
4
Dans l’exemple de la pièce, on fait l’hypothèse qu’on a une pièce équilibrée:
H0: P (P ile) = P (F ace) = 1 2.
→ A quel point l’observation d’un jet P ile sur un, de deux jets P ile sur deux, ..., de
six jets P ile sur six soutient-elle cette hypothèse?
Dans ce qui suit, on va en fait calculer à quel point ces observations condamnent cette
hypothèse.
Pour ce faire on va calculer, sous l’hypothèse H0, la probabilité que les observations
s’éloignent au moins autant de H0 que ce qui a été observé.
→ Si cette probabilité est faible, on en conclura que soit H0 n’est pas vraie, soit un
événement rare a eu lieu. Ne croyant pas en la survenue d’un événement rare, on rejettera
alors H0.
N.B.: Notation: Dans ce qui suit, on utilisera la notation PH0 pour indiquer qu’une
probabilité est calculée sous H0, i.e. en considérant que H0 est vraie.
5
• Un jet P ile sur un:
Notre hypothèse H0 plaiderait pour autant de P ile que de F ace, or il y a 1 P ile
et 0 F ace. Avec un seul jet, on ne peut pas satisfaire H0 : si on avait eu F ace, on
s’en éloignerait autant mais de l’autre coté.
→ PH0 (s’éloigner au moins autant de H0) = PH0 (P ile ou F ace) = 1
→ A tous les coups, on s’éloigne au moins autant de H0
• Deux jets P ile sur deux:
On s’éloignerait autant de H0 avec deux F ace.
→ PH0 (s’éloigner au moins autant de H0) = PH0 (2P ile ou 2F ace)
= PH0 (2P ile) + PH0 (2F ace) = 0.52 + 0.52 = 0.5
→ Sous H0, on a une chance sur deux de s’éloigner au moins autant de H0
• Trois jets P ile sur trois:
On s’éloignerait autant de H0 avec trois F ace.
= PH0 (3P ile) + PH0 (3F ace) = 0.53 + 0.53 = 0.25
→ Sous H0, on a une chance sur quatre de s’éloigner au moins autant de H0
6
• Quatre jets P ile sur quatre:
On s’éloignerait autant de H0 avec quatre F ace.
= PH0 (4P ile) + PH0 (4F ace) = 0.54 + 0.54 = 0.125
→ Sous H0, on a une chance sur huit de s’éloigner au moins autant de H0
• Cinq jets P ile sur cinq:
On s’éloignerait autant de H0 avec cinq F ace.
= PH0 (5P ile) + PH0 (5F ace) = 0.55 + 0.55 = 0.0625
→ Sous H0, on a une chance sur seize de s’éloigner au moins autant de H0
• Six jets P ile sur six:
On s’éloignerait autant de H0 avec six F ace.
= PH0 (6P ile) + PH0 (6F ace) = 0.56 + 0.56 = 0.03125
→ Sous H0, on a une chance sur trente-deux de s’éloigner au moins autant de H0
7
On constate donc qu’au fur et à mesure que les P ile s’accumulent, une pièce équilibrée
a de moins en moins de chances de produire un résultat aussi extrême. Autrement dit,
H0 est de plus en plus condamnée par l’expérience. Le fait que l’expérience condamne
H0 va nous conduire à la rejeter. Mais à partir de quand devrait-on rejeter H0?
Dans la recherche scientifique, un usage largement répandu consiste à rejeter une

hypothèse nulle si PH0 (s’éloigner au moins autant de H0) ≤ 5%. Le raisonnement
est alors le suivant:
Si H0 était vraie, j’aurais une probabilité inférieure à 5% d’observer

quelque chose d’aussi extrême ou plus extrême que ce que j’ai
observé. Je considère que cette probabilité est trop faible pour
croire en H0 et je la rejette.
Ou, en d’autres termes: Soit H0 est fausse, soit un événement rare s’est produit. Je ne
crois pas à la survenue d’un événement rare et donc je rejette H0.
On voit donc qu’il y a une part de subjectivité dans la décision de rejeter H0. Rien dans
la théorie statistique ne dit qu’il faut fixer la valeur limite à 5% plutôt qu’à 1%, 2% ou
10% par exemple.
8
p-value et niveau
Quelques définitions
• Le processus décrit dans les transparents qui précèdent s’appelle un test statistique.
• PH0 (s’éloigner au moins autant de H0) (la probabilité sous H0 que les observations
s’éloignent de H0 au moins autant que ce qui a été observé) s’appelle la p-value du
test.
• La valeur limite pour la p-value, au-dessous de laquelle on rejette H0, s’appelle le
niveau (ou le seuil) du test.
Avec ces nouveaux termes:
Dans un test statistique, on rejette l’hypothèse nulle lorsque la

p-value est inférieure ou égale au niveau du test.
• Lorsque la p-value est inférieure ou égale au niveau, on dit que le résultat est
statistiquement significatif.
9
Dans l’exemple de la pièce, on aurait donc:
Nombre de jets tous P ile p-value

1 1
2 0.5
3 0.25
4 0.125
5 0.0625
6 0.03125
En fixant le niveau à 5%, on ne rejetterait donc H0 qu’au bout de 6 jets P ile sur 6.
1 et
On dirait alors que la probabilité d’obtenir P ile est significativement supérieure à 2
on aurait montré statistiquement que la pièce est déséquilibrée.
10
Attention:
• Nulle part dans cette procédure on ne parle de la probabilité que H0 soit vraie.
D’ailleurs, il n’est pas évident de définir “la probabilité que H0 soit vraie”. Par exemple,
le sens de la phrase “la probabilité que H0 soit vraie est de 90%” n’est pas clair.
Dans notre exemple, soit la pièce est équilibrée, soit elle ne l’est pas. Il n’y a pas de
phénomène aléatoire sur lequel définir une probabilité.
Dans ce cours, à chaque fois qu’on parlera de la probabilité d’un événement, on aura en
tête la répétition hypothétique d’une expérience, et la probabilité est définie comme
la proportion moyenne des fois où l’événement aura eu lieu. Ainsi P(P ile) est la
proportion moyenne de P ile si on lance plusieurs fois la pièce. Dire que la pièce est
équilibrée, i.e. P (P ile) = 1 2 , revient à dire que si on lance plusieurs fois la pièce on
aura en moyenne autant de P ile que de F ace.
• Une des erreurs les plus fréquentes d’interprétation de la p-value est justement de dire
que la p-value est la probabilité que H0 soit vraie, étant donné les observations. En
fait, ce serait plutôt le contraire : La p-value est la probabilité d’obtenir les observations
(ou des observations plus extrêmes), étant donné H0.
11
Autre exemple: poissons du lac
Dans le cadre d’une étude environnementale, on cherche à savoir si la faune d’un certain
lac évolue au cours du temps ou si elle reste stable. On souhaite notamment savoir si
la taille moyenne des poissons peuplant ce lac a changé depuis la dernière mesure, égale
à 5 cm. En termes statistiques, on souhaite tester l’hypothèse nulle selon laquelle les
poissons du lac ont une taille moyenne µ de µ0 = 5 cm. On pose donc H0: µ = µ0.
On prélève un échantillon aléatoire de 30 poissons de tailles x1, ..., x30, et on trouve
que leur taille moyenne x̄ vaut 7 cm.
Peut-on en déduire que la taille moyenne des poissons du lac est supérieure à 5 cm?
Est-il crédible que la taille moyenne des poissons du lac soit malgré tout de 5 cm, alors
que la moyenne dans notre échantillon est de 7 cm? Si la taille moyenne des poissons du
lac était de 5 cm, serait-il fréquent ou rare que le hasard de l’échantillonnage produise
un tel échantillon?
Plus précisément: si la taille moyenne des poissons du lac était de 5 cm, quelle serait la
probabilité de tirer un échantillon de taille 30 où la taille moyenne s’éloigne au moins
autant de 5 cm?
→ Cette probabilité est la p-value du test de H0.
→ Comment la calculer?
12
Grâce au théorème central limite, on connaı̂t approximativement la distribution de X̄:
σ2
!
X̄ ∼
˙ N µ, ,
n
où σ 2 est la variance des tailles des poissons du lac.
Si H0: µ = µ0 était vraie, on aurait donc que
σ2
!
X̄ ∼
˙ N µ0 , .
n
σ 2 est inconnu, mais non peut l’estimer par la variance de l’échantillon:
30
2 1 X
σ̂ = (xi − x̄)2 = 20.3 cm2.
n i=1
Connaissant la distribution de X̄ sous H0, nous pouvons à présent calculer la probabilité
qu’elle s’éloigne au moins autant de 5 cm que ce que nous avons observé (7 cm).
13
Si H0: µ = µ0 était vraie, on aurait donc:
PH0 (s’éloigner au moins autant de H0) = PH0 (X̄ ≤ 3 ou X̄ ≥ 7)
= 2PH0 (X̄ ≥ 7)
!
X̄ − µ0 7 − µ0
= 2PH0 √ ≥ √
σ̂/ n σ̂/ n
!
X̄ − µ0 7−5
= 2PH0 √ ≥√ √
σ̂/ n 20.3/ 30
!
X̄ − µ0
= 2PH0 √ ≥ 2.43
σ̂/ n
≈ 2(1 − Φ(2.43))
= 0.015
La p-value de notre test est donc égale à 1.5%. Au seuil de 5%, on rejette donc H0 et
on en conclut que la taille moyenne des poissons du lac est significativement supérieure
à 5 cm.
On a montré que si H0 était vraie il serait rare (1.5 chances sur 100) d’observer, par le
hasard de l’échantillonnage, un résultat au moins aussi extrême que celui qu’on a observé.
Ne croyant pas en la survenue d’un événement rare, on rejette H0.
14
Statistique de test
L’outil qui nous a permis de calculer la p-value est la variable standardisée Z = X̄−µ
√ 0.
σ̂/ n
On a utilisé le fait que sous H0, grâce au théorème central limite, on a
Z∼
˙ N (0, 1).
On appelle cette variable la statistique de test.
Les deux caractéristiques essentielles de la statistique de test sont les suivantes

1. Elle permet de mesurer à quel point les observations s’éloignent de l’hypothèse nulle
2. Sa distribution sous H0 est connue
Ainsi, dans l’exemple des poissons du lac, Z = X̄−µ √ 0 est une mesure standardisée de la
σ̂/ n
différence entre les observations (X̄) et l’hypothèse nulle (µ0). Sous H0, sa distribution
est connue grâce au TCL.
Ce sont ces deux points qui permettent la calcul de la p-value.
15
On a la situation suivante pour la distribution de Z sous H0:
0 z=2.43
Comme on l’a vu en page 14, la p-value est égale à

!
X̄ − µ0
PH0 (s’éloigner au moins autant de H0) = 2PH0 √ ≥ 2.43
σ̂/ n
Pour quelles valeurs de z va-t-on rejeter H0?
= 2P ≥ 2.43)
(Zp-value
H0ala
→
QuePour
vautunz, test
la valeur observ
au niveau αée=de5%,
Z sur
lesl’valeurs
échantillon?
telles Onque est ≤ 0.05.
= 1.5% est le quantile d’ordre 0.975
x̄ − µ|z|
Il s’agit des valeurs pour lesquelles 0
≥ z 7
0.975−, o
5 ù z 0.975
de la distribution normale √ =
z =standard. √ √ = 2.43
σ̂/ n Ces valeurs
20.3/ constituent
30 le domaine de rejet de H0.
16
P−value = 1.5 %
−z=−2.43 0 z=2.43
Que vaut z, la valeur observée de Z sur l’échantillon? On a

Pour quelles valeurs de z va-t-on rejeter H0?
→ Pour on
un l’a
testvuauenniveau αx̄=− 5%, 7−5
µ0 les valeurs la p-value est ≤ 0.05.
Comme page
z= 14, la√ = √ galetelles
p-value est é √à que
= 2.43
σ̂/ n
Il s’agit des valeurs pour lesquelles 20.3/
|z| ≥ z0.975 , où 30
z0.975 est le quantile d’ordre
! 0.975
X̄ − µ0
de la Pdistribution normale
H0 (s’éloigner standard.
au moins Ces
autant devaleurs
H0) constituent
= 2PH0 le domaine √ ≥ de 2.43
rejet de H0.
σ̂/ n
= 2PH0 (Z ≥ 2.43)
= 1.5%
17
5% Domaine de rejet de H0
] [
− z0.975=−1.96 0 z0.975=1.96 z=2.43
Comme on l’a vu en page 14, la p-value est égale à

!
X̄ − µ0
PH0 (s’éloigner au moins autant de H0) = 2PH0 √ ≥ 2.43
Que vaut z, la valeur observée de Z sur l’échantillon? On a σ̂/ n
Pour quelles valeurs de z va-t-on ? −= 2PH0 (Z ≥ 2.43)
x̄ − µrejeter
0
H0 7 5
→ Pour un test au niveau z =α =√5%, =les√valeurs=
√ 1.5%
telles = 2.43
que la p-value est ≤ 0.05.
σ̂/ n 20.3/ 30
Il s’agit des valeurs pour lesquelles |z| ≥ z0.975, où z0.975 est le quantile d’ordre 0.975
de la distribution normale standard. Ces valeurs constituent le domaine de rejet de H0.
18
En résumé:
p-value ≤ 0.05 ⇐⇒ Z ∈ domaine de rejet
On peut donc mener le test en se basant soit sur la p-value, soit sur la valeur de la
statistique de test.
Pour un niveau α quelconque, le domaine de rejet pour ce test est défini par
z ∈ Domaine de rejet de H0 ⇐⇒ |z| ≥ z1−α/2
→ Quelle est la probabilité de rejeter l’hypothèse nulle dans le cas où elle est vraie?
PH0 (rejeter H0) = PH0 (Z ∈ domaine de rejet)
= PH0 (|Z| ≥ z1−α/2)
= α
Le fait de rejeter une hypothèse nulle vraie s’appelle une erreur de première espèce. En
fixant un niveau pour notre test, on contrôle donc la probabilité de commettre une erreur
de première espèce: à chaque fois qu’on fait un test à 5%, on sait que si H0 est vraie
on n’aura que 5% de chance de la rejeter.
19
Hypothèse alternative
Dans le formalisme classique des tests statistiques, on considère, en plus de l’hypothèse

nulle H0, une hypothèse alternative, que l’on note H1. De manière générale, l’hypothèse
alternative est la négation de l’hypothèse nulle.
Dans l’exemple des poissons du lac, on a H0 : µ = µ0, et donc on a H1 : µ 6= µ0.
On comprend mieux à présent l’appellation “hypothèse nulle”: c’est l’hypothèse d’absence
de différence ou d’absence d’effet (pour les poissons: absence de différence entre la taille
moyenne avant et après, ou absence d’effet du temps sur la taille moyenne).
Par opposition, l’hypothèse alternative postule la présence d’une différence ou d’un effet.
Elle est parfois appelée l’hypothèse scientifique, car dans une étude on est souvent
intéressé à démontrer une différence ou un effet (e.g. différence entre deux groupes
de patients: traités et non traités, i.e. effet du médicament).
Au sens statistique, démontrer a précisément la signification suivante: on dit qu’on a
démontré statistiquement une hypothèse scientifique H1 si on a rejeté H0, l’hypothèse
nulle correspondante, dans une procédure de test statistique.
20
Puissance
On a vu que lorsqu’on fait un test statistique, on commet une erreur de première espèce
si H0 est vraie et qu’on la rejette, et que ce risque est contrôlé en fixant le niveau du
test.
Un autre type d’erreur qu’on est susceptible de commettre est de ne pas rejeter H0 dans
le cas où elle est fausse. Dans ce cas, on aura manqué de détecter un effet présent dans
la population. On appelle cette erreur une erreur de deuxième espèce.
De même qu’on s’est intéressé à PH0 (rejeter H0), on peut s’intéresser à
PH1 (ne pas rejeter H0), pour connaı̂tre le rique d’erreur de deuxième espèce. En
général, on considère plutôt 1 − PH1 (ne pas rejeter H0), que l’on appelle la puissance
du test. La puissance d’un test est la probabilité de détecter un effet lorsqu’il est présent.
On souhaite donc qu’elle soit aussi élevée que possible.
21
Mais PH1 (ne pas rejeter H0) n’est pas aussi simple à calculer que PH0 (rejeter H0)
car, contrairement à H0, H1 ne spécifie pas de valeur précise pour le paramètre d’intérêt,
elle dit juste qu’il est différent de µ0. La valeur de PH1 (ne pas rejeter H0), et donc de
la puissance, va dépendre de la vraie valeur du paramètre dans la population: plus µ sera
différent de µ0, plus la puissance sera élevée. Autrement dit, plus un effet est important,
plus il sera facile de le détecter.
D’autre part, la puissance dépendra de la taille de l’échantillon: étant donné un effet,
la probabilité de le détecter va dépendre de la précision de la mesure, et on sait que la
précision augmente avec la taille de l’échantillon.
En général, on considère le problème dans l’autre sens: on postule un certaine taille d’effet
scientifiquement intéressante, et on calcule la taille d’échantillon nécessaire pour avoir
une certaine puissance (i.e. une certaine probabilité de le détecter).
On ne considérera pas davantage ce problème dans ce cours.
22
2. Formalisme général d’un test statistique
On a vu qu’on peut mener une procédure de test statistique soit en calculant la p-value
et en la comparant au seuil, soit en calculant la valeur de la statistique de test sur
l’échantillon et en regardant si elle se trouve dans le domaine de rejet. Ces deux façons
de procéder sont tout à fait équivalentes.
Dans les deux derniers chapitres de ce cours, on introduira deux procédures de test
classiques, le test du chi carré et le t-test, en suivant l’approche suivante, en quatre
étapes:
• Hypothèses
• Echantillon
• Règle de décision
23
Dans l’exemple des poissons du lac, cela donne:
• Hypothèses
H0: µ = µ0 = 5 cm H1: µ 6= µ0
• Echantillon
Tirage aléatoire de 30 poissons
Z = X̄−µ
√0
σ̂/ n
Rejeter H0 si |z| ≥ z1−α/2,

où α est le niveau du test (dans notre exemple, α = 0.05).
24
Comment se présente le test de la pièce en suivant ce formalisme?
→ La statistique de test est ici le nombre K de résultats P ile sur six lancers. K satisfait
en effet les deux propriétés essentielles d’une statistique de test:
• Elle permet de mesurer à quel point les observations s’éloignent deH0
• Sa distribution sous H0 est connue: sous H0, on a K ∼ B 6, 2 1 .
(C’est ce qu’on a utilisé, sans le dire, lors du calcul de la p-value pour ce test.)
On obtient donc:
• Hypothèses
H0: P (P ile) = 1
2 H1: P (P ile) 6= 1
2
• Echantillon
6 lancers de la pièce
K = Nombre de P ile
Rejeter H0 si K = 6 ou K = 0
Ce test s’appelle un test binomial. Dans le chapitre 11, nous verrons une autre procédure
de test que l’on peut utiliser pour ce type de données.
25
3. Intervalle de confiance
Comme mentionné plus haut, lorsqu’on mène une procédure de test statistique, on espère
souvent pouvoir rejeter l’hypothèse nulle, qui postule généralement la nullité d’un effet.
Imaginons par exemple qu’on teste un nouveau médicament contre l’hypertension en
comparant la diminution moyenne de tension artérielle dans deux groupes de patients,
les uns traités avec le nouveau médicament et les autres avec un médicament existant.
Dans cette situation on souhaite montrer que le nouveau médicament est plus efficace
que l’ancien. En notant µ1 et µ2 les diminutions moyennes dans le groupe nouveau et
le groupe ancien médicament, on aura:
H0: µ1 = µ2 et H1: µ1 6= µ2.
Si sur l’échantillon on observe µ̂1 > µ̂2 et que le test rejette H0, on conclura que le
nouveau médicament est significativement meilleur que l’ancien.
Cependant, il nous manquera encore une information importante pour pouvoir décider
d’abandonner l’ancien médicament en faveur du nouveau: à quel point le nouveau
médicament est-il meilleur? Il nous serait utile de pouvoir donner une fourchette de
valeurs plausibles de la différence de diminution entre les deux groupes, d = µ1 − µ2.
Cette information nous est fournie par l’intervalle de confiance sur le paramètre d.
26
Nous avons vu qu’un test statistique va rejeter l’hypothèse nulle si les observations ne
plaident pas en sa faveur. Dans l’exemple des poissons, l’hypothèse que la taille moyenne
est de 5cm a été rejetée par le test. Quel aurait été le résultat si on avait considéré une
autre hypothèse nulle, par exemple H0 : µ = µ0 = 6cm?
→ calcul de z, la valeur observée de la statistique de test sur l’échantillon:

x̄ − µ0 7−6
z= √ =√ √ = 1.22
σ̂/ n 20.3/ 30
Cette fois, on a |z| < 1.96 = z0.975 et on ne rejette donc pas H0. La valeur de 6cm
n’est pas mise en défaut par les observations et on peut donc la considérer comme une
valeur plausible de la vraie taille moyenne µ des poissons du lac.
Pour construire une fourchette de valeurs plausibles de µ, nous allons chercher toutes
les valeurs qui ne sont pas rejetées par le test.
27
Ces valeurs sont celles qui satisfont la relation
x̄ − µ
|z| = √ ≤ z0.975,
σ̂/ n
c’est à dire
x̄ − µ
−z0.975 ≤ √ ≤ z0.975.
σ̂/ n
En manipulant cette expression, on arrive à
σ̂ σ̂
x̄ − z0.975 √ ≤ µ ≤ x̄ + z0.975 √
n n
(v. développement à la page suivante). En conséquence, on définit l’intervalle de confiance
pour le paramètre µ comme
" #
σ̂ σ̂
IC = x̄ − z0.975 √ , x̄ + z0.975 √ .
n n
En remplaçant les symboles par les valeurs numériques, on obtient:
" √ √ #
20.3 20.3
IC = 7 − 1.96 √ , 7 + 1.96 √
30 30
= [5.39, 8.61]
28
Développement de la relation de la page précédente:
x̄ − µ
−z0.975 ≤ √ ≤ z0.975
σ̂/ n
⇐⇒
σ̂ σ̂
−z0.975 √ ≤ x̄ − µ ≤ z0.975 √
n n
⇐⇒
σ̂ σ̂
−x̄ − z0.975 √ ≤ −µ ≤ −x̄ + z0.975 √
n n
⇐⇒
σ̂ σ̂
x̄ + z0.975 √ ≥ µ ≥ x̄ − z0.975 √
n n
⇐⇒
σ̂ σ̂
x̄ − z0.975 √ ≤ µ ≤ x̄ + z0.975 √
n n
29
Dans l’exemple des poissons, on a donc obtenu
" #
σ̂ σ̂
IC = x̄ − z0.975 √ , x̄ + z0.975 √
n n
= [5.39cm, 8.61cm]
comme fourchette de valeurs plausibles de la taille moyenne des poissons du lac. On voit
que la valeur de 5cm ne fait pas partie de cette fourchette, ce qui est normal puisqu’on
a vu que l’hypothèse nulle H0 : µ = 5cm est rejetée par le test, et que la fourchette
contient toutes les valeurs NON rejetées (par exemple, elle contient la valeur 6cm).
Plus généralement, le lien entre intervalle de confiance et test statistique implique qu’un
intervalle de confiance donne le résultat du test statistique correspondant pour n’importe
quelle valeur µ0 du paramètre sous H0. En effet, si µ0 est à l’intérieur de l’IC, H0 :
µ = µ0 n’est pas rejetée; si µ0 est à l’extérieur de l’IC, H0 : µ = µ0 est rejetée.
Un IC fournit donc une idée de la précision avec laquelle un échantillon permet d’estimer
un paramètre: plus l’intervalle est étroit, plus la précision est grande. On voit que cette
précision dépend
• de la variabilité des données, estimée par σ̂: plus la variabilité est grande, plus la
précision est faible
• de la taille de l’échantillon n: plus n est grand, plus la précision est élevée 30
La largeur d’un intervalle de confiance dépend encore du degré de confiance que l’on
souhaite avoir. Dans ce qui précède, nous avons défini un intervalle de confiance en nous
basant sur un test avec un niveau de 5%. Si on avait utilisé un niveau de 1% on aurait
obtenu
" #
σ̂ σ̂
IC = x̄ − z0.995 √ , x̄ + z0.995 √ .
n n
En insérant z0.995 = 2.58 dans l’équation ci-dessus, on obtient l’intervalle
IC = [4.88cm, 9.12cm],
qui est plus large que le précédent.
Ce résultat est logique: un test au niveau 1% exige plus d’évidence qu’un test à 5% pour
donner un résultat significatif. Il est donc normal que les valeurs non rejetées (i.e. non
significatives) à 5% ne le soient pas non plus à 1%.
31
Propriété essentielle d’un intervalle de confiance
Reprenons la relation qui définit l’IC basé sur un test de niveau 5%:
σ̂ σ̂
x̄ − z0.975 √ ≤ µ ≤ x̄ + z0.975 √ .
n n
Dans cette expression, x̄ est la valeur observée de la variable aléatoire X̄. L’intervalle de
confiance que nous avons vu est donc en fait la valeur observée de l’intervalle aléatoire
" #
σ̂ σ̂
IC = X̄ − z0.975 √ , X̄ + z0.975 √ .
n n
On peut se demander quelle est la probabilité que cet intervalle contienne la vraie taille
moyenne µ. Autrement dit, que vaut
!
σ̂ σ̂
P X̄ − z0.975 √ ≤ µ ≤ X̄ + z0.975 √ ?
n n
32
En utilisant le développement de la p. 20 dans l’autre sens, on obtient

P X̄ − z0.975 √σ̂n ≤ µ ≤ X̄ + z0.975 √σ̂n

X̄−µ
= P −z0.975 ≤ σ̂/√ ≤ z0.975
n
≈ 0.95,
puisque le théorème central limite nous assure que
X̄ − µ
√ ∼ ˙ N (0, 1).
σ̂/ n
On obtient donc que la probabilité que la vraie taille moyenne µ se trouve dans cet
intervalle est de 95%.
Il faut comprendre cela de la façon suivante: si on tirait un grand nombre d’échantillons

de la population et qu’on calculait à chaque fois l’intervalle IC, alors 95% en moyenne
de ces intervalles contiendraient la vraie valeur µ inconnue.
On dit que l’intervalle IC est un intervalle de confiance de niveau de couverture 95%, ou

simplement un intervalle de confiance à 95%, pour le paramètre µ.
33
On vient de voir que le niveau de couverture d’un intervalle de confiance construit à
partir d’un test de niveau 5% est de 95%. En faisant le même raisonnement avec un IC
défini à partir d’un test à 1%, on obtient

P X̄ − z0.995 √σ̂n ≤ µ ≤ X̄ + z0.995 √σ̂n

X̄−µ
= P −z0.995 ≤ σ̂/√ ≤ z0.995
n
≈ 0.99,
et le niveau de couverture de cet IC est donc de 99%.
Ce résultat rend d’autant plus évident le fait que cet IC doit être plus large que le
précédent, puisque la probabilité qu’il contienne la vraie valeur µ est plus élevée.
De façon générale, un intervalle de confiance construit à partir d’un test de niveau α a

un niveau de converture 1 − α.
34
NB: Cette propriété de l’intervalle de confiance repose sur une approximation valable
pour des tailles d’échantillon suffisamment grandes (théorème central limite).
La taille d’échantillon à partir de laquelle l’intervalle peut-être considéré comme valide,

i.e. à partir laquelle la probabilité que l’intervalle de niveau de couverture 1−α contienne
la vraie valeur est vraiment de 1 − α, dépend de la distribution des données.
Le même problème se pose quant au niveau α du test qui a servi à définir l’IC: la
probabilité de rejeter l’hypothèse nulle lorsqu’elle est vraie vaudra α seulement si la taille
de l’échantillon est suffisamment élevée.
35
Méthode de Wald
Considérons encore l’intervalle de confiance à 95%
" #
σ̂ σ̂
IC = X̄ − z0.975 √ , X̄ + z0.975 √
n n
et remarquons (ou souvenons-nous) que sd(X̄), l’écart-type de l’estimateur X̄ est égal
à √σn , ce que l’on peut estimer par sd(
ˆ X̄) = √σ̂ .
n
On obtient alors que l’intervalle de confiance à 95% pour µ est égal à

h i
ˆ X̄) , X̄ + z0.975 sd(
IC = X̄ − z0.975 sd( ˆ X̄) .
Cette dernière formule est assez générale et s’applique à n’importe quel estimateur
asymptotiquement normal, i.e. dont la distribution s’approche de plus en plus d’une
distribution normale lorsque la taille de l’échantillon devient grande, comme c’est le
cas pour la moyenne arithmétique X̄. Comme la plupart des estimateurs utilisés en
statistique ont cette propriété, cette méthode peut presque toujours être utilisée (si la
taille de l’échantillon est suffisamment grande). Elle s’appelle la méthode de Wald, et
l’intervalle de confiance obtenu est appelé un intervalle de confiance de Wald.
36
De plus, en se souvenant que z0.975 = 1.96 ≈ 2, on obtient la formule approximative
suivante:
h i
ˆ X̄) , X̄ + 2 sd(
IC ≈ X̄ − 2 sd( ˆ X̄) .
La connaissance de la valeur approximative de z0.975 permet donc de de calculer de

tête un intervalle de confiance à 95% lorsqu’on connaı̂t l’écart-type d’un estimateur.
De façon plus générale, l’intervalle de confiance de Wald de niveau de couverture 1 − α

pour un estimateur θ̂ d’un paramètre θ est donné par

ˆ θ̂) , θ̂ + z1− α sd(
IC = θ̂ − z1− α sd( ˆ θ̂) .
2 2
37
Commentaire à propos de l’intervalle de confiance et de la
p-value
En règle générale un intervalle de confiance est plus informatif qu’une p-value. En effet,
un intervalle de confiance donne une idée de la valeur du paramètre d’intérêt, ce que ne
fournit pas la p-value. De plus, la p-value dépend beaucoup de la taille de l’échantillon.
On peut rejeter à peu près n’importe quelle hypothèse nulle en prenant un échantillon
suffisammenent grand, mais l’importance du résultat peut-être très faible au niveau
pratique.
Pour reprendre l’exemple des poissons, imaginons qu’on ait tiré un échantillon de
1’000’000 de poissons et trouvé l’estimation x̄ = 5.01 cm, avec la même variabilité
que précédemment, i.e. σ̂ 2 = 20.3 cm2. La p-value correspondante pour tester
H0 : µ = 5 cm est
!
x̄ − 5
P |Z| ≥ √ = P (|Z| ≥ 2.22) = 0.03
σ̂/ n
et on en déduit que la taille moyenne des poissons du lac est significativement supérieure
à 5 cm. A-t-on fait une importante découverte scientifique?
38
L’intervalle de confiance à 95% est ici de
" #
σ̂ σ̂
IC = x̄ − 1.96 √ , x̄ + 1.96 √ = [5.001 , 5.02].
n n
On voit donc que la différence avec 5 cm, quoique significative, est infime, et n’est
probablement d’aucun intérêt scientique.
Dans la recherche biomédicale, on a parfois tendance à accorder trop d’importance à la

p-value, sans considérer l’importance scientifique du résultat.
39

Chapitre 10

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Chapitre 10

Transféré par

Droits d'auteur :

Formats disponibles

Chapitre 10: Introduction aux tests

2. Formalisme général d’un test statistique

Fermer le casino Ne pas fermer le casino

Ce chapitre expose cette logique, commune à toute procédure de test statistique, en

Dans la recherche scientifique, un usage largement répandu consiste à rejeter une

Si H0 était vraie, j’aurais une probabilité inférieure à 5% d’observer

Dans un test statistique, on rejette l’hypothèse nulle lorsque la

Nombre de jets tous P ile p-value

Les deux caractéristiques essentielles de la statistique de test sont les suivantes

Ce sont ces deux points qui permettent la calcul de la p-value.

Comme on l’a vu en page 14, la p-value est égale à

Que vaut z, la valeur observée de Z sur l’échantillon? On a

Comme on l’a vu en page 14, la p-value est égale à

p-value ≤ 0.05 ⇐⇒ Z ∈ domaine de rejet

Dans le formalisme classique des tests statistiques, on considère, en plus de l’hypothèse

Tirage aléatoire de 30 poissons

Rejeter H0 si |z| ≥ z1−α/2,

H0: µ1 = µ2 et H1: µ1 6= µ2.

→ calcul de z, la valeur observée de la statistique de test sur l’échantillon:

Il faut comprendre cela de la façon suivante: si on tirait un grand nombre d’échantillons

On dit que l’intervalle IC est un intervalle de confiance de niveau de couverture 95%, ou

De façon générale, un intervalle de confiance construit à partir d’un test de niveau α a

La taille d’échantillon à partir de laquelle l’intervalle peut-être considéré comme valide,

On obtient alors que l’intervalle de confiance à 95% pour µ est égal à

La connaissance de la valeur approximative de z0.975 permet donc de de calculer de

De façon plus générale, l’intervalle de confiance de Wald de niveau de couverture 1 − α

Dans la recherche biomédicale, on a parfois tendance à accorder trop d’importance à la

Vous aimerez peut-être aussi