Vous êtes sur la page 1sur 39

Chapitre 10: Introduction aux tests

statistiques
1. Approche
• Hypothèse nulle
• p-value et niveau
• Statistique de test
• Hypothèse alternative
• Puissance

2. Formalisme général d’un test statistique

3. Intervalle de confiance

1
1. Approche
Exemple introductif (démonstration au cours)
On imagine un casino proposant un jeu basé sur le jet d’une pièce prétendument
équilibrée. On jette un certain nombre de fois la pièce et on obtient (ou prétend obtenir...)
“Pile” à chaque fois. Après chaque jet, on demande aux étudiants s’ils estiment que le
degré d’évidence quant au déséquilibre de la pièce est suffisant pour décider de fermer le
casino. Exemple de résultat obtenu:
Positions des étudiants après n lancers de pièce, tous "Pile"

Fermer le casino Ne pas fermer le casino


100 %

80 %

60 %

40 %

20 %

0%
1 2 3 4 5 6

2
Cet exemple montre qu’une même expérience n’amène pas spontanément tout le monde
aux mêmes conclusions.

La logique des tests statistiques permet de formaliser la façon de tirer des conlusions à
partir d’une expérience.

Ce chapitre expose cette logique, commune à toute procédure de test statistique, en


suivant deux exemples concrets.

3
Hypothèse nulle
Un test statistique se base sur les points suivants:
1. Formulation d’une hypothèse. Traditionnellement, on appelle cette hypothèse
l’hypothèse nulle et on la note H0. (La raison de cette appellation apparaı̂tra plus
clairement dans la suite.)
2. Utilisation de la théorie statistique pour déterminer si les données soutiennent cette
hypothèse H0 ou non.
3. Rejet de H0 si les données ne la soutiennent pas.

4
Dans l’exemple de la pièce, on fait l’hypothèse qu’on a une pièce équilibrée:
H0: P (P ile) = P (F ace) = 1 2.

→ A quel point l’observation d’un jet P ile sur un, de deux jets P ile sur deux, ..., de
six jets P ile sur six soutient-elle cette hypothèse?

Dans ce qui suit, on va en fait calculer à quel point ces observations condamnent cette
hypothèse.

Pour ce faire on va calculer, sous l’hypothèse H0, la probabilité que les observations
s’éloignent au moins autant de H0 que ce qui a été observé.
→ Si cette probabilité est faible, on en conclura que soit H0 n’est pas vraie, soit un
événement rare a eu lieu. Ne croyant pas en la survenue d’un événement rare, on rejettera
alors H0.

N.B.: Notation: Dans ce qui suit, on utilisera la notation PH0 pour indiquer qu’une
probabilité est calculée sous H0, i.e. en considérant que H0 est vraie.

5
• Un jet P ile sur un:
Notre hypothèse H0 plaiderait pour autant de P ile que de F ace, or il y a 1 P ile
et 0 F ace. Avec un seul jet, on ne peut pas satisfaire H0 : si on avait eu F ace, on
s’en éloignerait autant mais de l’autre coté.
→ PH0 (s’éloigner au moins autant de H0) = PH0 (P ile ou F ace) = 1
→ A tous les coups, on s’éloigne au moins autant de H0
• Deux jets P ile sur deux:
On s’éloignerait autant de H0 avec deux F ace.
→ PH0 (s’éloigner au moins autant de H0) = PH0 (2P ile ou 2F ace)
= PH0 (2P ile) + PH0 (2F ace) = 0.52 + 0.52 = 0.5
→ Sous H0, on a une chance sur deux de s’éloigner au moins autant de H0
• Trois jets P ile sur trois:
On s’éloignerait autant de H0 avec trois F ace.
→ PH0 (s’éloigner au moins autant de H0) = PH0 (3P ile ou 3F ace)
= PH0 (3P ile) + PH0 (3F ace) = 0.53 + 0.53 = 0.25
→ Sous H0, on a une chance sur quatre de s’éloigner au moins autant de H0

6
• Quatre jets P ile sur quatre:
On s’éloignerait autant de H0 avec quatre F ace.
→ PH0 (s’éloigner au moins autant de H0) = PH0 (4P ile ou 4F ace)
= PH0 (4P ile) + PH0 (4F ace) = 0.54 + 0.54 = 0.125
→ Sous H0, on a une chance sur huit de s’éloigner au moins autant de H0
• Cinq jets P ile sur cinq:
On s’éloignerait autant de H0 avec cinq F ace.
→ PH0 (s’éloigner au moins autant de H0) = PH0 (5P ile ou 5F ace)
= PH0 (5P ile) + PH0 (5F ace) = 0.55 + 0.55 = 0.0625
→ Sous H0, on a une chance sur seize de s’éloigner au moins autant de H0
• Six jets P ile sur six:
On s’éloignerait autant de H0 avec six F ace.
→ PH0 (s’éloigner au moins autant de H0) = PH0 (6P ile ou 6F ace)
= PH0 (6P ile) + PH0 (6F ace) = 0.56 + 0.56 = 0.03125
→ Sous H0, on a une chance sur trente-deux de s’éloigner au moins autant de H0

7
On constate donc qu’au fur et à mesure que les P ile s’accumulent, une pièce équilibrée
a de moins en moins de chances de produire un résultat aussi extrême. Autrement dit,
H0 est de plus en plus condamnée par l’expérience. Le fait que l’expérience condamne
H0 va nous conduire à la rejeter. Mais à partir de quand devrait-on rejeter H0?

Dans la recherche scientifique, un usage largement répandu consiste à rejeter une


hypothèse nulle si PH0 (s’éloigner au moins autant de H0) ≤ 5%. Le raisonnement
est alors le suivant:

Si H0 était vraie, j’aurais une probabilité inférieure à 5% d’observer


quelque chose d’aussi extrême ou plus extrême que ce que j’ai
observé. Je considère que cette probabilité est trop faible pour
croire en H0 et je la rejette.

Ou, en d’autres termes: Soit H0 est fausse, soit un événement rare s’est produit. Je ne
crois pas à la survenue d’un événement rare et donc je rejette H0.

On voit donc qu’il y a une part de subjectivité dans la décision de rejeter H0. Rien dans
la théorie statistique ne dit qu’il faut fixer la valeur limite à 5% plutôt qu’à 1%, 2% ou
10% par exemple.
8
p-value et niveau

Quelques définitions
• Le processus décrit dans les transparents qui précèdent s’appelle un test statistique.
• PH0 (s’éloigner au moins autant de H0) (la probabilité sous H0 que les observations
s’éloignent de H0 au moins autant que ce qui a été observé) s’appelle la p-value du
test.
• La valeur limite pour la p-value, au-dessous de laquelle on rejette H0, s’appelle le
niveau (ou le seuil) du test.
Avec ces nouveaux termes:

Dans un test statistique, on rejette l’hypothèse nulle lorsque la


p-value est inférieure ou égale au niveau du test.

• Lorsque la p-value est inférieure ou égale au niveau, on dit que le résultat est
statistiquement significatif.

9
Dans l’exemple de la pièce, on aurait donc:

Nombre de jets tous P ile p-value


1 1
2 0.5
3 0.25
4 0.125
5 0.0625
6 0.03125

En fixant le niveau à 5%, on ne rejetterait donc H0 qu’au bout de 6 jets P ile sur 6.
1 et
On dirait alors que la probabilité d’obtenir P ile est significativement supérieure à 2
on aurait montré statistiquement que la pièce est déséquilibrée.

10
Attention:
• Nulle part dans cette procédure on ne parle de la probabilité que H0 soit vraie.
D’ailleurs, il n’est pas évident de définir “la probabilité que H0 soit vraie”. Par exemple,
le sens de la phrase “la probabilité que H0 soit vraie est de 90%” n’est pas clair.
Dans notre exemple, soit la pièce est équilibrée, soit elle ne l’est pas. Il n’y a pas de
phénomène aléatoire sur lequel définir une probabilité.
Dans ce cours, à chaque fois qu’on parlera de la probabilité d’un événement, on aura en
tête la répétition hypothétique d’une expérience, et la probabilité est définie comme
la proportion moyenne des fois où l’événement aura eu lieu. Ainsi P(P ile) est la
proportion moyenne de P ile si on lance plusieurs fois la pièce. Dire que la pièce est
équilibrée, i.e. P (P ile) = 1 2 , revient à dire que si on lance plusieurs fois la pièce on
aura en moyenne autant de P ile que de F ace.
• Une des erreurs les plus fréquentes d’interprétation de la p-value est justement de dire
que la p-value est la probabilité que H0 soit vraie, étant donné les observations. En
fait, ce serait plutôt le contraire : La p-value est la probabilité d’obtenir les observations
(ou des observations plus extrêmes), étant donné H0.

11
Autre exemple: poissons du lac
Dans le cadre d’une étude environnementale, on cherche à savoir si la faune d’un certain
lac évolue au cours du temps ou si elle reste stable. On souhaite notamment savoir si
la taille moyenne des poissons peuplant ce lac a changé depuis la dernière mesure, égale
à 5 cm. En termes statistiques, on souhaite tester l’hypothèse nulle selon laquelle les
poissons du lac ont une taille moyenne µ de µ0 = 5 cm. On pose donc H0: µ = µ0.
On prélève un échantillon aléatoire de 30 poissons de tailles x1, ..., x30, et on trouve
que leur taille moyenne x̄ vaut 7 cm.

Peut-on en déduire que la taille moyenne des poissons du lac est supérieure à 5 cm?
Est-il crédible que la taille moyenne des poissons du lac soit malgré tout de 5 cm, alors
que la moyenne dans notre échantillon est de 7 cm? Si la taille moyenne des poissons du
lac était de 5 cm, serait-il fréquent ou rare que le hasard de l’échantillonnage produise
un tel échantillon?

Plus précisément: si la taille moyenne des poissons du lac était de 5 cm, quelle serait la
probabilité de tirer un échantillon de taille 30 où la taille moyenne s’éloigne au moins
autant de 5 cm?
→ Cette probabilité est la p-value du test de H0.
→ Comment la calculer?
12
Grâce au théorème central limite, on connaı̂t approximativement la distribution de X̄:
σ2
!
X̄ ∼
˙ N µ, ,
n
où σ 2 est la variance des tailles des poissons du lac.
Si H0: µ = µ0 était vraie, on aurait donc que
σ2
!
X̄ ∼
˙ N µ0 , .
n
σ 2 est inconnu, mais non peut l’estimer par la variance de l’échantillon:
30
2 1 X
σ̂ = (xi − x̄)2 = 20.3 cm2.
n i=1
Connaissant la distribution de X̄ sous H0, nous pouvons à présent calculer la probabilité
qu’elle s’éloigne au moins autant de 5 cm que ce que nous avons observé (7 cm).

13
Si H0: µ = µ0 était vraie, on aurait donc:
PH0 (s’éloigner au moins autant de H0) = PH0 (X̄ ≤ 3 ou X̄ ≥ 7)
= 2PH0 (X̄ ≥ 7)
!
X̄ − µ0 7 − µ0
= 2PH0 √ ≥ √
σ̂/ n σ̂/ n
!
X̄ − µ0 7−5
= 2PH0 √ ≥√ √
σ̂/ n 20.3/ 30
!
X̄ − µ0
= 2PH0 √ ≥ 2.43
σ̂/ n
≈ 2(1 − Φ(2.43))
= 0.015

La p-value de notre test est donc égale à 1.5%. Au seuil de 5%, on rejette donc H0 et
on en conclut que la taille moyenne des poissons du lac est significativement supérieure
à 5 cm.
On a montré que si H0 était vraie il serait rare (1.5 chances sur 100) d’observer, par le
hasard de l’échantillonnage, un résultat au moins aussi extrême que celui qu’on a observé.
Ne croyant pas en la survenue d’un événement rare, on rejette H0.
14
Statistique de test

L’outil qui nous a permis de calculer la p-value est la variable standardisée Z = X̄−µ
√ 0.
σ̂/ n
On a utilisé le fait que sous H0, grâce au théorème central limite, on a

Z∼
˙ N (0, 1).
On appelle cette variable la statistique de test.

Les deux caractéristiques essentielles de la statistique de test sont les suivantes


1. Elle permet de mesurer à quel point les observations s’éloignent de l’hypothèse nulle
2. Sa distribution sous H0 est connue
Ainsi, dans l’exemple des poissons du lac, Z = X̄−µ √ 0 est une mesure standardisée de la
σ̂/ n
différence entre les observations (X̄) et l’hypothèse nulle (µ0). Sous H0, sa distribution
est connue grâce au TCL.

Ce sont ces deux points qui permettent la calcul de la p-value.

15
On a la situation suivante pour la distribution de Z sous H0:

0 z=2.43

Comme on l’a vu en page 14, la p-value est égale à


!
X̄ − µ0
PH0 (s’éloigner au moins autant de H0) = 2PH0 √ ≥ 2.43
σ̂/ n
Pour quelles valeurs de z va-t-on rejeter H0?
= 2P ≥ 2.43)
(Zp-value
H0ala

QuePour
vautunz, test
la valeur observ
au niveau αée=de5%,
Z sur
lesl’valeurs
échantillon?
telles Onque est ≤ 0.05.
= 1.5% est le quantile d’ordre 0.975
x̄ − µ|z|
Il s’agit des valeurs pour lesquelles 0
≥ z 7
0.975−, o
5 ù z 0.975
de la distribution normale √ =
z =standard. √ √ = 2.43
σ̂/ n Ces valeurs
20.3/ constituent
30 le domaine de rejet de H0.

16
On a la situation suivante pour la distribution de Z sous H0:

P−value = 1.5 %

−z=−2.43 0 z=2.43

Que vaut z, la valeur observée de Z sur l’échantillon? On a


Pour quelles valeurs de z va-t-on rejeter H0?
→ Pour on
un l’a
testvuauenniveau αx̄=− 5%, 7−5
µ0 les valeurs la p-value est ≤ 0.05.
Comme page
z= 14, la√ = √ galetelles
p-value est é √à que
= 2.43
σ̂/ n
Il s’agit des valeurs pour lesquelles 20.3/
|z| ≥ z0.975 , où 30
z0.975 est le quantile d’ordre
! 0.975
X̄ − µ0
de la Pdistribution normale
H0 (s’éloigner standard.
au moins Ces
autant devaleurs
H0) constituent
= 2PH0 le domaine √ ≥ de 2.43
rejet de H0.
σ̂/ n
= 2PH0 (Z ≥ 2.43)
= 1.5%
17
On a la situation suivante pour la distribution de Z sous H0:

5% Domaine de rejet de H0

] [
− z0.975=−1.96 0 z0.975=1.96 z=2.43

Comme on l’a vu en page 14, la p-value est égale à


!
X̄ − µ0
PH0 (s’éloigner au moins autant de H0) = 2PH0 √ ≥ 2.43
Que vaut z, la valeur observée de Z sur l’échantillon? On a σ̂/ n
Pour quelles valeurs de z va-t-on ? −= 2PH0 (Z ≥ 2.43)
x̄ − µrejeter
0
H0 7 5
→ Pour un test au niveau z =α =√5%, =les√valeurs=
√ 1.5%
telles = 2.43
que la p-value est ≤ 0.05.
σ̂/ n 20.3/ 30
Il s’agit des valeurs pour lesquelles |z| ≥ z0.975, où z0.975 est le quantile d’ordre 0.975
de la distribution normale standard. Ces valeurs constituent le domaine de rejet de H0.
18
En résumé:

p-value ≤ 0.05 ⇐⇒ Z ∈ domaine de rejet

On peut donc mener le test en se basant soit sur la p-value, soit sur la valeur de la
statistique de test.

Pour un niveau α quelconque, le domaine de rejet pour ce test est défini par
z ∈ Domaine de rejet de H0 ⇐⇒ |z| ≥ z1−α/2

→ Quelle est la probabilité de rejeter l’hypothèse nulle dans le cas où elle est vraie?
PH0 (rejeter H0) = PH0 (Z ∈ domaine de rejet)
= PH0 (|Z| ≥ z1−α/2)
= α
Le fait de rejeter une hypothèse nulle vraie s’appelle une erreur de première espèce. En
fixant un niveau pour notre test, on contrôle donc la probabilité de commettre une erreur
de première espèce: à chaque fois qu’on fait un test à 5%, on sait que si H0 est vraie
on n’aura que 5% de chance de la rejeter.
19
Hypothèse alternative

Dans le formalisme classique des tests statistiques, on considère, en plus de l’hypothèse


nulle H0, une hypothèse alternative, que l’on note H1. De manière générale, l’hypothèse
alternative est la négation de l’hypothèse nulle.
Dans l’exemple des poissons du lac, on a H0 : µ = µ0, et donc on a H1 : µ 6= µ0.
On comprend mieux à présent l’appellation “hypothèse nulle”: c’est l’hypothèse d’absence
de différence ou d’absence d’effet (pour les poissons: absence de différence entre la taille
moyenne avant et après, ou absence d’effet du temps sur la taille moyenne).
Par opposition, l’hypothèse alternative postule la présence d’une différence ou d’un effet.
Elle est parfois appelée l’hypothèse scientifique, car dans une étude on est souvent
intéressé à démontrer une différence ou un effet (e.g. différence entre deux groupes
de patients: traités et non traités, i.e. effet du médicament).
Au sens statistique, démontrer a précisément la signification suivante: on dit qu’on a
démontré statistiquement une hypothèse scientifique H1 si on a rejeté H0, l’hypothèse
nulle correspondante, dans une procédure de test statistique.

20
Puissance

On a vu que lorsqu’on fait un test statistique, on commet une erreur de première espèce
si H0 est vraie et qu’on la rejette, et que ce risque est contrôlé en fixant le niveau du
test.
Un autre type d’erreur qu’on est susceptible de commettre est de ne pas rejeter H0 dans
le cas où elle est fausse. Dans ce cas, on aura manqué de détecter un effet présent dans
la population. On appelle cette erreur une erreur de deuxième espèce.
De même qu’on s’est intéressé à PH0 (rejeter H0), on peut s’intéresser à
PH1 (ne pas rejeter H0), pour connaı̂tre le rique d’erreur de deuxième espèce. En
général, on considère plutôt 1 − PH1 (ne pas rejeter H0), que l’on appelle la puissance
du test. La puissance d’un test est la probabilité de détecter un effet lorsqu’il est présent.
On souhaite donc qu’elle soit aussi élevée que possible.

21
Mais PH1 (ne pas rejeter H0) n’est pas aussi simple à calculer que PH0 (rejeter H0)
car, contrairement à H0, H1 ne spécifie pas de valeur précise pour le paramètre d’intérêt,
elle dit juste qu’il est différent de µ0. La valeur de PH1 (ne pas rejeter H0), et donc de
la puissance, va dépendre de la vraie valeur du paramètre dans la population: plus µ sera
différent de µ0, plus la puissance sera élevée. Autrement dit, plus un effet est important,
plus il sera facile de le détecter.
D’autre part, la puissance dépendra de la taille de l’échantillon: étant donné un effet,
la probabilité de le détecter va dépendre de la précision de la mesure, et on sait que la
précision augmente avec la taille de l’échantillon.
En général, on considère le problème dans l’autre sens: on postule un certaine taille d’effet
scientifiquement intéressante, et on calcule la taille d’échantillon nécessaire pour avoir
une certaine puissance (i.e. une certaine probabilité de le détecter).
On ne considérera pas davantage ce problème dans ce cours.

22
2. Formalisme général d’un test statistique
On a vu qu’on peut mener une procédure de test statistique soit en calculant la p-value
et en la comparant au seuil, soit en calculant la valeur de la statistique de test sur
l’échantillon et en regardant si elle se trouve dans le domaine de rejet. Ces deux façons
de procéder sont tout à fait équivalentes.

Dans les deux derniers chapitres de ce cours, on introduira deux procédures de test
classiques, le test du chi carré et le t-test, en suivant l’approche suivante, en quatre
étapes:
• Hypothèses
• Echantillon
• Statistique de test
• Règle de décision

23
Dans l’exemple des poissons du lac, cela donne:

• Hypothèses

H0: µ = µ0 = 5 cm H1: µ 6= µ0

• Echantillon

Tirage aléatoire de 30 poissons

• Statistique de test

Z = X̄−µ
√0
σ̂/ n
• Règle de décision

Rejeter H0 si |z| ≥ z1−α/2,


où α est le niveau du test (dans notre exemple, α = 0.05).

24
Comment se présente le test de la pièce en suivant ce formalisme?
→ La statistique de test est ici le nombre K de résultats P ile sur six lancers. K satisfait
en effet les deux propriétés essentielles d’une statistique de test:
• Elle permet de mesurer à quel point les observations s’éloignent  deH0
• Sa distribution sous H0 est connue: sous H0, on a K ∼ B 6, 2 1 .

(C’est ce qu’on a utilisé, sans le dire, lors du calcul de la p-value pour ce test.)

On obtient donc:
• Hypothèses
H0: P (P ile) = 1
2 H1: P (P ile) 6= 1
2
• Echantillon
6 lancers de la pièce
• Statistique de test
K = Nombre de P ile
• Règle de décision
Rejeter H0 si K = 6 ou K = 0

Ce test s’appelle un test binomial. Dans le chapitre 11, nous verrons une autre procédure
de test que l’on peut utiliser pour ce type de données.
25
3. Intervalle de confiance
Comme mentionné plus haut, lorsqu’on mène une procédure de test statistique, on espère
souvent pouvoir rejeter l’hypothèse nulle, qui postule généralement la nullité d’un effet.
Imaginons par exemple qu’on teste un nouveau médicament contre l’hypertension en
comparant la diminution moyenne de tension artérielle dans deux groupes de patients,
les uns traités avec le nouveau médicament et les autres avec un médicament existant.
Dans cette situation on souhaite montrer que le nouveau médicament est plus efficace
que l’ancien. En notant µ1 et µ2 les diminutions moyennes dans le groupe nouveau et
le groupe ancien médicament, on aura:

H0: µ1 = µ2 et H1: µ1 6= µ2.

Si sur l’échantillon on observe µ̂1 > µ̂2 et que le test rejette H0, on conclura que le
nouveau médicament est significativement meilleur que l’ancien.

Cependant, il nous manquera encore une information importante pour pouvoir décider
d’abandonner l’ancien médicament en faveur du nouveau: à quel point le nouveau
médicament est-il meilleur? Il nous serait utile de pouvoir donner une fourchette de
valeurs plausibles de la différence de diminution entre les deux groupes, d = µ1 − µ2.

Cette information nous est fournie par l’intervalle de confiance sur le paramètre d.
26
Nous avons vu qu’un test statistique va rejeter l’hypothèse nulle si les observations ne
plaident pas en sa faveur. Dans l’exemple des poissons, l’hypothèse que la taille moyenne
est de 5cm a été rejetée par le test. Quel aurait été le résultat si on avait considéré une
autre hypothèse nulle, par exemple H0 : µ = µ0 = 6cm?

→ calcul de z, la valeur observée de la statistique de test sur l’échantillon:


x̄ − µ0 7−6
z= √ =√ √ = 1.22
σ̂/ n 20.3/ 30
Cette fois, on a |z| < 1.96 = z0.975 et on ne rejette donc pas H0. La valeur de 6cm
n’est pas mise en défaut par les observations et on peut donc la considérer comme une
valeur plausible de la vraie taille moyenne µ des poissons du lac.

Pour construire une fourchette de valeurs plausibles de µ, nous allons chercher toutes
les valeurs qui ne sont pas rejetées par le test.

27
Ces valeurs sont celles qui satisfont la relation
x̄ − µ
|z| = √ ≤ z0.975,
σ̂/ n
c’est à dire
x̄ − µ
−z0.975 ≤ √ ≤ z0.975.
σ̂/ n
En manipulant cette expression, on arrive à
σ̂ σ̂
x̄ − z0.975 √ ≤ µ ≤ x̄ + z0.975 √
n n
(v. développement à la page suivante). En conséquence, on définit l’intervalle de confiance
pour le paramètre µ comme
" #
σ̂ σ̂
IC = x̄ − z0.975 √ , x̄ + z0.975 √ .
n n
En remplaçant les symboles par les valeurs numériques, on obtient:
" √ √ #
20.3 20.3
IC = 7 − 1.96 √ , 7 + 1.96 √
30 30
= [5.39, 8.61]
28
Développement de la relation de la page précédente:
x̄ − µ
−z0.975 ≤ √ ≤ z0.975
σ̂/ n
⇐⇒
σ̂ σ̂
−z0.975 √ ≤ x̄ − µ ≤ z0.975 √
n n
⇐⇒
σ̂ σ̂
−x̄ − z0.975 √ ≤ −µ ≤ −x̄ + z0.975 √
n n
⇐⇒
σ̂ σ̂
x̄ + z0.975 √ ≥ µ ≥ x̄ − z0.975 √
n n
⇐⇒
σ̂ σ̂
x̄ − z0.975 √ ≤ µ ≤ x̄ + z0.975 √
n n

29
Dans l’exemple des poissons, on a donc obtenu
" #
σ̂ σ̂
IC = x̄ − z0.975 √ , x̄ + z0.975 √
n n
= [5.39cm, 8.61cm]
comme fourchette de valeurs plausibles de la taille moyenne des poissons du lac. On voit
que la valeur de 5cm ne fait pas partie de cette fourchette, ce qui est normal puisqu’on
a vu que l’hypothèse nulle H0 : µ = 5cm est rejetée par le test, et que la fourchette
contient toutes les valeurs NON rejetées (par exemple, elle contient la valeur 6cm).

Plus généralement, le lien entre intervalle de confiance et test statistique implique qu’un
intervalle de confiance donne le résultat du test statistique correspondant pour n’importe
quelle valeur µ0 du paramètre sous H0. En effet, si µ0 est à l’intérieur de l’IC, H0 :
µ = µ0 n’est pas rejetée; si µ0 est à l’extérieur de l’IC, H0 : µ = µ0 est rejetée.

Un IC fournit donc une idée de la précision avec laquelle un échantillon permet d’estimer
un paramètre: plus l’intervalle est étroit, plus la précision est grande. On voit que cette
précision dépend
• de la variabilité des données, estimée par σ̂: plus la variabilité est grande, plus la
précision est faible
• de la taille de l’échantillon n: plus n est grand, plus la précision est élevée 30
La largeur d’un intervalle de confiance dépend encore du degré de confiance que l’on
souhaite avoir. Dans ce qui précède, nous avons défini un intervalle de confiance en nous
basant sur un test avec un niveau de 5%. Si on avait utilisé un niveau de 1% on aurait
obtenu
" #
σ̂ σ̂
IC = x̄ − z0.995 √ , x̄ + z0.995 √ .
n n
En insérant z0.995 = 2.58 dans l’équation ci-dessus, on obtient l’intervalle

IC = [4.88cm, 9.12cm],
qui est plus large que le précédent.

Ce résultat est logique: un test au niveau 1% exige plus d’évidence qu’un test à 5% pour
donner un résultat significatif. Il est donc normal que les valeurs non rejetées (i.e. non
significatives) à 5% ne le soient pas non plus à 1%.

31
Propriété essentielle d’un intervalle de confiance

Reprenons la relation qui définit l’IC basé sur un test de niveau 5%:
σ̂ σ̂
x̄ − z0.975 √ ≤ µ ≤ x̄ + z0.975 √ .
n n
Dans cette expression, x̄ est la valeur observée de la variable aléatoire X̄. L’intervalle de
confiance que nous avons vu est donc en fait la valeur observée de l’intervalle aléatoire
" #
σ̂ σ̂
IC = X̄ − z0.975 √ , X̄ + z0.975 √ .
n n
On peut se demander quelle est la probabilité que cet intervalle contienne la vraie taille
moyenne µ. Autrement dit, que vaut
!
σ̂ σ̂
P X̄ − z0.975 √ ≤ µ ≤ X̄ + z0.975 √ ?
n n

32
En utilisant le développement de la p. 20 dans l’autre sens, on obtient
 
P X̄ − z0.975 √σ̂n ≤ µ ≤ X̄ + z0.975 √σ̂n
 
X̄−µ
= P −z0.975 ≤ σ̂/√ ≤ z0.975
n
≈ 0.95,
puisque le théorème central limite nous assure que
X̄ − µ
√ ∼ ˙ N (0, 1).
σ̂/ n
On obtient donc que la probabilité que la vraie taille moyenne µ se trouve dans cet
intervalle est de 95%.

Il faut comprendre cela de la façon suivante: si on tirait un grand nombre d’échantillons


de la population et qu’on calculait à chaque fois l’intervalle IC, alors 95% en moyenne
de ces intervalles contiendraient la vraie valeur µ inconnue.

On dit que l’intervalle IC est un intervalle de confiance de niveau de couverture 95%, ou


simplement un intervalle de confiance à 95%, pour le paramètre µ.
33
On vient de voir que le niveau de couverture d’un intervalle de confiance construit à
partir d’un test de niveau 5% est de 95%. En faisant le même raisonnement avec un IC
défini à partir d’un test à 1%, on obtient
 
P X̄ − z0.995 √σ̂n ≤ µ ≤ X̄ + z0.995 √σ̂n
 
X̄−µ
= P −z0.995 ≤ σ̂/√ ≤ z0.995
n
≈ 0.99,
et le niveau de couverture de cet IC est donc de 99%.

Ce résultat rend d’autant plus évident le fait que cet IC doit être plus large que le
précédent, puisque la probabilité qu’il contienne la vraie valeur µ est plus élevée.

De façon générale, un intervalle de confiance construit à partir d’un test de niveau α a


un niveau de converture 1 − α.

34
NB: Cette propriété de l’intervalle de confiance repose sur une approximation valable
pour des tailles d’échantillon suffisamment grandes (théorème central limite).

La taille d’échantillon à partir de laquelle l’intervalle peut-être considéré comme valide,


i.e. à partir laquelle la probabilité que l’intervalle de niveau de couverture 1−α contienne
la vraie valeur est vraiment de 1 − α, dépend de la distribution des données.

Le même problème se pose quant au niveau α du test qui a servi à définir l’IC: la
probabilité de rejeter l’hypothèse nulle lorsqu’elle est vraie vaudra α seulement si la taille
de l’échantillon est suffisamment élevée.

35
Méthode de Wald
Considérons encore l’intervalle de confiance à 95%
" #
σ̂ σ̂
IC = X̄ − z0.975 √ , X̄ + z0.975 √
n n
et remarquons (ou souvenons-nous) que sd(X̄), l’écart-type de l’estimateur X̄ est égal
à √σn , ce que l’on peut estimer par sd(
ˆ X̄) = √σ̂ .
n

On obtient alors que l’intervalle de confiance à 95% pour µ est égal à


h i
ˆ X̄) , X̄ + z0.975 sd(
IC = X̄ − z0.975 sd( ˆ X̄) .

Cette dernière formule est assez générale et s’applique à n’importe quel estimateur
asymptotiquement normal, i.e. dont la distribution s’approche de plus en plus d’une
distribution normale lorsque la taille de l’échantillon devient grande, comme c’est le
cas pour la moyenne arithmétique X̄. Comme la plupart des estimateurs utilisés en
statistique ont cette propriété, cette méthode peut presque toujours être utilisée (si la
taille de l’échantillon est suffisamment grande). Elle s’appelle la méthode de Wald, et
l’intervalle de confiance obtenu est appelé un intervalle de confiance de Wald.

36
De plus, en se souvenant que z0.975 = 1.96 ≈ 2, on obtient la formule approximative
suivante:
h i
ˆ X̄) , X̄ + 2 sd(
IC ≈ X̄ − 2 sd( ˆ X̄) .

La connaissance de la valeur approximative de z0.975 permet donc de de calculer de


tête un intervalle de confiance à 95% lorsqu’on connaı̂t l’écart-type d’un estimateur.

De façon plus générale, l’intervalle de confiance de Wald de niveau de couverture 1 − α


pour un estimateur θ̂ d’un paramètre θ est donné par
 
ˆ θ̂) , θ̂ + z1− α sd(
IC = θ̂ − z1− α sd( ˆ θ̂) .
2 2

37
Commentaire à propos de l’intervalle de confiance et de la
p-value
En règle générale un intervalle de confiance est plus informatif qu’une p-value. En effet,
un intervalle de confiance donne une idée de la valeur du paramètre d’intérêt, ce que ne
fournit pas la p-value. De plus, la p-value dépend beaucoup de la taille de l’échantillon.
On peut rejeter à peu près n’importe quelle hypothèse nulle en prenant un échantillon
suffisammenent grand, mais l’importance du résultat peut-être très faible au niveau
pratique.

Pour reprendre l’exemple des poissons, imaginons qu’on ait tiré un échantillon de
1’000’000 de poissons et trouvé l’estimation x̄ = 5.01 cm, avec la même variabilité
que précédemment, i.e. σ̂ 2 = 20.3 cm2. La p-value correspondante pour tester
H0 : µ = 5 cm est
!
x̄ − 5
P |Z| ≥ √ = P (|Z| ≥ 2.22) = 0.03
σ̂/ n
et on en déduit que la taille moyenne des poissons du lac est significativement supérieure
à 5 cm. A-t-on fait une importante découverte scientifique?
38
L’intervalle de confiance à 95% est ici de
" #
σ̂ σ̂
IC = x̄ − 1.96 √ , x̄ + 1.96 √ = [5.001 , 5.02].
n n
On voit donc que la différence avec 5 cm, quoique significative, est infime, et n’est
probablement d’aucun intérêt scientique.

Dans la recherche biomédicale, on a parfois tendance à accorder trop d’importance à la


p-value, sans considérer l’importance scientifique du résultat.

39

Vous aimerez peut-être aussi