Académique Documents
Professionnel Documents
Culture Documents
Échantillonnage – Distribution
d’échantillonnage
1. Introduction
La statistique inférentielle repose sur une idée simple : il existe un ensemble d’individus
appelé population dont les caractéristiques ne sont pas connues.
1. Estimation ponctuelle
On connaı̂t le revenu moyen de l’échantillon des 158 ménages du quartier A
( x = 7348 € ).
§ V. Échantillonnage – Distribution d’échantillonnage
Peut-on inférer une estimation du revenu moyen, que nous noterons µ , de l’ensemble
de tous les ménages du quartier A?
Il s’agit d’une estimation ponctuelle :
3. Test d’hypothèses
Une hypothèse est formulée en fonction de la connaissance générale du phénomène
étudié. Par exemple, d’après une enquête, le revenu moyen des ménages de l’agglo-
mération à laquelle appartient le quartier A est de 8000 € par mois. On peut se
demander si le revenu moyen dans le quartier A est supérieur à 8000 € (première
hypothèse) ou au contraire s’il est inférieur à 8000 € (deuxième hypothèse). Le choix
entre ces deux hypothèses se fera sur la base d’un échantillon dans le quartier A .
Dans notre échantillon dans le quartier A , x = 7348 € . L’écart entre cette valeur et
la valeur 8000 € , proposée par la première hypothèse, est-il le reflet d’une véritable
différence de revenus, ou n’est-il que la conséquence des aléas liés à l’utilisation d’un
échantillon pour décider?
L’objet de l’inférence statistique est donc de fournir des outils pour établir un jugement
sur la population à partir des informations obtenues de l’échantillon.
4. choisir les méthodes statistiques que l’on va utiliser. Si on attend d’avoir les données
pour faire ce choix, nous risquons – même inconsciemment – de choisir alors la
méthode qui favorise le plus nos hypothèses.
Base de sondage
Pour que tout individu puisse figurer dans l’échantillon, il faut disposer au départ d’une
base de sondage complète, c’est-à-dire d’une liste, d’un recensement, de tous les individus
de la population étudiée.
Les bases de sondage sont innombrables : fichiers de personnels dans les entreprises,
fichiers de bénéficiaires de prestations dans les administrations sociales, annuaires télépho-
niques, listes électorales, etc.
L’annuaire téléphonique pourrait par exemple être sollicité pour élaborer un échantillon :
mais ce n’est pas une base de sondage exhaustive, car tout le monde n’a pas le téléphone
(cette restriction est de moins en moins vraie), et surtout de nombreux abonnés ont un
numéro privé non accessible (de 10 à 15 %). Si le tirage est aléatoire, l’échantillon ne sera
représentatif que des seuls ménages dont le numéro de téléphone est accessible. Ceux qui
protègent leur vie privée disposent certainement d’un niveau de vie supérieur aux autres.
Inversement, ceux qui n’ont pas le téléphone sont probablement plus pauvres. Le revenu
moyen, calculé sur un échantillon issu de l’annuaire, serait vraisemblablement différent de
celui calculé sur un échantillon de l’ensemble des ménages.
Signalons également qu’il n’existe pas toujours de bases de sondage pour l’étude que
l’on souhaite faire. Si, par exemple, on veut enquêter sur la manière dont les homosexuels,
ou les drogués, se protègent du sida, on ne trouvera pas de base de sondage répertoriant
les homosexuels ou les drogués de la région où on souhaite effectuer cette étude.
§ V. Échantillonnage – Distribution d’échantillonnage
Rien ne garantit qu’un échantillon, même aléatoire, soit représentatif d’une population.
On peut avoir sélectionné un nombre disproportionné d’éléments dans l’une ou l’autre
catégorie.
Distinguons trois types d’erreurs : l’erreur d’échantillonnage, le biais d’échantillonnage
et les erreurs indépendantes de l’échantillonnage.
– Les erreurs liées à une mauvaise méthode d’échantillonnage sont appelées biais
d’échantillonnage.
Le biais d’échantillonnage est une tendance à favoriser la sélection d’unités ayant
des caractéristiques particulières. Considérons l’exemple historique suivant. Lors des
élections américaines de 1936 entre Roosevelt et Landon, le “Literary Digest” avait
interrogé plusieurs millions de personnes et avait prédit une victoire bien tranchée de
Landon. Cette erreur était due au fait que l’échantillon avait été choisi dans les an-
nuaires téléphoniques. Or, au sortir de la crise, peu nombreux étaient les démocrates
qui pouvaient se permettre un tel luxe.
Le biais d’échantillonnage est très difficile à éviter et existe dans presque tous les
échantillons. Malheureusement, il n’est pas influencé par la taille de l’échantillon.
L’exemple le plus fréquent de biais est le biais de non-réponse, c’est-à-dire que
certains éléments de la population n’ont aucune chance de figurer dans l’échantillon
(par exemple les travailleurs qui ne sont pas à leur domicile lorsque les enquêteurs
passent pour les sondages).
Dans ce dernier cas, on peut tenter de remédier à la situation en multipliant les ten-
tatives de contact ou les moments de contact, en motivant les personnes contactées,
...
D’autre part, des biais d’échantillonnage peuvent également se produire lorsque la
§ V. Échantillonnage – Distribution d’échantillonnage
base de sondage utilisée n’est pas conforme à la population que l’on souhaite étudier,
ou si elle est incomplète.
– L’échantillon de convenance
Cette méthode consiste à choisir les éléments les plus facilement accessibles. Chaque
jour, nous tirons des conclusions basées sur notre expérience personnelle.
Cet échantillonnage a l’avantage d’être peu cher mais on ne peut éviter un biais
d’échantillonnage (soit de non-réponse, soit dû à l’activité de minorités). Parfois, on
sélectionne un échantillon de convenance parce que ce sont les seuls échantillons dis-
ponibles. Il n’existe par exemple pas de base de sondage (complète) pour les drogués,
ou pour les homosexuels d’une région.
Ce type d’échantillon peut avoir une validité suffisante, à condition que l’on contrôle
suffisamment le processus. On peut, par exemple, effectuer chaque année une enquête
sur le Sida, auprès de drogués ou d’homosexuels, de manière à limiter le biais éventuellement
attaché à une enquête unique.
– L’échantillon de jugement
On choisit ici l’échantillon suivant les conseils de quelqu’un qui connaı̂t bien les
caractéristiques de la population. Il est utilisé dans les cas de populations très
hétérogènes, si l’échantillon est très petit, quand on veut assurer la représentativité
de toutes les classes de la population. Par définition, il est sujet au biais et donc n’est
à utiliser que s’il n’y a pas d’autre solution.
§ V. Échantillonnage – Distribution d’échantillonnage
Dans la table des nombres aléatoires, on lit 10 nombres en les parcourant dans le
sens que l’on veut (horizontal, vertical, diagonal). Remarquons que le choix de ce sens
doit être effectué avant de regarder la table. On lit donc la table jusqu’à ce qu’on ait
trouvé ainsi 10 nombres différents entre 00 et 99. À chacun de ces nombres, on fait
correspondre le chef d’orchestre répertorié dans la liste alphabétique.
Par exemple : 15 Dragon
62 Previra
38 Kondrashin
... ...
Ces échantillons sont totalement exempts de biais. Seul le facteur chance peut encore
causer des surprises. La procédure que nous venons de décrire s’appelle l’échantillon-
nage aléatoire simple. D’autres types d’échantillonnages au moins partiellement
§ V. Échantillonnage – Distribution d’échantillonnage
3. Distribution d’échantillonnage
Dans la suite du cours, nous supposerons que les échantillons sont obtenus par la
procédure d’échantillonnage aléatoire simple.
– Supposons, par exemple, qu’un recensement belge récent nous donne la distribution
du nombre X d’enfants par ménage. Notons xi les valeurs de la variable X et fi la
fréquence des xi .
xi fi
0 0.1
1 0.2
2 0.3
3 0.15
4 0.10
5 0.05
6 0.05
7 0.03
8 0.02
Comme cette distribution a été obtenue par un recensement, elle peut être considérée
comme la distribution de probabilité du nombre X d’enfants dans la population des
ménages.
On dira, plus simplement, qu’il s’agit de la distribution de probabilité (ou la loi de
probabilité) de la population et on la notera P (X = x) ou, plus simplement P (x) .
La deuxième colonne du Tableau V.1 (fréquences f i ) nous donne donc les probabi-
§ V. Échantillonnage – Distribution d’échantillonnage
xi P (X = xi )
0 0.1
1 0.2
2 0.3
3 0.15
4 0.10
5 0.05
6 0.05
7 0.03
8 0.02
Si nous tirons une famille au hasard (on dira que l’on effectue une observation indi-
viduelle), la variable aléatoire X1 , qui compte le nombre d’enfants de cette famille,
aura la même distribution de probabilité que la population. On aura, par exemple,
En résumé
0 0.1 0 0 0
1 µ = 2.57 10.15
= 0.00012 .
3.3 Estimateur
Définition
On appelle estimateur d’un paramètre d’une population une statistique
utilisée pour évaluer la valeur de ce paramètre.
Propriété 1
En effet,
X1 + X 2 + · · · + X n 1
E(X) = E = n
[E(X1 ) + E(X2 ) + · · · + E(Xn )]
n
1 1
= n
[µ + µ + · · · + µ] = n
·n µ = µ.
– D’autre part, nous souhaiterions savoir dans quelle mesure la moyenne X fluctue
autour de µ .
On montre, par la Propriété 2, que la dispersion des valeurs de X autour de µ est
d’autant plus petite que la taille de l’échantillon est grande.
Propriété 2
En effet,
X1 + X 2 + · · · + X n 1
var(X) = var = n2
(var(X1 ) + var(X2 ) + · · · + var(Xn ))
n
1 σ2
= n2
n σ2 = n
·
Propriété 3
Soit X1 ,X2 , · · · ,Xn un échantillon aléatoire simple de taille n issu d’une popu-
lation Normale de moyenne µ et de variance σ 2 .
Alors la distribution d’échantillonnage de X est une distribution Normale de
2
moyenne µ et de variance σn .
Ce résultat est en accord avec les deux propriétés précédentes. L’information sup-
plémentaire est que X a une distribution Normale si la population de départ est
Normale.
Remarques
– On considère en général qu’une valeur de n supérieure ou égale à 25 est suffisante
pour garantir le résultat ci-dessus.
La Figure V.1 illustre cette propriété. Elle reprend trois populations différentes. En
dessous de chaque population, des graphes successifs indiquent comment la forme
de la distribution d’échantillonnage de X se modifie lorsque la taille de l’échantillon
augmente.
3.5 Applications
Exemple 1 : supposons que la population des tailles des étudiants est Nor-
male de moyenne µ = 175 cm et d’ écart type σ = 8 cm.
Solution :
1.
E(X) = µ = 175 cm ,
σ 8
σX = √ = = 4 cm .
n 2
Les valeurs de la moyenne de l’échantillon X varient donc autour de la moyenne
µ = 175 cm de la population avec un écart type de 4 cm.
Exemple 3 : calcul de la taille d’un échantillon. Soit une enquête destinée à évaluer
le poids moyen des Belges. On désire limiter l’erreur à 2 kg, avec un risque d’erreur de 5% .
Combien d’observations faut-il prendre si on suppose un écart type σ de 20 kg?
soit
(1.96) · 20
P |X − µ| ≤ √ = 0.95 .
n
Pour que l’erreur soit inférieure à 2 , avec une probabilité égale à 0.95 , on choisira donc
n tel que
(1.96) · 20
√ =2,
n
soit 2
(1.96) · 20)
n= = 400 .
2
X − 50
X ∼ N (50,4) donc Z= ∼ N (0,1) ,
2
Exemple 5 : le temps de service pour un client à une caisse d’un supermarché est une
variable aléatoire d’espérance 1’30” et de variance 1 minute.
Quelle est la probabilité que 50 clients puissent être servis en moins d’une heure?
§ V. Échantillonnage – Distribution d’échantillonnage
Solution : soient X1 ,X2 , · · · ,X50 les temps de service (exprimés en minutes) des 50
clients.
Par le théorème central limite, on a
1
X ∼ N 1.5, .
50
La probabilité que les 50 consommateurs soient servis en moins d’une heure est la même
que la probabilité que la moyenne des temps de service des 50 consommateurs soit inférieure
à 1.2 minutes. On a donc
X − 1.5 1.2 − 1.5
P (X ≤ 1.2) = P √ ≤ √
1/ 50 1/ 50
= P (Z ≤ −2.121) = 0.017 .
Ce résultat n’est pas étonnant puisque, en moyenne, on attend que les 50 clients soient
servis en 75’.
Remarque : quel est le pourcentage des échantillons dont la moyenne X sera située entre
– µ − σX et µ + σX ?
– µ − 2σX et µ + 2σX ?
– µ − 3σX et µ + 3σX ?
Solution :
X−µ
– P (µ − σX ≤ X ≤ µ + σX ) = P −1 ≤ σX
≤1
= P (−1 ≤ Z ≤ 1)
= 0.682 où Z ∼ N (0,1) .
– 68.2% des échantillons conduiront à une valeur de X comprise entre µ−σX et µ+σX .
n = 10
n = 20
1.1 Introduction
Supposons que l’on veuille connaı̂tre le revenu moyen des habitants d’une grande ville.
Notons µ la vraie valeur de ce revenu moyen. µ est un paramètre inconnu. La seule façon
de le connaı̂tre exactement est de faire un recensement dans cette grande ville.
Prélevons, dans cette ville, un échantillon aléatoire simple de 100 habitants. Une “bon-
ne” estimation de µ est donnée par la moyenne d’échantillonnage X . Si nous prélevons un
second échantillon, on obtiendra presque certainement une autre valeur pour X . D’autre
part, comme X est une variable aléatoire continue, la probabilité pour que X soit exacte-
ment égal à µ est nulle.
C’est pourquoi, lors de l’estimation d’un paramètre, on donnera non seulement sa valeur
estimée, mais également une mesure du risque d’erreur que l’on commet.
Un intervalle de confiance est parfois appelé, dans le langage courant, une fourchette
d’estimation.
Supposons, dans l’exemple précédent, que les revenus des habitants de la grande ville
suivent une distribution Normale N (µ,σ 2 ) où σ est connu. Supposons, par exemple, que
σ = 2000 €. Construisons un intervalle de confiance pour µ .
Remarques :
z1− α2 = −z α2 ·
– Les tables de la distribution N (0,1) nous donnent les valeurs suivantes pour les
quantiles zu en fonction de u :
§ VI. L’estimation par intervalle – Les tests d’hypothèses
h i
– L’intervalle de confiance Iα (µ) = X − z1− α2 √σ
, X + z1− α2 √σn est centré en X .
n
Sa longueur dépend entre autre de l’écart type de X √σn , c’est-à-dire de l’erreur
d’estimation.
Exemple : si, dans l’échantillon des 100 habitants, le revenu moyen est de 7348 €,
l’intervalle de confiance I pour µ , le revenu moyen des habitants de la grande ville, sera
(si nous choisissons un niveau d’incertitude α = 0.05 ) :
σ σ
Iα (µ) = X − z1− 2 √ , X + z1− 2 √
α α
n n
2000 2000
I0.05 (µ) = 7348 − 1.96 , 7348 + 1.96
10 10
= [6956 , 7740] .
Remarques :
1. On a
σ σ
P X − 1.96 √ ≤ µ ≤ X + 1.96 √ = 0.95 . (VI.1)
n n
Cela signifie que si on recommence, par exemple, 20 fois le processus de tirer un
échantillon aléatoire simple de 100 habitants, la vraie valeur de µ n’en sera pas
affectée. Par contre, x sera probablement différent d’un échantillon à l’autre. On
obtient ainsi 20 intervalles différents. Nous pouvons donc déduire de la formule (VI.1)
qu’environ 95 % de ceux-ci, soit 19 d’entre eux, devraient contenir la vraie valeur
inconnue de µ .
Pour obtenir un intervalle de confiance pour µ , nous devons estimer σ . Pour ce faire,
nous pouvons utiliser S 2 , la variance d’échantillonnage. Cependant,
n
X
2
S = 1
n
(Xi − X)2
i=1
et
E(S 2 ) = n−1
n
σ2 ;
Remarques :
0.4 N(0,1)
n=3
n=1
0.2
0.1
x
-3 -2 -1 0 1 2 3
Figure VI.1 –.
Les valeurs de ces quantiles sont fournies dans des tables (voir annexe).
Exemple : dans une classe, on extrait un échantillon aléatoire simple de 4 notes : 64, 66,
89 et 77 . On suppose que les notes de la classe suivent une distribution Normale.
Calculer un intervalle de confiance à 95 % pour la moyenne des notes de toute la classe.
Solution : ici n = 4 est petit; l’intervalle de confiance pour µ , la moyenne des notes de
toute la classe, sera
S0 S0
Iα (µ) = X − tn−1,1− α2 √ , X + tn−1,1− α2 √ .
n n
On a
0
– s 2 = 132.7 ;
– x = 74 ;
et donc
" √ √ #
132.7 132.7
I0.05 (µ) = 74 − 3.182 √ , 74 + 3.182 √
4 4
= [56,92] .
X pq
≈ N p,
n n
et donc
p̂ − p
p pq ≈ N (0,1) .
n
L’intervalle de confiance pour p s’écrira
" r r #
p̂q̂ p̂q̂
Iα (p) ≈ p̂ − z1− α2 , p̂ + z1− α2
n n
α
où z1− α2 est le quantile d’ordre 1 − 2
de la loi N (0,1) .
§ VI. L’estimation par intervalle – Les tests d’hypothèses
Dans notre exemple, si le nombre de fumeurs dans l’échantillon des 100 étudiants
est de 40, on aura, avec un niveau d’incertitude de 0.05,
p̂ = 0.4 , q̂ = 0.6
et " r r #
0.4 × 0.6 0.4 × 0.6
I0.05 (p) ≈ 0.4 − 1.96 , 0.4 + 1.96
100 100
= [0.304 , 0.496] .
2. Tests d’hypothèses
En se basant sur une théorie, une expérience antérieure ou une argumentation logique,
l’expérimentateur est amené, au cours de sa recherche, à formuler une hypothèse au sujet
du phénomène qu’il étudie et de la variable qu’il mesure.
Le test d’hypothèses est le processus qui consiste à confronter l’hypothèse émise avec
la réalité expérimentale en vue de prendre une décision quant à sa validité (accepter ou
rejeter l’hypothèse).
Exemple 1 : supposons que nous lancions 100 fois une pièce de monnaie, et que nous
observions 65 fois “pile” . Soit X la variable aléatoire qui compte le nombre de “pile” :
x = 65 .
Si la pièce est équilibrée, nous nous attendons à obtenir un résultat proche de x =
50 , mais nous ne sommes pas surpris puisque nous savons que les résultats d’une telle
expérience peuvent s’écarter de 50 par simple hasard. Cependant, un certain scepticisme
peut nous amener à croire que ce résultat pourrait ne pas être dû seulement au hasard;
cela voudrait dire que nous pensons à un facteur causal (une monnaie mal équilibrée),
responsable de l’écart obtenu entre la valeur observée ( x = 65 ) et la valeur que l’on aurait
pu attendre avec une monnaie équilibrée ( x = 50 ).
Le problème est posé : notre monnaie est-elle équilibrée , ou est-elle biaisée en faveur
de “pile”? Pour répondre à cette question, nous devons décider ici entre deux hypothèses :
“la pièce est équilibrée” ou “la pièce est biaisée, en faveur de pile” .
La première hypothèse est celle qu’on veut tester (il s’agit souvent d’une hypothèse
de non différence). Nous l’appellerons l’hypothèse nulle, que nous noterons H0 . L’autre
§ VI. L’estimation par intervalle – Les tests d’hypothèses
H0 : p = 0.5 ,
HA : p > 0.5 .
Si l’hypothèse nulle est vérifiée, X , la variable aléatoire qui compte le nombre de fois qu’on
obtient “pile” en lançant 100 fois une pièce de monnaie, aura une distribution Bi (100,0.5) .
Nous avons vu que X peut être approximée par une variable aléatoire N (50,25) et nous
utiliserons cette approximation dans cet exemple.
Tout d’abord, nous devons admettre qu’il est possible d’obtenir jusqu’à 100 fois “pile”
sur 100 lancers d’une pièce de monnaie équilibrée, simplement par chance ! Il faut donc aussi
admettre que le résultat xobs = 65 est possible sans que cela implique nécessairement
une sinistre machination d’un adversaire au jeu de “pile ou face”.
Cependant, la probabilité d’obtenir 100 fois “pile” est sans aucun doute tellement faible
qu’elle peut être négligée, et, avec ce résultat, vous affirmeriez avec une certitude presque
absolue que la pièce de monnaie n’est pas équilibrée.
Par conséquent, notre problème revient à trouver la probabilité d’obtenir, par chance,
65 fois “pile” ou plus en utilisant une monnaie équilibrée. Nous noterons cette probabilité
PH0 (X ≥ 65) , l’indice H0 signifiant que nous calculons cette probabilité en supposant
l’hypothèse H0 vérifiée.
Ce calcul nous est déjà familier :
et σ 2 = n p q = 25 .
On a donc
X −µ
Z= ∼ N (0,1) .
σ
§ VI. L’estimation par intervalle – Les tests d’hypothèses
On obtient
X−µ 65 − 50
PH0 (X ≥ 65) = P ≥
σ 5
= P (Z ≥ 3)
= 1 − P (Z ≤ 3)
= 1 − 0.99865
= 0.00135 .
On trouve donc que la probabilité d’obtenir 65 fois “pile” ou plus, en lançant 100 fois
une pièce de monnaie équilibrée, n’est que 0.00135 , ce qui est vraiment très peu. Cette
valeur de 0.00135 est appelée “probabilité critique pour H0 ” ou encore “ p-valeur pour
H0 ”. Elle mesure ce que les données disent de la crédibilité de H0 . Si la pièce est équilibrée
( p = 21 ), nous avons à peu près une chance sur mille d’observer un nombre de pile supérieur
ou égal à 65 . Cette probabilité est trop faible. Nous rejetterons donc H0 et la décision
logique sera donc de conclure que la monnaie n’est pas équilibrée.
Notre décision n’est cependant pas une certitude absolue. Le but des tests d’hypothèses
est de nous aider à porter un jugement face à une incertitude, avec l’avantage de pouvoir es-
timer le degré d’incertitude. Dans notre exemple, la possibilité d’obtenir, avec une monnaie
équilibrée, 65 fois “pile” ou plus existe, et la probabilité de cette possibilité est 0.00135 .
Par conséquent, la probabilité d’avoir pris une décision fausse est 0.00135.
En général, on rejette H0 si la p-valeur pour H0 est faible, c’est-à-dire si elle est inférieure
à une valeur préalablement fixée, qui est appelée le niveau du test d’hypothèses, et qui
est notée α . Généralement, on choisit α = 0.05 , ou α = 0.01 .
L’ensemble des valeurs qui conduisent au rejet de H0 s’appelle la région critique du
test.
Dans notre exemple, la p-valeur est égale à 0.00135 .
PH0 (X ≥ k) = 0.05 .
La variable aléatoire X peut être approximée par une variable aléatoire N (50,25) .
On a donc
k − 50
PH0 (X ≥ k) = P Z ≥ = 0.05 .
5
Les tables de la loi N (0,1) (annexe) donnent :
k − 50
= 1.64
5
et donc
k = 58.20 .
Comme la valeur observée de X , notée xobs , est supérieure à la valeur de k :
xobs = 65 ≥ k = 58.20 ,
Exemple 2 : un test de mémoire consiste à présenter aux étudiants, pendant deux mi-
nutes, sur transparent, les images de 24 objets. On demande ensuite aux étudiants de
tenter de retranscrire en deux minutes la liste des objets. On note pour chaque étudiant le
nombre de mots retenus. On sait que les résultats de l’application de ce test de mémoire sur
un grand nombre d’étudiants est une variable aléatoire Normale de moyenne µ = 17.683
et de variance σ 2 = 6.4 .
Une firme pharmaceutique développe une nouvelle potion destinée à stimuler la mémoire
à court terme et aider, entre autres, les étudiants à bloquer un maximum de matière la
veille d’un examen.
Pour pouvoir mettre ce médicament sur le marché, la firme doit prouver que le médi-
cament a réellement de l’effet et elle décide d’entreprendre une campagne d’essais de son
médicament sur une série d’étudiants. Plus précisément, elle soumet ce test de mémoire à
un groupe d’étudiants auxquels elle a, au préalable, fait prendre le médicament.
§ VI. L’estimation par intervalle – Les tests d’hypothèses
H0 : µ = µ 0 ,
H0 : µ = 17.683 .
HA : µ > µ 0 ,
HA : µ > 17.683 .
2. On supposetemporairement
que l’hypothèse nulle est vraie. X sera une variable
σ2
aléatoire N µ0 , n , c’est-à-dire une variable aléatoire N (17.683,0.64) .
On calcule la région critique. On rejettera donc H0 , au niveau α = 0.05 , si X ≥ k
où la constante k est déterminée par PH0 (X ≥ k) = α . Or, sous H0 ,
X ∼ N (17.683,0.64) .
PH0 (X ≥ k) = 0.05
X − 17.683 k − 17.683
⇔ P H0 √ ≥ √ = 0.05
0.64 0.64
k − 17.683
⇔ P Z≥ √ = 0.05 .
0.64
Dans les tables de la distribution N (0,1) , on trouve P (Z ≥ 1.64) = 0.05 . Donc
k − 17.683
√ = 1.64
0.64
c’est-à-dire k = 18.995 .
L’indice “ H0 ” est présent pour insister sur le fait que la probabilité est calculée
en supposant que l’hypothèse H0 est vraie, c’est-à-dire que X a une distribution de
moyenne 17.683.
Cette valeur de 18.995 correspond au seuil critique; elle définit la région de rejet de
l’hypothèse nulle {(x1 , · · · ,xn )} : x ≥ 18.995} . Cela signifie que, si l’hypothèse nulle
est vraie (le médicament n’a pas d’effet), on n’a que 5 % de chance de trouver un
échantillon dont la moyenne des scores soit supérieure à 18.995.
3. On tire l’échantillon. Si xobs est dans la région de rejet, on considère que l’hypothèse
nulle peut être rejetée. Sinon, elle ne sera pas rejetée.
Dans notre exemple, les scores des dix étudiants de l’échantillon sont
19 , 18 , 16 , 20 , 21 , 24 , 23 , 18 , 19 , 17 .
On a xobs = 19.5 . Cette valeur dépasse le seuil critique de 18.995. L’hypothèse nulle
est donc rejetée. On admet donc que le médicament a un effet positif sur la mémoire.
§ VI. L’estimation par intervalle – Les tests d’hypothèses
– H0 est vraie; nous avons donc été particulièrement malchanceux et nous sommes
tombés par hasard sur un échantillon particulièrement improbable : par exemple
dix étudiants qui, sans faire appel au médicament, bénéficient d’une meilleure
mémoire que la moyenne.
– H0 est fausse; il n’est donc pas surprenant de trouver une valeur aussi grande
de X .
Calcul de la p-valeur :
Remarques :
1. Prenons un autre échantillon de dix étudiants et supposons que le score moyen est
de xobs = 18.2 objets reconnus. On a
Donc, bien que 18.2 > µ0 = 17.683 , on ne rejettera pas H0 . Il y a ici plus d’une
chance sur quatre de rencontrer un échantillon d’étudiants qui obtiennent un tel
résultat même si le médicament n’est pas utilisé.
On conclura donc que le médicament n’a pas d’effet.
§ VI. L’estimation par intervalle – Les tests d’hypothèses
rejeter H0 si xobs ≥ k ,
α = PH0 (X ≥ k) .
α
X
µ0 = 17.68
Figure VI.2 –.
Dans l’exemple précédent, nous avons, a priori, supposé que le score moyen des indi-
vidus ayant pris le médicament était supérieur au score moyen des étudiants n’ayant pas
pris le médicament; nous nous sommes donc intéressés à la surface de la partie droite de la
distribution d’échantillonnage de X . Il s’agissait d’un test unidirectionnel, la direction
de l’hypothèse alternative ayant été spécifiée.
Dans beaucoup de cas, cependant, l’expérimentateur s’intéressera seulement à une
différence possible sans a priori concernant la direction de cette différence. Le test sera
§ VI. L’estimation par intervalle – Les tests d’hypothèses
alors bi-directionnel, et le niveau α sera réparti de manière équivalente entre les deux
extrémités de la distribution d’échantillonnage.
a) H0 : µ = µ0 ,
HA : µ > µ 0 .
1-α
Figure VI.3 –.
b) H0 : µ = µ0 ,
HA : µ < µ 0 .
On rejette H0 pour de “petites” valeurs de xobs , c’est-à-dire si xobs ≤ k où k est
défini par
PH0 (X ≤ k) = α .
On parlera ici de test unilatéral à gauche. La direction de la règle de rejet reprend
celle de l’alternative.
§ VI. L’estimation par intervalle – Les tests d’hypothèses
1-α
α
Figure VI.4 –.
c) H0 : µ = µ0 ,
H1 : µ 6= µ0 .
On rejette H0 pour de “grandes” ou de “petites” valeurs de xobs , c’est-à-dire si
xobs ≤ k1 ou si xobs ≥ k2 où k1 et k2 sont définis par
α α
PH0 (X ≤ k1 ) = et P H 0 (X ≥ k 2 ) = ·
2 2
1-α
α/2
α/2
Figure VI.5 –.
Ici, le niveau α sera réparti de manière équivalente entre les deux extrémités de la
distribution d’échantillonnage.
Un bon test est celui qui minimise ces deux erreurs, mais pour une taille d’échantillon
donnée, diminuer une erreur augmente généralement l’autre. On peut cependant réduire
simultanément α et β en augmentant la taille de l’échantillon.
Pour mieux comprendre la philosophie sous-jacente aux erreurs, prenons un exemple
de la vie courante. Imaginons une cour d’assises. Pour un accusé, il y a deux hypothèses
possibles : coupable ou innocent. Il existe des solutions qui minimisent une des deux erreurs,
c’est de condamner ou d’acquitter tout le monde.
Pratiquement, on utilise le principe du droit Napoléonien qui dit qu’il vaut mieux cent
coupables en liberté qu’un innocent en prison. L’hypothèse nulle est alors bien définie :
l’accusé est présumé innocent.
L’erreur de type I consiste à condamner un innocent. L’erreur de type II consiste à
innocenter un coupable.
On considère toujours que l’erreur de type I est la plus grave et on effectuera un test
en bornant la probabilité de cette erreur par α (en général, on prendra α = 0.05 ou 0.01 ).
H0 : p = p 0 .
L’alternative peut, suivant les cas, s’exprimer sous une des formes
HA : p < p 0 ,
HA : p > p 0 ,
HA : p 6= p0 .
X est Bi(n,p0 ) .
Il y aura rejet de l’hypothèse nulle lorsque la p-valeur sera inférieure à un seuil que l’on se
sera fixé.
PH0 (X ≤ xobs ) ≤ α si HA : p < p0 ,
H0 : p = 0.5 ,
HA : p < 0.5 .
Si H0 est vraie, le nombre X de naissances mâles sur 25 naissances est une variable aléatoire
Bi(25,0.5) . On trouve immédiatement dans les tables que
PH0 (X ≤ 9) = 0.1148 .
On voit que cette probabilité (la p-valeur) est supérieure à α = 0.05 et rien ne permet donc
de conclure que la probabilité de naissance d’un garçon est inférieure à 0.5 .
Lorsque n est grand, et p voisin de 0.5 , nous avons vu qu’une variable aléatoire Bi(n,p)
pouvait être approximée par une variable aléatoire N (n p,n p q) . On a vu que cette
approximation est satisfaisante pour autant que n p ≥ 5 et n q ≥ 5 .
H0 : p = 0.5 ,
HA : p < 0.5 .
Le nombre X de personnes favorables au travail à temps partiel peut être approximé par
une variable aléatoire N (n p,n p q) . D’après l’hypothèse nulle
X est N (500,250) .
Choisissons α = 0.05 . On a
460−500
PH0 (X ≤ 460) = P Z ≤ √
250
= P (Z ≤ −2.53)
= 1 − P (Z ≤ 2.53)
= 0.0057 < 0.05 .
2.5 Exemples
1. Une association de consommateurs teste le contenu exact de boı̂tes de petits pois.
Le poids net égoutté annoncé sur l’étiquette est de 250 gr. Sachant que dans ce
genre de situation, l’écart-type pour une boı̂te est de 2 % du poids, soit 5 gr, quelles
conclusions tirer d’un échantillon de 120 boı̂tes donnant une moyenne observée de
249 gr?
Solution : il semble logique de considérer comme hypothèse nulle : “le poids an-
noncé est correct”, et comme hypothèse alternative : “le poids réel est inférieur au
poids annoncé”, c’est-à-dire
H0 : µ = 250 ,
HA : µ < 250 .
!
249 − 250
PH0 (X ≤ 249) = P Z≤
√5
120
= P (Z ≤ −2.19) = 0.01426.
Fixons α = 0.05 .
La zone de rejet est calculée par
PH0 (X ≤ k) = 0.05 ,
c’est-à-dire !
k − 250
P Z≤ = 0.05 .
√5
120
k − 250
= −1.65
√5
120
et finalement
1.65 × 5
k = 250 − √ = 249.25 .
120
La règle est de rejeter H0 si xobs ≤ 249.25 .
Comme xobs = 249 , on rejettera donc H0 au niveau α = 0.05 .
Conclusion : chacun des deux tests conduit au rejet de H0 . Ceci ne veut pas
dire que ce rejet soit significatif au sens commun du terme. On peut reprocher au
producteur une certaine “mesquinerie” qui consiste à remplir les boı̂tes un petit peu
moins (1 gr par échantillon) que le poids annoncé. Mais, malgré la significativité
statistique, il serait difficile de crier à la fraude.
2. On veut tester l’hypothèse qu’en Belgique, les filles représentent environ 52 % des
naissances pour 48 % de garçons. Formellement, si p représente la proportion de filles,
nous écrirons H0 : p = 0.52 et HA : p 6= 0.52 . Imaginons que pour dix naissances un
jour donné dans une maternité, on observe une fille.
La p-valeur correspond à la probabilité d’avoir 0 ou 1 “succès” pour dix naissances,
pour une probabilité de “succès” de 0.52 , soit
0
PH0 (X ≤ 1) = C10 0.520 0.4810 + C10
1
0.521 0.489 = 0.00768 .
0.0078 < 0.025. Donc on rejette H0 au niveau α = 0.05 et on conclut que p 6= 0.52.
Chapitre VII
Résultat 1 2 3 4 5 6
Effectifs théoriques 20 20 20 20 20 20
Tableau VII.1 –.
Résultat E1 E2 E3 E4 E5 E6
Effectifs théoriques t1 t2 t3 t4 t5 t6
Tableau VII.2 –.
Dans la pratique, il est rare que l’on obtienne exactement ces résultats.
§ VII. Les tests du khi-deux
Supposons que l’on obtienne les effectifs suivants, appelés effectifs observés et
notés Oi , que nous présentons directement dans les Tableaux VII.3 et VII.4.
Résultat 1 2 3 4 5 6
Effectifs observés 14 16 28 30 18 14
Tableau VII.3 –.
Résultat E1 E2 E3 E4 E5 E6
Effectifs observés O1 O2 O3 O4 O5 O6
Tableau VII.4 –.
Les effectifs observés (Tableau VII.3) diffèrent-ils significativement des effectifs théoriques
(Tableau VII.1) ? Doit-on conclure que le dé n’est pas équilibré? Nous allons répondre à
cette question en utilisant un test d’hypothèses.
a) Le test
Posons pi = P (Ei ) (i = 1, · · · , k) .
contre l’alternative
b) La statistique du test
Nous allons devoir trouver une statistique à partir de laquelle nous pourrons réaliser
notre test d’hypothèses, et qui nous donnera une mesure globale de la déviation des
effectifs observés par rapport aux effectifs théoriques.
La première statistique qui nous vient à l’esprit pour mesurer globalement la déviation
entre les effectifs observés et les effectifs théoriques, est
k
X k
X
(Oi − ti ) = (ni − npi0 ).
i=1 i=1
Xk Xk
2 (Oi − ti )2 (ni − npi0 )2
χ = = .
i=1
ti i=1
npi0
c) Règle de décision
- Région critique
P (χ2k−1 ≥ kα ) = α
On a
- p-valeur
1 1 1
H0 : p1 = 6
, p2 = 6
, . . . , p6 = 6
,
1 1 1
H1 : p1 6= 6
, ou p2 6= 6
, ou . . . , ou p6 6= 6
,
X6 6
(Oi − ti )2 X (ni − n pi0 )2
χ25 = = ,
i=1
t i i=1
n p i0
(14 − 20)2 (16 − 20)2 (28 − 20)2 (30 − 20)2 (18 − 20)2 (14 − 20)2
χ2obs = + + + + +
20 20 20 20 20 20
= 12.8 .
- Calcul de la p-valeur
PH0 (χ25 ≥ 12.8) = 1 − PH0 (χ25 ≤ 12.8) = 1 − 0.975 = 0.025 < 0.05
On rejette donc H0 au niveau α = 0.05 .
Remarques :
1. Si, pour calculer les effectifs théoriques, on doit estimer m paramètres de la popula-
tion à partir de statistiques d’échantillonnage, le nombre de degrés de liberté sera
d=k−1−m.
P
6
(Oi −ti )2
2. ti
aura approximativement une distribution chi-carré si tous les effectifs
i=1
théoriques sont au moins égaux à cinq (ce qui est le cas dans notre exemple).
3. On a toujours
k
X k
X
Oi = ti = n
i=1 i=1
où n est le nombre total d’observations.
Y ∼ Bi(k,p) ,
§ VII. Les tests du khi-deux
et les événements
A0 = {Y = 0} , A1 = {Y = 1} , · · · , Ak = {Y = k} .
Le problème qui se pose n’est pas d’effectuer un test sur le paramètre p , mais d’examiner
si la distribution binomiale dans son entièreté s’applique au phénomène étudié.
H1 : le nombre de garçons dans les familles de cinq enfants n’est pas une
variable aléatoire binomiale.
t0 = n p0 = n C50 p0 q 5 ,
t1 = n p1 = n C51 p1 q 4 ,
..
.
t5 = n p5 = n C55 p5 q 0 ,
où p0 = P (Y = 0) , p1 = P (Y = 1) ,. . . , p5 = P (Y = 5) .
La statistique à calculer pour éprouver H0 est
Xk
(Oi − ti )2
χ2k−1 =
i=0
ti
Tableau VII.5 –.
Solution :
– Calculons les effectifs théoriques
ti = 320 × PH0 (Y = i) .
– Calculons la statistique du χ2
§ VII. Les tests du khi-deux
Tableau VII.6 –.
X5
(Oi − ti )2
χ25 =
i=0
ti
– Effectuons le test
1) Calcul de la p-valeur:
a) Le test
Supposons que dans une population chaque individu possède deux caractères Y et
X dont les modalités respectives sont A1 , · · · ,Ar et B1 , · · · ,Bs .
§ VII. Les tests du khi-deux
b) Statistique du test
ni• n•j
ou encore ssi ∀i,j : nij = .
n
On souhaite obtenir une statistique qui mesure la distance entre le tableau observé
et le tableau théorique (obtenu sous l’hypothèse H0 que les variables X et Y
sont indépendantes).
c) Règle de décision
- Région critique
- p-valeur
On rejette H0 , au niveau α ,
si P (χ2(r−1)(s−1) ≥ χ2obs ) ≤ α.
§ VII. Les tests du khi-deux
d) Exemple 1
Salaire
élevé moyen faible
Parti A 15 35 10 60
Parti B 5 15 20 40
20 50 30 100
Niveau
élevé moyen faible
Parti A 12 30 18 60
Parti B 8 20 12 40
20 50 30 100
§ VII. Les tests du khi-deux
Par exemple,
n1• n•1 60 × 20
n011 = = = 12 ,
n 100
n1• n•2 60 × 50
n012 = = = 30 ,
n 100
..
.
- Calcul de la p-valeur: PH0 (χ25 ≥ 12.85) = 1 − PH0 (χ25 ≤ 12.85) < 0.05 .
Conclusion
Sexe
Groupe sanguin Hommes Femmes Total
AB 25 15 40
A 215 207 422
O 200 194 394
B 60 60 120
Total 500 476 976
Tableau VII.7 –. Effectifs de 976 individus classés par sexe et par groupe sanguin.
En procédant de même pour tous les cas, on obtient la table des effectifs théoriques :
Sexe
Groupe sanguin Hommes Femmes Total
AB 20.49 19.51 40
A 216.19 205.81 422
O 201.84 192.16 394
B 61.48 58.52 120
Total 500 476 976
Tableau VII.8 –. Effectifs de 976 individus classés par sexe et par groupe sanguin.
§ VII. Les tests du khi-deux
(r − 1)(s − 1) = (4 − 1)(2 − 1) = 3 .
χ23,0.95 = 7.81 .
– Calcul de la p-valeur :
Échantillonnage – Distributions
d’échantillonnage
1. Exercices résolus
Exercice 1
Une population est caractérisée par une moyenne égale à 200 et un écart type égal à 50 .
Supposons qu’un échantillon aléatoire simple de taille 100 soit sélectionné et que x soit
utilisé comme estimation de µ .
Quelle est la probabilité que la moyenne d’échantillonnage s’écarte au plus de ±5 de la
moyenne de la population?
D’où
p = P (|X − µ| ≤ 5)
= P (µ − 5 ≤ X ≤ µ + 5)
= P (195 ≤ X ≤ 205)
= P (X ≤ 205) − P (X ≤ 195) ,
§ V. Échantillonnage – Distributions d’échantillonnage
205 − 200
P (X ≤ 205) = P Z≤ = P (Z ≤ 1)
5
= 0.8413 ,
195 − 200
P (X ≤ 195) = P Z ≤ = P (Z ≤ −1)
5
= P (Z ≥ 1) = 1 − P (Z ≤ 1)
= 0.1587 ,
Exercice 2
L’Institut National de Statistique révèle, sur base du dernier recensement, que 17% des
ménages dépensent plus de 100 Euros par semaine en épicerie.
On extrait de la population un échantillon aléatoire simple de 800 ménages.
Solution :
(a) Soit X le nombre de ménages dans l’échantillon qui dépensent plus de 100 Euros en
épicerie.
X p(1 − p)
p̂ = , E(p̂) = p , var(p̂) = ,
n n
d’où
E(p̂) = 0.17 ,
(0.17) (0.83)
var(p̂) = = 0.0001763 ,
800
p
σp̂ = var(p̂) = 0.0133 .
= P (−1.50 ≤ Z ≤ 1.50)
= P (Z ≤ 1.50) − P (Z ≤ −1.50)
= P (Z ≤ 1.50) − [1 − P (Z ≤ 1.50)]
= 0.86638 .
2. Exercices supplémentaires
1. La distribution d’échantillonnage de la moyenne : faire une synthèse des différents
cas vus au cours.
2. Certains tubes fabriqués par une compagnie ont une durée de vie moyenne de 800
heures et un écart type de 60 heures. On suppose que la durée de vie de ces tubes
suit une distribution Normale.
(a) Calculer la probabilité qu’un tube pris au hasard ait une durée de vie moyenne
comprise entre 790 et 810 heures.
(b) Calculer la probabilité qu’un échantillon de 36 tubes pris au hasard dans la
population ait une durée de vie moyenne comprise entre 790 et 810 heures.
(c) Comparer et expliquer les résultats obtenus dans les deux points précédents.
3. Les poids des colis reçus dans un grand magasin ont une moyenne de 300 kg et un
écart type de 50 kg. Quelle est la probabilité pour que 25 colis reçus au hasard et
chargés sur un monte-charge dépassent la limite de sécurité du monte-charge, qui est
de 8 200 kg?
(a) P (T ≤ 2.15)
(b) P (T = 2.15)
§ V. Échantillonnage – Distributions d’échantillonnage
(c) P (T ≤ 1.75)
(d) P (T ≥ 0)
(e) P (T > 1.75)
Intervalles de confiance
1. Exercices résolus
Exercice 1
Un échantillon de 532 abonnés à Trends Tendances a révélé qu’un abonné passait, en
moyenne, 6.7 heures par semaine à consulter Internet et les services en ligne, avec un écart
type s0 égal à 5.8 heures.
Calculer un intervalle de confiance à 95% par le temps passé en moyenne par les abonnés
de Trends Tendances à utiliser Internet et les services en ligne.
Solution :
x = 6.7heures , s0 = 5.8heures .
§ VI. Intervalles de confiance
• Calcul de l’intervalle :
= [6.207,7.193]
Exercice 2
Lors d’un sondage Time/CNN, 814 adultes ont répondu à une série de questions sur leur
opinion quant à l’état des affaires aux États-Unis. Au total, 532 adultes ont répondu
OUI à la question :
Solution :
(a) Soit X la V.A. comptant le nombre d’adultes d’un échantillon de 814 adultes qui
pensent que les choses vont bien aux Etats-Unis.
X
Soit p̂ = n
.
532
Alors p̂ = = 0.6904 .
814
§ VI. Intervalles de confiance
q
p̂ q̂
(c) Iα (p) = X̄ ± z1− α2 n
= [0.6637,0.7171] .
2. Exercices supplémentaires
1. Les intervalles de confiance pour le paramètre µ d’une distribution Normale et pour
une proportion : faire une synthèse des différents cas vus au cours.
2. Le taux moyen de cholestérol mesuré sur un échantillon de 144 sujets choisis par
tirage au sort dans une population d’individus âgés de plus de cinquante ans est de
1985 cg . On suppose l’écart type de la mesure du taux de cholestérol connu dans
cette population, et égal à 50 cg .
3. La moyenne des poids d’un échantillon représentatif de 100 étudiants des Facultés
§ VI. Intervalles de confiance
(a) Identifier la population concernée, ainsi que la variable aléatoire associée à cette
population.
(b) Déterminer un intervalle de confiance à 95 % pour estimer le poids moyen des
étudiants des Facultés Universitaires .
(c) Donner une interprétation de cet intervalle de confiance.
4. Une enquête a été faite en Belgique auprès d’un échantillon représentatif de 50 per-
sonnes de manière à avoir leur avis sur un projet du Gouvernement concernant l’envi-
ronnement. On constate que dans cet échantillon, 25 % des personnes sont favorables
à ce projet.
5. Sur 100 dossiers pris au hasard dans un service de désintoxication pour fumeurs, on
relève que 35 personnes, après avoir suivi volontairement le traitement jusqu’au bout,
déclarent n’avoir pas récidivé.
8. Un mareyeur livre des caisses de thon blanc à la conserverie. À la réception des colis,
le responsable a des doutes sur le poids affiché ; il prélève un échantillon de 16 caisses
dont il mesure en tonnes la moyenne et l’écart type : x̄ = 1.98 t ; s0 = 0.11 t .
Trouver un intervalle de confiance à 95 pourcents pour le poids moyen de ces caisses.
Sachant que le poids affiché est de 2 t , le mareyeur tient-il ses engagements?
(On suppose que le poids des caisses suit une distribution Normale.)
9. Supposons que la moyenne x̄ d’un échantillon aléatoire simple d’effectif 25, prélevé
dans une population N (µ, 6400) vaille 81.2 . Trouver un intervalle de confiance
pour µ au niveau de confiance 0.95 .
10. On suppose que le temps de mémorisation d’un texte par les étudiants d’une promo-
tion suit une distribution Normale. Un échantillon de 17 étudiants fournit les valeurs
observées suivantes : x̄ = 25 , s0 = 5 .
Trouver un intervalle de confiance pour le temps moyen de mémorisation µ de la
promotion.
81 84 83 80 85 86 85 83 84 80
12. La durée d’écoulement d’un grand sablier est une variable aléatoire N (µ,σ 2 ) dont on
ne connaı̂t pas les paramètres. En le faisant fonctionner 10 fois, on obtient une durée
moyenne x̄ égale à 16 secondes, avec un écart-type s0 égal à 1 seconde.
Tests d’hypothèses
1. Exercice résolu
En février 2000, le prix moyen d’un voyage aller-retour par avion en Europe était de 258
Euros. Un échantillon aléatoire simple de 15 billets aller-retour par avion en Europe, vendus
au cours du mois de février 2001, a fourni les données suivantes sur les prix :
310 260 265 255 300 310 230 250 265 280 290 240 285 250 260
Solution :
• Test :
(a) H0 : µ = 258 ,
H1 : µ > 258 .
(b) Statistique du test : X .
Sous H0 :
X − µ0
s0
∼ tn−1 .
√
n
s0
xobs ≥ µ0 + tn−1,1−α √ ;
n
on a :
xobs = 270 ,
s0 24.78
µ0 + tn−1,1−α √ = 258 + 1.761 √ = 269.3
n 15
Conclusion : xobs > 269.3; on rejette donc H0 au niveau α = 0.05 .
Le prix des billets d’avion aller-retour en Europe a augmenté de février 2000
à février 2001.
2. p-valeur : on rejette H0 , au niveau α , si p-valeur ≤ α :
!
X − µ0 270 − 258
PH0 (X ≥ xobs ) = PH0 s0
≥ 24.78
√ √
n 15
2. Exercices supplémentaires
1. Test sur le paramètre µ d’une distribution Normale de variance σ 2 (connue).
Faire une synthèse des différents cas (alternatives unilatérale à gauche, unilatérale à
droite, bilatérale).
2. Un procédé de fabrication courant a produit des millions de tubes TV, dont la durée
de vie moyenne est de 1 200 heures, avec un écart type de 300 heures .
Un nouveau procédé, estimé meilleur par le bureau d’études, fournit un échantillon
de 100 tubes, avec une moyenne de 1 265 heures. On suppose l’écart type connu, égal
à 300 heures.
Tester l’hypothèse que le nouveau procédé est meilleur (au niveau de 0.05)
3. Un procédé de fabrication courant a produit des millions de tubes TV, dont la durée
de vie moyenne est de 1 200 heures, avec un écart type de 300 heures.
Un nouveau procédé, estimé moins bon par le bureau d’études, fournit un échantillon
de 100 tubes, avec une moyenne de 1 135 heures. On suppose l’écart type connu, égal
à 300 heures.
Tester l’hypothèse que le nouveau procédé est moins bon (au niveau de 0.05)
(a) Au vu de ces résultats, peut-on conclure, au niveau de 0.01 , que les individus
ont de la difficulté à évaluer la distance d’un objet placé à 20 cm?
(b) Expliquer, d’une manière générale, la démarche effectuée dans le cadre d’un test
d’hypothèses.
Tests chi-carré
1. Exercices résolus
Exercice 1
On effectue une étude sur le développement de 80 villes dont on a constaté que l’extension
à partir du centre se faisait dans une direction géographique prioritaire. Le tableau suivant
donne, pour chaque direction, le nombre de villes pour lesquelles on a relevé l’extension
dans cette direction :
Direction N NE E SE S SO O NO
Nombre de villes 7 6 4 6 10 16 18 13
Solution :
(a) Il s’agit d’un test chi-carré d’ajustement.
Soit E1 (respectivement E2 , · · · ,E8 ) l’événement l’extension se fait dans la direc-
tion N (respectivement NE , E , SE , S , SO , O , NO ).
Notons pi = p(Ei ) , i = 1, · · · ,8 .
L’hypothèse nulle exprimera que l’extension d’une ville a les mêmes chances de se
faire dans n’importe quelle direction :
1
H0 : p1 = p 2 = · · · = p 8 = ·
8
§ VII. Tests chi-carré
Direction N NE E SE S SO O NO
Nombre de villes 10 10 10 10 10 10 10 10
= 18.6 .
1. Région critique :
Conclusion : l’extension d’une ville n’a pas les mêmes chances de se faire dans
n’importe quelle direction (au niveau α = 0.05 ).
§ VII. Tests chi-carré
2. p-valeur :
(b) Le risque que l’on prend réellement en rejetant H0 est donné par la p-valeur. Ce
risque est donc voisin de 1% .
Exercice 2
On compare la qualité des sondages réalisés par deux instituts A et B en testant l’exactitude
de leurs prévisions durant une année. Les résultats sont les suivants :
Institut A Institut B
Nombre de prévisions exactes 83 105
Nombre de prévisions fausses 7 5
Solution :
b) Le tableau observé est donné dans l’énoncé. On le complète en y indiquant les effectifs
marginaux :
Institut A Institut B
Nombre de prévisions exactes 83 (n11 ) 105 (n12 ) 188 (n1• )
Nombre de prévisions fausses 7 (n21 ) 5 (n22 ) 12 (n2• )
90 (n•1 ) 110 (n•2 ) 200 (n)
Les effectifs théoriques n0ij sont calculés sous l’hypothèse que H0 est vraie (hypothèse
d’indépendance) :
n1• × n•1 188 × 90
n011 = = = 84.6 ,
n 200
n1• × n•2 188 × 110
n012 = = = 103.4 ,
n 200
n2• × n•1 12 × 90
n021 = = = 5.4 ,
n 200
n2• × n•2 12 × 110
n022 = = = 6.6 .
n 200
Le tableau théorique est donné par :
Institut A Institut B
Nombre de prévisions exactes 84.6 103.4 188
Nombre de prévisions fausses 5.4 6.6 12
90 110 200
= 0.917 .
et
χ2obs = 0.917 < 2.71 .
Conclusion : La p-valeur est comprise entre 0.3 et 0.4, donc supérieure à α = 0.1.
On ne rejette pas H0 au niveau α = 0.1 .
c) Plus le niveau du test est petit, moins facilement on rejette H0 . Comme on ne rejette
pas H0 au niveau α = 0.1, a fortiori on ne rejettera pas H0 à un niveau α plus petit.
2. Exercices supplémentaires
1. Soit X une V.A. chi-carré à 6 degrés de liberté. Calculer
(a) P (X ≤ 12.6)
(b) P (X ≥ 16.8)
(c) le quantile d’ordre 0.95 de la distribution de X
(d) le quantile d’ordre 0.99 de la distribution de X
2. Lors d’un sondage, les avis donnés par 404 électeurs sur les partis de la majorité et
de l’opposition sont repris dans le tableau suivant :
Tester, au niveau de 0.05 , l’hypothèse nulle suivant laquelle il n’y a aucune différence
entre la popularité des partis de la majorité et la popularité des partis de l’opposition.
3. Dans une étude pour ses annonceurs, un groupe de presse a tiré au hasard un
échantillon de 100 lecteurs de chacun de ses trois principaux titres, avec les résultats
suivants :
Journal
Classe sociale A B C
Bas revenus 29 9 10
Petite bourgeoisie 47 57 49
Moyenne bourgeoisie 16 24 29
Grande bourgeoisie 8 10 12
Tester, au niveau 0.05 , l’hypothèse nulle suivant laquelle le choix d’un journal est
indépendant de la classe sociale des lecteurs.
(a) Tester l’hypothèse suivant laquelle le nombre de victoires est le même, quelle
que soit la position de départ (prendre un niveau de 0.05 ).
(b) En vous servant de cet exemple, donner une interprétation du niveau de ce test.
5. Le tableau suivant reprend des données concernant le niveau des dépenses pour
l’achat de produits cosmétiques observées sur un échantillon de 500 femmes adultes
différentiées par leur statut professionnel.
§ VII. Tests chi-carré
Statut professionnel
Travail à Travail à
Dépenses par mois Sans profession
temps plein temps partiel
Moins de 500 Euros 30 20 60
Entre 500 et 1 000 Euros 55 60 65
Plus de 1 000 Euros 55 80 75
6. Parmi un groupe de malades qui se plaignent de ne pas bien dormir, certains ont
absorbé un somnifère sous la forme de cachets, d’autres ont absorbé des cachets de
sucre (tous pensaient qu’on leur administrait un somnifère). Après quoi on leur a
demandé si les cachets ont été efficaces. Le tableau suivant indique les différentes
réponses. Tester l’hypothèse qu’il n’y a aucune différence entre le somnifère et le
sucre au seuil de 0.05 .