Cours de Statistique L2 LMD ISC

République Démocratique du Congo
Enseignement Supérieur et Universitaire

Institut Supérieur de Commerce
I.S.C/Bukavu
2 σ 2 µ) 2
x−
2π e −(
1
ECUE de Statistique Inférentielle
σ √
Notes destinées aux étudiants de

=
L2 LMD
x)
Par
Kakulu Djambilay James Pascal
f(
Chef de Travaux
Année académique 2022 - 2023

Chapitre 1
Notions de probabilité
Sommaire
1.1 Techniques de dénombrement . . . . . . . . . . . . . . . . 1
1.1.1 Principe fondamental . . . . . . . . . . . . . . . . . . . . 1
1.1.2 Arrangements avec répétition . . . . . . . . . . . . . . . . 2
1.1.3 Arrangement sans répétition . . . . . . . . . . . . . . . . 2
1.1.4 Combinaison sans répétition . . . . . . . . . . . . . . . . . 2
1.2 Vocabulaire . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2.1 Expérience aléatoire . . . . . . . . . . . . . . . . . . . . . 3
1.2.2 Événements . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.3 Notion de probabilité . . . . . . . . . . . . . . . . . . . . . 4
1.3.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.3.2 Probabilité conditionnelle . . . . . . . . . . . . . . . . . . 6
1.3.3 Système complet d’événements . . . . . . . . . . . . . . . 6
1.1 Techniques de dénombrement

1.1.1 Principe fondamental
Supposons qu’une expérience globale est la succession de m sous expériences. Si
la i
ème
expérience possède ni résultats possibles pour i = 1, 2, · · · , n, alors le nombre
total des résultats possibles de l’expérience globale est n1 × n2 × · · · × nm .
Exemple 1.1
(1) Dans une ville donnée, les plaques d’immatriculation des véhicules comportent
les lettres BK, suivies de 4 chiffres différents, suivis à leur tour des lettres BB.
Combien peut-on ainsi immatriculer les véhicules différents ?
(2) Répondre à la même question pour une ville où toute plaque d’immatriculation
est composée de deux lettres quelconques de l’alphabet français suivies de 4
chiffres différents suivis à leur tour de deux lettres différentes de l’alphabet
français.
1
1.1. Techniques de dénombrement 2
1.1.2 Arrangements avec répétition

Un arrangement avec répétition de r objets pris parmi n est une suite ordonnée
de r éléments choisis parmi n, et pouvant se répéter.
Exemple 1.2
Un mot de six lettres est un arrangement avec répétition de six objets choisis parmi
un ensemble, l’alphabet, de 26 éléments : habile, garage,...
Un tel arrangement peut être représenté par les r objets rangés dans des cases
numérotées de 1 à r. Pour chacune de ces r cases, il y a n choix possibles de l’objet
à ranger, donc le nombre total de ces arrangements est :
Arn = nr . (1.1)
Exemple 1.3
Combien peut-on former des nombres à 4 chiffres dans le système de numération
décimale ?
1.1.3 Arrangement sans répétition

• Un arrangement sans répétition de n objets pris k à k est une liste ordonnée
de k objets différents pris parmi n.
Le nombre de tels arrangements se note Akn et on a :
n!
Akn = (1.2)
(n − k)!
Exemple 1.4
Combien peut-on former des nombres à 4 chiffres différents dans le système de
numération décimale ?
• Si n = k un arrangement sans répétition de n éléments pris k à k est tout
simplement une liste des k de ces éléments pris dans un ordre précis. On parle
alors de permutation de n éléments.
Le nombre de telles permutations se note Pn et on a :
Pn = Ann = n! (1.3)
Ainsi, par exemple si Alice possède 4 visiteurs qu’elle doit asseoir à 4 places différentes,
elle possède 4! = 24 manières différentes de les asseoir.
1.1.4 Combinaison sans répétition

Une combinaison sans répétition est un sous-ensemble non ordonné de k objets
choisis dans un ensemble qui en contient n. Ces sous-ensembles sont au nombre de :
Akn
!
n n!
= =
k k! k!(n − k)!
n!
{kn = (1.4)
k!(n − k)!
Par Kakulu Djambilay James Pascal, Chef de Travaux

1.2. Vocabulaire 3
Propriété 1.1
(1) {kn = {n−k

n
(2) {kn + {k+1

n = {k+1
n+1
n
(3) (a + b)n = {k an−k bk
P
n (Formule de binôme de Newton)
k=0
Remarque 1.1
• Dans un arrangement, l’ordre a de l’importance certainement aux combinai-

sons.
• Une combinaison avec répétition est un sous-ensemble non ordonné de k objets
choisis dans un ensemble qui en contient n et qui peuvent se répéter.
Exemple 1.5
(1) Une école constituée de 40 élèves et 3 professeurs veut envoyer une déléga-
tion de 4 élèves et 2 professeurs pour une conférence scientifique. Combien de
délégations possibles pouvons-nous former ?
(2) Un centre de recherche compte 30 chercheurs parmi lesquels 18 sont des

hommes. Une équipe de 10 de ces chercheurs doit être constituée pour une
mission de Terrain. Il est exigé que pour des raisons de genre, 4 de ces 10
chercheurs choisis soient de sexe féminin. Il est aussi connu que parmi les
chercheurs figurent Marc et Gisèle qui sont fiancés et tellement jaloux qu’ils
ne peuvent figurer qu’au sein des mêmes équipes. En tenant compte de cette
contrainte, combien est-il possible de former d’équipe ?
1.2 Vocabulaire
1.2.1 Expérience aléatoire
Définition 1.1
On appelle expérience aléatoire, une expérimentation ou un phénomène conduisant
à plusieurs résultats et pour lequel on ne peut pas savoir à priori quel résultat se
produira. Ces différents résultats sont appelés issues. L’ensemble de tous les issues
possibles est appelé l’ensemble fondamental noté Ω.
Exemple 1.6
– On lance une pièce de monnaie et on regarde la face supérieure, les issues

possibles de cette expérience aléatoire sont : Pile, face
Ω = {P, F }

1.3. Notion de probabilité 4
– On jette un dé et on observe la face supérieure, les issues de cette expérience

aléatoire sont les nombres : 1; 2; 3; 4; 5; 6.
Ω = {1, 2, 3, 4, 5, 6}
1.2.2 Événements
Définition 1.2
On appelle événement une partie de l’ensemble des issues d’une expérience aléatoire.
L’événement est dit élémentaire s’il ne correspond qu’à une seule et unique issue.
Pour désigner un événement, on a l’habitude de procéder de deux manières :

– Soit par une phrase explicite qui définit clairement les issues que l’on souhaite
garder. Dans l’expérience 2, on pourrait considérer l’événement : "le nombre
désigné par la face supérieure du dé est pair", qui correspondrait à la partie
2, 4, 6 de toutes les issues possibles de l’expérience.
– Soit par les issues elles-mêmes. Dans l’expérience 1, on pourrait considérer
l’événement : "pile". C’est un événement élémentaire.
Dans les deux cas, on peut nommer l’événement d’une lettre majuscule. ("Soit
A l’événement...")
Définition 1.3
Deux événements sont dits incompatibles s’ils ne peuvent pas se produire en même
temps.
Exemple 1.7
– Dans l’expérience1 ; les événements "Pile" et "Face" sont incompatibles. En

effet, si une face de la pièce est montrée, l’autre est cachée.
– Dans l’expérience 2 ; les événements "la face supérieure du dé est 1" et "la face
supérieure du dé est 2" sont incompatibles. En effet, un dé immobilisé ne peut
montrer les faces 1 et 2 en même temps.
1.3 Notion de probabilité

Lorsqu’on fait une expérience aléatoire, on peut la renouveler un certain nombre
de fois et calculer à chaque fois la fréquence (au sens statistique) d’un événement
particulier. Celle-ci correspond au rapport du nombre de fois où l’événement se
produit au nombre de fois où l’expérience est réalisée
Sur un petit nombre d’expérience, cette fréquence peut beaucoup varier. Par
contre, si l’on renouvelle l’expérience un très grand nombre de fois (à l’aide d’une
calculatrice ou d’un tableur par exemple), on voit cette fréquence qui variait beaucoup
se stabiliser au tour d’une valeur.
Le calcul des probabilités se propose de déterminer cette fréquence théorique
dans ce dernier cas, où l’expérience aléatoire est renouvelée un très grand nombre de
fois... Ce qui nous amène à considérer la définition suivante :

1.3.1 Définition
Définition 1.4
La probabilité d’un événement A est notée P (A) et correspond au rapport
Nombre d’issues favorables #A
P (A) = = . (1.5)
Nombre d’issues possibles #Ω
De manière plus formelle, ε étant la classe des événements, une probabilité sur Ω est
une application P : ε −→ [0, 1] vérifiant les propriétés suivantes :
Propriété 1.2
(1) P (Ω) = 1
(2) Si A ∩ B = ∅ alors P (A ∪ B) = P (A) + P (B).
(3) En général, si (Ai )ni=1 est une suite d’événements deux à deux disjoints, alors :
n n
!
Ai = P (Ai ). (1.6)
[ X
P
i=1 i=1
Il résulte de cette définition que :

∗ P (∅) = 0
∗ Si A est l’événement contraire à A alors P (A) = 1 − P (A).
∗ Si A ⊂ B, alors P (A) ≤ P (B).
∗ P (A ∪ B) = P (A) + P (B) − P (A ∩ B).
Exemple 1.8
(1) On choisit au hasard 4 articles d’un lot de 15 articles parmi lesquels 7 sont
défectueux.
– Quelle est la probabilité que les 4 articles choisis soient défectueux ?
– Quelle est la probabilité qu’aucun des 4 articles choisis ne soit défectueux ?
– Quelle est la probabilité qu’au moins l’un des quatre articles choisis soit
défectueux ?
(2) Un auditoire comporte 10 garçons dont la moitié a les yeux marrons et 20

filles dont la moitié également a les yeux marron. Calculer la probabilité p pour
qu’une personne tirée au hasard dans cet auditoire soit un garçon ou ait les
yeux marrons.
(3) On lance deux dés, quelle est la probabilité que la somme de chiffres lus sur
les deux faces de dés soit supérieure à 7.
(4) Les étudiants d’une université participant à un cours pluridisciplinaire sont

également répartis dans trois années d’étude : 15 en G1, 15 en G2 et 15 en G3.
En outre, 20 d’entre-eux étudient la gestion, 18 l’économie et 7 l’informatique.
Ils sont regroupés par 3 afin de préparer un projet. Calculer la probabilité des
événements suivants :

1. A : "le groupe contient 2 gestionnaires et 1 économiste"

2. B : " le groupe contient 3 étudiants de la même année"
3. C : "le groupe contient au moins un étudiant d’informatique ".
1.3.2 Probabilité conditionnelle

Soient A et B deux événements, A étant supposé de probabilité non nulle. On
appelle probabilité conditionnelle de B par rapport à A, la probabilité de la réalisation
de l’événement B sachant que A est réalisé. On la note
P (A ∩ B)
P (B/A) = (1.7)
P (A)
Il en résulte que P (A ∩ B) = P (A) · P (B/A) = P (B) · P (A/B).
Exemple 1.9
Dans une population donnée, 15% des individus sont atteints de malaria. Parmi les
individus atteints de malaria, 20% développent une migraine et parmi les individus
non atteints de malaria, 4% développent aussi une migraine.
P : l’individu est atteint de malaria ;
M : l’individu souffre d’une migraine.
(a) Donner les valeurs des probabilités suivantes : P (P ), P (M/P ) et P (M/P )
(b) Calculer la probabilité que l’individu choisi ne souffre ni de malaria ni de
migraine.
(c) Calculer la probabilité que l’individu souffre d’une migraine
1.3.3 Système complet d’événements

Une famille d’événements A1 , A2 , · · · , An est appelée système complet d’événe-
ments si :
1. Ai 6= ∅, ∀i ∈ {1, 2, · · · , n}
2. Pour i 6= j, on a : Ai ∩ Aj = ∅
3. A1 ∪ A2 ∪ · · · ∪ An = Ω.
En langage ensembliste, un système complet d’événements est une partition de
l’ensemble fondamental Ω.
1.3.3.1 Formule des probabilités totales (Formule a priori)

Si A1 , A2 , · · · , An est un système complet d’événements et si B est un événement
quelconque alors :
n
P (B) = P (Ai ) · P (B/Ai ). (1.8)
X
i=1

Preuve
Exemple 1.10
Une usine possède trois machines qui produisent respectivement 60%, 30% et 10% du
nombre total de pièces fabriquées. Le pourcentage de pièces défectueuses produites
par chaque machine est respectivement de 1%, 2% et 3%. On choisit au hasard une
pièce fabriquée par ces machines. Quelle est la probabilité qu’elle soit en bon état.
1.3.3.2 Formule de Bayes (Formule a posteriori)

Si A1 , A2 , · · · , An est un système complet d’événements et si B est un événement
quelconque alors :
P (Ai ) · P (B/Ai )
P (Ai /B) = Pn . (1.9)
j=1 P (Aj ) · P (B/Aj )
Exemple 1.11
(1) La production d’une usine est assurée par trois machines M1 , M2 et M3 qui
assurent respectivement 50%, 30% et 20% de la production totale. Il est connu
que 2% des articles produits par M1 , 3% de ceux produits par M2 et 5% de
ceux produits par M3 sont défectueux. Un client achète un article provenant de
cette usine et constate qu’il est défectueux. Quelle est la probabilité qu’il ait été
fabriqué par M2 ?
(2) Une compagnie d’assurance répartit les assurés en 3 classes : personnes à bas
risque, risque moyen et haut risque. Ses statistiques indiquent que la probabilité
qu’une personne soit impliquée dans un accident sur une période d’un an est
respectivement de 0.05 ; 0.15 et 0.30. On estime que 20% de la population est à
bas risque, 50% à risque moyen et 30% à haut risque.
1. Quelle est la proportion d’assurés qui ont eu un accident ou plus au cours
d’une année donnée ?
2. Si un certain assuré n’a pas eu d’accidents l’année passée, quelle est la
probabilité qu’il fasse partie de la classe à bas risque ?

Chapitre 2
Variables aléatoires et lois de

probabilité
Sommaire
2.1 Variables aléatoires . . . . . . . . . . . . . . . . . . . . . . 8
2.1.1 Définitions . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.1.2 Caractéristiques numériques des variables aléatoires . . . 8
2.1.3 Cas d’une variable aléatoire X continue . . . . . . . . . . 9
2.2 Lois de probabilité d’usage courant . . . . . . . . . . . . . 11
2.2.1 Lois de probabilités discrètes . . . . . . . . . . . . . . . . 11
2.2.2 Lois de probabilité continues . . . . . . . . . . . . . . . . 12
2.1 Variables aléatoires

2.1.1 Définitions
Définition 2.1
Une variable aléatoire X : Ω −→ R sur un ensemble fondamental Ω est une fonction
telle que l’image réciproque de chaque intervalle soit un événement.
Définition 2.2
Si Im(X) est discret, alors X est une variable aléatoire discrète et si Im(X) est
continu alors X est une variable aléatoire continue.
Définition 2.3
Soit X : Ω −→ R une variable aléatoire discrète. On appelle loi de probabilité de X
la loi définie sur l’ensemble image Im(X) = {X1 , X2 , · · · , Xk } par :

PX (X = Xi ) = P X −1 ({Xj }) . (2.1)
2.1.2 Caractéristiques numériques des variables aléatoires

Considérons X une variable aléatoire discrète d’ensemble image
Im(X) = {X1 , X2 , · · · , Xk }
8
2.1. Variables aléatoires 9
∗ On appelle espérance mathématique de X, la quantité

n
E(X) = X = Xi Pi , avec Pi = P (X = Xi ). (2.2)
X
i=1
∗ On appelle variance d’une variable aléatoire l’espérance mathématique du carré

des écarts par rapport à l’espérance mathématique :
n 2
V (X) = = E(X − E(X))2 . (2.3)
X
Pi X i − X
i=1
V (X) = E(X 2 ) − [E(X)]2 . (2.4)

L’écart-type est la racine carrée de la variance.
Exemple 2.1
1. On lance deux dés, soit X la variable aléatoire "La somme des chiffres lus sur
les deux faces supérieures ". Calculer l’espérance mathématique, la variance et
l’écart-type.
2. Une boite contient six jetons sur lesquels sont inscrits les entiers : −3; −2; 1; 2; 3; 4.
Un tirage consiste à tirer simultanément deux jetons. On considère la variable
aléatoire X qui à chaque tirage associe la somme des deux entiers inscrits sur
les jetons tirés. Calculer l’espérance mathématique, la variance et l’écart-type
de cette variable aléatoire.
3. Une personne possède 4 clés parmi lesquelles une seule ouvre la porte. Elle
les essaie au hasard en éliminant celles qui ne marchent pas. On pose X "le
nombre d’essais pour ouvrir la porte ".
(a) Calculer la loi de probabilité de X, c’est-à-dire P (X = k) avec k = 1, 2, 3, 4.
(b) Calculer E(X) et V ar(X).
2.1.3 Cas d’une variable aléatoire X continue

On appelle densité de probabilité de X la fonction définie de X(Ω) vers [0, 1] par
f (k) = P (X = k). (2.5)
Admettons que X ne prenne pas de valeur négative. Autrement dit, si X(Ω) ⊂ [0, +∞[,
alors la fonction de répartition de la variable aléatoire X est la fonction F, définie de
R vers [0, 1] par : Z x
F (X) = (f (t))dt. (2.6)
0
On remarque que, la fonction de répartition F est croissante sur R. On a alors la
propriété remarquable suivante :

2.1. Variables aléatoires 10
Propriété 2.1
Pour tout a et b tels que b ≥ a ≥ 0
Z b
P (a ≤ x ≤ b) = F (b) − F (a) = f (t)dt. (2.7)
a
Définition 2.4
L’espérance mathématique d’une variable aléatoire continue X de densité de probabilité
f est : Z
E(X) = xf (x)dx (2.8)
I
où f : I −→ R est la densité de probabilité.
Définition 2.5
La variance et l’écart-type d’une variable aléatoire continue sont définies de la même
manière que pour une variable discrète.
Définition 2.6
La variance d’une variable aléatoire X est, si elle existe, l’espérance de la variable
aléatoire (X − E(X))2 . On la note V (X).
V (X) = E(X 2 ) − [E(X)]2 .
Définition 2.7
L’écart-type de la variable aléatoire est
q
σ(X) = V (X). (2.9)
Exemple 2.2
(1) Soit X une variable aléatoire dont la fonction de densité est


c(1 − x2 ) si − 1 < x < 1
f (x) = .
0 sinon
1. Calculer la valeur de c.
2. Calculer E(X).
(2) La quantité de pain (en centaines de kilos) qu’une boulangerie vend en 1
journée est une variable aléatoire X de fonction de densité
si 0 ≤ x ≤ 3

cx


f (x) = c(6 − x) si 3 ≤ x ≤ 6 .
0 sinon


2. Calculer E(X) et V (X).
(3) Soit A l’événement : "le nombre de kilos de pain vendus dans une journée est
supérieur à 300 kg". Soit B l’événement : "le nombre de kilos de pain vendus
dans une journée est compris entre 150 et 450 kg ". Les événements sont-ils
indépendants ?

2.2. Lois de probabilité d’usage courant 11
2.2 Lois de probabilité d’usage courant

2.2.1 Lois de probabilités discrètes
2.2.1.1 Loi de Bernoulli
– On appelle épreuve de Bernoulli, une expérience n’ayant que deux résultats :
un succès avec une probabilité p et un échec avec probabilité q = 1 − p.
– On appelle variable de Bernoulli de paramètre p, la variable aléatoire X définie
sur Ω = {s, s} en associant 1 au succès et 0 à l’échec.
– La loi de Bernoulli est donc définie sur l’ensemble {0, 1} avec P (X = 1) = p et
P (X = 0) = q = 1 − p.
– L’espace mathématique de la loi de Bernoulli est p et sa variance est p · p
2.2.1.2 Loi Binomiale

∗ On dit qu’une variable aléatoire X suit la loi binomiale des paramètres n et p
si X est la variable aléatoire définie par le nombre de succès obtenus au cours
des n épreuves de Bernoulli pour lesquelles la probabilité de succès est p. Dans
ce cas :
P (X = k) = {kn . · (1 − p)n−k . (2.10)
Pour une loi binomiale,
E(X) = np et V (X) = np(1 − p). (2.11)
Exemple 2.3
1. La probabilité qu’un tireur atteigne sa cible est 0.25. En supposant qu’il tire 7
fois, quelle est la probabilité qu’il atteigne sa cible au moins deux fois.
2. Dans le magasin Martin, on vend de prêt-à-porter ; la probabilité qu’un client
fasse un achat est de 0.30. En supposant que Martin reçoit 30 clients en une
journée.
(a) Quelle est la probabilité que
10) 12 clients achètent un prêt-à-porter ?
20) au moins 5 clients achètent ?
(b) Supposons que le magasin Martin prévoit que 1000 clients entreront dans
le magasin le mois prochain. Quel est le nombre moyen d’acheteur et leur
écart-type ?
2.2.1.3 Loi de Poisson

On dit qu’une variable aléatoire X, à valeurs dans N, suit une loi de Poisson de
paramètre λ, notée P (λ), (λ > 0), si et seulement si, pour tout entier naturel k,
λk · e−λ
P (X = k) = (2.12)
k!

On admet les résultats suivants :

√
E(X) = λ, V (X) = λ et σ(X) = λ.
• Le paramètre λ de la loi de Poisson représente à la fois son espérance mathé-
matique et sa variance.
• Lorsque n est très grand et p est petite, la loi de Poisson est une bonne
alternative à la loi binomiale.
λk · e−λ
lim {kn · pk (1 − p)n−k = . (2.13)
n→+∞ k!
Exemple 2.4
1. Dans un livre de 500 pages, on trouve 200 fautes d’impression distribuées au

hasard. Calculer la probabilité que la page 235 contienne 2 fautes d’impression.
2. La probabilité d’atteindre la cible par un tireur étant de 0.01, calculer la proba-
bilité qu’au cours de deux cents essais indépendants.
(a) la cible soit atteinte au moins une fois
(b) six fois.
3. Soit une boîte avec 200 fusibles. La probabilité qu’un fusible soit défectueux est
de 2%. Quelle est la probabilité de trouver au maximum 5 fusibles défectueux ?
2.2.2 Lois de probabilité continues

2.2.2.1 Loi uniforme
Une variable aléatoire suit une loi uniforme si sa densité est constante sur un
intervalle [a, b] ; cette densité a donc la forme :

k si x ∈ [a, b]
f (x) = (2.14)
0 sinon.
On sait que
Z b Z b
1
f (x)dx = 1 ⇔ kdx = 1 ⇔ k(b − a) = 1 ⇔ k = .
a a b−a
D’où la densité de probabilité est :
1

si x ∈ [a, b]


f (x) =  b − a (2.15)
0 sinon.
On démontre que :
b+a (b − a)2
E(X) = et V (X) = .
2 12

2.2.2.2 Loi exponentielle

La loi exponentielle de paramètre θ > 0 est celle d’une variable positive de densité
f (x) = θe−θx six ≥ 0. (2.16)

La variable associée x est souvent utilisée pour représenter une durée de vie (durée
de vie d’un matériel donné, durée de chômage, durée d’hospitalisation,. . .).
Sa fonction de répartition est :
Z t h ix
• F (x) = θe−θt dt = −e−θt = 1 − e−θx . (2.17)
0 0
Z +∞ h i+∞ Z +∞
1
• E(x) = θ xe−θx dx = −xe−θt + e−θx dx = . (2.18)
0 0 0 θ
2 1 1
• V (x) = E(x2 ) − [E(x)]2 = 2
− 2 = 2. (2.19)
s θ θ θ
q 1 1
• σ(x) = V (x) = 2
= . (2.20)
θ θ
1
Z +∞ +∞
• P (x > t) = θe−θx dx = θ − · e−θx
t θ t
= −e −θx +∞
|t
=e −θt
(2.21)
et
• P (0 < X ≤ t) = 1 − e−θt (2.22)
Exemple 2.5
1. Le temps en minutes qu’un étudiant passe sur un ordinateur dans la salle

d’informatique d’une université suit une loi exponentielle de moyenne égale
à 36 minutes. Supposez qu’un étudiant arrive juste au moment où un autre
étudiant commence à travailler sur l’ordinateur.
(a) Quelle est la probabilité que l’attente du second étudiant soit inférieure ou
égale à 15 minutes ?
(b) Quelle est la probabilité que l’attente du second étudiant soit comprise entre
15 et 45 minutes ?
(c) Quelle est la probabilité qu l’attente du second étudiant soit supérieure ou
égale à une heure ?
2. Le temps(en minutes) entre les appels téléphoniques dans une agence d’assurance
suit la loi exponentielle suivante :
f (x) = 0.50e−0.50x pour x ≥ 0
(a) Quel est le temps moyen entre les appels téléphoniques ?
(b) Quelle est la probabilité d’avoir au plus 30 secondes entre deux appels
téléphoniques
(c) Quelle est la probabilité d’avoir au plus une minute entre deux appels
téléphoniques ?

2.2.2.3 Loi normale

10) Définition
La loi la plus importante pour décrire une variable aléatoire continue est la loi
normale. La loi normale a été utilisée dans de nombreuses applications pratiques, dans
les quelles les variables aléatoires étaient la taille et la masse d’individus ; les résultats
des tests d’intelligence ; des mesures scientifiques ; le niveau des précipitations, etc.
Elle est également très utilisée dans le domaine de l’inférence statistique, principal
sujet de la suite de ce cours.
La densité de probabilité de la loi normale est donnée par l’expression
1 −(x−µ)2
f (x) = √ e 2σ2 (2.23)
σ 2π
où µ correspond à la moyenne et σ correspond à l’écart-type.
La courbe normale a deux paramètres µ et σ. Ils déterminent la position et la
forme de la distribution.
Ecart-type σ
E(X) = µ et V (X) = σ 2 .
2o) La loi normale centrée réduite

Une variable aléatoire qui a une distribution de probabilité normale de moyenne
nulle et d’écart-type égal à 1, suit ce que l’on appelle loi normale centrée-réduite.
La lettre Z est habituellement utilisée pour désigner cette variable aléatoire normale
particulière.
σ=1
x−µ
Z=
0 σ
La fonction de densité normale centrée réduite s’écrit :

z2
1 −
f (z) = √ e 2 , E(z) = 0 et V (z) = 1, σ(z) = 1.
σ 2π

A partir de la table de la loi normale centrée réduite, nous pouvons maintenant

calculer P (0 ≤ z ≤ Z).
P (0 ≤ z ≤ 1)
Exemple 2.6
(1) Trouver l’aire comprise sous la courbe normale dans chacun des cas suivants :
(a) Aire comprise entre z = 0 et z = 1.2
(b) Aire comprise entre z = −0.68 et z = 0.
(c) Aire comprise entre z = −0.46 et z = 2.21.
(d) Aire comprise entre z = 0.81 et z = 1.94.
(e) Aire à gauche de z = −0.6.
(f) Aire à droite de z = −1.28.
(2) Sachant que Z est une variable aléatoire normale centrée réduite, calculer les
probabilités suivantes :
(a) P (0 ≤ z ≤ 0.83)
(b) P (−1.57 ≤ z ≤ 0)
(c) P (z > 0, 44)
(d) P (z ≤ −0.23)
(e) P (z < 1.20)
(f) P (z ≤ −0.71)
(3) Le montant moyen dépensé par les parents pour la rentrée des classes de leurs
enfants à l’automne 2001 s’élevait à 527 dollars. Supposez que l’écart-type soit
de 160 dollars et que le montant des dépenses soit normalement distribué.
(a) Quelle est la probabilité que les dépenses pour un enfant sélectionné
aléatoirement soient supérieures à 700 dollars ?
(b) Quelle est la probabilité que les dépenses pour un enfant sélectionné
aléatoirement soient inférieures à 100 dollars ?
(c) Quelle est la probabilité que les dépenses pour un enfant sélectionné
aléatoirement soient comprises entre 450 et 700 dollars ?
(d) Quelle est la probabilité que les dépenses pour un enfant sélectionné
aléatoirement soient, au plus de 300 dollars ?
(4) En janvier 2003, un salarié américain passait en moyenne 77 heures à naviguer
sur internet pendant ses heures de travail. Supposez que les temps de connexion
à Internet soient normalement distribués et l’écart type égal à 20 heures.

(a) Quelle est la probabilité qu’un salarié sélectionné aléatoirement passe

moins de 500 heures à naviguer sur Internet ?
(b) Quel pourcentage de salariés passent plus de 100 heures sur Internet ?
(c) Une personne est considérée comme un utilisateur important si elle se
situe parmi les 20% se servant le plus d’Internet. Combien d’heures une
personne doit-elle passer sur Internet pour être considérée comme un
utilisateur important ?

Chapitre 3
Théorie de l’échantillonnage
Sommaire
3.1 La loi des grands nombres . . . . . . . . . . . . . . . . . . 17
3.2 Introduction : population, échantillon et sondage . . . . 18
3.2.1 Terminologie . . . . . . . . . . . . . . . . . . . . . . . . . 18
3.2.2 Types de sondages . . . . . . . . . . . . . . . . . . . . . . 19
3.3 Fondement de l’échantillonnage . . . . . . . . . . . . . . . 23
3.4 Distribution d’échantillonnage de la moyenne . . . . . . 24
3.5 Distribution d’échantillonnage des fréquences . . . . . . 27
3.6 Distribution d’échantillonnage des différences . . . . . . 28
3.1 La loi des grands nombres

L’inégalité de Bienaymé-Tchebicheff se trouve à la base de cette règle. Elle stipule
que la probabilité qu’une valeur x de l’échantillon s’écarte de la moyenne réelle
observée dans la population-mère µ de plus de t fois son écart-type est au plus égale
à t12 . Elle s’écrit comme suit :
1
P (|x − µ| ≥ tσ) ≤ (3.1)
t2
Si on pose ε = tσ
√
n
, on a la relation suivante :
σ2
P (|x − µ| ≥ ε) ≤ (3.2)
nε2
On constate dans cette inégalité que lorsque n tend vers l’infini, la différence entre les
valeurs de l’échantillon et celle de la population tend vers zéro : P (|x − µ| ≥ ε) tend
vers 0. Cette inégalité peut être généralisée aux différents paramètres statistiques
ce qui permet de mieux définir la distribution d’échantillonnage et fixer le degré de
précision.
Exemple 3.1
Une population renferme 40% d’analphabètes, on observe un taux de 35% dans un
échantillon. Quelle est la probabilité d’observer un tel écart dans un intervalle de
deux écart-types ?
17
3.2. Introduction : population, échantillon et sondage 18
Solution q
On a : P |f − p| < |t pq/n| > 1 − 1/t2
√
ce qui nous donne P |0.05| < 0.48/ n| > 1 − 1/4 = 0.75
Les valeurs observées dans un échantillon tendent à converger vers les paramètres
d’origine de la population mère avec une probabilité bien déterminée et un risque
d’erreur donné 1/t2 . Certains paramètres tendent à être distribués selon une loi
donnée comme la loi normale ou la loi de Student, on dit qu’ils ont une distribution
asymptotiquement normale ou de Student...
3.2 Introduction : population, échantillon et son-

dage
3.2.1 Terminologie
Le sondage est une enquête sur un échantillon représentatif de la population mère,
il est défini par un taux, un plan et une base de sondage. C’est aussi le procédé qui
consiste à tirer l’échantillon, on dit faire un sondage ou une enquête par sondage.
Dans ce chapitre, on étudiera comment établir un échantillon de manière à pouvoir
déterminer les propriétés de la population.
Exemple 3.2
Supposons qu’au Laboratoire de Physique-Techno de l’ISP-Bukavu, on mette sur
pied des panneaux solaires et qu’on veuille en connaître la durée de vie moyenne.
Une possibilité serait bien sûr tester tous les panneaux fabriqués et calculer ainsi la
durée de vie moyenne. A part le fait que ce procédé est très long et coûteux, lorsque
l’information désirée est disponible elle sera inutilisable car à l’issue de cette opération
le Laboratoire se retrouve avec des panneaux qui ont cessé de fonctionner. Pourtant,
il est très important pour le fabricant de connaître la qualité de son produit.
Heureusement, il est possible d’obtenir des informations concernant la population en

ne prenant qu’un échantillon.
Rappelons que généralement, si on a un échantillon, cela sous-entend que l’on ne
prend que quelques membres de la population. Il se pose alors la question du choix
des éléments de la population à retenir pour constituer l’échantillon, de manière à
pouvoir déterminer, de façon optimale, les caractéristiques de celle-ci. Mais avant
d’en arriver au choix des éléments à placer dans l’échantillon, il faut d’abord en
déterminer la taille ; combien d’individus comprendra l’échantillon ?
La réponse à cette dernière interrogation s’obtient essentiellement sur la base de la
loi des grands nombres, mais pas seulement. La connaissance de certains paramètres
de la population (moyenne, écart-type,...) s’avère souvent nécessaire pour déterminer
la taille minimale de l’échantillon à enquêter. Il en est de même de la notion de
distribution d’échantillonnage que nous allons préciser dans les lignes qui viennent.
La taille de l’échantillon se détermine avec un risque d’erreur connu à l’avance
et un seuil de probabilité bien déterminé qui nous permettent de généraliser à la
population les résultats obtenus sur les échantillons. Le risque d’erreur renvoie à

la notion de précision ; on s’intéresse à l’écart entre la valeur du paramètre de la

population et celle obtenue avec sur l’échantillon.
Le problème peut par exemple être ainsi formulé :
Exemple 3.3
Dans une population dont on connait la moyenne, on veut enquêter un échantillon
avec une précision de 0.1 de la moyenne et un seuil de signification de 95%, quelle
serait la taille minimale à tirer ?
En termes «plus clairs,» on veut être sûr à 95% que l’écart entre la moyenne de la
population et celle de l’échantillon ne dépasse pas 0.1.
Un sondage est une enquête portant sur un échantillon et dont les résultats
sont généralisables à toute la population. La théorie de l’échantillonnage a pour
but de déterminer, à partir des résultats de l’échantillon, les caractéristiques de la
population et la précision des estimations utilisées.
La base de sondage est l’ensemble des critères ou variables de base servant à
définir et à tirer l’échantillon. C’est aussi la liste exhaustive des individus à partir de
la quelle se fait le tirage pour certains sondages.
Le taux de sondage est le rapport entre la taille de l’échantillon (n) et celle de
la population (N)
n
t= .
N
Plus il est élevé, plus le sondage est représentatif.
Le plan de sondage est l’ensemble des étapes et des règles à suivre pour
identifier les individus de l’échantillon et déterminer les individus qui feront l’objet
de l’enquête.
L’échantillonnage est la méthodologie suivie pour déterminer l’échantillon :
taille, base de sondage, plan de tirage...
On précise la notion d’échantillon de la manière suivante. L’échantillon est un sous
ensemble représentatif d’une population, tiré selon des règles précises conformément
à un plan de sondage précis donné et une base de sondage.
3.2.2 Types de sondages

On va catégoriser les sondages en deux grands groupes.
3.2.2.1 Sondages dits raisonnés

Un sondage raisonné (ou à choix raisonné) est un sondage où les individus sont
raisonnablement choisies par le chercheur. Il présente la même structure que la
population d’origine, l’échantillon en est la miniature. Le fondement de ce type
d’échantillonnage est la représentativité structurelle qui stipule qu’en enquêtant un
échantillon de même structure on peut généraliser les résultats.
La base de sondage est représentée par les variables, liées au phénomène étudié,
de préférence observables pour pouvoir contrôler la structure de l’échantillon par le
chercheur de manière empirique et progressive.
Ces variables ont souvent la même distribution que le phénomène étudié si bien
qu’elles constituent aussi des variables de contrôle. C’est le cas par exemple du sexe,

l’âge ou le type de logement qui sont visibles sur le terrain. Le sondage raisonné
est simple et constitue parfois, le seul procédé à défaut d’une liste exhaustive des
individus ; c’est ce qui explique son utilisation fréquente.
Utilisé avec prudence, il donne souvent des résultats acceptables : > 10% et une
bonne distribution spatiale. Les limites du sondage raisonné découlent de l’absence
de fondement théorique solide au niveau de la représentativité et l’absence de règles
de choix des individus. De là, la difficulté de mesurer la précision du résultat et de la
généralisation.
Il suppose aussi une connaissance préalable de la structure de la population, ce
qui est parfois difficile.
3.2.2.2 Sondages aléatoires

Le sondage aléatoire est un sondage où le tirage se fait selon des règles précises à
partir d’une liste exhaustive appelée base de sondage, il se fonde sur la loi des grands
nombres. Les individus sont choisies aléatoirement en utilisant la Table des Nombres
au Hasard (TNH). La TNH est une table où les chiffres ont la même probabilité
d’apparition qui se présente sous forme de 2 à 7 chiffres qu’on peut lire dans tous les
sens (vertical, horizontal, diagonal), les ordres (premiers, derniers chiffres, chiffres
alternés...) et avec un nombre variable de chiffres (2 à 7). Il est conseillé cependant
de choisir, pour la rapidité de l’opération, le même nombre de chiffres que la valeur
extrême de la population (N). Ainsi, pour une population de 580 individus, on utilise
une TNH de 3 chiffres. En utilisant une table de plus de 3 chiffres, on doit retrouver
des nombres de 5 ou 7 chiffres : 00420 ou 0000420 pour pouvoir choisir l’unité 420.
L’utilisation de la TNH passe par les stades suivants :
1. Numéroter la population à étudier de 1 à N (N étant la taille de la population).
2. Fixer la taille de l’échantillon n selon les règles examinées ci-dessus.
3. Lire la TNH selon un ordre et un sens donné fixé d’avance en utilisant autant
de chiffres qu’il y a dans la population.
4. Relever les chiffres ≤ N qui apparaissent par ordre jusqu’à obtenir n individus
(n étant la taille de l’échantillon).
5. Pour disposer des individus de remplacement, on continue le processus de tirage
de 25 à 33% individus supplémentaires. Le remplacement des défaillants se fait
dans l’ordre des remplaçants tirés selon la même règle.
Lorsque la taille de l’échantillon est suffisamment élevée, une grande proportion
constituée des mêmes individus qui se trouve choisie par les différentes méthodes
(premiers ou derniers chiffres, deux, trois ou quatre chiffres, lecture horizontale ou
verticale).
Le sondage aléatoire assure une très grande précision et permet de connaître le
risque d’erreur avec précision, ce qui permet la généralisation des résultats. On peut
estimer la valeur réelle des paramètres en définissant un intervalle de variation avec
une probabilité connue.
On peut distinguer plusieurs types de sondages indépendamment de la catégorie
(raisonné ou aléatoire) : le sondage élémentaire, systématique, par quota, stratifié,
en grappes..

Le sondage élémentaire ou simple

C’est un sondage sans contrainte majeure, il s’agit simplement de choisir n
individus parmi la population N sans critère précis sinon la représentativité globale.
Dans un sondage aléatoire (S.A), chaque individus a la même probabilité d’être
choisie, c’est un sondage sans remise. La méthode présentée ci-dessus permet de
choisir les individus. Dans un sondage raisonné, il suffit de choisir n individus.
Exemple 3.4
Choisir 10 individus dans une population de 100. Pour un sondage aléatoire, il s’agit
d’abord de numéroter la population de 1 à 100, fixer le sens et l’ordre de la lecture de
la TNH, par exemple : les trois premiers horizontalement. Relever les éléments qui
apparaissent inférieurs à 100 jusqu’à obtenir 10. Continuer le processus et relever 3
individus supplémentaires pour un éventuel remplacement des défaillants.
Pour un sondage raisonné, on n’a pas de règle du choix, l’essentiel est de choisir 10
individus. Le chercheur lui-même veille à choisir les individus de manière à assurer
une meilleure représentativité.
Le sondage systématique
Il s’agit de choisir les individus à intervalle régulier de manière à couvrir toute la
population. Le premier individus (ou la base b) est choisi dans l’intervalle [1 − N/n]
tandis que le pas de la progression arithmétique (ou raison r) est de r = N/n. Dans
un S.A, la base est choisie dans la TNH selon le procédé indiqué ci-dessus. C’est un
sondage plus facile, mais pose le problème de remplacement en cas de défaillance
et ne convient pas aux phénomènes périodiques. Pour les remplaçants des individus
défaillants, on tire les unités selon une nouvelle méthode (base b et raison r).
Exemple 3.5
Choisir un échantillon systématique avec un taux de sondage de 1/10 pour une
population de 100. Pour un SAS : On numérote la population de 1 à 100, on fixe le
sens et l’ordre de lecture de la TNH : 2 derniers verticalement puisque la base est
comprise entre 1 et 10(N/n) qui est en même temps la raison : les individus choisis
sont par exemple : 5, 15, 25, 35, 45, ...95. Pour un SRS : On choisit un chiffre entre 1
et 10 qui constitue la base puis on ajoute 10 pour les autres.
Le sondage par quota

Lorsqu’on a une population hétérogène où on a plusieurs modalités ou classes
estimées discriminantes pour le phénomène étudié (taille, forme, logement, quartier,
etc) on peut assurer une répartition équitable en fonction de l’effectif de la strate
(quota proportionnel) ou privilégier les petites strates en leur donnant plus de chance
d’être enquêtées contrairement aux grandes strates où on peut se contenter d’un
nombre réduit d’individus mais suffisamment grand pour permettre la généralisation
(quota non proportionnel). Le choix des individus dans un SA se fait toujours à l’aide
de la TNH selon les mêmes règles à l’intérieur de chaque strate séparément.

Dans le quota proportionnel, on a : Qi = Si × t avec t : taux de sondage global,

Si : effectif de la strate i, Qi : quota de la strate i. Chaque strate et chaque individu
à l’intérieur de la strate a la même probabilité d’être choisi.
Dans le quota non proportionnel, on a : Qi = Si × ti avec t = ( ti × Si )/Pi
P
et Pi : population totale, t : taux global de sondage.

Le problème est qu’il n’y a pas de règle pour fixer les taux ti, le choix est laissé
au chercheur.
Exemple 3.6
On a 10 gros propriétaires qui accaparent 60% du sol à côté de 500 petits exploitants
qui n’ont que 15% des terres et on a fixé le taux de sondage à 1/10. Dans un quota
proportionnel, on a 1 et 50 respectivement. Ceci pose le problème de représentativité
du gros propriétaire. Dans un quota non proportionnel, on peut enquêter tous les
gros propriétaires (10) mais seulement 31 petits ce qui respecte le taux global de 1/10
et les règles de la représentativité (ni > 30). On peut aussi voir 5 et 45, 4 et 46 ...
alors qu’on n’a pas besoin de 50 pour étudier la petite exploitation.
Le sondage stratifié
Le tirage se fait à plusieurs niveaux ou degrés avec le choix au tirage des individus
primaires (UP) dans un premier degré puis les individus secondaires (US) choisies
dans les UP... Les individus échantillons sont en cascade. C’est le cas lorsque le tirage
se fait selon plusieurs critères, la combinaison des critères définit les strates. On
peut distinguer plusieurs types de sondages selon que les probabilités de tirage aux
différents degrés sont égales ou inégales :
U. Primaires U. Secondaires
P. Egales P. Inégales
P. Égales EE EI
P. Inégales IE II
On peut ainsi procéder par exemple à un tirage proportionnel au niveau des unités
primaires et secondaires : au premier degré, une unité sur 10 puis à l’intérieur des
unités retenues, on procède encore à un triage au 1/5° par exemple pour choisir
les unités secondaires. On peut retenir un taux de 1/10° au premier degré puis un
sondage par quota au niveau secondaire ...
Exemple 3.7
On peut citer l’enquête population-emploi et l’enquête consommation de l’INS. Dans
ce dernier cas, les UP sont définies par la combinaison de la région (5) et le milieu
(3). Dans ces UP, la combinaison taille du ménage (5) et activité de son chef (5)
constitue les US. Pour la région, on a le NE, NO, CE, CO S ; pour le milieu :
Grandes villes, milieu urbain, milieu rural ; pour la taille du ménage : 1, 2, 3, 4, 5 et
plus, enfin pour l’activité du chef du ménage : exploitant, patron, ouvrier...
Le sondage aréolaire ou par grappe

Il constitue un cas particulier des sondages stratifiés notamment là où l’espace
constitue un paramètre important (région, quartier...), il contribue à réduire les

3.3. Fondement de l’échantillonnage 23
déplacements sur le terrain. Ce type de sondage nécessite un nombre réduit de

types représentatifs. Dans une enquête portant sur une ville, il vaut mieux enquêter
le minimum de quartier représentatifs avec le maximum de ménages dans chaque
quartier qu’un nombre réduit de ménages répartis dans tous les quartiers ce qui
réduit fortement les déplacements. Ceci est encore plus pertinent lorsque le terrain
d’enquête est trop vaste comme une région entière ou l’ensemble du pays : au lieu
d’enquêter toutes les villes, on dresse une typologie de 4 à 5 groupes de villes où
on choisit seule ou deux villes. Dans les villes choisies, on enquête le maximum
d’individus.
Exemple 3.8
Au lieu d’enquêter à Tunis 50 individus dans chaque quartier ce qui nous donne
2000 enquêtés, on peut procéder à une typologie qui dégage 5 types de quartiers par
exemple. Dans chacun des types dégagés, on choisit au hasard ou par choix raisonné,
un nombre fixe de quartiers (1, 2...) où on enquêterait 400 ou 200 sur place.
3.3 Fondement de l’échantillonnage

Le sondage trouve son fondement théorique dans la loi des grands nombres ou la
loi de convergence. Lorsque la taille de l’échantillon n augmente, les valeurs observées
dans l’échantillon tendent à converger vers les valeurs réelles de la population avec
un certain risque d’erreur déterminé. Ce risque d’erreur diminue lorsque la taille de
l’échantillon augmente et tend vers zéro dans le cas d’un recensement où on enquête
toutes les unités d’une population (n = N ).
Convergence de la valeur du paramètre échantillon vers la valeur réelle dans la

population x : moyenne dans l’échantillon, µ : moyenne réelle dans la population
mère.
Chaque paramètre statistique dans un échantillon tend à suivre une loi de
probabilité bien définie appelée distribution d’échantillonnage. La connaissance de
ces lois de distribution d’échantillonnage permet ainsi de fixer la taille minimale d’un
échantillon pour un risque d’erreur fixé à l’avance.

3.4. Distribution d’échantillonnage de la moyenne 24
3.4 Distribution d’échantillonnage de la moyenne

Supposons qu’il y a une population de N individus. Soient X1 , X2 , · · · , XN les
valeurs de la variable aléatoire X associée à cette population. La moyenne de la
population est :
1 X N
µ= Xi . (3.3)
N i=1
On peut tirer un échantillon aléatoire de cette population. Supposons qu’on prend
un échantillon de grandeur n. Soient x1 , x2 , · · · , xn les membres de cet échantillon.
La,moyenne de l’échantillon est :
1X n
x= xi . (3.4)
n i=1
On peut alors se demander si cette moyenne de l’échantillon peut nous donner une
idée de la moyenne de la population. On prend x comme estimation de la moyenne
µ et l’on veut savoir si cette estimation est bonne. Ceci dépend de la distribution
d’échantillonnage de la moyenne. Si l’on prend par exemple une population avec
moyenne 10 et, lorsqu’on tire une première fois un échantillon, on obtient une moyenne
de 3 et, une deuxième fois, une moyenne de 200, il est clair qu’il serait dangereux
d’utiliser la moyenne de l’échantillon pour estimer la moyenne de la population, car
il y a un risque très grand d’avoir une mauvaise estimation. Il est par conséquent
très important de connaître la distribution d’échantillonnage de la moyenne.
Exemple 3.9
Soit une population qui consiste en 5 examens de statistique avec les notes suivantes :
1 2 5 7 10 La moyenne est µ = 25/5 = 5 et la variance σ 2 = 54/5 = 10.8.
Prenons un échantillon aléatoire de grandeur 2, en utilisant l’extrait d’une table
des nombres aléatoires fourni dans ce cours et en particulier le premier chiffre,
sixième colonne, en prenant soins de numéroter les cinq résultats à l’examen de 0 à
4. Ainsi, par exemple, 0 est le numéro du résultat 1, 1 celui de la note 2, etc. On a
les nombres aléatoires 4 et 2, ce qui correspond au 5-ième et 3-ième examen, donc
10 et 5, et la moyenne est 7.5. Un autre échantillon de grandeur 2 est obtenu en
prenant les nombres aléatoires 0 et 3, donc premier et 4-ième examen et les notes
sont 1 et 7, et la moyenne est 4.
Prenons maintenant tous les échantillons possibles de grandeur 2, 3 ou 4 (sans

remise ou remplacement du premier élément des échantillons). On a les chiffres
reportés dans le tableau ci-dessous.
Distribution d’échantillonnage de la moyenne
Population : 1 2 5 7 10, µ = 5,σ 2 = 54/5 = 10.8
Échantillons exhaustifs de grandeur 2
Deux fois les échantillons comprenant les éléments suivants :
(1, 2) (1, 5) (1, 7) (1, 10) (2, 5) (2, 7) (2, 10) (5, 7) (5, 10) (7, 10)
x 1.5 3 4 5.5 3.5 4.5 6 6 7.5 8.5
On a bien E(x) = (1/10) x = 5 ; σx2 = (1/10)(x2 ) − E(x)2 = 4.05 ou encore
P
10.8 3
× = 4.05
2 4


Six fois (3!) les échantillons comprenant les éléments suivants :
(1, 2, 5) (1, 2, 7) (1, 2, 10) (1, 5, 7) (1, 5, 10)
x 2.7 3.3 4.3 4.3 5.3
(1, 7, 10) (2, 5, 7) (2, 5, 10) (2, 7, 10) (5, 7, 10)
x 6 4.7 5.7 6.3 7.3
On a alors E(x) = (1/10) x = 5 ; σx2 = 1.8(1/10) ou encore
P
10.8 2
× = 1.08
3 4
Vingt-quatre fois (4!) les échantillons comprenant les éléments suivants :
(1, 2, 5, 7) (1, 2, 7, 10) (1, 2, 5, 10) (1, 5, 7, 10) (2, 5, 7, 10)

x 3.75 5 4.5 5.75 6
On a alors E(x) = 5 ; σx2 = 0.675 ou encore

10.8 1
× = 0.675
4 4
Échantillons non exhaustifs de grandeur 2
(1, 2) (1, 5) (1, 7) (1, 10) (2, 5) (2, 7) (2, 10) (5, 7) (5, 10) (7, 10)
x: 1.5 3 4 5.5 3.5 4.5 6 6 7.5 8.5
(2, 1) (5, 1) (7, 1) (10, 1) (5, 2) (7, 2) (10, 2) (7, 5) (10, 5) (10, 7)
x: 1.5 3 4 5.5 3.5 4.5 6 6 7.5 8.5
(1, 1) (2, 2) (5, 5) (7, 7) (10, 10)
x : 1 2 5 7 10
E(x) = 5 ; σx2 = 5.4 ou encore

10.8
= 5.4
2
La variance de la moyenne des échantillons est beaucoup plus petite que la variance
des membres de la population (4.05 au lieu de 10.8).
On observe une relation entre la variance de la moyenne et celle de la population ;

elle est donnée, dans le cas d’un tirage exhaustif, par :
σ2 N − n 10.8 3
σx2 = × = × = 4.05
n N −1 2 4
Les mêmes résultats sont valables pour d’autres grandeurs de l’échantillon et
pour des tirages non exhaustifs (Voir tableau précédent). La moyenne des moyennes
est égale à la moyenne de la population et la variance des moyennes est plus petite
que celle des éléments de la population.
Remarque 3.1
Évidemment, si l’on a une population de 5 membres il n’est pas nécessaire de prendre
un échantillon. Cet exemple avait pour but de montrer la relation entre les paramètres
de l’échantillon et ceux de la population.

Considérons maintenant le cas général d’un échantillon non exhaustif (avec remise).
La moyenne de l’échantillon est donnée par
x1 + x2 + · · · + xn
x= (3.5)
n
L’espérance mathématique de la moyenne est :
E(x1 ) + E(x2 ) + · · · + E(xn )

E(x) = (3.6)
n
Prenons le premier terme E(x1 ). Comme x1 peut être n’importe laquelle des
valeurs X1 , X2 , · · · , XN et l’échantillon est aléatoire, c’est-à-dire la probabilité de
choisir les valeurs de la population est la même pour tous les membres et égale à
1/N , on a :
N
1 1 X N
E(x1 ) = =
X
Xi × Xi
i=1 N N i=1
par définition de l’espérance mathématique.
Prenons maintenant le terme E(x2 ). Comme nous avons un échantillon non
exhaustif, x2 peut être n’importe laquelle des valeurs X1 , X2 , · · · , XN et la probabilité
de choisir l’un de ces éléments est de 1=N. Par conséquent :
N
1
E(x2 ) = × Xi = µ
X
i=1 N
Le même résultat est valable pour les autres éléments de l’échantillon. Nous avons
alors :
nµ
E(x) = (1/n)(µ + µ + · · · + µ) = =µ
n
On dit alors que x est un estimateur « centré » ou « sans biais » de µ.
Exemple 3.10
Prenons l’échantillon non exhaustif de grandeur 2 du tableau présenté ci-dessus.
La moyenne des premiers éléments de l’échantillon est de 125/25 = 5, comme la
moyenne de la population µ. Ceci est vrai aussi pour le deuxième élément et pour les
autres grandeurs des échantillons.
Calculons maintenant la variance de la moyenne. Soient x1 , x2 , · · · , xn des va-

riables aléatoires indépendantes. La variance de la moyenne est :
var(x) = (1/n2 )[var(x1 ) + var(x2 ) + · · · + var(xn )]
puisque les éléments de l’échantillon sont indépendants. Comme la variance de chaque

élément est égale à σ 2 on obtient :
var(x) = (1/n2 )[σ 2 + σ 2 + · · · + σ 2
i.e.
var(x) = σx2 = (1/n2 )σ 2

3.5. Distribution d’échantillonnage des fréquences 27
Nous avons ici une formule qui exprime la variance de la moyenne de l’échantillon
en fonction de la variance de la population et de la grandeur de l’échantillon. C’est
une formule qui s’applique lorsqu’on peut toujours prendre des échantillons, ce qui
correspond à considérer la population comme indéfiniment large (échantillonnage
non exhaustif). Si l’échantillon est exhaustif et provient d’une petite population, il
faut adapter cette formule. Il est intéressant de constater que lorsque n tend vers
l’infini la variance de la moyenne tend vers zéro, car lorsqu’on a toute la population
on peut calculer exactement la moyenne et donc il n’y a plus de variation.
On peut se demander quelle est la distribution d’échantillonnage de la moyenne

lorsque les xi sont des variables normales. Il est possible de montrer que, dans
ce cas, la moyenne d’échantillonnage x est elle aussi distribuée normalement, avec
moyenne µ et écart-type √σn . Ceci à cause du fait qu’une somme de variables normales
indépendantes est une variable normale.
Donc, si x est une variable normale avec moyenne µ et écart-type n et on prend un
échantillon de grandeur n, alors la moyenne de l’échantillon x est distribuée normale-
ment avec moyenne µ et écart-type √σn . En conclusion, la précision de l’estimateur
de la moyenne de l’échantillon augmente lorsque la grandeur de l’échantillon croît.
En résumé
Pour une population de taille N , d’où on extrait tous les échantillons possibles
de taille n, si désigne par µx et σx la moyenne et l’écart-type de la distribution
d’échantillonnage de la moyenne et respectivement par µ et σ la moyenne et l’écart-
type de la population, alors on a :
s
σ N −n
µx = µ et σx = √ ×
n N −1
Si la population est considérée comme infinie, on a bien que
N −n
lim =1
N →∞ N − 1
et on obtient :
σ
µx = µ et σx = √
n
On admet également que pour de grandes valeurs de n (à partir de n = 30 dans la
pratique) la distribution d’échantillonnage de la moyenne est approximativement
une distribution normale de moyenne µx et d’écart-type σx .
3.5 Distribution d’échantillonnage des fréquences

Supposons que pour chaque individu d’une population infinie, la probabilité de
réalisation d’un certain évènement (considéré comme succès) est p et évidemment
celle de non-réalisation du même évènement est q = 1 − p.
Considérons tous les échantillons possibles de taille n qu’on peut extraire de cette
population et considérons pour chaque échantillon la proportion P de succès.
On obtient une distribution d’échantillonnage des fréquences dont la moyenne est
µP et l’écart-type σP .

3.6. Distribution d’échantillonnage des différences 28
On établit dans ce cas les formules suivantes :

s
pq p(1 − p)
r
µP = p et σP = =
n n
qui s’obtiennent aussi des formules de la distribution d’échantillonnage de la moyenne
√
en constatant que µ = p et σ = pq
Comme pour le cas précédent, on admet dans la pratique que dès que la taille
de l’échantillon dépasse 30, la distribution d’échantillonnage des fréquences est
approximativement normale.
Il convient de souligner que si la population est finie de taille n et qu’on y fait un
échantillonnage exhaustif on obtient :
s
pq N −n
r
µP = p et σP = ×
n N −1
3.6 Distribution d’échantillonnage des différences

Étant donné deux populations et tous les échantillons de taille n1 tirés de la
première ainsi que tous ceux de taille n2 tirés de la seconde. En s’intéressant à une
certaine statistique S, la première population fournit une distribution d’échantillon-
nage de S de moyenne µS1 et d’écart-type σS1 tandis que la seconde population
fournit une distribution d’échantillonnage de S de moyenne µS2 et d’écart-type µS2
En considérant toutes les combinaisons possibles de ces échantillons de deux popu-
lations, on peut obtenir une distribution des différences S1 − S2 appelée distribution
d’échantillonnage de la différence de ces statistiques.
En désignant par µS1 −S2 et σS1 −S2 respectivement la moyenne et l’écart-type de
cette distribution, on démontre que :
q
µS1 −S2 = µS1 − µS2 et σS1 −S2 = σS2 1 + σS2 2
pourvu que les échantillons choisis soient indépendants entre eux.

Si S est une moyenne, la situation revient à calculer les moyennes des deux
populations.
On obtient dans ce cas la distribution d’échantillonnage des différences des
moyennes pour des populations infinies de moyennes et d’écart-types respectifs µ1 ,
σ1 et µ2 , σ2 et dans ce cas on montre que :
s
r
σ12 σ22
µX 1 −X 2 = µX 1 − µX 2 = µ1 − µ2 et σX 1 −X 2 = σ2 2 + σ2 2 = +
X1 X2 n1 n2
En faisant le même raisonnement pour des distributions d’échantillonnage de diffé-
rences de fréquences, à partir des deux populations binomiales dont les paramètres
sont respectivement n1 , p1 et n2 , p2 , on obtient :
s
q p1 q1 p2 q 2
µP1 −P2 = µP1 − µP2 = p1 − p2 et σP1 −P2 = σP2 1 + σP2 2 = +
n1 n2

3.6. Distribution d’échantillonnage des différences 29
Si les tailles de deux échantillons sont grands (n1 , n2 ≥ 30) les distributions d’échan-
tillonnage des différences des moyennes ou des fréquences sont approximativement
normales.
Toujours en supposant que les échantillons sont indépendants, on peut considérer
la distribution d’échantillonnage de la somme des statistiques. On obtient dans ce
cas : q
µS1 +S2 = µS1 + µS2 et σS1 +S2 = σS2 1 + σS2 2
Il arrive que l’écart-type σ de la population soit inconnu. On peut dans ce cas
r
n
l’estimer par l’écart-type σ̂ d’échantillonnage avec σ = × σ̂ en remarquant
n−1
r
n
que le facteur correctif tend vers 1 lorsque n devient grand de sorte que pour
n−1
de grands échantillons les deux valeurs sont sensiblement les mêmes.
Voici une liste de 500 nombres aléatoires :
31751 57260 68980 05339 15470 48355 88651 22596 03152 19121
83761 60873 43253 84143 60833 25983 01291 41349 20368 07126
34414 82157 86887 55087 19152 00023 12302 80783 32624 68691
42953 06606 23875 56766 01932 36113 62807 84012 21103 09685
12833 98932 68064 58193 20225 05192 28425 23978 24542 80845
20596 15811 26987 46635 66793 43424 88736 01664 12764 96849
04396 47860 01933 53633 86982 24303 89991 92665 34886 24984
19800 37402 63065 24450 70883 47310 24643 75165 60368 65229
50500 25216 01607 47055 30488 01989 91303 90720 34016 67206
98097 44901 24704 70018 66256 86427 21314 87631 29910 01402
17822 70450 88628 89492 43980 39317 63772 79086 25930 56648
65605 93505 64129 54327 48180 29604 40944 74432 43025 69354
98420 59172 98122 14456 96363 85156 02390 61871 44378 18625
09384 58208 08266 29495 27717 47339 71744 11038 21433 88890
07681 47344 74553 89630 62761 18009 21570 34758 80799 63585
57965 60499 91143 63450 48650 89559 00970 53028 00642 58457
86434 44295 86312 61402 06459 88590 16070 01453 43607 26382
95307 04333 29241 56268 02032 92923 37812 84477 86192 64091
90800 17425 28042 53770 98924 31863 84115 82488 23239 82185
15172 42061 33264 63832 48528 23258 13520 83222 45659 39074
49344 33448 34945 22704 66567 30722 06148 81139 53308 14483
04268 73620 04528 08542 49978 10221 99885 11481 94824 17379
72206 36182 57944 57862 05207 19110 15332 34668 79815 60244
56660 26132 81159 63498 74431 58536 25630 87276 37735 78409
11849 26482 20461 99450 21636 13337 55407 01897 75422 05205

Chapitre 4
L’estimation statistique
Sommaire
4.1 Généralités . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
4.2 Estimateur convergent . . . . . . . . . . . . . . . . . . . . 31
4.3 Estimateur sans biais . . . . . . . . . . . . . . . . . . . . . 33
4.4 Estimateur de variance minimum . . . . . . . . . . . . . . 33
4.5 Une méthode générale d’estimation : le maximum de
vraisemblance . . . . . . . . . . . . . . . . . . . . . . . . . . 35
4.6 Dans la pratique . . . . . . . . . . . . . . . . . . . . . . . . 37
4.6.1 Estimation d’une moyenne . . . . . . . . . . . . . . . . . . 37
4.6.2 Estimation d’une fréquence . . . . . . . . . . . . . . . . . 37
4.6.3 Estimation des différences . . . . . . . . . . . . . . . . . . 38
4.6.4 Estimation d’un écart-type . . . . . . . . . . . . . . . . . 38
4.6.5 Exercices d’application . . . . . . . . . . . . . . . . . . . . 39
4.7 Cas général . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
4.7.1 Estimation des paramètres d’une loi normale . . . . . . . 39
4.7.2 Estimation d’un pourcentage . . . . . . . . . . . . . . . . 41
L’objet de ce chapitre n’est pas de donner une méthode générale d’estimation,

mais plutôt d’exposer quelques propriétés et définitions qui seront reprises par la
suite.
4.1 Généralités
L’estimation consiste à rechercher la valeur numérique d’un ou plusieurs para-
mètres inconnus d’une loi de probabilité à partir d’observations (valeurs prises par
la v.a. qui suit cette loi de probabilité). On utilise pour cela un estimateur fonction
de la v.a. étudiée : quand la v.a. prend comme valeur l’observation, la valeur de
l’estimateur est appelée estimation.
L’exemple suivant illustre ces définitions.
Exemple 4.1
On s’intéresse au GMQ (Gain Moyen Quotidien) des porcs. Supposons que ce GMQ
que nous noterons X est distribué normalement, en d’autres termes que X suit une
loi N (µ, σ 2 ), où µ représente le GMQ moyen de toute la population de porcs et σ 2 la
30
4.2. Estimateur convergent 31
variance de la distribution des GMQ. Les paramètres µ et σ 2 sont inconnus, l’objet

de l’estimation est de trouver une valeur « raisonnable » pour ces paramètres. Deux
possibilités s’offrent à nous :
1. soit on peut mesurer le GMQ de tous les porcs de la population et, dans ce cas,
les paramètres µ et σ 2 seront parfaitement connus,
2. soit la population est trop grande, et, on est obligé de travailler sur un échan-
tillon.
Cet échantillon va nous donner des informations sur les vraies valeurs (celles de la
population) µ et σ 2 .
Supposons que l’on ait étudié le GMQ (en grammes) sur un échantillon de
taille n = 10. Notons x1 , x2 , · · · , x10 , le GMQ des porcs N 0 1, N 0 2, · · · , N 0 10 de cet
échantillon. La moyenne de l’échantillon (notée x) est une « approximation » de la
moyenne µ de la population. La quantité x = n1 ni=1 xi est un estimateur de µ
P
Table 4.1 – Table des Gains Moyens Quotidiens observés sur un échantillon de 10
porcs.
Num Porc 1 2 3 4 5 6 7 8 9 10
GMQ (gr) 500 530 560 510 620 560 540 610 600 580
Le mot estimateur se réfère au procédé de calcul utilisé pour approximer µ. La

quantité x = 1/10 × xi = 561 est une estimation de µ :
P
Le mot estimation se réfère à la valeur numérique utilisée pour approximer. En

général, un estimateur est une variable aléatoire, en d’autres termes l’estimation du
paramètre dépend des individus présents dans l’échantillon.
Si un autre échantillon avait été considéré, une autre estimation du paramètre
aurait été obtenue. Le choix de l’estimateur se fait selon des critères qui mesurent sa
proximité au paramètre inconnu.
Nous allons dans ce qui suit présenter la liste des critères les plus souvent utilisés
pour définir les « qualités » d’un estimateur.
4.2 Estimateur convergent

Une des propriété élémentaires que doit remplir un estimateur est d’être convergent.
En d’autres termes, lorsque la taille de l’échantillon tend vers l’infini, il faut que
l’estimateur se « rapproche » du paramètre qu’il estime. Il existe plusieurs façons de
mesurer cette proximité qui donnent lieu à la définition de plusieurs types de conver-
gence. Notre objectif n’étant pas ici de faire un cours de statistiques fondamentales,
nous nous bornerons à citer les principaux types de convergence et à les illustrer à
l’aide des deux exemples suivants.
Exemple 4.2
1. Soient X1 , · · · , Xn , n variables aléatoires de même loi N (µ, σ 2 ). On s’intéresse

1 Pn
à la convergence de la moyenne empirique X = Xi vers µ.
n i=1

4.2. Estimateur convergent 32
2. Soit X une variable aléatoire distribuée selon une loi B(n, p). On s’intéresse à
la convergence de p̂n = X/n vers p.
Dans un cadre plus général, nous noterons Tn un estimateur du paramètre θ

obtenu à partir d’un échantillon de taille n qui vérifie pour tout n, E(Tn ) = θ.
Définition 4.1
L’estimateur Tn est convergent en moyenne quadratique si :
V ar(Tn ) → 0
quand n → ∞.
Rappelons que la variance d’une variable aléatoire est définie par
V ar(Tn ) = E(Tn − E(Tn ))2 = E(Tn − θ)2
Dire que Tn converge en moyenne quadratique signifie en fait que lorsque n tend vers
l’infini la distance moyenne qui sépare Tn de θ tend vers 0. Il est facile d’établir que
σ2
V ar(X n ) =
n
Par conséquent lorsque n → ∞, on a V ar(X n ) −→ 0. De même
p(1 − p)
V ar(p̂n ) =
n
tend vers 0 quand n tend vers ∞.
Définition 4.2
L’estimateur Tn est convergent en probabilité si : pour tout ε > 0 fixé la quantité
P (k Tn − θ k) > ε tend vers 0 quand n tend vers ∞.
Ce type de convergence peut s’interpréter de la façon suivante. Supposons que

l’on se fixe un intervalle de largeur 2ε centré sur θ. Supposons de plus que nous
disposons d’un grand nombre de réalisations de Tn (obtenu avec un grand nombre
d’échantillons de taille n). On s’intéresse au pourcentage de ces réalisations qui «
tombent » en dehors de cet intervalle.
Alors, l’estimateur Tn converge en probabilité vers θ si ce pourcentage tend vers 0
quand n tend vers l’infini. Il faut noter que ceci ne présume en rien de la distance qui
sépare les réalisations de Tn en dehors de l’intervalle, de la valeur de θ. En revanche,
si Tn converge en moyenne quadratique alors il converge en probabilité.
Nous avons vu avant que la moyenne empirique (resp. p̂) converge en probabilité
vers µ(resp. p). La preuve est une simple application de l’inégalité de Tchebychev.
Définition 4.3
L’estimateur Tn est presque sûrement convergent si :

P lim Tn 6= θ = 0.
n→∞

4.3. Estimateur sans biais 33
On voit à travers cette définition que la convergence presque sure est une convergence
beaucoup plus « forte » que la convergence en probabilité : elle implique la convergence
en probabilité. Pour obtenir une convergence presque sure, il est nécessaire que la
convergence en probabilité soit suffisamment rapide pour que n assez grand un très
faible pourcentage de réalisations de Tn ne tombent en dehors de l’intervalle que
nous avons défini précédemment.
En réfléchissant un peu, on peut voir que si Tn converge en probabilité alors, il
est possible de trouver une sous suite de (Tn )n qui converge presque surement. La
preuve de la convergence presque sure de la moyenne empirique et de p̂ repose sur
l’utilisation de la loi forte des grands nombres dont la démonstration de ce théorème
sort des objectifs de ce cours.
4.3 Estimateur sans biais

Un estimateur peut être sans biais. Un estimateur est sans biais si, à taille
de l’échantillon finie et fixée, les différentes estimations d’un même paramètre sur
différents échantillons admettent le paramètre à estimer comme espérance ; ou plus
simplement, si T est un estimateur de θ , E(T ) = θ. L’opérateur E(.) est utilisé pour
symboliser la moyenne de population de la variable aléatoire sur laquelle il opère.
Revenons à notre exemple des GMQ et supposons que 1000 échantillons aient été
faits. Ces 1000 échantillons ont fournis 1000 estimations du GMQ moyen (celui de la
population). Dire que x est un estimateur sans biais de µ équivaut à dire que sur un
grand nombre d’échantillons, µ est la moyenne des xi . On pourrait croire à tort que
tous les estimateurs usuels sont sans biais, c’est faux, les exemples suivants sont les
plus connus. Un estimateur classiquement utilisé pour la variance est :
1X n
σ̂n = (xi − xi )2 .
n i=1
C’est un estimateur biaisé de la variance, il sous-estime en moyenne la variance de
population, puisque
1

E(σ̂n ) = 1 − σ
n
On voit à partir de la formule précédente qu’un estimateur sans biais de la
variance est donné par
1 X n
σ̂n−1 = (xi − xi )2 .
n − 1 i=1
Si la moyenne de population µ est connue, il est facile de montrer qu’un estimateur
sans biais de la variance est donnée par
1X n
σ̂ = (xi − µ)2 .
n i=1
4.4 Estimateur de variance minimum

Un estimateur peut être de variance minimum. Comme le montre le schéma
ci-dessus, x est aléatoire, en d’autres termes pour différents échantillons, on obtient

4.4. Estimateur de variance minimum 34
différentes estimations de µ. En général, on utilise comme indice de dispersion de

l’estimateur sans biais T de θ, la quantité E[(T − θ)2 ] : C’est-à-dire la moyenne
des carrés des écarts de T au paramètre estimé θ. Cette quantité n’est autre que la
variance (théorique c-à-d calculée avec les paramètres de population) de l’estimateur
quand il est sans biais. Un critère de choix des estimateurs est que sa dispersion ne soit
pas trop grande. Une technique d’estimation (le maximum de vraisemblance) permet
de construire des estimateurs qui asymptotiquement sont de variance minimum.
La plupart des estimateurs que vous utilisez classiquement sont des estimateurs de
variance minimum, en d’autres termes, il n’existe pas d’estimateurs plus « précis »
permettant d’estimer la quantité que vous étudiez.
Exemple 4.3
On veut estimer le GMQ d’une population de porc. À cet effet deux échantillons
indépendants sont tirés. Sur le premier échantillon de taille 10, une moyenne de
x = 580 g est observée, sur le second échantillon de taille 30, on observe une moyenne
y de 620 g. Pour estimer la moyenne de population, on vous propose deux procédés
de calcul
x+y 580 + 620 10x + 30y
z1 = = = 600 et z2 = = 610
2 2 10 + 30
A votre avis, y a t-il une estimation meilleure que l’autre ? Pour répondre à cette
question simple, nous allons examiner deux propriétés de ces estimateurs. Tout
d’abord, nous allons regarder si ces estimateurs sont biaisés, nous examinerons
ensuite la « précision » de chacun de ces estimateurs. Nous noterons par la suite
1 X10
1 X 30
X= Xi et Y = Yi
10 i=1 30 i=1
et nous supposerons que les v.a Xi sont indépendantes, que les v.a Yi sont indépen-
dantes et que les Xi et les Yi sont indépendantes. Pour examiner le biais éventuel de
chacun des estimateurs Z1 et Z2 , il suffit de calculer leur espérance :
X +Y
!
E(Z1 ) = E = 1/2(E(X) + E(Y ))
2
Or nous savons que les porcs proviennent de la même population et que X et Y

sont des estimateurs non biaisés de µ. On en déduit que
E(Z1 ) = 1/2(E(X) + E(Y )) = 1/2(µ + µ) = µ
De même, on a
10X + 30Y
!
E(Z2 ) = E = (10/40)E(X)+(30/40)+(30/40)E(Y ) = 1/4µ+3/4µ = µ.
40
On voit que Z1 et Z2 sont des estimateurs non biaisés de µ : ce critère ne suffit
donc pas pour faire un choix. Comme ces estimateurs sont non biaisés, un indice de
mesure de leur dispersion est donné par leur variance :
X +Y 1
! !
σ2 σ2 σ2
V ar(Z1 ) = V ar = 1/4(V ar(X) + V ar(Y )) = + =
2 4 10 30 30

4.5. Une méthode générale d’estimation : le maximum de vraisemblance 35
et
X 3Y 1 9 1 σ2 9 σ2
!
σ2
V ar(Z2 ) = V ar + = V ar(X) + V ar(Y ) = + =
4 4 16 16 16 10 16 30 40
L’estimateur Z2 a donc une variance plus petite que l’estimateur Z1 .
Définition 4.4
Soit x = (x1 , · · · , xn ) une observation d’un échantillon (X1 , · · · , Xn ) de taille n dont
la densité fθ (x) dépend d’un paramètre θ (à estimer). On définit la vraisemblance de
l’échantillon par :
L(x1 , · · · , xn , θ) = f (x1 , θ) · · · f (xn , θ). (4.1)
Les n observations étant indépendantes, la vraisemblance apparaît comme la proba-

bilité d’obtention de l’échantillon dans le cas discret et comme la densité de cette
probabilité dans le cas continu.
Sous certaines conditions de régularité de la vraisemblance, on a l’inégalité
suivante (Cramer-Rao) : Soit T un estimateur d’une fonction g(θ) alors
[g 0 (θ)]2
V ar(T ) ≥ 2
E ∂
∂θ
ln L(x1 , · · · , xn , θ)
avec ln L(x1 , · · · , xn , θ) = ni=1 f (xi , θ)

P
On voit donc que si T est un estimateur sans biais de θ alors g(θ) = θ et g 0 (θ) = 1.
De plus, si f vérifie certaines conditions de régularité alors :
−1
V ar(T ) ≥
E ∂2
∂θ2
ln fθ
Cette inégalité montre qu’à taille d’échantillon finie, la variance d’un estimateur
sans biais ne peut être inférieure à une certaine limite. Il est donc illusoire de penser
qu’il est possible d’accéder aux paramètres de population sur un échantillon de taille
finie).
Un estimateur est efficace si sa variance atteint la borne inférieure de Cramer-
Rao en d’autres termes si :
−1
V ar(T ) = ∂ 2 = borne inf de Cramer Rao
E ∂θ2 ln fθ
4.5 Une méthode générale d’estimation : le maxi-

mum de vraisemblance
Fisher a proposé une méthode basée sur la remarque suivante : les meilleures
valeurs du paramètre inconnu θ sont celles qui donnent à l’événement observé
(x1 , · · · , xn ) la plus grande probabilité.
On a vu que cette probabilité peut être « représentée » par la vraisemblance
L(x, θ) = f (x1 , θ) · · · f (xn , θ). L’estimation « maximum de vraisemblance » de θ sera
une fonction des observations qui rend L(x, θ) maximum.

4.5. Une méthode générale d’estimation : le maximum de vraisemblance 36
Remarque 4.1
Il est équivalent de rendre maximum
n
ln L(x, θ) = ln f (xi , θ)
X
i=1
Exemple 4.4 (Une application)

Estimation de la moyenne et de la variance d’un échantillon gaussien.
Soit (x1 , · · · , xn ) une observation d’un échantillon (X1 , · · · , Xn ) de taille n. Les
v.a Xi sont indépendantes et de loi N (µ, σ 2 ) avec µ et σ 2 inconnus.
Écrivons la vraisemblance.
L(x1 , · · · , xn , µ, σ 2 ) = f (x1 , µ, σ 2 ) × f (x2 , µ, σ 2 ) × · · · × f (xn , µ, σ 2 )
On a bien
1 (xi − µ)2
ln f (xi , µ, σ 2 ) = − ln(2πσ) −
2 2σ 2
Par suite,
n n
(xi − µ)2
ln L(x1 , · · · , xn , µ, σ ) − ln(2πσ) −
2
X
2 i=1 2σ 2
On cherche d’abord la valeur σ 2 qui maximise ln L. C’est la valeur qui annule la
dérivée par rapport à σ.
∂ n n
(xi − µ)2
ln L = −
X
−
∂σ 2σ i=1 2σ 3
De même, on cherche la valeur de µ qui annule la dérivée partielle de la Log

vraisemblance par rapport à µ et on trouve :
∂ n
(xi − µ)
ln L =
X
∂µ i=1 σ2
On arrive finalement à
1X n
1X n
µ̂ = xi et σ̂n2 = (xi − µ̂)2
n i=1 n i=1
Rappel : Si on calcule E(σ̂n2 ), on a :

n−1 2
E(σ̂n2 ) = σ .
n
L’estimateur σ̂n2 n’est donc pas sans biais (il sous estime la variance), en revanche
1 Pn
l’estimateur σ̂n−1
2
= (xi − µ̂)2 est sans biais.
n − 1 i=1

4.6. Dans la pratique 37
4.6 Dans la pratique

L’objet de cette section est de montrer l’utilisation de certains estimateurs
couramment rencontrés en statistique. Le mot estimation recouvre en fait deux types
de technique :
1. l’estimation ponctuelle : une valeur du paramètre à estimer,
2. l’estimation par intervalle : un intervalle dans lequel il est vraisemblable de
trouver avec une probabilité donnée 1 − α le paramètre à estimer. (On parle
alors d’intervalle de confiance de sécurité 1 − α).
Remarque 4.2 (Extrait de la table de la loi normale centrée)
Seuil de 99.73% 99% 98% 96% 95.45% 95% 90% 80% 68.27% 50%
Confiance
zc 3 2.58 2.33 2.05 2 1.96 1.645 1.28 1 0.6745
4.6.1 Estimation d’une moyenne

En utilisant les considérations soulignées dans le paragraphe précédent, les limites
de confiance de la moyenne de la population sont données par la relation :
X ± zc σX
où zc dépend du seuil de confiance désiré et s’obtient à partir du tableau précédent.

En utilisant les résultats obtenus dans la théorie d’échantillonnage, les limites
précises de confiance de la moyenne de la population sont donc données par l’expres-
sion :
σ
X ± zc √ si la population est considérée comme infinie, ou alors
n
s
σ N −n
X ± zc √ si la population est considérée comme finie, ou alors
n N −1
Il convient de remarquer que de manière générale, l’écart-type de la population
est inconnu de sorte que les limites de confiance s’obtienne en utilisant l’estimation
empirique σ̂ de σ.
4.6.2 Estimation d’une fréquence

Si la statistique S est la proportion de succès dans un échantillon de taille n tiré
d’une population binomiale pour laquelle la fréquence de succès vaut p, les limites
de confiance de p sont données par P ± zc σp où P est la proportion de succès dans
l’échantillon de taille n.
Il résulte des sections précédentes que dans ce cas, les valeurs explicites des limites
de confiance sont : s
pq p(1 − p)
r
P ± zc =P±
n n

4.6. Dans la pratique 38
la population étant supposée ici infinie et dans le cas contraire on a :

s
pq N −n
r
P ± zc
n N −1
4.6.3 Estimation des différences

Considérons S1 et S2 deux statistiques d’échantillonnage ayant des distributions
voisines de la loi normale.
D’après les considérations précédentes, les limites de confiance de la différence
des paramètres de la population correspondant à S1 et S2 sont données par :
q
S1 − S2 ± zc σS1 −S2 = S1 − S2 ± zc σS2 1 + σS2 2
S’agissant de la somme de ces mêmes paramètres, les limites de confiance sont données
par : q
S1 + S2 ± zc σS1 +S2 = S1 + S2 ± zc σS2 1 + σS2 2
Il convient de souligner que ces relations ne sont valables que lorsque les échantillons
sont indépendants.
De manière particulière, les limites de confiance de la différence de deux moyennes
de populations, dans le cas où ces populations sont infinies, sont données par :
s
σ12 σ22
X 1 − X 2 ± zc σX 1 −X 2 = X 1 − X 2 ± zc +
n1 n2
où X 1 , σ1 , n1 et X 2 , σ2 , n2 sont respectivement les moyennes, les écart-types et les
tailles de deux échantillons extraits des populations.
S’agissant de la différence de deux fréquences théoriques dans le cas des popula-
tions infinies, les limites de confiance sont :
s
p1 (1 − p1 ) p2 (1 − p2 )
P1 − P2 ± zc σP1 −P2 = P1 − P2 ± zc +
n1 n2
où P1 et P2 sont les fréquences des échantillons, n1 et n2 les tailles de ces deux
échantillons et p1 et p2 les fréquences dans les deux populations (estimées par p1 et
p2 ).
4.6.4 Estimation d’un écart-type

Il arrive aussi qu’on ait besoin d’estimer l’écart-type d’une population à partir de
celui d’échantillons.
On démontre dans ce cas que les limites de confiance de l’écart-type σ d’une
population distribuée normalement, σ étant estimé par l’écart-type s d’un échantillon,
ont pour expression :
σ
s ± zc σs = s ± zc √
2n
Remarque 4.3
Les limites de confiance à 50% des paramètres d’une population correspondant à une
statistique S sont données par ( vérifier sur la table )
S ± 0.6745σS :
La quantité 0.6745σS s’appelle erreur probable de l’estimation.

4.7. Cas général 39
4.6.5 Exercices d’application

1. La moyenne et l’écart-type des charges maximales supportées par 60 câbles
sont respectivement 11.09 tonnes et 0.73 tonnes.
Déterminer les limites de confiance :
a) à 95% , b) à 99% de la charge moyenne de tous les câbles produits par
l’usine.
Réponses : a) 11.09 ± 0.18 tonnes b) 11.09 ± 0.24 tonnes.
2. Une usine possède 500 câbles. Un test sur 40 câbles choisis au hasard a donné
une résistance de rupture moyenne de 2400 kg et un écart-type de 150 kg.
a) Quelles sont les limites de confiance à 95% et à 99% pour l’estimation de la
résistance de rupture moyenne des 460 câbles restants ?
b) Avec quel degré de confiance peut-on dire que la résistance de rupture
moyenne des 460 câbles restants vaut 2400 ± 35 Kg ?
Réponses : a) 2400 ± 45 kg, 2400 ± 59 kg b) 87.6%
3. On administre des somnifères sous forme de pilules à deux groupes de malades,
A et B, comprenant respectivement 50 et 100 individus. On a donné au groupe
A des pilules d’un type nouveau et au groupe B des pilules classiques.
Les patients du groupe A ont dormi 7.82 heures en moyenne, ceux du groupe
B 6.75 heures.
L’écart-type étant pour le groupe A de 0.24 heure, pour le groupe B de 0.30
heure, calculer les limites de confiance a) à 95%, b) à 99% pour la différence
des moyennes d’heures de sommeil provoquées par les deux somnifères.
Réponses : a) 1.07 ± 0.09 heure, b) 1.07 ± 0.12 heure.
4.7 Cas général

Dans les lignes précédentes, la taille de l’échantillon était supposée suffisamment
grande.
Voici ce qui se passe en générale, même lorsque n < 30.
4.7.1 Estimation des paramètres d’une loi normale

Soient X1 , · · · , Xn n v.a indépendantes de même loi N (µ, σ 2 ). Nous commençons
par estimer la variance puis nous estimons la moyenne. Afin d’effectuer des estimations
par intervalle, nous avons besoin de la proposition suivante :
Proposition 4.1
1 Pn 1 Pn
Soient X = i=1 Xi et σ̂n−1 =
2
(Xi − X)2 . Alors on a
n n − 1 i=1
!
σ2
(1) X ∼ N µ,
n
(2) X et σ̂n−1
2
sont indépendants.

Pour illustrer l’emploi des formules, nous reprendrons les données de l’exemple
des GMQ précédent (nous supposons donc que la normalité des GMQ est déjà
démontrée).
Num Porc 1 2 3 4 5 6 7 8 9 10
GMQ (gr) 500 530 560 510 620 560 540 610 600 580
Estimation de la moyenne
Un estimateur sans biais de la moyenne est donné par
1X n
X= Xi
n i=1
En utilisant l’affirmation (1) de la proposition, il vient
√ X −µ
n ∼ N (1, ∞)
σ
et après d’autres développements mathématiques (en utilisant la loi du χ2 et l’indé-
pendance de X et σ̂n−1
2
), on déduit
X −µ
T = 2
σ̂n−1
∼ Studentn−1
√
n
Un intervalle de confiance de sécurité 1 − α de µ est donc donné par

s s
2 2
1−α/2 σ̂n−1 1−α/2 σ̂n−1
(M OY ) X − tn−1 ≤ µ ≤ X + tn−1
n n
ou encore
1−α/2 1−α/2
X − tn−1 se ≤ µ ≤ X + tn−1 se
1−α/2
avec tn−1 est la valeur limite au seuil 1 − α/2 d’une loi de Student à n − 1 degrés
de liberté.
Exemple 4.5 (Une application)

Dans notre exemple n = 10 et une estimation de la moyenne est donnée par X = 561.
Un intervalle de sécurité 0.95 peut alors facilement être construit : la table de Student
1−0.005/2
nous donne pour 10 − 1 = 9 degrés de liberté t9 = 2.262 nous en déduisons
donc que nous avons 95 chances sur 100 de trouver la moyenne de population dans
l’intervalle
 s s 
561 − 2.262
1721.11 1721.11 
; 561 + 2.262 soit 526.6 ≤ µ ≤ 595.36
10 10
Remarque 4.4
Il y a souvent confusion entre l’intervalle de confiance de la moyenne défini par

(MOY ) et l’intervalle dans lequel se trouve une certaine fraction de la population

défini comme suit :
s s
1−α/2 n+1 2 1−α/2 n + 1 2
(P OP ) X − tn−1 σ̂n−1 ≤ µ ≤ X + tn−1 σ̂n−1
n n
Cette confusion est souvent renforcée par des présentations de résultats de la forme
X ± et où et est une quantité qui est soit SD soit se. Il est clair que pour être
interprétable il est nécessaire de savoir ce que et représente.
Pour obtenir (POP), considérons

une v.a X indépendante des (Xi )i et de loi
N (µ, σ 2 ). Alors X − X ∼ N 0, σ 2n+1 et en reprenant le même raisonnement que
n
celui que nous venons de faire pour la construction de (MOY), il est facile d’obtenir le
résultat. Dans notre exemple, l’intervalle dans lequel se trouvent 95% de la population
vaut
 s s 
561 − 2.262
11 11
1721.11; 561 + 2.262 1721.11 soit [477.00; 674.99]
10 10
En utilisant le théorème « central limite » il est facile de voir que l’intervalle de

confiance de la moyenne (MOY ) ne dépend pas tellement de la distribution des
données si la taille de l’échantillon est suffisante. En d’autres termes, l’hypothèse de
normalité de la distribution peut être relaxée pour des échantillons de taille assez
grande. En revanche, il est clair que la forme de la distribution est très importante
pour les intervalles dans lesquels se trouvent une certaine portion de la population
(POP).
4.7.2 Estimation d’un pourcentage

L’objet de ce paragraphe est de montrer les techniques de construction des
intervalles de confiance des pourcentages. Pour construire un intervalle de confiance,
nous avons besoin d’identifier les lois de probabilités sous-jacentes.
A cet effet prenons des notations. Soit X une variable aléatoire distribuée selon
une loi Binomiale de paramètres N et p. X est donc le nombre d’individus qui satisfait
une certaine condition de la forme (0, 1) avec une probabilité p. La quantité N est
déterministe et connue et on cherche une valeur raisonnable de p. Il est clair qu’un
estimateur sans biais de p est donné par p̂ = Np . En revanche, la recherche d’un
intervalle de confiance de p pose quelques problèmes : les seuls intervalles faciles de
construire ne sont qu’approximatifs et ils ne deviennent vraiment fiables que lorsque
n est assez grand.
Méthode 1 (exacte)
Cette méthode de construction d’intervalle de confiance est exacte. Par conséquent
aucune hypothèse concernant la taille de l’échantillon n’est requise. Il est difficile de
l’utiliser directement sans faire appel à des techniques d’analyse numérique ; aussi on
a souvent recours à des tables ou à des logiciel spécialisés.

Notons p̂sup la solution de

x
!
N i
p (1 − p)N −i = α/2
X
i=1 i
et p̂inf la solution de
N
!
N i
p (1 − p)N −i = α/2
X
i=x i
alors un intervalle de sécurité 1 − α est donné par [p̂inf , p̂sup ]
Méthode 2
Cette méthode repose sur le même principe que la méthode exacte. On approxime
la loi Binomiale (de paramètres N et p par la loi de Poisson de paramètre N p. Il
faut donc que les conditions requises pour cette approximation soient vérifiées (N
grand p petit, N p raisonnable).
Méthode 3
Grâce au théorème central limite et à la loi des grand nombres, nous savons que
pour N assez grand, la quantité
p̂ − p
Z=q
p̂(1−p̂)
N
est approximativement distribuée selon une loi N (0, 1). (Il faut que les conditions
requises pour cette approximation soient vérifiées) Un intervalle de sécurité 1 − α est
donc donné par
s s
p̂(1 − p̂) p̂(1 − p̂)
p̂ − z1−α/2 ≤ p ≤ p̂ + z1−α/2
N N
où z1−α/2 est la valeur limite au seuil α/2 d’une loi N (0, 1) (Si α = 0.05 alors
z1−α/2 = 1.96).
Application :
On s’intéresse au pourcentage d’animaux porteur d’une anomalie. Supposons
que sur un échantillon de taille N = 100 on a observé x = 10 animaux porteurs de
cette anomalie alors p̂ = 0.1 = 10/100. Notre objectif est de construire l’intervalle de
confiance de sécurité 1 − α.
En utilisant la méthode 1 nous devons résoudre :
10
100
!
(p̂sup )i (1 − p̂sup )100−i = 0.025
X
i=1 i
et
100
!
N
(p̂inf )i (1 − p̂inf )N −i = 0.025
X
i=10 i

Un calcul avec un logiciel spécialisé nous donne p̂sup = 0.1762 et p̂sup = 0.0491.
L’intervalle de confiance de sécurité 0.95 de p est donc : [0.0491; 0.1762].
Enfin, la construction d’un intervalle de confiance de sécurité 95% avec la méthode
3 nous conduit à
 s s 
0.1 − 1.96
0.1 × 0.9 0.1 × 0.9 
; 0.1 + 1.96 = [0.0412, 0.1588]
100 100
Ces résultats sont proches de ceux que l’on obtient avec la méthode exacte et sont
obtenus grâce à un calcul direct.

Chapitre 5
Tests d’hypothèses
Sommaire
5.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . 44
5.2 Types d’erreur . . . . . . . . . . . . . . . . . . . . . . . . . 45
5.3 Test de la moyenne . . . . . . . . . . . . . . . . . . . . . . 48
5.4 Test de la différence de deux moyennes . . . . . . . . . . 51
5.5 Autres tests . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
5.1 Introduction
Nous avons étudié, dans le chapitre précédent, le problème de l’estimation des
paramètres d’une population. Un autre problème fondamental de la théorie statis-
tique est le test des hypothèses concernant une population. En ce qui concerne la
distribution normale, le test de la population se réduit au test des paramètres µ
et σ. Pour la distribution binomiale, nous avons à tester le paramètre p et pour la
distribution exponentielle ou celle de Poisson il suffit de tester la moyenne µ. Les
tests que nous étudierons dans ce chapitre sont des tests d’hypothèses statistiques.
Une hypothèse statistique est une supposition sur la densité de probabilité d’une
variable aléatoire. Le test d’une hypothèse statistique est une procédure pour décider
s’il faut accepter ou refuser une hypothèse.
Exemple 5.1
La durée de vie de certaines ampoules électriques suit la loi exponentielle :
f (x) = θe−θx x≥0
On possède des ampoules électriques, mais on ne sait pas s’il s’agit d’ampoules de
la marque A ou de la marque B. La durée de vie moyenne des ampoules de la marque
A est de 100 heures, celle de la marque B 200 heures. Supposons que l’on croit que
les ampoules soient de la marque A, donc avec une durée de vie moyenne de 100
h. Nous avons ici une hypothèse statistique, qu’on appelle H0 , ou hypothèse nulle,
en ce sens que la différence entre la valeur trouvée avec un échantillon et la vraie
valeur est due uniquement à une erreur d’échantillonnage. Par conséquent, il n’y a
pas de différence entre la population et l’échantillon, les membres de l’échantillon
proviennent de la population en question.
44
5.2. Types d’erreur 45
Cette hypothèse H0 est donc l’hypothèse que la durée de vie moyenne soit 100 h.
On écrit :
H0 : θ0 = 1/100 = 0.01
L’hypothèse contraire, qu’on appelle H1 , est celle d’une durée de vie moyenne de
200 h, donc :
H1 : θ1 = 1/200 = 0.005
Si l’on veut tester l’hypothèse H0 , on prend un échantillon et on détermine la
durée de vie moyenne. Supposons que l’on teste une seule ampoule, de manière à
pouvoir représenter graphiquement la densité de probabilité. On détermine donc la
durée de vie de cette ampoule. On a alors une observation de la variable aléatoire x
et, sur la base de cette valeur de x, on prend la décision d’accepter l’hypothèse H0
ou de la refuser. Refuser H0 correspond évidemment à accepter l’hypothèse H1 . Il
faut déterminer quelles sont les valeurs de x où H0 est acceptée, les autres valeurs
étant alors celles où H0 est refusée. Les valeurs de x pour lesquelles H0 est rejetée
déterminent ce qu’on appelle la région critique du test. La région critique du test
d’une hypothèse statistique est la partie de l’espace d’échantillonnage qui correspond
au rejet de l’hypothèse testée. Construire un test pour H0 revient alors à choisir la
région critique.
5.2 Types d’erreur

Supposons que le statisticien décide que la région critique soit formée par les
valeurs supérieures à 200 (x > 200). Pour savoir s’il s’agit d’un choix judicieux, il
faut analyser les conséquences. Si H0 est vraie et la valeur de x est plus grande que
200, on prend une décision incorrecte, car on rejette une hypothèse vraie. Ce genre
d’erreur est appelé une erreur de type I . Si H0 est fausse et la valeur de x est plus
petite que 200, on prend aussi une décision incorrecte, car on accepte une hypothèse
fausse. Ce genre d’erreur est appelé une erreur de type II .
On peut réunir les différentes possibilités dans le tableau suivant :
H0 vraie H0 fausse
H0 acceptée décision correcte erreur de type II
H0 rejetée erreur de type I décision correcte
Il faut mesurer la possibilité de faire les deux types d’erreur, de manière à pouvoir
déterminer si le choix de la région critique est satisfaisant. Cette probabilité est
donnée par la grandeur de l’erreur. La grandeur de l’erreur de type I est la probabilité
(α) que la valeur de l’échantillon tombe dans la région critique lorsque H0 est vraie :
α = P ( rejeterH0 /H0 est vraie )

La grandeur de l’erreur de type II est la probabilité (β) que la valeur de l’échan-
tillon tombe dans la région d’acceptation lorsque H0 est fausse :
β = P ( accepterH0 /H0 est fausse )

On obtient un bon test en utilisant le principe suivant : parmi tous les tests qui ont
la même grandeur de l’erreur de type I, choisir celui qui a la plus petite grandeur de
l’erreur de type II. En général, la grandeur de l’erreur de type II augmente lorsque
celle de l’erreur de type I diminue. On ne peut pas minimiser les deux erreurs à la
fois. Pour cette raison, on prend souvent une valeur donnée pour α, la grandeur de
l’erreur de type I, et on minimise β, la grandeur de l’erreur de type II.
Pour α on utilise très souvent une valeur de α égale à 0.05, c’est-à-dire qu’ap-
proximativement dans 5% des cas l’hypothèse vraie est rejetée. Si l’erreur de type I
est considérée comme plus sérieuse que celle de type II, on peut prendre des valeurs
plus petites pour α.
Reprenons notre exemple des ampoules électriques. On a :
Z +∞
H0 : θ0 = 0.01 α= 0.01e−0.01x dx = e−2 = 0.13534
200
Z 200
H1 : θ1 = 0.02 β= 0.02e−0.02x dx = 1 − e−1 = 0.63216
0
Pour déterminer si le choix de la région critique a été judicieux, nous allons comparer
ce test avec un autre test ayant lui aussi α = 0.135. Prenons le test qui considère la
région critique à gauche d’un certain point x0 plutôt qu’à droite. On a alors :
Z x0
α= 0.01e−0.01x dx = 0.13534
0
ce qui donne x0 = 14.5. La valeur de β est :

Z +∞
β= 0.02e−0.02x dx = 0.9324
14.5
Pour une même valeur de α , on a une valeur de β plus élevée et alors le premier
test est supérieur à celui-ci. Tous les deux tests ont des valeurs très grandes d’erreur
de type II, mais ceci est dû au fait qu’on a pris un échantillon de grandeur 1.
Puissance d’un test

Souvent, l’hypothèse H1 n’est pas donnée d’une manière précise, comme dans
l’exemple ci-dessus. On connaît rarement quelle est la valeur de θ si H0 est fausse.
Or, β dépend naturellement de la valeur de θ considérée. Pour analyser le pouvoir
du test, il faut comparer les erreurs de type II pour différentes valeurs de θ.
Nous avons une fonction β(θ). Comme on préfère travailler avec la région critique,
on prend 1 − β(θ). Cette fonction est appelée la fonction de puissance du test.
La fonction de puissance d’un test est une fonction du paramètre β donnant la
probabilité que la valeur de l’échantillon tombe dans la région critique, lorsque θ est
la vraie valeur du paramètre.
Comme P (θ) = 1 − β(θ), minimiser β(θ) est la même chose que maximiser P (θ).
Le théorème de Neyman-Pearson permet de montrer que le premier test (celui avec
la région critique à droite) est le meilleur test pour tout θ < 1/100 comme hypothèse
alternative (au lieu de θ = 1/200).

Exemple 5.2
Une qualité A de betteraves donne en moyenne 190 g de sucre, tandis qu’une autre
qualité B en donne 196 g. On suppose que dans les deux cas l’écart-type est le même et
qu’il est égal à 15 g. On prend un échantillon de 36 betteraves et on veut analyser s’il
s’agit de la qualité A ou de la qualité B. On pourrait prendre le chiffre x = 193 (on
est ainsi à michemin) comme√ valeur critique. Comme x est distribuée normalement
avec écart-type σx = 15/ 36 = 2.5, l’aire sous la courbe est 0.1151 (z = 1.2), à la
droite de 193 pour A et à la gauche de 193 pour B :
Si l’on choisit α = 0.05 on peut trouver x0 = 190 + 1.645 × 2.5 = 194.1 On

obtient alors β = 0.2236. Si cette valeur de β est considérée comme trop grande,
on peut accroître le nombre d’éléments de l’échantillon. Comme la grandeur de
√ I est donnée par l’aire de la distribution normale N (µ0 , σ) pour
l’erreur de type
x > µ0 + z0 σ/ n et celle de l’erreur
√ de type II par l’aire de la distribution normale
N (µ1 , σ) pour x < µ1 − z1 σ/ n, on obtient la grandeur de l’échantillon pour des
valeurs prédéterminées dE α et β en résolvant l’équation :
√ √
µ0 + z0 σ/ n = µ1 + z1 σ/ n
par rapport à n. On trouve :
(z1 + z0 )2 σ 2
n=
(µ1 − µ0 )2
Si, dans l’exemple ci-dessus, on désire avoir α = 0.05 et β = 0.025 il faut prendre un
échantillon de grandeur :
(1.645 + 1.96)2 × 152
n= = 81.2
(196 − 190)2

5.3. Test de la moyenne 48
c’est-à-dire 82 betteraves.
Remarque 5.1
Il faut bien noter que la valeur de la moyenne de l’échantillon ne doit jamais influencer
le choix de la région critique. Ce choix doit être fait avant de connaître le résultat de
l’échantillon.
5.3 Test de la moyenne

Un test de la moyenne consiste à déterminer si une certaine population a une
moyenne donnée.
Exemple 5.3
Un fabricant de produits diététiques indique sur l’emballage que ses produits ont
un contenu moyen en vitamine C de 16 mg. On peut tester cette affirmation de la
manière suivante. Soit :
H0 : µ = 16; H1 : µ 6= 16
Prenons α = 0.10. Un échantillon de 49 produits donne un contenu moyen de 15.82
mg avec variance s2 = 0.49. On obtient alors
σx2 = 0.49/49 = 0.01; σx = 0.1
Graphiquement on a :

L’intervalle est ici 16 ± 1.645 × 0.1 = 16 ± 0.1645, c’est-à-dire [15.83; 16.1645].

Comme la moyenne est de 15.82, l’hypothèse H0 est rejetée, car x tombe dans la
région critique.
Le test ci-dessus est appelé un test bilatéral, puisqu’on admet que le contenu en
vitamine C pourrait être soit supérieur soit inférieur à la moyenne. Si l’on suspecte
que le produit a une tendance à avoir une quantité inférieure à la moyenne, on peut
prendre H1 : µ < 16. Dans ce cas nous avons un test unilatéral et la région critique
est à gauche :
Si l’on prend α = 0.10, on trouve la région critique 16 − 1.282 × 0.1 = 15.8718

c’est-à-dire ] − ∞, 15.8718]. Comme x = 15.82, l’hypothèse H0 est rejetée. Si H1 était
µ > 16, la région critique serait à droite.
On peut donner les valeurs suivantes dans le cas de la distribution normale :
α z0
test bilatéral test unilatéral
0.10 1.645 1.282
0.05 1.96 1.645
0.025 2.24 1.96
0.02 2.326 2.054
0.01 2.576 2.326
0.005 2.81 2.576
La valeur de 1.96 correspond à un seuil bilatéral de 5% ou à un seuil unilatéral

de 2.5% et la même relation est valable pour les autres valeurs. Dans le cas d’un
test bilatéral, l’hypothèse H0 est acceptée si x tombe dans l’intervalle µ ± z0 σx . La
région critique se trouve à l’extérieur de cet intervalle. Lorsque le test est unilatéral,
la région critique est à droite de µ + z0 σx , si l’on prend comme contre hypothèse une

moyenne supérieure à la valeur testée, et à gauche de µ − z0 σx si la contre-hypothèse

implique une moyenne inférieure à la valeur testée.
Les logiciels statistiques calculent souvent la valeur p d’un test. Il s’agit de la
probabilité d’obtenir une valeur de x supérieure ou égale au résultat de l’échantillon
x0 lorsque l’hypothèse H0 est vraie. Si cette probabilité est supérieure au seuil de
signification (α), l’hypothèse H0 est acceptée. On rejette l’hypothèse H0 dans le cas
contraire.
x0 − µ
Soit zp la valeur standardisée . La valeur p est alors la probabilité suivante :
αx
1. Test unilatéral avec région critique à droite : P (z > zp )
2. Test unilatéral avec région critique à gauche : P (z < zp )
3. Test bilatéral : P (|z| > zp )
Dans l’exemple ci-dessus la valeur p est la probabilité d’obtenir une valeur de

x inférieure ou égale à 15.82. Cette probabilité est P (z < −1.8) = 0.0359. Avec
α = 0.10, l’hypothèse H0 est rejetée.
Une application intéressante du test de la moyenne est représentée par le contrôle
de la qualité d’un produit. Supposons qu’une machine fabrique des objets utilisés
dans les montres. Il faut que le diamètre de cet objet soit très précis. En général, on
procède de la manière suivante. Un inspecteur contrôle périodiquement un échantillon
d’objets fabriqués pour voir si le diamètre est exact. Si l’on prend un échantillon
chaque heure et l’on note les résultats, on aura, après quelque temps, une longue
série de moyennes. La moyenne de ces moyennes peut être considérée comme la vraie
moyenne de la population et l’écart-type comme σx . Il est par conséquent possible
de calculer l’intervalle
[µ + 3σx , µ + 3σx ].
En utilisant la loi normale, nous pouvons dire que l’on a une probabilité de 0.997
d’avoir x qui tombe à l’intérieur de cet intervalle. Par conséquent, si x tombe à
l’extérieur de cet intervalle, il y a beaucoup de raisons de croire que la machine
doit être réglée. On utilise 3 fois l’écart-type, car l’expérience a montré que c’est
la valeur qui convient du point de vue pratique. Si l’on prend 2 fois l’écart-type, le
5% des valeurs de x tombent à l’extérieur de l’intervalle et on risque de régler la
machine inutilement. Une fois que les valeurs de µ et de σx ont été calculées, on peut
construire ce qu’on appelle le diagramme de contrôle (de qualité).
Chaque point correspond à la valeur de x obtenue lors de l’inspection, après avoir

récolté les données initiales de manière à pouvoir calculer l’intervalle. Comme les

5.4. Test de la différence de deux moyennes 51
points sont à l’intérieur de l’intervalle, il ne faut pas régler la machine. La grandeur de

l’échantillon est souvent égale à 5. Il est par conséquent possible que l’approximation
par la loi normale ne soit pas très bonne. Toutefois, l’expérience a montré que
l’intervalle de 3σx suffit.
5.4 Test de la différence de deux moyennes

Nous avons déjà vu que si x1 et x2 sont deux variables normales indépendantes,
avec moyenne µ1 et µ2 et écart-type σ1 et σ2 , alors la variable x1 − x2 possède une
distribution normale avec moyenne µ1 − µ2 et écart-type :
s
q σ1 σ2
σx−y = σx + σy = + . (5.1)
n1 n2
Ce résultat peut être utilisé pour tester la différence de deux moyennes.
Exemple 5.4
On veut acheter des batteries pour automobiles. Les marques A et B ont le même
prix. On teste un échantillon de ces batteries pour déterminer si la qualité est la
même. On prend un échantillon de 40 batteries de la marque A et un échantillon de
50 batteries de la marque B. On obtient les résultats suivants :
xA = 1100; xB = 1093; sA = 21.9; sB = 20
Il semblerait que la marque A soit meilleure, mais ceci peut être dû au fait d’avoir
pris par hasard des batteries ayant une durée de vie supérieure à celle de la population.
Nous voulons par conséquent tester l’hypothèse que la qualité est la même. On a
alors :
H0 : µA − µB = 0
(c’est-à-dire µA = µB ). Vous comprenez maintenant pourquoi H0 est appelée l’hypo-
thèse nulle, car elle suppose que la différence est nulle.
L’hypothèse H1 est :
H1 : µA 6= µB
Nous avons vu que la différence xA − xB peut être considérée comme une variable
normale avec moyenne nulle et écart-type :
s
(21.9)2 (20)2
σxA −xB = + = 4.47
40 50
où σA et σB ont été remplacés par sA et sB respectivement. Comme n > 30, cette
substitution est acceptable.
Prenons α = 0.05. La région d’acceptation est par conséquent :
0 ± 1.96σxA −xB = ±1.96 × 4.47 = ±9

5.5. Autres tests 52
Comme
xA − xB = 1100 − 1093 = 7,
l’hypothèse H0 est acceptée, c’est-à-dire la différence entre les deux moyennes n’est
pas significative.
Ceci ne signifie pas qu’il faille nécessairement croire que les deux marques ont
la même qualité. Le test indique seulement que les résultats des deux échantillons
n’indiquent pas une différence significative de qualité.
Remarque 5.2
Le test d’une hypothèse statistique est une règle pour prendre une décision. Si la valeur
tombe dans la région critique, on dit que le résultat du test est significatif. Un autre
type de test, qui a souvent des avantages considérables, est celui obtenu de la manière
suivante. On décide soit d’accepter l’hypothèse H0 , soit de rejeter l’hypothèse H0
, soit de prendre un échantillon plus large. Avec cet échantillonnage séquentiel on
parvient souvent à une décision avec un échantillon plus petit. Dans les cas considérés
jusqu’à présent, la grandeur de l’échantillon était fixe. L’échantillonnage séquentiel est
traité dans des ouvrages avancés de statistique. Par ailleurs, nous verrons ci-dessous
comment les méthodes bayésiennes déterminent la grandeur de l’échantillon.
5.5 Autres tests

Comme la loi normale représente une approximation de la distribution binomiale,
nous pouvons considérer le test d’une proportion en utilisant les méthodes pour
grands échantillons, examinées dans la section précédente.
Exemple 5.5
Dans une ville, les automobilistes sont assurés auprès de deux compagnies. Les clients
de chaque compagnie représentent le 50% du total des automobilistes. À la suite de
modifications des conditions d’assurance, la direction de la compagnie A veut savoir
si ce rapport est toujours le même. En effet, selon les informations de ses agents,
le nombre de clients de la société B aurait augmenté. Une enquête auprès de 200
automobilistes choisis au hasard révèle que 120 sont assurés auprès de la compagnie
B.

Déterminer si l’hypothèse d’un rapport de 0.5 est encore valable. Nous avons à
tester l’hypothèseH0 : p = 1/2 où p représente la proportion d’automobilistes assurés
auprès de la compagnie B.
La contre-hypothèse est H1 : p > 1/2. Il s’agit donc d’un test unilatéral.
Nous avons vu que p̂ = x/n peut être considérée comme une variable normale
avec moyenne 1/2 et écart-type :
s
1/2 × 1/2
s
p×q
= ' 0.035
n 200
Dans le calcul de l’écart-type, il faut toujours utiliser la valeur de p de l’hypothèse
nulle. La région d’acceptation est, en utilisant α = 0.05 :
p̂ < p + 1.645σp = 1/2 + 1.645 × (0.035) = 0.56
Comme p̂ = 120/200 = 0.6, cette valeur tombe dans la région critique et l’hypo-
thèse H0 est rejetée. L’hypothèse que la proportion d’automobilistes assurés auprès
de la compagnie B soit supérieur à 0.5 est ainsi acceptée.
Une autre application du test de la valeur p de la distribution binomiale est

donnée par l’examen du pourcentage de pièces défectueuses, à l’aide du diagramme
de contrôle. On applique la même technique discutée dans la section précédente. Avec
l’expérience on détermine la valeur de p. Une fois que cette valeur est calculée, on
peut construire le diagramme de contrôle :
On doit parfois tester la différence de deux proportions. Nous savons que si p̂1 et
p̂2 sont des variables normales avec moyenne p1 et p2 , alors p̂1 − p̂2 est une variable
normale avec moyenne p1 − p2 et écart-type :
s
p1 × q1 p2 × q2
σ̂p1 −p2 = +
n1 n2
L’hypothèse est H0 : p1 = p2 . Dans le calcul de l’écart-type, il faut alors utiliser la

même valeur pour p1 et p2 .
Exemple 5.6
On désire analyser l’effet de deux marques de pastilles contre le refroidissement. On
donne à 200 personnes les pastilles de la marque A et à 100 autres les pastilles de la
marque B. 152 personnes du premier groupe n’ont pas eu de refroidissement, tandis
qu’il n’y en a eu que 61 dans le deuxième groupe. Peut-on conclure qu’il n’y a pas de
différence entre les deux marques ?

Nous avons :
p̂1 = 152/200 = 0.76 et p̂2 = 61/100 = 0.61
On a
s
p1 × q1 p2 × q2
σ̂p1 −p2 = +
200 100
Comme on ne connaît pas la valeur de p1 et p1 , il faut l’estimer. Sous l’hypothèse
H0 : p1 = p2 = p, une estimation de p peut être obtenue de la manière suivante :
n1 p1 + n2 p2
p̂ =
n1 + n2
Nous avons alors :
152 + 61
p̂ = = 0.71
300
s
0.71 × 0.29 0.71 × 0.29
σ̂p1 −p2 = + = 0.056
200 100
Les valeurs de p1 et p2 utilisées dans le calcul de l’écart-type sont identiques puisqu’on
teste l’hypothèse nulle. Comme H1 est p1 6= p2 , il faut utiliser un test bilatéral. En
prenant α = 0.05, on obtient l’intervalle :
0 ± 1.96 × 0.056 = ±0.11
Nous avons p̂1 − p̂2 et alors l’hypothèse H0 est rejetée. Il semble que les pastilles de
la marque A soient plus efficaces.

Chapitre 6
Test du Khi-Deux
Sommaire
6.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . 55
6.2 Cas de χ2 simple . . . . . . . . . . . . . . . . . . . . . . . . 55
6.3 Tables de contingence . . . . . . . . . . . . . . . . . . . . . 58
6.4 Distribution de la variance de l’échantillon . . . . . . . . 59
6.1 Introduction
Nous avons testé dans le chapitre précédent des hypothèses concernant des
moyennes ou des proportions. Il nous faut considérer maintenant des problèmes liés à
l’écart-type. Il y a aussi à étudier les problèmes qui ne peuvent pas être analysés avec
la distribution binomiale car ils comportent plusieurs résultats et non pas uniquement
des succès ou des échecs. Ces deux séries de problèmes peuvent être étudiés à l’aide
de la distribution χ2 proposée par Karl Pearson. Nous commençons par considérer
un exemple du deuxième groupe de problèmes.
6.2 Cas de χ2 simple

Supposons qu’une expérience peut donner k résultats possibles. On peut réunir
les résultats en k classes ou groupes. Si l’expérience est répété n fois et l’on inscrit
les fréquences dans les classes correspondantes, on peut se demander si ces valeurs
sont conformes aux fréquences données par la théorie.
Exemple 6.1
Prenons l’exemple d’un dé qu’on lance 60 fois. Supposons que l’on obtienne les
résultats suivants :
1 2 3 4 5 6
Fréquences observées 16 3 9 14 5 13
Fréquences théoriques 10 10 10 10 10 10
Si le dé est bien équilibré on s’attend à une fréquence de 10 pour chaque résultat.
On veut alors savoir si les fréquences empiriques (ou observées) sont compatibles
55
6.2. Cas de χ2 simple 56
avec les fréquences espérées (ou théoriques). Pour tester cette hypothèse on utilise
une mesure, appelée khi au carré, qui est définie de la manière suivante :
k
(oi − ei )2
χ2 = (6.1)
X
i=1 ei
avec oi : fréquence observée, ei : fréquence espérée et k nombre de classes.

Dans le cas du dé on obtient la valeur suivante :
(16 − 10)2 (3 − 10)2 (9 − 10)2 (14 − 10)2 (5 − 10)2 (13 − 10)2
χ2 = + + + + + = 13.6
10 10 10 10 10 10
Si les fréquences empiriques coïncident avec les fréquences théoriques on a une valeur
de 0 pour χ2 . Par conséquent, des valeurs élevées de χ2 indiquent que les deux
fréquences ne sont pas les mêmes.
On pourrait jeter un dé bien équilibré 60 fois et répéter l’expérience plusieurs fois. Les
valeurs des χ2 obtenues donneraient la fréquence relative d’avoir une valeur donnée
de χ2 . Il est toutefois possible d’utiliser des méthodes mathématiques plus efficaces
pour calculer la fréquence théorique. Cette distribution théorique devrait être une
distribution discrète car il y a seulement un nombre limité de valeurs possibles pour
les fréquences.
Toutefois, il est beaucoup plus simple de travailler avec une distribution continue,
comme on l’a déjà vu avec l’approximation de la loi binomiale par la loi normale.
Supposons qu’on a une variable normale standardisée x et l’on veut obtenir la
distribution de y = χ2 . On peut montrer que la distribution de y est :
1
g(y) = √ y −1/2 e−y/2 y > 0; e nombre de Neper
2π
Cette fonction définit la distribution χ2 pour 1 degré de liberté (ν = 1). La formule
générale de la distribution y = χ2 est donnée par :
(χ2 )ν/2−1/2 e−χ

2 /2
f (χ ) =
2
2ν/2 Γ(ν/2)
où Γ désigne la fonction gamma
Z +∞
γ(t) = xt−1 e−x dx, t > 0
0
En utilisant l’intégration par parties on obtient :
Γ(t) = (t − 1)Γ(t − 1), t > 1
Comme Γ(1) = 1 on a, pour des valeurs entières de t :
Γ(n + 1) = n!
√
On a également Γ(1/2) = π
On peut prouver le théorème suivant :

6.2. Cas de χ2 simple 57
Théorème 6.1
Soient x1 , x2 , · · · , xn des variables normales indépendantes de moyenne nulle et
variance unitaire. La somme des carrés de ces n variables a une distribution χ2 avec
n degrés de liberté.
Le nombre de degrés de liberté dans le cas de fréquences observées et empiriques

est :
ν =k−1 (6.2)
où k est le nombre de classes. Comme dans l’exemple précédent la somme des
fréquences empiriques est 60, la valeur de la 6-ème classe est déterminée une fois
qu’on connaît les fréquences des autres classes. Par conséquent on a ici ν = 5 et la
distribution de χ2 est :
Dessin Si l’on regarde dans la table de la distribution de χ2 on trouve, en prenant
un seuil de signification de 5%, on obtient la valeur χ20.05 pour ν = 5/. Comme on
avait obtenu une valeur empirique de 13.6, l’hypothèse que le dé soit bien équilibré
est rejetée puisque cette valeur tombe dans la région critique.
Lorsque la probabilité doit être estimée en prenant les résultats de l’échantillon
(par exemple, probabilité d’une panne), alors il y a un degré de liberté de moins.
En général, le nombre de degrés de liberté est égal à (n − 1) moins le nombre de
paramètres estimés.
La distribution χ2 n’est qu’une approximation de la distribution χ2 discrète. Il faut
alors utiliser le test χ2 seulement lorsque cette approximation est bonne. L’expérience
et la théorie indiquent que l’approximation est bonne lorsque les fréquences théoriques
dans les classes sont au moins égales à 5.
Si l’on a des fréquences inférieures à 5 on peut réunir les classes. Si k < 5 c’est
mieux d’avoir des fréquences plus grandes que 5.
Il convient de noter que le test d’une fréquence théorique ne peut être qu’un test
unilatéral, avec la région critique à droite.
Exemple 6.2
On veut analyser les accidents d’auto causés par des automobilistes ayant moins de
25 ans. On a les valeurs données par le tableau suivant :
âge 18 19 20 21 22 23 24
nombre d’accidents 6 10 20 15 21 18 10
automobilistes < 25 ans 4% 13% 15% 17% 19% 10% 22%
fréquences théoriques 4 13 15 17 19 10 22
Comme la première classe n’a qu’une fréquence théorique de 4, on réunit les deux
premières classes :
âge 18 − 19 20 21 22 23 24
nombre d’accidents 16 20 15 21 18 10
automobilistes < 25 ans 17% 15% 17% 19% 10% 22%
fréquences théoriques 17 15 17 19 10 22
La valeur de χ est de 15.1. Pour ν = 5 on a une valeur théorique de 11.1 au seuil de
2
5%. La valeur empirique tombe dans la région critique et par conséquent on ne peut
pas dire que le nombre d’accidents soit en relation avec le nombre d’automobilistes
dans chaque classe d’âge.

6.3. Tables de contingence 58
6.3 Tables de contingence

Les cas considérés dans la section précédente avaient des résultats qui pouvaient
être classés en utilisant une seule variable. Dans l’exemple du dé on avait la variable
« numéro de la face obtenue ». Ce test χ2 est appelé test χ2 simple. Nous voulons
considérer maintenant le cas de deux variables utilisées pour classifier les résultats de
l’expérience. Le test employé sera par conséquent appelé χ2 double. On n’examinera
qu’un test d’indépendance entre les deux variables. Un tableau avec des fréquences
classifiées en employant deux variables est appelé une table de contingence. Les tables
de contingence sont utilisées pour l’étude des relations entre deux variables. On veut
savoir si les deux variables sont reliées entre elles. On peut donner une réponse à
cette question avec le test χ2
Exemple 6.3
Le tableau suivant contient le nombre de voitures achetées auprès d’un garagiste en
un mois :
genre de voiture
méthode de paiement neuve d’occasion total
au comptant 15 5 20
à tempérament 45 35 80
total 60 40 100
Est-ce que les deux caractéristiques (genre de voiture et méthode de paiement)

sont indépendantes ?
On ne connaît pas ici les différentes probabilités comme c’était le cas pour le dé.
Il faut alors procéder de la façon suivante pour trouver les fréquences théoriques. Si
l’on considère plusieurs expériences concernant 100 achats de voitures et si l’on tient
compte uniquement des résultats ayant les mêmes totaux partiels, on peut calculer
des fréquences théoriques de la manière suivante. Comme les totaux partiels sont
fixes, il y aura toujours 20 achats au comptant. Par conséquent, s’il n’y a pas de
relation entre genre de voiture et achat au comptant on s’attend à un nombre de
voitures neuves achetées au comptant égal au 20% des 60 voitures neuves. On obtient
les autres fréquences théoriques de la même manière. Ces valeurs sont réunies dans
le tableau suivant :
genre de voiture
méthode de paiement neuve d’occasion total
au comptant (20 × 60)/100 = 12 (20 × 40)/100 = 8 20
à tempérament (80 × 60)/100 = 48 (80 × 40)/100 = 32 80
total 60 40 100
La valeur de χ2 est par conséquent :
(12 − 15)2 (8 − 5)2 (48 − 45)2 (32 − 35)2

χ2 = + + + = 2.34
12 8 48 32

6.4. Distribution de la variance de l’échantillon 59
Il nous faut maintenant calculer les degrés de liberté. Si les totaux sont donnés on ne
peut choisir qu’une fréquence, les autres doivent être telles que les totaux respectifs
soient obtenus. En général, si on a l lignes et c colonnes, on peut avoir (l − 1) lignes
indépendantes et (c − 1) colonnes indépendantes. Par conséquent le nombre de degrés
de liberté est donné par :
ν = (l − 1)(c − 1) (6.3)
et dans notre cas on a : ν = (2 − 1)(2 − 1) = 1 Nous avons déjà indiqué que les
valeurs de χ2 données par les tables sont calculées à l’aide d’une fonction continue.
Lorsqu’on a un seul degré de liberté on procède à une correction de la valeur
empirique de χ2 . Cette correction est appelée correction de continuité de Yates. On
a:
K
(|ei − oi | − 0.3)2
χc =
2
X
i=0 ei
Dans notre cas on obtient :
(3 − 0.5)2 (3 − 0.5)2 (3 − 0.5)2 (3 − 0.5)2
χ2c = + + + = 1.63
12 8 48 32
La valeur donnée par la table est (pour une valeur de α = 0.05) χ20.05 = 3.84 Par
conséquent, on accepte l’hypothèse qu’il n’y a pas de relation entre le genre de voiture
achetée et la méthode de paiement dans la population.
6.4 Distribution de la variance de l’échantillon

La distribution χ2 peut être utilisée pour tester la variance d’un échantillon. On
va considérer ce problème à l’aide d’un exemple.
Exemple 6.4
On veut analyser combien de variation il y a dans le prix d’un kg de sucre vendu
dans une ville. On prend un échantillon de 20 magasins et on obtient une moyenne
de 2.92 (en milliers de Fc) avec un écart-type (s) de 0.4. Quel est l’intervalle de
confiance à 95% pour l’écart-type de tous les magasins (c’est-à-dire l’écart-type de la
population) ?
Supposons que l’on procède à un large nombre d’expériences du même genre et
que le prix soit distribué normalement avec écart-type σ. Si l’on connaît σ, on peut
calculer chaque fois la valeur du rapport :
(n − 1)s2
U= .
σ2
Ces différentes valeurs de U peuvent être classifiées de manière à avoir une distribution
théorique de U. Il y a toutefois des méthodes mathématiques qui permettent d’arriver
à la distribution théorique sans procéder à un grand nombre d’expériences. On peut
montrer que la distribution de U est une distribution χ2 avec ν = n − 1 degrés de
liberté.

6.4. Distribution de la variance de l’échantillon 60
Exemple 6.5
Le diamètre de certaines pièces fabriquées par une machine est de 3200 mm avec un
écart-type de 80 mm. Si l’écart-type devient plus grand il faut réviser la machine. Un
échantillon de 101 pièces donne un écart-type de 90 mm. Tester l’hypothèse d’une
augmentation de la variance.
Les hypothèses sont les suivantes :
H0 : σ = 80 H1 : σ > 80
et il s’agit donc d’un test unilatéral. Le nombre de degrés de liberté est de 100. La
valeur de U est :
(n − 1)s2 100 × 902
U= = = 126.6
σ2 802
En prenant un seuil de signification de 5% on s’aperçoit que cette valeur tombe dans
la région critique et alors l’hypothèse H0 est rejetée.
S’il y a plus de 100 degrés de liberté on peut considérer la variable :

√ √
z = 2U − 2ν − 1 (6.4)
comme une variable normale avec moyenne zéro et écart-type égal à 1.

Comme l’exemple ci-dessus a 100 degrés de liberté, on pourrait comparer la
solution obtenue en utilisant cette variable. On a :
√ √
z = 2 × 126.3 − 2 × 100 − 1 = 1.81
Ici aussi l’hypothèse est rejetée car cette valeur est supérieure à 1.645.
Le test de la variance de l’échantillon suppose que la population suit la loi normale.
En conclusion, nous avons utilisé le test χ2 pour :
1. déterminer si des données peuvent être considérées comme provenant d’une
distribution théorique, ou, en d’autres termes, juger de la valeur d’une hypothèse
concernant une population dont on ne connaît qu’un échantillon. Le même
principe peut être appliqué pour juger de la qualité d’un ajustement statistique ;
2. déterminer si les deux variables d’une table de contingence sont indépendantes ;
3. tester la variance d’un échantillon.

Chapitre 7
Tests non paramétriques
Sommaire
7.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . 61
7.2 Le test des signes . . . . . . . . . . . . . . . . . . . . . . . 61
7.3 Le test de Mann-Whitney . . . . . . . . . . . . . . . . . . 62
7.4 Le test des séquences . . . . . . . . . . . . . . . . . . . . . 63
7.5 Le test de la corrélation des rangs . . . . . . . . . . . . . 64
7.6 Le test de Kolmogorov-Smirnov . . . . . . . . . . . . . . . 66
7.1 Introduction
Les tests que nous avons utilisés jusqu’ici sont des tests paramétriques car nous
avons supposé que la population suivait une certaine distribution (la distribution
normale dans la plupart des cas), définie à partir de paramètres tels que la moyenne
et la variance. Il existe aussi des tests qui ne sont pas basés sur une distribution
donnée de la population. Ces tests sont appelés des tests non paramétriques. Ils sont
en général moins puissants que les tests paramétriques mais parfois ils sont les seuls
à pouvoir être utilisés. Par exemple, si l’échantillon est petit et la variable ne suit
pas une loi normale on ne peut pas utiliser le test de Student. Si l’on veut tester
la différence entre deux variables, on peut alors prendre le test de Mann-Whitney.
Dans ce chapitre on présentera les principaux tests non paramétriques. On prendra
souvent de grands échantillons de manière à pouvoir utiliser une approximation de
la région critique selon la loi normale.
7.2 Le test des signes

Le test des signes est utilisé pour tester des hypothèses sur la position centrale
d’une distribution. On l’applique souvent dans le cas d’échantillons appariés.
Exemple 7.1
On demande à 9 individus de noter deux produits sur une échelle de 1 à 10. Voici les
résultats :
A : 5 6 9 4 1 7 3 8 10
61
7.3. Le test de Mann-Whitney 62
B :238654789
La différence entre les deux notes est :
A - B : 3 3 1 −2 −4 3 −4 0 1
On a 5 différences positives, 3 différences négatives et une différence nulle. L’hy-

pothèse H0 est celle d’une différence nulle entre les deux produits. Ceci signifie que
la médiane des différences doit être zéro. On peut alors supposer que la probabilité
d’avoir un signe positif est de 0.5(H0 : p = 0.5).
Supposons que A est un nouveau produit et le fabricant affirme qu’il est meilleur.
On prendra alors comme contre-hypothèse une probabilité supérieure à 0.5 (H1 : p >
0.5).
Nous avons 5 signes positifs sur 8 (les différences nulles sont éliminées).
L’acceptation ou le rejet de H0 dépend de la région critique. Si l’on choisit comme
région critique un nombre de signes positifs égal ou supérieur à 7, on a un seuil de
signification de 3.51%
8
8
!
(0.5)x (0.5)8−x = 0.0351.
X
x=7 x
Dans ce cas l’hypothèse H0 est acceptée car on n’a que 5 signes positifs.
Lorsque n est supérieur à 30, on peut utiliser l’approximation normale de la
distribution binomiale. Le test des signes peut être utilisé pour tester une médiane
donnée. Le nombre de valeurs en dessous de la médiane doit être le même que celui
au-dessus de la médiane.
Exemple 7.2
Selon un journal spécialisé, le prix médian de l’essence vendue en Suisse est de 1.30
le litre. Un échantillon de 100 stations choisies au hasard donne 20 stations avec
un prix de 1.30, 44 stations avec un prix supérieur et 36 avec un prix inférieur à
1.30. Nous voulons tester l’indication du journal spécialisé en utilisant un seuil de
signification de 5%. Nous avons 44 signes positifs et 36 signes négatifs. La proportion
estimée
44
p̂ = = 0.55
80
tombe dans la région d’acceptation de l’hypothèse H0 : p = 0.5. Le test bilatéral
confirme l’indication du journal spécialisé.
7.3 Le test de Mann-Whitney

Lorsqu’on a deux échantillons indépendants, on peut tester l’hypothèse qu’ils
proviennent de la même population (même moyenne) en utilisant le test de Mann-
Whitney. Ce test est basé sur la statistique :
n1 (n1 + 1)
U = n1 n2 + − R1 (7.1)
2

7.4. Le test des séquences 63
où n1 et n1 sont les grandeurs respectives des deux échantillons et R1 est la somme

des rangs des données du premier échantillon (la somme des rangs des données du
deuxième échantillon est
(n1 + n2 )(n1 + n2 + 1)
R2 = − R1 . (7.2)
2
On peut montrer que U a une espérance mathématique de n1 n2 /2 et une variance
de n1 n2 (n1 + n2 + 1)/12.
Il existe des tables qui donnent les valeurs critiques pour ce test.
Lorsque la grandeur des deux échantillons est supérieure à 10, on peut montrer
que U suit approximativement une loi normale.
Exemple 7.3
On désire tester l’aptitude de 12 hommes et de 12 femmes pour un certain travail
administratif. Voici les points obtenus :
Hommes : 80 79 92 65 83 84 95 78 81 85 73 52
Femmes : 82 87 89 91 93 76 74 70 88 99 61 94
On commence tout d’abord à ranger ces valeurs de la plus petite à la plus grande
et on indique s’il s’agit d’un homme ou d’une femme. Obtient la suite suivante :
52 61 65 70 73 74 76 78 79 80 81 82
H F H F H F F H H H H F
83 84 85 87 88 89 91 92 93 94 95 99
H H H F F F F H F F H F
On additionne ensuite le rang des hommes (H) :

R1 = 1 + 3 + 5 + 8 + 9 + 10 + 11 + 13 + 14 + 15 + 20 + 23 = 132
Si le rang est le même, on prend la moyenne (par exemple 2.5 = (1 + 4)/2 au lieu
de 3 si l’on avait 52 61 61 70 ... et 3 = (1 + 5)/2 si l’on avait 52 61 61 61 73...).
La statistique U est :
12 × 13
U = 12 × 12 + − 132 = 90
2
q
Son espérance est de (12 × 12/2) = 72 et l’écart-type de 12 × 12 × 25/12 = 17.3
L’hypothèse H0 correspond au cas où il n’y a aucune différence entre les deux variables.
La contre-hypothèse est que les deux variables sont différentes. Dans cet exemple on
teste l’hypothèse que les résultats des hommes et ceux des femmes sont identiques. Si
l’on prend un seuil de signification de 5%, on accepte l’hypothèse H0 car la valeur
standardisée est z = 1.04. Les deux résultats sont identiques.
7.4 Le test des séquences

Nous avons souvent supposé que l’échantillon était aléatoire. On peut vérifier
cette hypothèse en utilisant le test des séquences. Une séquence est une série d’obser-
vations identiques (par exemple, une série de « pile » lorsqu’on jette une pièce de

7.5. Le test de la corrélation des rangs 64
monnaie plusieurs fois). Soit R le nombre total de séquences. On peut montrer que si
l’échantillon est aléatoire, la moyenne et la variance du nombre de séquences sont :
2n1 n2 2n1 n2 (2n1 n2 − n1 − n2 )

E(R) = + 1 et V ar(R) = (7.3)
n1 + n2 (n1 + n2 )2 (n1 + n2 − 1)
où n1 est le nombre de valeurs de la première séquence et n1 celui de la deuxième
séquence.
Il existe des tables avec des valeurs critiques pour R. Lorsque n1 et n2 sont
supérieurs à 30, on peut tester l’hypothèse d’un échantillon aléatoire en utilisant la
R−µ
valeur standardisée z = où R est le nombre de séquences.
σ
Exemple 7.4
Les variations du cours d’une action ont été les suivantes :
AAA/DD/A/D/AA/DD/A/D/AAA/DD/A/D/AA/D/A/DD/AAAA/DD/AA/
DDDD/AA/D/A/D/AAA/DD/A/D/AAA/DDD/A/DD/AA/DDD/AAAA/D/A
où A désigne une augmentation et D une diminution.
On a au total 37 séquences (19 séquences avec des augmentations et 18 séquences
avec des diminutions). Il y a eu 38 augmentations et 32 diminutions. La valeur
espérée du nombre total de séquences et la variance sont :
2 × 38 × 32
E(R) = + 1 = 35.74
38 + 32
et
2 × 38 × 32(2 × 38 × 32 − 38 − 32)
V ar(R) = = 16.99
(38 + 32)2 (38 + 32 − 1)
En prenant un seuil de signification de 5%, on accepte l’hypothèse d’un phénomène
aléatoire :
37 − 35.74
z= √ = 0.31
16.99
On peut aussi utiliser ce test en prenant les différences positives ou négatives par
rapport à la médiane de l’échantillon.
7.5 Le test de la corrélation des rangs

Il arrive parfois que l’on ne puisse faire que des classements sur les éléments de la
population. Dans ce cas, le lien entre deux variables peut être analysé en utilisant le
test de la corrélation des rangs, proposé par Spearman.
Soit vi = rang(Xi ) le rang de la i-ème observation de la variable X et si = rang(Yi )
celui de la i-ème observation de la variable Y (i = 1, 2, · · · , n).
Le coefficient de corrélation des rangs de Spearman est :
(vi − v)(si − s) 6 d2i

P P
rS = P =1− (7.4)
n(n2 − 1)
q
(vi − v)2 (si − s)2
P
où di = vi − si

7.5. Le test de la corrélation des rangs 65
Il existe des tables qui donnent les valeurs critiques de rS . Lorsque la grandeur
de l’échantillon est supérieure à 30, on peut utiliser la distribution normale. Sous
l’hypothèse de corrélation nulle, rS suit approximativement une distribution normale
1
avec moyenne 0 et variance .
n−1
Exemple 7.5
Une entreprise désire tester s’il y a un lien entre les statistiques des ventes de ses
employés et les cours de perfectionnement offerts à tout son personnel. Un test passé
par 32 vendeurs ayant suivi le cours donne un classement de leur aptitude à la vente.
En utilisant les statistiques sur les ventes, on obtient alors les classements suivants :
vendeur 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
no. :
rang du 25 12 11 9 23 14 7 8 19 4 26 24 1 15 18 13
test
rang des 12 9 15 14 8 7 25 11 23 18 24 13 19 26 1 4
ventes
différence 13 3 -4 -5 15 7 -18 -3 -4 -14 2 11 -18 -11 17 9
(di )
vendeur 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32
no. :
rang du 2 3 27 28 17 10 5 6 20 29 21 22 30 31 32 16
test
rang des 3 2 30 32 21 27 5 6 22 10 16 20 31 29 28 17
ventes
différence -1 1 -3 -4 -4 -17 0 0 -2 19 5 2 -1 2 4 -1
(di )
Le coefficient de corrélation des rangs est :
6 × 2726
rS = 1 − = 0.50
32 × 1023
En prenant un seuil de signification de 5%, on rejette l’hypothèse de corrélation
nulle (z = 2.79). Il y a un lien entre le test d’aptitude à la vente et les performances
des employés.
S’il y a des rangs identiques, il faut prendre la moyenne, comme dans le test de
Mann-Whitney. Dans ce cas, le coefficient de corrélation des rangs est calculé en
utilisant la formule suivante :
v i si − C
P
rS = q P
( vi2 − C) ( s2i − C)
P
n(n + 1)2
où C = .
4
Lorsqu’il y a des valeurs aberrantes dans les données, le coefficient de corrélation
des rangs de Spearman donne un meilleur résultat que le coefficient de corrélation
usuel car une valeur aberrante ne cause pas une forte différence dans les rangs.

7.6. Le test de Kolmogorov-Smirnov 66
7.6 Le test de Kolmogorov-Smirnov

Dans le chapitre précédent nous avons utilisé le test χ2 pour vérifier si des
fréquences empiriques étaient conformes à une distribution théorique. L’utilisation
de ce test exigeait des fréquences théoriques au moins égales à 5 dans les classes. Le
test de Kolmogorov-Smirnov est un test non paramétrique qui peut être utilisé aussi
dans le cas de fréquences théoriques inférieures à 5. Il est basé sur les différences en
valeur absolue entre les fréquences théoriques et les fréquences empiriques cumulées.
La statistique Dn utilisée par le test de Kolmogorov-Smirnov est la plus grande
différence en valeur absolue entre les fréquences théoriques cumulées (Fe ) et les
fréquences empiriques cumulées (Fo ) :
Dn = |Fe − Fo |. (7.5)
Il existe des tables qui donnent la valeur critique de Dn . Pour des échantillons
supérieurs à 30, on peut calculer ces valeurs en utilisant l’expression
a
√
n
avec
seuil de signification a
1% 1.63
5% 1.36
10% 1.22
n étant le nombre total de fréquences.
Exemple 7.6
Si l’on reprend le premier exemple du chapitre précédent d’un dé qu’on lance 60 fois,
on obtient :
No sorti fr. obs. fr. rel. cum fr. théo. fr. rel. cum. différ. absolue.
1 16 0.267 10 0.167 0.100
2 3 0.317 10 0.333 0.016
3 9 0.467 10 0.500 0.033
4 14 0.700 10 0.667 0.033
5 5 0.783 10 0.833 0.050
6 13 1.000 10 1.000 0.000
√
On a Dn = 0.1000. La valeur critique est 0.176 = 1.36 60 pour un seuil de
signification de 5%. L’hypothèse H0 d’une distribution uniforme est acceptée.
Remarque 7.1
Le résultat est différent de celui obtenu au chapitre précédent : le pouvoir du test de
Kolmogorov-Smirnov est supérieur à celui du test χ2 mais il ne faut pas oublier que
tous les tests ont des erreurs de type II plus ou moins importantes.
Le test de Kolmogorov-Smirnov est bien adapté au cas des distributions continues
car il n’exige pas de classer les fréquences dans différents groupes. Par contre, il ne
peut pas être utilisé lorsque les paramètres de la distribution théorique doivent être
estimés en utilisant les valeurs de l’échantillon.

Chapitre 8
Analyse de la variance
Sommaire
8.1 Problème introductif et approche intuitive des concepts
de base . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
8.2 Généralisation : test d’égalité des moyennes de k popu-
lations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
8.2.1 Estimation inter-échantillon de la variance de la population 71
8.2.2 Estimation intra-échantillon de la variance de la population 72
8.2.3 Test de Fisher et comparaison des estimations de la variance 73
8.2.4 Tableau de l’ANOVA . . . . . . . . . . . . . . . . . . . . 74
8.3 ANOVA de Kruskall-Wallis (échantillons indépendants) 76
8.4 Quelques exercices . . . . . . . . . . . . . . . . . . . . . . . 76
Dans les sections précédentes, nous avons appris à effectuer des tests de compa-
raison des moyennes de deux populations. L’analyse de la variance (ANOVA) peut
être utilisée pour tester l’hypothèse d’égalité de plus de deux populations. Pour
bien aborder les concepts de base, nous partons d’un exemple introductif et nous en
déduisons des techniques plus générales.
8.1 Problème introductif et approche intuitive des

concepts de base
La compagnie NCP fabrique des imprimantes et des télécopieurs dans des usines
implantées à Atlanta, Dallas et Seattle. Pour savoir comment les employés de ces
usines évaluent subjectivement la qualité du système de gestion, un échantillon
aléatoire de 6 employés a été sélectionné dans chaque usine et les travailleurs ont
répondu à un questionnaire sur la qualité du système de gestion de leur usine. Les
évaluations obtenues de 18 employés sont présentées dans le tableau suivant :
67
8.1. Problème introductif et approche intuitive des concepts de base 68
Observations Usine 1 Atlanta Usine 2 Dallas Usine 3 Seattle

1 85 71 59
2 75 75 64
3 82 73 62
4 76 74 69
5 71 69 75
6 85 82 67
Il se pose le besoin d’utiliser ces données pour tester l’hypothèse selon laquelle
les évaluations seraient, en moyenne, identiques dans les trois usines.
Pour commencer, on complète ces données en calculant les moyennes, les variances
ainsi que les écart-types dans les échantillons pour avoir :

1 85 71 59
2 75 75 64
3 82 73 62
4 76 74 69
5 71 69 75
6 85 82 67
Moyenne de l’échantillon 79 74 66
Variance de l’échantillon 34 20 32
Ecart-type de l’échantillon 5.83 4.47 5.66
Dans ce cas les employés de l’usine d’Atlanta forment la population 1, ceux de l’usine
de Dallas la population 2 et ceux de Seattle la population 3.
En notant respectivement µ1 , µ2 et µ3 les moyennes dans chacune de ces trois
populations, les hypothèses à tester sont les suivantes :
1. H0 : µ1 = µ2 = µ3
2. H1 : toutes ces moyennes ne sont pas égales
Il convient de souligner que si l’hypothèse nulle H0 est rejetée, on en déduit pas

que toutes ces moyennes sont différentes mais qu’au moins deux populations ont des
moyennes différentes.
Comment procède-t-on pour déterminer si les écarts observés entre
les moyennes de ces trois populations sont assez importants pour rejeter
l’hypothèse nulle H0 ?
En reconsidérant notre exemple introductif, il comporte deux principales variables :
la localisation de l’usine (Atlanta, Dallas et Seattle) et l’évaluation de la qualité.
Comme l’objectif est de déterminer si la moyenne des notes est la même pour les trois
usines, la note d’évaluation est la variable de réponse ou encore variable dépendante
et la localisation de l’usine est la variable indépendante ou encore facteur.
Dans le cas général, les différentes valeurs d’un facteur sélectionné pour le besoin
de l’étude sont appelés les niveaux du facteur ou traitements. Ainsi, pour cet exemple,

8.1. Problème introductif et approche intuitive des concepts de base 69
les trois traitements sont Atlanta, Dallas, Settle. Ces traitements définissent les popu-
lations qu’on étudie dans l’exemple et pour chacun de ces traitements (populations),
la variable de réponse est la note d’évaluation.
L’utilisation de l’Anova exige les trois hypothèses suivantes :
– Pour chaque population, variable de réponse est distribuée normalement.
– La variance σ 2 de la variable de réponse est la même pour toutes les populations.
– Les observations doivent être indépendantes.
Si les échantillons sont de même taille, l’Anova reste valable lorsque l’hypothèse
de normalité des distributions de la population n’est pas respectée. Logiquement, si
nous estimons que les moyennes de ces trois échantillons sont suffisamment voisines
les unes des autres (cas dans lequel la variabilité entre ces moyenne sera faible),
la vraisemblance de l’hypothèse nulle H0 sera renforcée. Si au contraire la variabi-
lité parmi les moyennes des échantillons est importante, c’est la vraisemblance de
l’hypothèse alternative H1 qui sera renforcée.
Si l’hypothèse nulle H0 : µ1 = µ2 = µ3 est supposée vraie, on peut alors utiliser la
variabilité parmi les moyennes des échantillons pour développer un estimateur de σ 2 .
Ainsi, en supposant vraie l’hypothèse nulle pour l’exemple introductif, chacune des
trois moyennes d’échantillons x1 = 79, x2 = 74 et x3 = 66, calculées dans le tableau
ci-dessus est considérée comme une valeur tirée aléatoirement d’une distribution
d’échantillonnage.
Dans ce cas la moyenne et la variance de ces trois valeurs peuvent
être utilisées pour estimer la moyenne et la variance de la distribution
d’échantillonnage.
Pour l’exemple introductif, la meilleure estimation de la moyenne de la distri-
bution d’échantillonnage de la moyenne est la moyenne des moyennes des trois
échantillons.
79 + 74 + 66
Ainsi, µ1 = = 73. Cette estimation s’appelle moyenne globale
3
d’échantillon. Par ailleurs, une estimation de la variance de la distribution d’échan-
tillonnage de la moyenne est fournie par la variance des moyennes des trois échan-
tillons :
(79 − 73)2 + (74 − 73)2 + (66 − 73)2 86
s2x = = = 43.
3−1 2
σ2
De la relation σx2 = n
, nous déduisons que :
σ 2 = ns2X = 6 × 43 = 258.
La quantité σ 2 = ns2X est l’estimation inter-échantillon de σ 2

Il convient de souligner que l’estimation inter-échantillon de la va-
riance suppose d’avance que l’hypothèse nulle soit vraie et dans ce cas
chaque échantillon provient de la même population et il n’ya donc qu’une
seule distribution d’échantillonnage de la moyenne.
Si l’hypothèse nulle est fausse (les moyennes des populations sont différentes),
les trois échantillons sont considérés comme issus des populations normales des
moyennes différentes et il ya donc trois distributions d’échantillonnages différentes.

8.2. Généralisation : test d’égalité des moyennes de k populations 70
En toute logique, la quantité s2X sera plus grande, de même que l’estimation inter-
échantillon ns2X de σ 2 . On dit dans ce cas que l’estimation inter-échantillon
de la variance surestime la variance de la population σ 2 .
On exploite également la variation à l’intérieur de chaque échantillon pour mener
à bien l’Anova. En fait chacune des variances calculé dans chacun des échantillons
fournit une estimation de la variance σ 2 de la population et on peut donc regrouper
les estimations individuelles de σ 2 dans une estimation commune appelée estimateur
intra-échantillon de la variance. L’estimateur intra-échantillon de la variance n’est
donc pas affecté par le fait que les moyennes des populations soient égales ou
pas(cette estimation est indépendante de l’hypothèse nulle). Dans le cas où on prend
des échantillons de même taille, l’estimateur intra-échantillon de la variance peut
être obtenu en calculant la moyenne des variances individuelles des échantillons.
Pour le cas de notre exemple liminaire, l’estimation intra-échantillon de la variance
vaut :
34 + 20 + 32
= 28.67
3
En résumant l’exemple introductif, l’estimateur inter-échantillon de la variance(258)
est sensiblement grand par rapport à l’estimateur intra-échantillon (28.67). Le rapport
de ces deux estimateur vaut 28.67
258
= 8.998954 ≈ 9.
A ce stade il est pertinent de rappeler la grande différence entre les
deux estimateurs de la variance de la population :
1. l’estimateur inter-échantillon fournit une bonne estimation de la variance de la
population, uniquement lorsque l’hypothèse nulle est vraie. Si l’hypothèse H0
est fausse, l’estimateur inter-échantillon surestime la variance de la population.
2. l’estimateur intra-échantillon fournit une bonne estimation de la variance de la
population quelle que soit l’hypothèse nulle.
3. Il va donc de soi que si l’hypothèse nulle est vraie, les deux estimateurs devraient
être proches et leur rapport s’approcherait de 1. Si l’hypothèse nulle est fausse,
le rapport de ces deux estimateurs sera donc significativement supérieur à 1.
Le besoin urgent à ce stade est donc de disposer d’un cadre théorique rigou-
reux nous permettant de trancher dans quel cas ce rapport sera considéré comme
suffisamment éloigné de l’unité pour qu’il faille rejeter l’hypothèse nulle.
8.2 Généralisation : test d’égalité des moyennes

de k populations
Lorsqu’il est question de tester l’égalité des moyennes de k populations, la forme
générale des hypothèses à tester est la suivante :
1. H0 : µ1 = µ2 = · · · = µk
2. H1 : il n’y a pas d’égalité entre les moyennes de toutes les populations
Dans ce cadre général, notons µj la moyenne de la jième population et supposons
qu’un échantillon aléatoire de taille nj soit extrait de chacune des k populations
(traitements).
Notons :

∗ xij la valeur de l’observation i du traitement j ;

∗ nj le nombre d’observations du traitement j ;
∗ xj la moyenne d’échantillon du traitement j ;
∗ s2j la variance d’échantillon du traitement j ;
∗ sj l’écart-type d’échantillon du traitement j
La moyenne et la variance d’un échantillon issu de la population j sont respecti-
vement : Pnj Pnj
i=1 xij (xij − xj )2
xj = et sj = i=1
2
(8.1)
nj nj − 1
La moyenne globale des échantillons, notée x est, naturellement, la somme de toutes
les observations divisée par le nombre total d’observations :
Pk Pnj
j=1 i=1 xij
xj = avecnT = n1 + n2 + · · · + nk
nT
Si les échantillons sont de taille identique, la moyenne globale des échantillons est
égale à la moyenne des moyennes des k échantillons.
8.2.1 Estimation inter-échantillon de la variance de la popu-

lation
L’estimateur interéchantillon de la variance σ 2 de la population, appelé souvent
carré moyen dû aux traitements et noté alors CMT vaut :
nj (xj − x)2
Pk
j=1
CM T = (8.2)
k−1
Le numérateur du CMT est la somme des carrés dus aux traitements et se note
parfois SCT. Le dénominateur représente le nombre de degré de liberté associés à
SCT.
C’est pourquoi dans certains ouvrages, le carré moyen dû aux traitements se note
(de manière équivalente) :
k
SCT
CM T = avec SCT = (xj − x)2 (8.3)
X
k−1 j=1
Si l’hypothèse nulle est vraie, CMT fournit une estimation sans biais
de la variance σ 2 . Si par contre les moyennes des k populations ne sont
pas égales, CMT n’est pas un estimateur sans biais de σ 2 et dans ce cas
il le surestime.
En revenant à l’exemple introductif :


1 85 71 59
2 75 75 64
3 82 73 62
4 76 74 69
5 71 69 75
6 85 82 67
SCM 516
SCM = 6(79−73)2 +6(74−73)2 +6(66−73)2 = 516 et CM T = = = 258
k−1 2
8.2.2 Estimation intra-échantillon de la variance de la popu-

lation
L’estimateur intraéchantillon de la variance, appelé aussi carré moyen dû aux
erreurs et noté alors CME vaut :
j=1 (nj − 1)s2j

Pk
CM E = (8.4)
nT − k
Le numérateur du CME s’appelle aussi somme des carrés dûs aux erreurs et se
note SCE tandis que le dénominateur correspond aux degrés de libertés associés à
SCE. Ainsi :
SCE
CM E = avec SCE = (nj − 1)s2j (8.5)
nT − k
Il est très utile de garder à l’esprit que CME est basée sur la variabilité
à l’intérieur de chaque traitement et il n’est pas influencé par le fait que
l’hypothèse nulle soit vraie ou pas. CME est toujours un estimateur sans
biais de la variance σ 2 de la population.
En revenant à l’exemple introductif :

1 85 71 59
2 75 75 64
3 82 73 62
4 76 74 69
5 71 69 75
6 85 82 67
k
SCE = (nj − 1)s2j = (6 − 1) × 34 + (6 − 1) × 20 + (6 − 1) × 32 = 430
X
j=1

et
SCE 430
CM E = = = 28.67
nT − k 18 − 3
8.2.3 Test de Fisher et comparaison des estimations de la

variance
Les quantités CME et CMT fournissent deux estimations indépendantes de σ 2 .
Dans l’hypothèse de normalité, la distribution d’échantillonnage du rapport CMCM T
E
de ces deux estimateurs indépendants de σ 2 suit une loi dite de Fisher avec au
numérateur k − 1 degré de liberté et au dénominateur nT − k degrés de liberté.
Dans la pratique le test d’égalité des moyennes des k populations se résume en
ceci :
1. définir les hypothèses à tester :
– H0 : µ1 = µ2 = · · · = µk
– H1 : il n’ ya pas d’égalité entre les moyennes de toutes les populations
2. définir la statistique F = CM T
CM E
3. Règle de décision au seuil de signification α : on rejette H0 si F > Fα
La valeur de Fα est lue sur la table de Fisher annexée à ce brouillon où on
considère k − 1 degrés de liberté au numérateur et nT − k degrés de liberté au
dénominateur.
En considérant à nouveau l’exemple introductif

1 85 71 59
2 75 75 64
3 82 73 62
4 76 74 69
5 71 69 75
6 85 82 67
Supposons que l’on soit prêt à accepter un risque d’erreur de 5% . La table de
Fisher nous donne comme valeur critique F correspondant à 3 − 1 = 2 degrés de
liberté au numérateur et 18 − 3 = 15 degrés de liberté au dénominateur, F0.05 = 3.68
Comme pour ce cas
CM T
≈ 9 > 3.68,
CM E
nous rejetons l’hypothèse nulle.
L’analyse de la variance confirme donc la conclusion selon laquelle les
moyennes des notes d’évaluation dans les trois usines ne sont pas égales.

8.2.4 Tableau de l’ANOVA

Dans la pratique les calculs précédents sont souvent résumés dans un tableau
appelé : tableau de l’Anova.
La forme générale d’un tel tableau est la suivante :
Source de va- Somme des Degrés de liberté Carré moyen F

riation carrés
SCT CM T
Traitements SCT k−1 CM T =
k−1 CM E
SCE
Erreur SCE nT − k CM E =
nT − k
Total SCtot nT − 1
Dans l’esprit de ce tableau, la somme des carrés associée à la source de variation

dite totale est appelée somme totale des carrés notée SCtot . Il convient de remarquer
que
SCtot = SCT + SCE
et le nombre de degrés de liberté associés à cette somme totale des carrés est la
somme des degrés de liberté associés aux estimateurs inter-et intra-échantillons de σ 2
SCtot
Notons que (SCtot divisé par ses degrés de liberté) est la variance totale
nT − 1
de l’échantillon que nous obtiendrions si nous traitions l’ensemble de toutes les
observations comme un seul ensemble de données.
Ainsi SCtot peut être divisé en deux sommes des carrés : la somme des carrés
dus aux traitements et la somme des carrés dus aux erreurs. Les degrés
de liberté associés à SCtot peuvent être également partagés entre ceux
de SCT et SCE :
nT − 1 = (k − 1) + (nT − k). (8.6)
Ainsi, vue dans ce sens, l’analyse de la variance est un processus de partage de la
somme totale des carrés et des degrés de liberté entre leurs sources : traitements et erreurs .
Remarque 8.1
Si F prouve des différences entre les moyennes des groupes de comparaison, il ne
saurait localiser les lieux de ces différence, il est alors nécessaire de poursuivre
l’analyse pour comparer les moyennes des groupes deux à deux en appliquant le test t
de Student où la variance intra-groupe remplacera la variance commune :
|µi − µj |
t= v (8.7)
1 1
u !
+
u
tCM E
ni nj
En revenant à l’exemple précédent, on procède de la manière suivante

1. Atlanta et Dallas. On a
|79 − 74|
t= q = 1.6174
28.67(1/6 + 1/6)
2. Atlanta et Seattle. On a
|79 − 66|
t= q = 4.2057
28.67(1/6 + 1/6)
3. Dallas et Seattle. On a
|74 − 66|
t= q = 2.5881
28.67(1/6 + 1/6)
La lecture de t montre que, à α = 0.05 et à ddl = nT − k = 15, t critique = 2.13,

nous pouvons donc conclure que :
(1) La différence entre Atlanta et Dallas n’est pas significative
(2) Celle entre Atlanta et Seattle est significative
(3) Celle entre Dallas et Seattle est significative
Remarque 8.2
On peut vouloir apprécier la portée de la différence entre les moyennes.
On calcule alors la Signification clinique de la différence :
Omega carré (ω 2 )
SCE − (k − 1)(CM E)
ω2 = (8.8)
SCtot + CM E
Grille de Keppel (1991)
Si 0.01 < ω 2 < 0.06 : la différence est faible
Si 0.06 < ω 2 < 0.15 : la différence est modérée
Si 0.15 < ω 2 2 : la différence est élevée
Illustration
P
Source de variance carrés DDL Carré moyen F
Intergroupe 50.74 4 12.69 8.03
Intra-groupe 47.43 30 1.58
Total 98.17 34
La signification clinique de la différence vaut alors
50.74 − (4)(1.58)
ω2 = = 0.45
98.17 + 1.58
La différence est donc élevée.

8.3. ANOVA de Kruskall-Wallis (échantillons indépendants) 76
8.3 ANOVA de Kruskall-Wallis (échantillons in-

dépendants)
On calcule la statistique suivante
12
! !
R12 R22 Rk2
P P P
H= × + + ··· + + 3(nT + 1) (8.9)
nT (nT − 1) n1 n2 nk
avec
– nT nombre total de sujets
– nk nombre de sujets dans le groupe k
– Rk somme des rangs du groupe k
P
Pour obtenir les rangs, on mélange les sujets et on attribue le rang 1 au résultat le
plus élevé et le rang nT au résultat le plus bas.
On fait l’approximation H w χ2 , avec ddl = k − 1 ; et on teste les hypothèses
H0 : il n’y a pas de différence entre les groupes H1 : il y a au moins un groupe
qui diffère des autres.
Exemple 8.1
On considère le tableau suivant où les rangs sont déjà déterminés.
Groupe 1 Groupe 2 Groupe 3

15 13 3.3
11 8 16.5
Rangs 18 7 1
16.5 3.5 5
12 14 6
10 9 2
Somme 82.5 54.5 34.0
Moyenne 13.75 9.08 5.67
En appliquant la formule on obtient
12 82.52 54.52 30.02

! !
H= × + + + 3(18 + 1) = 6.67
18(18 + 1) 6 6 6
Ici ddl = 3 − 1 = 2 ; et donc au seuil α = 0.05 ; la valeur critique donnée par les
tables de χ2 est 5.99. Puisque 6.67 dépasse la valeur critique, on rejette H0 : au
moins une moyenne est différente des autres.
8.4 Quelques exercices

PROBABILITÉS ET VARIABLES ALÉATOIRES
Exercice 1
Le 20% des acheteurs de voitures d’occasion sont de mauvais payeurs. La pro-
babilité qu’un mauvais payeur possède une carte de crédit est de 40%. Le 70% des

8.4. Quelques exercices 77
acheteurs payant régulièrement possède une carte de crédit. Calculez la probabilité

qu’un acheteur de voitures d’occasion possédant une carte de crédit soit un mauvais
payeur.
Exercice 2
Une usine possède 3 machines qui produisent respectivement 60%, 30% et 10% du
nombre total de pièces fabriquées. Le pourcentage de pièces produites défectueuses
par chaque machine est respectivement 1%, 2% et 3%. On choisit au hasard une
pièce fabriquée par ces machines et on constate qu’elle est défectueuse. Quelle est la
probabilité que cette pièce ait été fabriquée par la troisième machine ?
Exercice 3
Dans une entreprise il y a quatre chaînes de production où sont emballées
différentes sortes de biscuits. Une statistique révèle les valeurs suivant d’erreur
d’emballage : 1% pour la chaîne A, 2% pour la chaîne B, 3% pour la chaîne C et 4%
pour la chaîne D. La production totale est répartie ainsi : A 30%, B 20%, C 40% et
D 10%.
Quelle est la probabilité qu’une boîte défectueuse ait été emballée par la chaîne B ?
Exercice 4
Les ventes hebdomadaires de bananes d’un supermarché sont distribuées selon la
loi normale avec une moyenne de 250Kgs et une variance de 225. La livraison d’un
nouveau stock de bananes est effectuée une semaine après la commande. Déterminez
la quantité de bananes qui doit se trouver dans l’entrepôt au moment de la com-
mande si le supermarché ne veut pas rester sans bananes avec une probabilité de 99%.
Exercice 5
Un certain système a 5 composantes. Une panne du système est causée 35%,
30%, 20%, 10% et 5% des fois par une panne dans les composantes A,B, C,D et E,
respectivement. On suppose que les pannes simultanées dans plus d’une composante
à la fois sont si rares qu’on peut les négliger.
1. Si une panne du système n’est pas causée par A, quelle est la probabilité qu’elle
soit causée par B ?
2. Si une panne du système n’est causée ni par A, ni par B, quelle est la probabi-
liste qu’elle soit causée par C ou D ?
Exercice 6
On compte respectivement 50, 75, et 100 employés dans 3 entrepôts A, B et C,
les proportions des femmes étant respectivement égales à 50%, 60% et 70%. Une
démission a autant de chance de se produire chez tous les employés, indépendamment
de leur sexe. Une employée donne sa démission. Quelle est la probabilité qu’elle
vienne de l’entrepôt C ?
Exercice 7
Une compagnie d’assurance repartit les assurés en 3 classes : personnes à bas
risque, risque moyen et haut risque. Ses statistiques indiquent que la probabilité

qu’une personne soit impliquée dans un accident sur une période d’un an est respec-
tivement de 0,05, 0,15 et 0,30. On estime que 20% de la population est à bas risque,
50% à risque moyen et 30% à haut risque.
1. Quelle est la proportion d’assurés qui ont eu un accident ou plus au cours d’une
année donnée ?
2. Si un certain assuré n’a pas eu d’accidents l’année passée, quelle est la probabi-
lité qu’il fasse partie de la classe à bas risque ?
Exercice 8
Une personne possède 4 clefs parmi lesquelles une seule ouvre la porte. Elle les
essaie au hasard en éliminant celles qui ne marchent pas. On pose X « le nombre
d’essais pour ouvrir la porte ».
1. Calculer la loi de probabilité de X, c’est-à-dire P(X= k) avec k = 1, 2, 3, 4.
2. Calculer E(X) et Var(X).
Exercice 9
Le fisc repartit les ménages en 5 classes de revenu. Les données de l’année fiscale
2005 lui apportent :
Classe 1 : 19 000 ménages.
Classe 5 : 2000 ménages.
Notons X la variable aléatoire « classe d’appartenance ».
1. Trouver la fonction de répartition de X.
2. Calculer P (2 < X ≤ 4) et P (X > 4).
3. Calculer E(X) et Var(X).
Exercice 10
Soit X une variable aléatoire dont la fonction de densité est

c(1 − x2 ), 1<x<1
f (x) =
0 sinon.
2. Quelle est la fonction de répartition de X ?
3. Calculer E(X).
Exercice 11
Soit X une variable aléatoire dont la fonction de densité est

sin(x), 0 <x< π
f (x) = 2
0 sinon.


2. Calculer E(X).
3. Calculer Var(X).
Exercice 12
La quantité de pain (en centaines de kilos) qu’une boulangerie vend en 1 journée
est une variable aléatoire X de fonction de densité
cx, 0≤x≤3



f (x) = c(6 − x), 3 ≤ x ≤ 6

0 sinon.


3. Déterminer E(X) et V(X) ?
ESTIMATION STATISTIQUE
Exercice 1
Une entreprise de transport public désire introduire des distributeurs automa-
tiques de billets. Elle installe un appareil de marque X afin de tester la fiabilité ; le
nombre de pannes constatées est de 16 sur un total de 400 utilisations du distributeur.
Calculez un intervalle de confiance à 95% pour la proportion de pannes de ce type
d’appareils.
Exercice 2
On a pris un échantillon de 9 familles afin d’étudier la consommation de boissons
non alcoolisées. On a trouvé les consommations suivantes (en litres) : 120 70 100 108
104 95 107 85 111
Calculez l’intervalle de confiance à 99% pour la consommation moyenne de la
population ; supposer que la consommation est distribuée selon la loi normale.
Exercice 3
Dans le but d’estimer le montant moyen dépensé par client pour un repas dans
un grand restaurant de Bukavu « Panorama », on a recueilli des données auprès
d’un échantillon de 49 clients. Supposer que l’écart-type de la population soit égal à
5 dollars.
1. Au seuil de confiance de 95%, quelle est la marge d’erreur ?
2. Si la moyenne d’échantillon est égale à 24,80 dollars, quel serait l’intervalle de
confiance à 95% pour la moyenne de la population ?
Exercice 4
La note moyenne des étudiants admis dans les meilleurs instituts de commerce
de la RDC était de 3,37. Supposer que cette estimation soit basée sur un échantillon
de 120 étudiants admis dans ces meilleures institutions. En utilisant les données des

années précédentes, l’écart-type de la population est supposé connu et égal à 0,28.

Quelle est l’estimation par intervalle de confiance à 95% de la note moyenne des
étudiants admis dans les meilleures institutions de commerce de la RDC ?
Exercice 5
L’association congolaise de transports aériens enquête auprès des voyageurs
d’affaires pour estimer la qualité des aéroports transatlantiques. La note maximale
est égale à 10 supposez qu’un échantillon aléatoire simple de 50 voyageurs d’affaires
soit sélectionné, chaque voyageur notant l’aéroport international de NDILI. Les notes
obtenues de cet échantillon sont présentées ci-dessous :
6 4 6 8 7 7 6 3 3 8 10 4 8
7 8 7 5 9 5 8 4 3 8 5 5 4
4 4 8 4 5 6 2 5 9 9 8 4 8
9 9 5 9 7 8 3 10 8 9 6
Développez une estimation par intervalle de confiance de 95% de la note moyenne

de l’aéroport de NDILI fournie par l’ensemble de la population des voyageurs d’af-
faires.
Exercice 6
Trente restaurants fast-food, dont Panorama, Délicia et Maman Kinja, ont fait
l’objet d’une étude durant la saison de pluie de l’année 2017, à chaque arrivée d’un
client à la réception, le temps écoulé entre la prise de la commande et la réception
de la commande a été enregistré. Les durées d’attente, en minutes de 30 clients sont
données ci-dessous :
0.9 1 1.2 2.2 1.9 3.6 2.8 5.2 1.8 2.1
6.9 1.3 3 4.5 2.8 2.3 2.7 5.7 4.8 3.5
2.6 3.3 5 4 7.2 9.1 2.8 3.6 7.3 9
Fournir une estimation ponctuelle de la moyenne des temps d’attente pour la
population des fast-foods.
1. Au seuil de 95%, quelle est la marge d’erreur ?
2. Quelle est l’estimation statistique par intervalle de confiance à 95% de la
moyenne de la population ?
Exercice 7
La consommation d’alcool par les jeunes femmes a augmenté à Bukavu et à Goma.
Les données (consommation annuelle en litres) d’un échantillon de 20 jeunes femmes
de cette partie du pays sont données ci-dessous :a
226 82 199 174 97

170 222 115 130 169
164 102 113 171 0
93 0 93 110 130

En supposant la population à peu près symétrique, construire un intervalle de

confiance à 95% pour la consommation annuelle moyenne d’alcool par ces jeunes
femmes congolaises.
Exercice 8
Le coût moyen d’un gallon d’essence sans plomb à Bukavu était de 2,41 dollars.
Durant des périodes de forte inflation, le journal échantillon échantillonne les stations-
services et prépare fréquemment des rapports sur les prix d’un gallon d’essence.
Supposer que l’écart-type s’élève à 0,15 dollar pour le prix d’un gallon d’essence sans
plomb et déterminer la taille appropriée de l’échantillon si le journal souhaite obtenir
une certaine marge d’erreur au seuil de confiance de 95%.
(a) Supposez que la marge d’erreur désirée est de 0,07 dollar.
(b) Supposez que la marge d’erreur désirée est de 0,05 dollar.
(c) Supposez que la marge d’erreur désirée est 0,03 dollar.
Exercice 9
Lors d’un sondage en RDC durant la campagne présidentielle, 491 électeurs
potentiels ont été interrogés en juin. L’un des objectifs de l’étude était d’obtenir
une estimation de la proportion d’électeurs potentiels favorables à chaque candidat.
Supposez que la valeur préalable p∗ est égale à 0,50 et utiliser un seuil de confiance
de 95%.
(a) Pour p∗ , quelle est la marge d’erreur du sondage de juin ?
(b) A une échéance plus proche des élections de novembre, une meilleure précision
et de plus faibles marges d’erreur étaient souhaitées. Supposez que les marges
d’erreurs suivantes étaient pour les enquêtes menées durant la campagne
présidentielle. Calculez la taille d’échantillon requise pour chaque sondage.
Sondage Marge d’erreur
Septembre 0,04
Octobre 0,03
Début Novembre 0,02
Jours précédant les élections 0,01
TEST D’HYPOTHÈSE
Exercice 1
Une fabrique automobile indique que la consommation d’essence de son nouveau
modèle est de 10L en moyenne pour 100Km. Une association de consommateurs
constate cette affirmation et prétend que la consommation moyenne est de 11L, un
magazine spécialisé effectue un test en prenant 36 voitures du modèle en question et
obtient les résultats suivants :
La consommation moyenne 10,5L avec un écart-type centré de 2L. Le seuil de
signification est fixé à 5%. Testez l’hypothèse de la fabrique d’automobile.
Exercice 2

Un ingénieur prétend avoir trouvé un nouveau type d’alliage qui augmente la

durée de vie d’une pièce mécanique. Avant de communiquer la production en série,
une entreprise veut tester 16 pièces car le nouveau type d’alliage sera rentable seule-
ment si la durée de vie moyenne dépasse 3100 heures avec un écart-type centré de
120 heures. Faut-il procéder à la signification de 10% et si la durée de vie de la pièce
suit la loi normale ? Par ailleurs, un autre résultat montre que la durée de vie est en
moyenne de 3200 heures.
Exercice 3
Le chef du personnel d’une grande entreprise veut déterminer si le nombre moyen
d’absence est plus élevé le lundi que le mardi. Voici les absences observées ces dix
dernières semaines :
Lundi 84 86 73 77 89 91 75 62 98 75
Mardi 89 56 69 64 38 49 35 57 65 68
Testez l’hypothèse d’un même nombre moyen d’absence en supposant que celles-ci
suivent la loi normale. Utilisez un seuil de signification de 1%.
Exercice 4
Une entreprise veut savoir si des appels téléphoniques à ses clients, pour leur
demander de vérifier l’état de leur stocks a un effet sur les ventes. Elle effectue un test
avec 10 clients. Les résultats sont les suivants : Montant des commandes mensuelles.
Avec appel tél. 620 570 650 600 630 580 570 600 600 580
Sans appel tél. 560 590 560 570 580 570 600 550 570 550
Testez s’il y a un effet positif. Utiliser un seuil de signification de 5% et supposer

que les montants de commandes suivent la loi de gausse.
Exercice 5
En 2001, le ministre américain a rapporté que le salaire horaire moyen des tra-
vailleurs américains était de 14,32$. Un échantillon de 75 travailleurs a fourni une
moyenne de 14,68$ par heure en 2003. En supposant que l’écart-type de la popula-
tion est égal à 1,45$, pouvons-nous conclure à une augmentation du salaire horaire
moyenne depuis 2001 ? Utilisez le seuil de 0,05.
Exercice 6
La consommation annuelle par tête de lait s’élève à 21,6 gallons. Originaire
de Mwenga où le peuple ne pratique pas l’élevage des vaches, vous pensez que la
consommation de lait est plus importante dans cette région et vous voulez prouver
l’opinion. Un échantillon de 16 individus originaires de Mwenga a indiqué une
moyenne annuelle de 24,1 gallons avec un écart-type de 4,8 gallons.
(a) Formuler l’hypothèse nulle et alternative qui permettra de déterminer si la
consommation moyenne annuelle à Mwenga est supérieure à la moyenne natio-
nale.

(b) Quelle est l’estimation ponctuelle de la différence entre la consommation

annuelle à Mwenga et la moyenne nationale.
(c) Au seuil de signification de 0,05, tester la significativité de la différence. Quelle
est votre conclusion ?
TESTS NON PARAMÉTRIQUES

Exercice 1
Un magasin annonce des rabais spéciaux sur certains articles afin d’augmenter
les ventes journalières. Voici les résultats obtenus (en milliers de francs congolais)
lors de 25 jours choisis au hasard :
Avec ra- 25.2 31.3 24.5 29.1 22.7 27.8 26.4 23.9 28.8 30.1 33.4 35.7
bais :
Sans ra- 24.6 22.3 25.7 24.8 23.5 27.2 30.8 26.5 28.3 29.9 27.4 25.6
bais :
Examinez l’effet sur les ventes en utilisant le test de Mann-Whitney et un seuil de

signification de 5%.
Exercice 2
On désire examiner si un institut de sondage a choisi son échantillon de manière
aléatoire. Voici les séquences obtenues avec les 32 premières personnes interviewées
(F=Femme, H=Homme) :
FFF/HH/F/H/FFF/HH/F/HHH/FFFF/H/F/H/FHH/FF/H/F/HH/FF/H/F
/HH/FFFFF/HF/HH/FFF/H/F/HH/FF/HHHH/F/H/F/HH
En utilisant le test de séquences et un seuil de signification de 5%, peut-on
accepter l’hypothèse d’un échantillon aléatoire ?
Exercice 3
Une entreprise se demande si elle doit choisir ses employés en procédant elle-même
aux classements des candidats ou si elle doit déléguer ce travail à un institut spécialisé.
Voici les classements respectifs de 32 candidats :
Candidat no 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
Entreprise 1 7 2 3 5 9 4 6 12 8 10 11 16 18 13 19
Institut 3 2 1 4 5 6 7 8 10 9 11 12 14 13 15 21
Candidat no 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32
Entreprise 14 15 22 17 20 21 24 23 25 29 28 27 30 26 32 31
Institut 16 19 17 18 25 20 22 24 23 27 26 30 32 28 29 31
En utilisant le coefficient de corrélation de rangs, testé s’il y a u lien entre ces deux
classements. Prenez un seuil de signification de 5%
Exercice 4

Dans des sociétés humaines à culture non écrite, les ethnologues peuvent classer
ces sociétés en fonction du degré d’anxiété présenté par les enfants à la suite de la
socialisation (ce classement va de 6 à 17). Il est aussi possible de distinguer deux
groupes suivant que ces sociétés disposent d’explications orales de la maladie ou non.
Voici le tableau du classement :
Explication Estimation anxiété Rang Explication Estimation anxiété Rang

absente présente
Lapp 13 Marquesan 17
Chamorro 12 Dobuan 16
Samoan 12 Baiga 15
Arapesh 10 Kwoma 15
Balinese 10 Thonga 15
Hopi 10 Alorese 14
Tanala 10 Chagga 14
Paiute 9 Navaho 14
Chenchu 8 Dahomean 13
Teton 8 Lesu 13
Flathead 7 Masai 13
Papago 7 Lepcha 12
Venda 7 Maori 12
Warrau 7 Pukapukan 12
Wogeo 7 Trobriander 12
Ontong- 6 Kwakiutl 11
Javanese
Manus 11
Chiricahua 10
Comanche 10
Siriono 10
Bena 8
Slave 8
Kurtachi 6
TD : Formuler les hypothèses

– Tester ces hypothèses (alpha = 0,01)
– A quelles conclusions aboutissez-vous ?
TEST DE χ2
Exercice 1
Ci-dessous est représentée la table de contingence contenant les fréquences obser-
vées d’un échantillon de 240 éléments. Tester l’indépendance des variables ligne et
colonne en utilisant le test du χ2 avec le seuil de signification de 0,05.

Variable colonne
A B C
Variable ligne P 20 30 20
B 30 60 25
R 10 15 30
Exercice 2
Une société classifie les clients selon la promptitude dans les paiements des fac-
tures. Les classes sont : « paiements réguliers », « paiement légèrement en retard », «
paiement très en retard » et « pas de paiements ». Les 800 clients sont répartis comme
suit : 439, 168, 133, 60. Les fiduciaires indiquent qu’on a normalement les rapports :
9 : 3 : 3 : 1 entre ces 4 classes. Calculez si la répartition des clients de la société est
conforme à celle obtenue dans d’autres sociétés. Utilisez un seuil de signification de 5%.
Exercice 3
Un supermarché veut introduire dans son assortiment des plaques de chocolat au
lait avec noisettes. Il a reçu des offres de six marques différentes et il veut déterminer
les préférences des consommateurs. Il organise un concours en offrant aux clients
les différentes plaques de chocolat, sans indiquer la marque. Le client doit choisir le
meilleur chocolat. On obtient les résultats suivants :
Marque Nombre de clients préférant cette marque
A 164
B 161
C 147
D 129
E 127
F 112
Peut-on accepter l’hypothèse que les clients n’ont pas de préférence particulière à
propos de ces chocolats ? Prendre un seuil de signification de 1%.
Exercice 4
On a demandé aux employés d’une entreprise leurs préférences concernant l’horaire
de travail. Les résultats ont été les suivants :
Plan I Plan II Plan III
Employés administratifs 13 9 20
Contremaîtres 50 39 19
Ouvriers 57 52 41
Y a-t-il une relation entre le type de travail et les préférences concernant l’horaire de
travail ? Prendre un seuil de signification de 1%.
Exercice 5
Les notes de statistique et les moyennes générales des licenciés HEC de la session
de juillet 1977 ont été les suivantes :

Moyennes générales Notes de statistique

Moyennes Bonnes Excellentes
Moyennes 12 8 2
Bonnes 3 10 6
Excellentes 0 2 2
Tester l’hypothèse que le résultat final (licence) est indépendant du résultat de
statistique. Prendre un seuil de signification de 5%.
Exercice 6
Une enquête sur le revenu et l’âge de 1000 personnes donne les résultats suivants :
Âge Revenu
<30001 30001-40000 40001-50000 > 50000
20-30 150 80 15 5
31-40 120 95 25 10
41-50 90 110 35 15
51-60 60 125 45 20
Y a-t-il une liaison entre l’âge d’une personne et son revenu ? Utiliser un seuil de
signification de 5%.
Exercice 7
Une étude des revenus des ouvriers travaillant dans l’industrie du bâtiment donne
les résultats suivants :
Nombre d’ouvriers ayant un revenu entre
Région 0-30000 30000-35000 35000-40000 >40000
Suisse alémanique 200 5000 8000 100
Suisse romande 400 2000 4000 300
Peut-on dire qu’il y a un lien entre le revenu des ouvriers et la région dans laquelle
ils travaillent ? Prendre un seuil de signification de 1%.
Exercice 8 Le tableau suivant reprend des données concernant le niveau des

d´dépenses mensuelles pour l’achat de produits cosmétiques observé sur un échantillon
aléatoire simple de 500 femmes adultes différenciées selon leur statut professionnel.
Plein temps Temps partiel Sans profession
Moins de 10 $ 30 20 60
De 10 $ à 25 $ 55 60 65
Plus de 25$ 55 80 75
Sur la base de ce tableau, peut-on dire qu’il y a indépendance entre le niveau de
d´dépenses et le statut professionnel (utilisez un risque de 1re espèce α = 5%) ?
Quelle recommandation peut-on faire sur cette base aux responsables du marke-
ting de produits cosmétiques ?
Exercice 8

Ayant soupçonné que certains postes sont inaccessibles aux femmes, le collectif des
femmes d’une société engage un statisticien pour mener une étude sur la répartition
des postes suivant le sexe. Ce dernier recueille un échantillon de 166 personnes
présenté dans une table de contingence entre le secteur d’activité des personnes et
leur sexe.
Hommes Femmes Total
Management 28 20 48
Ventes 18 32 50
Service 8 12 20
Autres 40 8 48
Total 94 72 166
Que va conclure le statisticien au vu de ces résultats (au niveau α = 5%) ?
TEST D’ANOVA
Exercice 1
Quatre marques de peinture sont comparées. Les marques A et B sont meilleur
marché que les marques C et D. Plusieurs plaquettes sont peintes puis exposées
pendant 6 mois aux conditions météorologiques. Chaque plaquette est ensuite jugée
selon différents critères et un score lui est attribué.
Peinture Scores
A 84 86 91 93 84 88
B 90 88 92 84 94
C 86 87 85 91 93
D 81 83 92 84 87 81
Construire une statistique de test basée sur la variance pour tester l’hypothèse : «
Les 4 marques de peinture ont le même comportement face aux intempéries.» Quelle
est votre conclusion ?
Exercice 2
Pour tester si le temps moyen nécessaire pour préparer un lot des matériaux est
le même pour les machines produites par trois fabricants différents, la société Jacobs
Cheminal a obtenu les données présentées dans le tableau suivant, sur le temps (en
minutes) nécessaire pour préparer un lot des matériaux. Utiliser ces données pour
tester si les temps moyens, au niveau de la population, pour préparer un lot des
matériaux différent selon le fabricant. Utiliser un seuil de signification de 0,05.
Fabricant
1 2 3
20 28 30
26 26 19
24 31 23
22 27 22

Exercice 3
L’institut des transports du texas de l’Université A&M a mené une enquête
pour déterminer le nombre d’heures passées, par an, par les automobilistes, dans les
bouchons. Sur 75 zones urbaines étudiées, la plus concernée par les embouteillages
est celle de Los Angeles, les automobilistes passant en moyenne 90 heures par an
dans les bouchons (U.S. News & World Report, 13 octobre 2003). Denver, Miami et
San Francisco sont d’autres exemples de zones urbaines connaissant des problèmes
de circulation automobile. Supposez qu’un échantillon de six automobilistes dans
chacune de ces trois villes fournisse les données suivantes relatives au nombre d’heures
passées par an dans les bouchons.
Denver Miami San Francisco
70 66 65
62 70 62
71 55 74
58 65 69
57 56 63
66 66 75
(a) Calculer le nombre moyen d’heures passées dans les bouchons par an pour
chacune de ces zones urbaines.
(b) Utiliser le seuil de signification de 0,05 pour tester l’existence de différences
significatives entre les moyennes de ces trois populations. Quelle est la valeur
p?
Quelle est votre conclusion ?
Exercice 4
La ville de New York, Boston et la Silicon Valley en Californie comptent parmi les
zones où les salaires sont les plus importants des Etats-Unis. Les données suivantes
correspondent à un échantillon de salaires annuels, exprimés en milliers de dollars
Ville de New York Boston Silicon Valley
82 85 82
79 80 91
72 74 94
89 78 88
79 75 85
85 80
86
74
Utiliser le seuil de signification de 0,05 pour tester l’existence de différences significa-
tives entre les moyennes de trois populations. Quelle est la valeur de p ? Quelle est
votre conclusion ? Si une différence existe, que lieu semble avoir le salaire annuel
moyen le plus élevé ?
Exercice 5
Une étude rapportée dans le Journal of Small Business Management concluait
que les travailleurs indépendants étaient soumis à un stress plus important que les

personnes qui ne travaillent pas à leur compte. Dans cette étude, le stress était
mesuré à partir de 15 facteurs, mesurant différents aspects de l’angoisse et de conflits.
L’évaluation de ces 15 facteurs se faisait en choisissant parmi 5 degrés de désagréments
celui qui caractérise le mieux le facteur en question. La somme de l’évaluation des 15
facteurs, pour chaque individu, est comprise entre 15 et 75, les valeurs supérieures
indiquant un degré de stress important. Supposer qu’une approche similaire, avec
20 facteurs évalués par 5 niveaux de réponse, soit utilisée pour mesurer le degré de
stress de 15 agents immobiliers, sélectionnés aléatoirement, de 15 architectes et de 15
agents de change. Les résultats sont présentés dans le tableau suivant. En utilisant
le seuil de 0,05, tester l’existence de différences entre le degré de stress des trois
professions.
Agent immobilier Architecte Agent de change

81 43 65
48 63 48
68 60 57
69 52 91
54 54 70
62 77 67
76 68 83
56 57 75
61 61 53
65 80 71
64 50 54
69 37 72
83 73 65
85 84 58
75 58 58

Table des matières
1 Notions de probabilité 1
1.1 Techniques de dénombrement . . . . . . . . . . . . . . . . . . . . . . 1
1.1.1 Principe fondamental . . . . . . . . . . . . . . . . . . . . . . . 1
1.1.2 Arrangements avec répétition . . . . . . . . . . . . . . . . . . 2
1.1.3 Arrangement sans répétition . . . . . . . . . . . . . . . . . . . 2
1.1.4 Combinaison sans répétition . . . . . . . . . . . . . . . . . . . 2
1.2 Vocabulaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2.1 Expérience aléatoire . . . . . . . . . . . . . . . . . . . . . . . 3
1.2.2 Événements . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.3 Notion de probabilité . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.3.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.3.2 Probabilité conditionnelle . . . . . . . . . . . . . . . . . . . . 6
1.3.3 Système complet d’événements . . . . . . . . . . . . . . . . . 6
1.3.3.1 Formule des probabilités totales (Formule a priori) . 6
1.3.3.2 Formule de Bayes (Formule a posteriori) . . . . . . . 7
2 Variables aléatoires et lois de probabilité 8

2.1 Variables aléatoires . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.1.1 Définitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.1.2 Caractéristiques numériques des variables aléatoires . . . . . . 8
2.1.3 Cas d’une variable aléatoire X continue . . . . . . . . . . . . . 9
2.2 Lois de probabilité d’usage courant . . . . . . . . . . . . . . . . . . . 11
2.2.1 Lois de probabilités discrètes . . . . . . . . . . . . . . . . . . . 11
2.2.1.1 Loi de Bernoulli . . . . . . . . . . . . . . . . . . . . 11
2.2.1.2 Loi Binomiale . . . . . . . . . . . . . . . . . . . . . . 11
2.2.1.3 Loi de Poisson . . . . . . . . . . . . . . . . . . . . . 11
2.2.2 Lois de probabilité continues . . . . . . . . . . . . . . . . . . . 12
2.2.2.1 Loi uniforme . . . . . . . . . . . . . . . . . . . . . . 12
2.2.2.2 Loi exponentielle . . . . . . . . . . . . . . . . . . . . 13
2.2.2.3 Loi normale . . . . . . . . . . . . . . . . . . . . . . . 14
3 Théorie de l’échantillonnage 17
3.1 La loi des grands nombres . . . . . . . . . . . . . . . . . . . . . . . . 17
3.2 Introduction : population, échantillon et sondage . . . . . . . . . . . . 18
3.2.1 Terminologie . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
90
Table des matières 91
3.2.2 Types de sondages . . . . . . . . . . . . . . . . . . . . . . . . 19

3.2.2.1 Sondages dits raisonnés . . . . . . . . . . . . . . . . 19
3.2.2.2 Sondages aléatoires . . . . . . . . . . . . . . . . . . . 20
3.3 Fondement de l’échantillonnage . . . . . . . . . . . . . . . . . . . . . 23
3.4 Distribution d’échantillonnage de la moyenne . . . . . . . . . . . . . . 24
3.5 Distribution d’échantillonnage des fréquences . . . . . . . . . . . . . . 27
3.6 Distribution d’échantillonnage des différences . . . . . . . . . . . . . . 28
4 L’estimation statistique 30
4.1 Généralités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
4.2 Estimateur convergent . . . . . . . . . . . . . . . . . . . . . . . . . . 31
4.3 Estimateur sans biais . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
4.4 Estimateur de variance minimum . . . . . . . . . . . . . . . . . . . . 33
4.5 Une méthode générale d’estimation : le maximum de vraisemblance . 35
4.6 Dans la pratique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
4.6.1 Estimation d’une moyenne . . . . . . . . . . . . . . . . . . . . 37
4.6.2 Estimation d’une fréquence . . . . . . . . . . . . . . . . . . . 37
4.6.3 Estimation des différences . . . . . . . . . . . . . . . . . . . . 38
4.6.4 Estimation d’un écart-type . . . . . . . . . . . . . . . . . . . . 38
4.6.5 Exercices d’application . . . . . . . . . . . . . . . . . . . . . . 39
4.7 Cas général . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
4.7.1 Estimation des paramètres d’une loi normale . . . . . . . . . . 39
4.7.2 Estimation d’un pourcentage . . . . . . . . . . . . . . . . . . . 41
5 Tests d’hypothèses 44
5.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
5.2 Types d’erreur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
5.3 Test de la moyenne . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
5.4 Test de la différence de deux moyennes . . . . . . . . . . . . . . . . . 51
5.5 Autres tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
6 Test du Khi-Deux 55
6.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
6.2 Cas de χ2 simple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
6.3 Tables de contingence . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
6.4 Distribution de la variance de l’échantillon . . . . . . . . . . . . . . . 59
7 Tests non paramétriques 61

7.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
7.2 Le test des signes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
7.3 Le test de Mann-Whitney . . . . . . . . . . . . . . . . . . . . . . . . 62
7.4 Le test des séquences . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
7.5 Le test de la corrélation des rangs . . . . . . . . . . . . . . . . . . . . 64
7.6 Le test de Kolmogorov-Smirnov . . . . . . . . . . . . . . . . . . . . . 66

8 Analyse de la variance 67
8.1 Problème introductif et approche intuitive des concepts de base . . . 67
8.2 Généralisation : test d’égalité des moyennes de k populations . . . . . 70
8.2.1 Estimation inter-échantillon de la variance de la population . . 71
8.2.2 Estimation intra-échantillon de la variance de la population . . 72
8.2.3 Test de Fisher et comparaison des estimations de la variance . 73
8.2.4 Tableau de l’ANOVA . . . . . . . . . . . . . . . . . . . . . . . 74
8.3 ANOVA de Kruskall-Wallis (échantillons indépendants) . . . . . . . . 76
8.4 Quelques exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76

Cours de Statistique L2 LMD ISC

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Cours de Statistique L2 LMD ISC

Transféré par

Droits d'auteur :

Formats disponibles

République Démocratique du Congo

Enseignement Supérieur et Universitaire

Notes destinées aux étudiants de

Année académique 2022 - 2023

1.1 Techniques de dénombrement

1.1.2 Arrangements avec répétition

1.1.3 Arrangement sans répétition

1.1.4 Combinaison sans répétition

Par Kakulu Djambilay James Pascal, Chef de Travaux

(1) {kn = {n−k

(2) {kn + {k+1

• Dans un arrangement, l’ordre a de l’importance certainement aux combinai-

(2) Un centre de recherche compte 30 chercheurs parmi lesquels 18 sont des

– On lance une pièce de monnaie et on regarde la face supérieure, les issues

Par Kakulu Djambilay James Pascal, Chef de Travaux

– On jette un dé et on observe la face supérieure, les issues de cette expérience

Pour désigner un événement, on a l’habitude de procéder de deux manières :

– Dans l’expérience1 ; les événements "Pile" et "Face" sont incompatibles. En

1.3 Notion de probabilité

Par Kakulu Djambilay James Pascal, Chef de Travaux

Il résulte de cette définition que :

(2) Un auditoire comporte 10 garçons dont la moitié a les yeux marrons et 20

(4) Les étudiants d’une université participant à un cours pluridisciplinaire sont

Par Kakulu Djambilay James Pascal, Chef de Travaux

1. A : "le groupe contient 2 gestionnaires et 1 économiste"

1.3.2 Probabilité conditionnelle

Il en résulte que P (A ∩ B) = P (A) · P (B/A) = P (B) · P (A/B).

1.3.3 Système complet d’événements

1.3.3.1 Formule des probabilités totales (Formule a priori)

Par Kakulu Djambilay James Pascal, Chef de Travaux

1.3.3.2 Formule de Bayes (Formule a posteriori)

Par Kakulu Djambilay James Pascal, Chef de Travaux

Variables aléatoires et lois de

2.1 Variables aléatoires

2.1.2 Caractéristiques numériques des variables aléatoires

∗ On appelle espérance mathématique de X, la quantité

∗ On appelle variance d’une variable aléatoire l’espérance mathématique du carré

V (X) = E(X 2 ) − [E(X)]2 . (2.4)

2.1.3 Cas d’une variable aléatoire X continue

f (k) = P (X = k). (2.5)

Par Kakulu Djambilay James Pascal, Chef de Travaux

(1) Soit X une variable aléatoire dont la fonction de densité est

Par Kakulu Djambilay James Pascal, Chef de Travaux

2.2 Lois de probabilité d’usage courant

2.2.1.2 Loi Binomiale

E(X) = np et V (X) = np(1 − p). (2.11)

2.2.1.3 Loi de Poisson

Par Kakulu Djambilay James Pascal, Chef de Travaux

On admet les résultats suivants :

1. Dans un livre de 500 pages, on trouve 200 fautes d’impression distribuées au

2.2.2 Lois de probabilité continues

Par Kakulu Djambilay James Pascal, Chef de Travaux

2.2.2.2 Loi exponentielle

f (x) = θe−θx six ≥ 0. (2.16)

1. Le temps en minutes qu’un étudiant passe sur un ordinateur dans la salle

Par Kakulu Djambilay James Pascal, Chef de Travaux

2.2.2.3 Loi normale

2o) La loi normale centrée réduite

La fonction de densité normale centrée réduite s’écrit :

Par Kakulu Djambilay James Pascal, Chef de Travaux

A partir de la table de la loi normale centrée réduite, nous pouvons maintenant

Par Kakulu Djambilay James Pascal, Chef de Travaux

(a) Quelle est la probabilité qu’un salarié sélectionné aléatoirement passe

Par Kakulu Djambilay James Pascal, Chef de Travaux