Académique Documents
Professionnel Documents
Culture Documents
1. Introduction
Dans de nombreux domaines scientifiques (biologie, épidémiologie,
pharmacologie...), on a besoin de connaître certaines caractéristiques d’une
population. Les caractéristiques numériques (moyenne, variance, etc.) introduites au
chapitres précédent nous permettent de résumer une distribution d’une variable
aléatoire. Mais, en pratique, on ne peut pas les calculer du fait de l’effectif trop
important des populations concernées. La solution consiste alors à estimer le
paramètre cherché à partir de celui observé sur un échantillon tiré de la population.
Les mesures que l’on utilise pour d’écrire une population sont des paramètres
(𝜇, 𝜎 2 ). Un paramètre est une caractéristique de la population.
Les mesures que l’on utilise pour d’écrire un échantillon sont appelées des
statistiques (𝑋̅, 𝑆 2 ). Une statistique est une caractéristique de l’échantillon.
Nous allons voir dans ce chapitre comment les résultats obtenus sur un échantillon
peuvent être utilisés pour d’écrire la population. On verra en particulier que les
statistiques sont utilisées pour estimer les paramètres.
2. Échantillonnage
L'objectif de cette partie est de répondre à la problématique suivante : comment, à
partir d'informations (moyenne, écart-type ou proportion) connues sur une
population, peut-on prévoir celles d'un échantillon ?
Nous distinguerons deux cas : celui où l'on étudie une moyenne dans un échantillon
et celui où l'on étudie une proportion dans un échantillon.
2.1. Étude de la moyenne d'un échantillon
Page 1 sur 9
On considère une population sur laquelle est définie une variable aléatoire X dont on
connaît l'espérance 𝝁 et d’écart-type 𝝈. Si nous prélevons un échantillon de taille n
de la population, la moyenne de l’échantillon nous donnera une idée approximative
de la moyenne de la population. Mais, si nous prélevons un autre échantillon de
même taille, nous obtiendrons une autre moyenne d’échantillon.
En pratique, les données étudiées sont relatives à un seul échantillon. C’est
pourquoi, il faut rechercher les propriétés des échantillons susceptibles d’être
prélevés de la population.
Notons ̅X la variable aléatoire qui, à chaque échantillon de taille n, associe sa
moyenne (X ̅ s'appelle encore la distribution des moyennes des échantillons). Que
̅ ?
peut-on dire de cette variable aléatoire X
Par convention, on note toujours les variables aléatoires à l’aide de lettres
majuscules (X) et les valeurs qu’elles prennent dans une réalisation à l’aide de lettres
minuscules (x).
Population (𝝁, 𝝈𝟐 )
’’ ’’ ’’
Echantillon n x1 ,x2 ,….……………………….…….,xn 𝑥’’
X1,X2,………………………….…….,Xn ̅
𝐗
Page 2 sur 9
deuxièmes observations des différents échantillons comme des valeurs observées
d’une même variable aléatoire X2 (X2 pourrait se nommer “valeur du deuxième
élément d’un échantillon”), etc.
̅ , ̅̅̅
Les moyennes observées x̅, x′ x′′ … sont alors des valeurs observées d’une même
̅ qui est fonction de X1, X2, …, Xn :
variable aléatoire X
n
1
̅ = ∑ Xi
X
n
i=1
̅
Paramètres de la distribution de 𝐗
Les variables aléatoires X1, X2, …, Xn ont toutes la même distribution de probabilité,
dont la moyenne est désignée par E(Xi) = μ et la variance par Var(Xi) = σ2 .
Espérance :
1 1 1
̅) = E ( ∑ni=1 Xi ) = × E(∑ni=1 Xi ) = × [E(X1) + E(X2) + ⋯ + E(Xn)]
E(X n n n
̅) = 1 × [μ + μ + ⋯ + μ] =
E(X
1
× [nμ]
n n
̅) = μ
E(X
Variance :
1 1 1
̅) = Var ( ∑ni=1 Xi ) = 2 × Var(∑ni=1 Xi ) = 2 × [Var(X1) + Var(X2) + ⋯ + Var(Xn)]
Var(X n n n
̅) = 12 × [σ2 + σ2 + ⋯ + σ2 ] = 12 × [nσ2 ]
Var(X n n
σ2
̅) =
Var(X n
Ecart-type :
σ
̅) =
σX̅ = √Var(X (est aussi appelé erreur standard de la moyenne d’un échantillon aléatoire)
√n
On constate que :
Il y a 10 échantillons (C53 = 10).
La moyenne des échantillons varie entre 4,33 et 7,67.
On ne trouve pas deux échantillons avec la même moyenne et aucun
échantillons n’a la moyenne de la population (μ = 6).
La moyenne des moyennes d’échantillon est : E(X ̅) = 60/10 = 6 (E(X
̅) = μ).
Page 4 sur 9
Population (Caractère de proportion p)
𝑥
Echantillon 1 x1, x2,….……………………….………,xn 𝑓=
𝑛
Echantillon 2 ’ ’
x1 ,x2 ,…………………………….…….,xn 𝑥′
𝑓′ =
’ 𝑛
’’ ’’
𝑥′′
Echantillon n x1 ,x2 ,….……………………….…….,xn 𝑓′′ =
𝑛
’’
X
X1,X2,………………………….…….,X F=
n
n
Xi=1 si le ième individu possède le caractère étudié
Xi=0 si le ième individu ne possède pas le caractère
étudié
De la même manière que la moyenne et la variance, chacun des échantillons possède une
fréquence : 𝑓, 𝑓′ et 𝑓′′. Ces fréquences peuvent être considérées comme des valeurs
observées d’une même variable aléatoire F:
X
F=
n
Paramètres de la distribution de 𝐅
Espérance :
X 1 1
E(F) = E (n) = n E(X) = n np = p
Variance :
X 1 1 pq
Var(F) = Var (n) = n2 × Var(X) = n2 × npq = n
Ecart-type :
𝑝𝑞
σF = √ 𝑛
Page 5 sur 9
3. Estimation ponctuelle
L'objectif de cette partie est de répondre à la problématique suivante : comment, à
partir d'informations (moyenne, écart-type ou proportion) calculées sur un
échantillon, retrouver ou plutôt estimer celles d'une population entière ? L'estimation
est le problème réciproque de l'échantillonnage. (Mais nous aurons besoin des
résultats établis sur la théorie de l'échantillonnage pour passer à la phase
estimative).
Considérons cet exemple, une population d’enfants scolarisés au Maroc, et
supposons qu’on veuille estimer la moyenne µ de leurs poids. Puisqu’il serait trop
coûteux d’interroger tous les d’enfants scolarisés de la population, on se contente
d’un échantillon de n enfants. On se servira alors de la moyenne des n personnes de
l’échantillon pour estimer µ. Intuitivement, l’idée d’utiliser la moyenne de l’échantillon
pour estimer la moyenne de la population semble parfaitement raisonnable, même
banale. Mais ceci ne nous empêche pas de chercher une façon plus formelle et
objective de justifier cette procédure, car les problèmes d’estimation ne sont pas
toujours aussi évidents. Dans les paragraphes suivants, on va montrer que ce calcul
fournit une « bonne » estimation.
Estimer un paramètre, c’est en chercher une valeur approchée en se basant sur les
résultats obtenus dans un échantillon. Lorsqu’un paramètre est estimé par un seul
nombre, déduit des résultats de l’échantillon, ce nombre est appelé estimation
ponctuelle du paramètre.
3.1. Propriétés d’un « bon » estimateur
Soit une population quelconque, une suite de n variables aléatoires X1, …, Xn est
appelée échantillon aléatoire simple si X1, …, Xn sont indépendantes et suivent une
même loi. On appelle estimateur du paramètre , toute fonction aléatoire des valeurs
observées, X1, X2, …, Xn, susceptibles de servir à estimer et noté θ̂.
Exemple : μ
̂ la moyenne de l’échantillon est un estimateur de μ la moyenne de la
1
̂ = f(X1, X2, … , Xn) = ∑ni=1 Xi)
population. (μ
n
Cette propriété est souhaitable parce qu’elle signifie que l’estimateur n’a tendance ni
à sous-estimer ni à surestimer le paramètre: « en moyenne », il vise juste.
Page 6 sur 9
Estimateur avec variance minimale
Une deuxième qualité d’un bon estimateur est de posséder une précision suffisante.
Le fait qu’un estimateur soit sans biais, quoique rassurant, ne garantit pas
nécessairement une bonne précision. La précision d’un estimateur peut être mesurée
par sa variance, un bon estimateur doit avoir une faible variance. Dans ce cas
l’estimateur à une tendance a donné des valeurs proches du paramètre estimé.
On dira d’un estimateur qu’il est convergent lorsqu’il est sans biais et que sa
variance tend vers 0 quand la taille de l’échantillon observé tend vers l’infini :
𝐥𝐢𝐦 𝐕𝐚𝐫( 𝛉̂) = 𝟎
𝐧→+∞
Donc ̅
X est un estimateur sans biais puisque E(X̅) = μ et c’est un estimateur
σ2
convergent puisque ̅) =
Var(X tend vers 0 lorsque n tend
n
vers l’infini.
Exemple : Pour estimer le poids moyen des Marocains, on se contentera de calculer
la moyenne des poids d’un échantillon aléatoire de 500 personnes.
3.3. Estimation de la proportion d’une population
La meilleure estimation de la proportion p d’une population, qui puisse être déduite
d’un échantillon aléatoire et simple, est la fréquence de l’échantillon F.
Théorème : Soit p la proportion des individus d’une population qui appartiennent à
une certaine classe A. Soit X le nombre d’individus qui appartiennent à la classe A
𝐗
dans un échantillon de taille n. Alors 𝐅 = est un estimateur sans biais de p.
𝐧
Démonstration : Dans la partie échantillonnage on a montré que E(F) = p et
p(1−p)
Var(F) = .
n
Page 7 sur 9
cardiovasculaires chez notre population. Dans le cadre de cette étude 1802
personnes ont été interrogés de différentes régions du Maroc. Le pourcentage du
119
diabète était de 6,6% (f = 1802).
𝟐 1
E (𝐒 ) = n × E(∑ni=1([Xi − μ] − [X
̅ − μ])2 )
𝟐 1
E (𝐒 ) = n × E(∑ni=1([Xi − μ]2 − 2 × [Xi − μ] × [X
̅ − μ] + [X
̅ − μ]2 ))
𝟐 1
E (𝐒 ) = n × E(∑ni=1([Xi − μ]2 − 2 × [Xi − μ] × [X
̅ − μ] + [X
̅ − μ]2 ))
𝟐 1
E (𝐒 ) = n × E(∑ni=1[Xi − μ]2 − 2[X
̅ − μ] ∑ni=1([Xi − μ]) + ∑ni=1[X
̅ − μ]2 )
𝟐 1
E (𝐒 ) = n × E(∑ni=1[Xi − μ]2 − 2n[X
̅ − μ] × [X
̅ − μ] + n[X
̅ − μ]2 )
𝟐 1
E (𝐒 ) = n × E(∑ni=1[Xi − μ]2 − 2n[X
̅ − μ]2 + n[X
̅ − μ]2 )
𝟐 1
E (𝐒 ) = n × E(∑ni=1[Xi − μ]2 − n[X
̅ − μ]2 )
𝟐 1 1
E (𝐒 ) = E (n × ∑ni=1[Xi − μ]2 − n × n[X
̅ − μ]2 )
Page 8 sur 9
𝟐 ̅ − μ]2 ) = E(Var(Xi)) − E([X
̅ − μ]2 )
E (𝐒 ) = E(Var(Xi) − [X
2
𝟐 ̅)) = σ2 − σ
E (𝐒 ) = E(Var(Xi)) − E(Var(X n
𝟐 n−1
E (𝐒 ) = n
× σ2
𝟐 𝐧 𝐧 𝐧−𝟏
D’où 𝐄(𝐒𝐧−𝟏
𝟐
) = 𝐄 (𝐧−𝟏 𝐒 ) = 𝐧−𝟏 × 𝐧
× 𝛔𝟐 = 𝛔𝟐
𝟐
𝟐
Donc 𝐒𝐧−𝟏 est un estimateur sans biais puisque 𝐄(𝐒𝐧−𝟏 ) = 𝛔𝟐 et c’est un estimateur
𝟐𝝈𝟐
convergent puisque 𝐕𝐚𝐫(𝐒𝟐𝐧−𝟏 ) = tend vers 0 lorsque n tend vers l’infini.
𝐧−𝟏
𝟐
Remarque : 𝐒𝐧−𝟏 est appelé variance corrigée ou variance débiaisée.
Exemple : La mesure des tailles de 10 étudiants de l’UM6SS pris au hasard a donné
les résultats suivants (en cm) :
168 172 173 175 176 176 177 180 183 188
168 + 172 + 173 + 175 + 176 + 176 + 177 + 180 + 183 + 188
x̅ = = 176,8
10
(168 − 176,8)2 + (172 − 176,8)2 + ⋯ + (188 − 176,8)2
S2 = = 29,36
10
S = √29,36 = 5,418 (écart-type d’échantillon)
La taille moyenne de tous les étudiants de l’UM6SS, sera donc estimée à 176,8 cm tandis que son
2 𝑛 10
écart-type sera estimé à 𝑆𝑛−1 = √𝑆𝑛−1 =√ × 𝑆 2 = √ 9 × 29,36 = 5,711
𝑛−1
𝐗
̅ est un estimateur absolument correct de la moyenne 𝛍 de la population.
𝐒𝐧−𝟏
𝟐
est un estimateur absolument correct de la variance 𝛔𝟐 de la population.
𝐅 est un estimateur absolument correct de la proportion p de la population.
Les estimations ponctuelles bien qu’utiles, ne fournissent aucune information
concernant la précision des estimations, c’est-à-dire qu’elles ne tiennent pas compte
de l’erreur possible dans l’estimation, erreur attribuable aux fluctuations
d’échantillonnage. Quelle confiance avons-nous dans une valeur unique ? On ne
peut répondre à cette question en considérant uniquement l’estimation ponctuelle
obtenue des résultats de l’échantillon. Il faut lui associer un intervalle qui permet
d’englober avec une certaine fiabilité, la vraie valeur du paramètre correspondant.
L’estimation par intervalle de confiance est l’objectif du chapitre 6.
Page 9 sur 9