Vous êtes sur la page 1sur 5

Statistique inférentielle : problèmes d’estimation

L’objectif ici est d’estimer, à partir d’un échantillon, la valeur d’un paramètre de la population,
(moyenne, variance, écart type, fréquence), et de déterminer la précision de cette estimation.

1 Estimation ponctuelle
1.1 Estimation de la moyenne
1.1.1 Définition
Considérons une population qui pour un certain caractère a une moyenne m. On prélève au hasard
un échantillon de cette population. La meilleure estimation que l’on peut déduire de l’échantillon est la
x1 + x2 + . . . + xn
moyenne de l’échantillon x = .
n
En effet, d’après l’étude de la distribution d’échantillonnage de la moyenne, pour l’ensemble des
échantillons, on doit retrouver en moyenne la vraie valeur de la population. Et on sait que si X est la
variable aléatoire qui à chaque échantillon de taille n associe sa moyenne alors E(X) = m.

Si on note m
b une estimation ponctuelle de m, on choisira donc : m
b =x

1.1.2 Propriétés
X1 + X2 + . . . + Xn
Nous dirons que X = est un estimateur de m et que la valeur prise par X
n
sur un échantillon, notée m,
b est une estimation de m.

La première qualité d’un estimateur est d’être sans biais. Ceci traduit l’absence d’erreur systéma-
tique et cette condition est satisfaite si la vraie valeur est bien retrouvée en moyenne. C’est bien le cas
ici puisque E(X) = m.
X est donc un estimateur sans biais de m.

1.2 Estimation de la fréquence


Pour estimer la fréquence p inconnue d’un caractère dans une population, nous procédons de la
même manière que pour la moyenne. A partir d’un échantillon prélevé au hasard, nous calculons la
fréquence f du caractère.
Nous dirons que f est une estimation ponctuelle de p.

1.3 Estimation de la variance et de l’écart-type


1.3.1 Estimation de la variance
Pour estimer la variance σ 2 d’un caractère dans une population, on pourrait choisir la variance s2
d’un échantillon prélevé au hasard. Mais dans ce cas on obtient en moyenne une valeur inférieure à la
variance de la population.

1
En effet si nous considérons l’estimateur S 2 défini par
n
1X
S2 = (Xi − X)2
n
i=1

nous pouvons montrer que cet estimateur est biaisé.

Démonstration :
si m est la moyenne du caractère dans la population,
n
1X
S2 = [(Xi − m) − (X − m)]2
n
i=1

n n n
1X 1X 1X
S2 = (Xi − m)2 − 2(Xi − m)(X − m) + (X − m)2
n n n
i=1 i=1 i=1
n n
1 X 2 X
S2 = (Xi − m)2 − (X − m) (Xi − m) + (X − m)2
n n
i=1 i=1
n
1X
S2 = (Xi − m)2 − 2(X − m)2 + (X − m)2
n
i=1
n
1X
2
S = (Xi − m)2 − (X − m)2
n
i=1
On calcule l’espérance :
n
2 1X
E(S ) = E( (Xi − m)2 ) − (X − m)2 )
n
i=1

n
2 1X
E(S ) = E((Xi − m)2 ) − E((X − m)2 )
n
i=1
Or
n n
1X 1X 2
E((Xi − m)2 ) = σ = σ2
n n
i=1 i=1
et
σ2
E((X − m)2 ) = V (X =
n
On obtient alors
(n − 1)σ 2
E(S 2 ) =
n
2
Cette valeur est donc toujours inférieure à σ . Ceci veut dire que en moyenne la variance des
échantillons est toujours inférieure à la variance de la population. On peut corriger cette erreur afin
n
d’obtenir un estimateur sans biais en multipliant la variance de l’échantillon par .
n−1
On obtient alors l’estimation ponctuelle de la variance :
n
ns2
2 1 X
σ
b = = (xi − x)2
n−1 n−1
i=1

2
1.3.2 Estimation de l’écart type
A partir de l’estimation ponctuelle de la variance et si s est l’écart type de l’échantillon, on peut
en déduire une estimation ponctuelle σ
b de l’écart type σ en prenant la racine carrée, soit :
r
ns2
r
n
σ
b= =s
n−1 n−1
Deux remarques :
• on peut montrer que le résultat obtenu est systématiquement trop faible. Cependant l’erreur
commise étant de moins de 1 % pour des échantillons d’effectif supérieur à 30, on pourra juger cette
estimation satisfaisante dans la pratique.

n
• si n est "assez grand", le quotient est voisin de 1 ce qui signifie que σ
b est voisin de s.
n−1
Dans ce cas on peut prendre l’écart type de l’échantillon s comme estimation ponctuelle de l’écart type
σ de la population.

2 Estimation par intervalle de confiance


L’estimation ponctuelle d’un paramètre ne présente pas vraiment d’intérêt si on ne peut pas avoir
une idée de sa précision. Il est donc nécessaire de compléter le résultat obtenu par la détermination d’un
intervalle qui a une bonne chance de contenir la vraie valeur. On va donc essayer d’obtenir un intervalle
qui contient le paramètre inconnu avec un certain degré de confiance, en général 95 % ou 99 % . En
affirmant que cet intervalle, appelé intervalle de confiance, contient le paramètre, on peut commettre
une erreur dont la probabilité est α = 5 % si on a posé par exemple 1 − α = 95 %.
Cependant le fait de fixer le degré de confiance, et donc α, ne permet pas de trouver les bornes de
l’intervalle car le risque peut se répartir d’une infinité de manières d’un côté ou de l’autre de l’intervalle.
On va donc choisir de répartir le risque de manière égale.

2.1 Estimation de la moyenne


2.1.1 Cas d’une population normale
On suppose que le caractère étudié dans une population suit une loi normale de moyenne m in-
connue et d’écart type σ connu. On souhaite estimer m à l’aide d’un échantillon aléatoire.
On sait que la variable aléatoire X qui à chaque échantillon de taille n associe sa moyenne, suit
σ
une loi normale de moyenne m et d’écart type √ .
n
L’intervalle de confiance doit satisfaire : P (X − d1 ≤ m ≤ X + d2 ) = 1 − α
α
et plus précisément : P (m < X − d1 ) = P (m > X + d2 ) = afin que le risque soit partagé en
2
deux parties égales,
α
ou bien P (X − m > d1 ) = P (m − X > d2 ) =
2
X −m
Par le changement de variable aléatoire : T = √ on obtient
σ/ n
d1 d2 α
P (T > √ ) = P (−T > √ ) =
σ/ n σ/ n 2
d1 d2 α
soit P (T < √ ) = P (T > − √ ) = 1 −
σ/ n σ/ n 2

3
d1 d2 α
d’où : Π( √ ) = Π( √ ) = 1 −
σ/ n σ/ n 2
σ α
et d1 = d2 = t √ avec t = Π−1 (1 − )
n 2
Donc si x est la moyenne calculée sur un échantillon de taille n, l’intervalle de confiance de m au
σ σ
niveau 2Π(t) − 1 est [x − t √ ; x + t √ ].
n n
Cet intervalle est symétrique par rapport à la moyenne x.

2.1.2 Remarques
• La méthode de calcul présentée ci-dessus peut être étendue au cas où la loi suivie par le caractère
étudié n’est pas une loi normale mais à la condition que n soit suffisament grand puisque dans ce cas,
la variable aléatoire X suit approximativement une loi normale.

• Attention à l’interprétation du résultat : il est faut de dire que la vraie moyenne m a 95 % de


chance d’appartenir à l’intervalle de confiance. Elle lui appartient ou elle ne lui appartient pas !
La probabilité est relative à la méthode et pas à l’appartenance ou la non appartenance à un inter-
valle. Ce que l’on peut dire, c’est qu’en affirmant qu’un intervalle contient m, on peut commettre une
erreur dont la probabilité est α. Et donc, la moyenne m est dans l’intervalle calculé avec une confiance
1 − α.

• Pour les valeurs usuelles du niveau de confiance, 0,99 ou 0,95 on a les valeurs de t correspon-
dantes :
2Π(t) − 1 = 0, 99 ⇔ Π(t) = 0, 995 ⇔ t ' 2, 575
et 2Π(t) − 1 = 0, 95 ⇔ Π(t) = 0, 975 ⇔ t ' 1, 96

• La longueur de l’intervalle de confiance est une fonction croissante de l’écart type, une fonction
croissante du degré de confiance et une fonction décroissante de l’effectif de l’échantillon.
q
n
• Si l’écart type σ est inconnu, on peut le remplacer par son estimation ponctuelle s n−1 , où s
est l’écart type de l’échantillon, dans le cas où n est suffisament grand. On obtient alors l’intervalle de
s s
confiance [x − t √ ; x − t√ ].
n−1 n−1

2.2 Estimation de la fréquence


Supposons que dans une population, le caractère étudié apparaît avec une fréquence inconnue p.
En procèdant exactement depla même manière que pour obtenir un intervalle de confiance de la
moyenne, avec ici m = p et σ = p(1 − p), si f est la fréquence
q de l’échantillon
q observé, on obtient
p(1−p)
un intervalle de confiance de la fréquence p de la forme : [f − t n; f + t p(1−p)
n ].q
n
p
Mais p étant inconnu, on remplace σ par une estimation ponctuelle, soit f (1 − f ) n−1 et on
obtient l’intervalle de confiance de la fréquence p au niveau de confiance 2Π(t) − 1 :
r r
f (1 − f ) f (1 − f )
[f − t ; f +t ]
n−1 n−1

4
2.3 Taille de l’échantillon
Quelle doit être la taille de l’échantillon, lors de l’estimation, qui permet d’obtenir une précision
donnée ?
On sait déjà que la longueur de l’intervalle de confiance est une fonction décroissante de la taille
de l’échantillon. Si on veut obtenir une erreur maximale d, pour un degré de confiance 1 − α, on a
σ t2 σ 2
d = t √ soit d2 = .
n n
t2 σ 2
Il faut donc que : n = 2 .
d
Cette égalité ne peut généralement pas être vérifiée exactement, puisque n est un entier.
σ2
Par exemple, avec α = 0, 05, on obtient t ' 1, 96 et n ' 4 2 .
d

Vous aimerez peut-être aussi