Académique Documents
Professionnel Documents
Culture Documents
Chantillonnage Estimation 121227134700 Phpapp01 PDF
Chantillonnage Estimation 121227134700 Phpapp01 PDF
- Partie A - chantillonnage L'objectif de cette partie est de rpondre la problmatique suivante : comment, partir d'informations (couple
moyenne-cart-type ou proportion) connues sur une population, peut-on prvoir celles d'un chantillon ?
Nous distinguerons deux cas : celui o l'on tudie une moyenne dans un chantillon et celui o l'on tudie une
proportion dans un chantillon.
Moyenne m connue.
Ecart-type s connu.
m
Echantillons de taille n
m1
m2
m3
m4
m5
...
mi
On s'intresse aux chantillons de taille n. Auront-ils tous la mme moyenne ? Non, certains peuvent tre
constitus d'lments atypiques et avoir une moyenne trs diffrente de celle de la population (surtout si
l'chantillon est de petite taille).
Notons X la variable alatoire qui, chaque chantillon de taille n, associe sa moyenne ( X s'appelle encore la
distribution des moyennes des chantillons). Que peut-on dire de cette variable alatoire X ?
X Nm ;
(1)
Un tirage avec remise est encore appel "tirage non exhaustif". Si on fait un tirage sans remise (tirage exhaustif), on modifie la taille de la
population au fur et mesure des tirages, ce qui compliquerait les calculs (intervention d'un facteur d'exhaustivit). Ceci dit, pour des grandes
populations le tirage sans remise s'assimile un tirage avec remise.
Statistiques infrentielles - BTS 2me anne -
Page 1
G. COSTANTINI http://bacamaths.net/
Dmonstration :
Notons E = {x1 ; x2 ; ... ; xn} un chantillon de n lments prlevs au hasard dans la population.
Pour tout i compris entre 1 et n, notons Xi la variable alatoire correspondant la valeur du i-me lment xi de
l'chantillon. Nous savons, par hypothse, que :
E(Xi ) = m et s(Xi ) = s
La moyenne X des n valeurs de l'chantillon est :
X=
X 1 + X 2 + ... + X n
n
D'aprs les proprits de la loi normale, nous savons qu'une combinaison linraire de variables alatoire qui
suivent la loi normale est encore une variable alatoire qui suit la loi normale. Comme chaque variable
alatoire Xi suit ici la loi normale N(m, s), la variable alatoire moyenne X suit donc galement une loi
normale. Calculons ses paramtres.
D'aprs la proprit de linarit de l'esprance :
E(X )=
E ( X 1 ) + E ( X 2 ) + ... + E ( X n ) nm
=
=m
n
n
V ( X 1 ) + V ( X 2 ) + ... + V ( X n ) ns 2 s 2
= 2 =
n2
n
n
s(X ) =
D'o :
s
n
X N m;
Ce thorme d aux mathmaticiens De Moivre et Laplace est de dmonstration trs difficile. Il est admis ici.
Remarque : il ne faut pas confondre l'cart-type
Exemple :
Les statistiques des notes obtenues en mathmatiques au BAC STI en France pour l'anne 2006 sont :
Moyenne nationale : m =10,44
cart-type : s = 1,46
Une classe de BTS comporte 35 lves en 2006/2007 issus d'un BAC STI en 2006.
Statistiques infrentielles - BTS 2me anne -
Page 2
G. COSTANTINI http://bacamaths.net/
Ici, nous ne connaissons pas la loi sur la population, mais l'effectif n de l'chantillon est suprieur 30.
Nous allons donc pouvoir utiliser le T.C.L. 2.
Notons X la variable alatoire qui, tout chantillon de taille n = 35, fait correspondre sa moyenne.
s
1, 46
X N m;
= N 10, 44;
n
35
Alors :
Posons T =
X - 10, 44
ainsi T N(0 ; 1).
1, 46
35
X - 10, 44 10 - 10, 44
P( X 10) = P
1, 46
1, 46
35
35
(-t)
1-(t)
-t
= P(T -1,78)
Remarque :
= P(T 1,78)
En effet :
t
P(T t) = P(T -t)
= (1,78)
Et par lecture directe de la table de la loi normale centre-rduite :
(1,78) = 0,9625
Conclusion : il y a environ 96% de chance que, dans cette classe de BTS, la moyenne des notes au baccalaurat
de Mathmatiques soit suprieure 10.
p
A
Echantillons de taille n
Population
1-p
Proportion p connue
du caractre A
p1
p2
p3
p4
p5
...
pi
On s'intresse aux chantillons de taille n. La proportion du caractre A dans les chantillons sera-t-elle
toujours la mme ? Evidemment non, cette proportion varie en fonction de l'chantillon choisi. Notons F la
variable alatoire qui, chaque chantillon de taille n, associe sa proportion du caractre A (F s'appelle
distribution des frquence des chantillons). Que peut-on dire de cette variable alatoire F ?
Statistiques infrentielles - BTS 2me anne -
Page 3
G. COSTANTINI http://bacamaths.net/
Thorme
Contexte : une population sur laquelle on tudie un caractre A rpandu avec une frquence p.
On prlve, au hasard, un chantillon (tirages avec remise ou assimils) de taille n avec n 30.
On note F la frquence du caractre A dans l'chantillon.
Alors la variable alatoire F suit approximativement une loi normale :
F N p ;
p(1 - p)
Dmonstration :
Nous allons avoir ici un modle binomial ou apparent dont on sait qu'il converge vers la loi normale.
Pour tout i compris entre 1 et n, notons Xi la variable alatoire dfinie par :
1 si le i -me lment de l'chantillon possde l'attribut A
Xi =
0 sinon
La variable alatoire Xi suit une loi de Bernoulli de paramtre p.
La variable alatoire X = X1 + X2 + ... + Xn est donc binomiale de paramtres n et p :
X B(n, p)
E(X) = np et s(X) =
En consquence :
La variable alatoire F =
np(1 - p)
X
correpond ainsi la frquence de l'attribut A dans l'chantillon.
n
E( X )
s( X )
= p et s(F) =
=
n
n
p(1 - p)
n
Exemple :
Une lection a eu lieu et un candidat a eu 40 % des voix.
On prlve un chantillon de 100 bulletins de vote.
Quelle est la probabilit que, dans l'chantillon, le candidat ait entre 35 % et 45 % des voix ?
Ici, nous avons n = 100 et p = 0,4. La variable alatoire F correspondant la frquence des votes pour le
candidat dans l'chantillon vrifie donc :
0, 4 0, 6
0, 24
F N 0, 4;
= N 0, 4;
100
10
Posons T =
F - 0, 4
0, 24
10
Il y a donc environ 69 % de chance que, dans un chantillon de taille n = 100, le candidat ait entre 35 % et
45 % des voix.
Statistiques infrentielles - BTS 2me anne -
Page 4
G. COSTANTINI http://bacamaths.net/
En analysant l'exercice ci-dessus, on constate que l'on dispose des informations sur la population (ici,
l'ensemble des votes) parce que l'lection a dj eu lieu. On en dduit des informations sur l'chantillon. Mais,
dans la pratique, c'est souvent le phnomne rciproque que nous tudierons : les lections n'ont pas encore eu
lieu et on voudrait retrouver les informations sur la population grce un sondage ralis sur un chantillon.
D'o la deuxime partie de ce document consacre l'estimation.
- Partie B - Estimation L'objectif de cette partie est de rpondre la problmatique suivante : comment, partir d'informations (couple
moyenne/cart-type ou proportion) calcules sur un chantillon, retrouver ou plutt estimer celles d'une
population entire ? L'estimation est le problme rciproque de l'chantillonnage. (Mais nous aurons besoin des rsultats
tablis sur la thorie de l'chantillonnage pour passer la phase estimative).
Nous distinguerons deux cas : celui o l'on cherche estimer la moyenne m d'une variable alatoire dfinie sur
une population et celui o l'on cherche estimer la proportion d'individus p ayant tel caractre dans la
population.
ESTIMATION d'une MOYENNE
Population
Population
Moyenne : m inconnue
Ecart-type : s connu ou inconnu
Proportion : p inconnue
m e connue
se connu
pe
connue
Echantillon de taille n
Echantillon de taille n
= me
s =
Statistiques infrentielles - BTS 2me anne -
n
se
n -1
Page 5
G. COSTANTINI http://bacamaths.net/
Le coefficient
n
s'appelle correction de biais. Lorsque la taille n de l'chantillon est assez grand (en
n -1
pratique n 30), ce coefficient est trs voisin de 1, si bien que, dans ce cas, on peut estimer
s s e.
Exemple :
Une universit comporte 1500 tudiants. On mesure la taille de 20 d'entre eux. La moyenne me et l'cart-type se
calculs partir de cet chantillon sont :
me = 176 cm et se = 6 cm
Nous pouvons donc estimer les paramtres de la population :
= 176 cm et
s =
20
6 6,16 cm
19
Remarque :
Nous n'avons fait qu'une estimation, il est bien sr impossible de retrouver les vraies caractristiques m et s de
la population.
L'estimation ponctuelle permet surtout de disposer d'une valeur de rfrence pour poursuivre/affiner les calculs.
On souhaiterait notamment pouvoir faire une estimation par intervalle, en contrlant le risque pris.
et l'cart-type estim
s de la population.
- PHASE A PRIORI - Mise en place du modle prvisionnel Nous avons vu, dans la thorie sur l'chantillonnage, que si X est la variable alatoire correspondant la
moyenne d'un chantillon de taille n pris au hasard, alors le Thorme Central Limite permet d'affirmer que X
suit approximativement une loi normale :
s
X Nm ;
Nous allons chercher un intervalle qui contient m avec une confiance arbitraire de 95% (cela pourrait aussi tre 99% ou
un autre coefficient de confiance).
P( X - r m X + r) = 0,95
m X
X-r
X+r
Page 6
G. COSTANTINI http://bacamaths.net/
Cette disposition des ingalits n'est pas pratique mais il y a une correspondance remarquable entre deux
vnements qui va nous faciliter les calculs :
X-rm X+r
-m-r-Xr-m
r+mXm-r
-r X - Y r
|X - Y| r
Multiplions par -1 :
Y-rXY+r
Ou encore :
-r Y - X r
m-rXr+m
X-rYX+r
P(m - r X m + r) = 0,95
m- r
m+r
X -m
n
=
( X - m) suit la loi normale centre-rduite N(0 ; 1).
s
s
n
m -r -m X -m m + r -m
= 0,95
P
s
s
s
n
n
n
r n
r n
T
P = 0,95
s
s
r n
r n
T
P = 0,95
s
s
r n
2
- 1 = 0,95
s
r n
= 0,975
s
(t) = 0,975 o t =
r n
s
Nous cherchons donc, par lecture inverse de la table de la loi normale centre rduite une borne t telle que :
(t) = 0,975
La borne t = 1,96 convient.
La borne t dpend du coefficient de confiance choisi.
Avec un coefficient de confiance de 99%, nous aurions obtenu :
r n
2
- 1 = 0,99
s
Statistiques infrentielles - BTS 2me anne -
Page 7
G. COSTANTINI http://bacamaths.net/
(t) = 0,995
t = 2,575
Par la suite, nous noterons t le rel tel que 2(t) - 1 = C o C est le degr de confiance choisi.
Ainsi, notre rel r recherch est tel que :
r n
=t
s
r =t
s
n
- PHASE A POSTERIORI - Utilisation des valeurs estimes ponctuellement Nous supposons maintenant que l'chantillon a t tir, nous obtenons donc une reprsentation me de la
variable alatoire X :
m me
me - r
me + r
; me + t
me - t
n
n
fait partie d'une famille dans laquelle 95 % contiennent la vraie moyenne m de la population.
On l'appelle intervalle de confiance 95 % (ou autre selon le coefficient de confiance dcid pralablement).
Pour calculer les bornes de cet intervalle, deux cas de figure se prsentent selon que nous connaissons ou pas
l'cart-type s de la population. S'il est connu, il n'y a rien faire :
s
s
; me + t
IC = me - t
n
n
Si l'cart-type s de la population n'est pas connu, on le remplace par son estimation ponctuelle
s =
r= t
n
se.
n -1
se
n se
= t
n -1 n
n -1
Nous pouvons donc estimer avec une confiance de 95 % (ou 99 % selon le cas) que la moyenne m de la
population appartient l'intervalle :
se
se
IC = me - t
; me + t
n -1
n -1
Remarques :
L'intervalle de confiance est centr en la valeur me car c'est la seule valeur de rfrence que nous disposons.
Le centre de l'intervalle de confiance ( savoir me) dpend de l'chantillon choisi (puisque me en dpend).
Son rayon en dpend aussi lorsqu'on ne connat pas l'cart-type de la population.
La vraie valeur m de la moyenne de la population peut ne pas appartenir l'intervalle de confiance.
s
Le rayon de l'intervalle de confiance ( savoir la quantit r = t
) dpend du degr de confiance C choisi.
n
Plus le degr de confiance C est proche de 100%, et plus la borne t sera leve et donc le rayon grand.
Statistiques infrentielles - BTS 2me anne -
Page 8
G. COSTANTINI http://bacamaths.net/
Illustration :
m
Population
= me
Echantillon 1
99%
= me
Echantillon 2
99%
= me
Un intervalle de
confiance ne contient
pas forcment la
moyenne m de la
population.
Un intervalle de
confiance 95 % est
plus petit qu'un
intervalle de confiance
99%. Il risque moins
de contenir la valeur
moyenne m.
Echantillon 3
95%
Exemple :
Une universit comporte 1500 tudiants. On mesure la taille de 20 d'entre eux. La moyenne me et l'cart-type se
calculs partir de cet chantillon sont :
me = 176 cm et se = 6 cm
Nous avons dj estim ponctuellement les paramtres de la population :
= 176 cm et
s =
20
6 6,16 cm
19
Dterminons maintenant une estimation de m par intervalle de confiance 95% (ou au risque de 5 %).
Notons X la variable alatoire correspondant la moyenne d'un chantillon de taille 20 pris au hasard.
Nous savons que :
s
s
X Nm ;
= Nm ;
n
20
P(m - r X m + r) = 0,95
X -r
, ainsi T suit la loi normale centre-rduite N(0 ; 1).
s
20
r 20
r 20
T
Nous avons donc :
P = 0,95
s
s
On pose T =
r 20
2
- 1 = 0,95
s
r 20
= 0,975
s
(t) = 0,975 o t =
r 20
s
Nous cherchons donc, par lecture inverse de la table de la loi normale centre rduite une borne t telle que :
(t) = 0,975
La borne t = 1,96 convient.
Ainsi, notre rel r recherch est tel que :
r 20
= 1,96
s
Page 9
G. COSTANTINI http://bacamaths.net/
1, 96 s
r=
20
Mais une fois l'chantillon tir, nous avons obtenu un cart-type estim
s 6,16 cm.
r 2,7
D'o :
F N p ;sp
o sp =
p(1 - p)
n
p = pe
pe (1 - pe )
=
n
pe (1 - pe )
si n 30
n -1
pe (1 - pe )
si n > 30
n
1
si statisticien pessimiste
4n
Correction de biais.
Ces estimations ponctuelles de
l'cart-type ne sont pas utiles dans
l'immdiat. Elle serviront pour la
dtermination d'un intervalle de
confiance de la proportion.
Exemple :
quelques jours d'une lection, un candidat fait effectuer un sondage. Sur les 150 personnes interroges, 45 se
disent prtes voter pour lui aux prochaines lections.
La proportion d'individus prte voter pour ce candidat dans l'chantillon est ici de pe =
45
= 0,3.
150
On estime donc qu'il en est de mme dans la population (comment pourrait-on faire autrement ?) :
p = pe = 0,3
sp =
Statistiques infrentielles - BTS 2me anne -
pe (1 - pe )
=
n
0,3 0, 7
0,037
150
Page 10
G. COSTANTINI http://bacamaths.net/
On voudrait aller plus loin et, au lieu d'une simple proportion, calculer un intervalle contenant, avec une
confiance arbitraire fixe au dpart, la proportion p d'individus prts voter pour ce candidat.
F N p ;sp
o sp =
p(1 - p)
n
Nous avons dj remarqu que le fait que p soit inconnu n'est pas gnant dans les calculs a priori. Le problme
p(1 - p)
ici, c'est que nous ne connaissons pas l'cart-type
. Nous le remplaerons, dans la phase a posteriori,
n
par son estimation ponctuelle (qui est
pas propose ou encore
pe (1 - pe )
en gnral ou
n -1
pe (1 - pe )
si la correction de biais n'est
n
1
si nous voulons une hypothse pessimiste).
4n
Nous avons dj vu que cette probabilit pouvait s'crire de manire plus pratique :
P(p - r F p + r) = 0,90
On sait que la variable alatoire T =
F-p
suit la loi normale centre rduite N(0 ; 1).
sp
= 0,90
sp
sp
sp
-r
r
P
T
sp
s
p
r
2
sp
- 1 = 0,90
sp
= 0,90
= 0,95
r
sp
r = t sp
Supposons maintenant l'chantillon prlev. Nous avons donc une estimation pontuelle de p et sp.
Ainsi, la ralisation de l'intervalle de confiance dans l'chantillon est :
Statistiques infrentielles - BTS 2me anne -
Page 11
G. COSTANTINI http://bacamaths.net/
p (1 - pe )
p (1 - pe )
IC = pe - t e
; pe + t e
n -1
n - 1
Remarques :
Si on n'effectue pas la correction de biais, l'intervalle de confiance est :
p (1 - pe )
p (1 - pe )
; pe + t e
IC = pe - t e
n
n
On peut galement se placer dans une hypothse pessimiste en choisissant un cart-type maximal. Nous
savons que la parabole d'quation y = x(1 - x) admet un maximum gal
1
1
en .
4
2
1
. Il a, de plus, l'avantage d'tre indpendant de p.
4n
1
1
; pe + t
IC = pe - t
4n
4n
Exemple :
A quelques jours d'une lection, un candidat fait faire un sondage. Sur les 150 personnes interroges, 45 se
disent prtes voter pour lui aux prochaines lections.
La proportion d'individus prte voter pour ce candidat dans l'chantillon est ici de pe =
45
= 0,3.
150
p = pe = 0,3 et
sp 0,037
On a dj estim ponctuellement :
F N p ;sp
On cherche un rayon r tel que :
o sp =
p(1 - p)
n
P(p - r F p + r) = 0,8
r
2
sp
- 1 = 0,8
sp
= 0,9
Par lecture inverse de la table de la loi normale centre-rduite, on cherche une borne t telle que :
(t) = 0,9 avec t =
La valeur t 1,28 convient donc :
r
sp
r = 1,28 sp
r 0,047
Page 12
G. COSTANTINI http://bacamaths.net/
Exercice :
Une usine fabrique des cbles. Un cble est considr comme conforme si sa rsistance la rupture X est
suprieure 3 tonnes. L'ingnieur responsable de la production voudrait connatre, en moyenne, la rsistance
la rupture des cbles fabriqus.
Il n'est, bien sr, pas question de faire le test sur toute la production (l'usine perdrait toute sa production !).
Un technicien prlve donc un chantillon de 100 cbles dans la production. Notons X la variable alatoire
correspondant la force exercer sur le cble pour le rompre. Le technicien obtient les rsultats suivants :
E( X ) = 3,5 tonnes
s( X ) = 0,4 tonne
Proportion de cbles dont la rsistance est suprieure 3 tonnes : pe = 0,85
1. a. Donner une estimation ponctuelle de la moyenne m et de l'cart-type s de la variable alatoire X dans la
production.
b. Dterminer une estimation par intervalle de confiance 95 % de la moyenne m de X.
2. a. Donner une estimation ponctuelle de la proportion p de cbles conformes dans la production.
b. Dterminer une estimation par intervalle de confiance 90 % de cette proportion.
Page 13
G. COSTANTINI http://bacamaths.net/
- RSUM -
- Echantillonnage -
MOYENNE
PROPORTION
X Nm ;
p(1 - p)
F N p ;
dans la population.
- Estimation -
MOYENNE
PROPORTION
n 30 ou
(par
pe (1 - pe )
si
n -1
pe (1 - pe )
sinon (n > 30).
n
P(m - r X m + r) = C
o X N m ;
o F N p ; s p
avec sp =
p(1 - p)
n
IC = [me - r ; me + r]
IC = [pe - r ; pe + r]
Coefficient de confiance
80 %
90 %
95 %
99 %
Valeur de P(t)
0,9
0,95
0,975
0,995
Borne t
1,28
1,645
1,96
2,575
Page 14
G. COSTANTINI http://bacamaths.net/