Académique Documents
Professionnel Documents
Culture Documents
ULB - 2002
2. Distributions dchantillonnage
Distribution dchantillonnage dune statistique: Distribution de toutes les valeurs possibles de la statistique, calcules partir des chantillons de la mme taille prlevs alatoirement dans la mme population. Moyenne, variance, forme de la distribution ? Construction: - Prlev alatoirement tous les chantillons possibles de taille n. - Calculer la valeur de la statistique pour chaque chantillon. - Etablir la liste des diffrentes valeurs et de leurs frquences dapparition.
35
ULB - 2002
. et 2 = 8.25 - = 55 - Construction de la distribution dchantillonnage (pour n = 2): 100 possibilits (avec remplacement):
x 1 2 3 4 5 6 7 8 9 1 2 3 4 5 6 7 8 9 10
ULB - 2002
10
5.5
6.5
7.5
8.5
9.5
10
Distribution dchantillonnage : Frquence Frqu. rel. x x 1 1 0.01 6 1.5 2 2.5 3 3.5 4 4.5 5 5.5 2 3 4 5 6 7 8 9 10 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.10 6.5 7 7.5 8 8.5 9 9.5 10
Total
Frequence
Frqu. rel.
9 8 7 6 5 4 3 2 1 100
0.09 0.08 0.07 0.06 0.05 0.04 0.03 0.02 0.01 1.00
Distribution de x
x
2 x
s2 s
ULB - 2002
x = et =
2 x
x = =
2 x
2
n
Thorme central limite : Pour une population infinie dont la distribution est de moyenne et de variance finie 2 , la distribution dchantillonnage de x , pour un chantillon alatoire simple de taille n, est approximativement normale de moyenne et de variance 2 n lorsque la taille de lchantillon est suffisamment grande. En pratique: grand chantillon n 30 Echantillonnage sans remplacement: corrections (pop. finie). negligeable lorsque la taille de lchantillon est beaucoup plus petite que celle de la population.
38
ULB - 2002
Exemple: La dure de vie moyenne dun type de lame de scie est de 41.5h, avec un cart-type de 2.5h. Quel est la probabilit que l amoyenne des dures de vie dun chantillon alatoire simple de 50 lames ait une moyenne comprise entre 40.5h et 42h ? 2.5 = = 0.35 x = 415 . et 2 x 50 40.5 415 . 42 415 . P 40.5 x 42 = P z 0.35 0.35 = P z 143 . P z 2.86 = 0.9236 0.0021 = 0.9215
f FH a
f a
I K
39
ULB - 2002
a f a f
Exemple: Un fabricant de clous a dtermin que 3% des clous produits sont dfectueux. On tudie un chantillon alatoire de 300 clous. Quelle est la probabilit que la proportion de clous dfectueux dans lchantillon soit comprise entre 2% et 3.5% ? n = 300 et p = 0.03 0.03 0.97 2 N ( p p = 0.03, = ) p 300
F I G 0.02 0.03 z 0.035 0.03 JJ ! 0.035f = PG Pa0.02 p 0.97 0.03 0.97 GH 0.03300 J 300 K . f = Pa z 0.51f Pa z 102
. = 0.6950 01539 = 0.5411
40
ULB - 2002
5. Techniques avances
Echantillonnage alatoire simple Echantillonnage alatoire stratifi : - Population subdivise en sous-populations (strates) partir dune variable connue qui a un lien avec la variable tudie. Exemple: Revenu moyen dans une population ? Lchantillon contient : ouvriers, cadres, employs, ... Pour avoir une bonne reprsentation de la population: stratification en fonction du type dactivit. Slection dun sous-chantillon dans chaque groupe (strate). Variance des estimateurs infrieure au cas de lchantillonnage alatoire simple. Echantillonnage en grappes: Parfois difficile ou impossible didentifier tous les individus de la population en vue de prlever un chantillon. Utiliser des groupes dindividus comme base de lchantillonnage : districts lectoraux, quartiers, classes, Slection dun chantillons de groupes. Lchantillon est constitu par lensemble des individus de chaque groupe. Echantillonnage en grappes simple. Si on prlve un chantillon dans chaque groupe slectionn : Echantillonnage en grappes deux niveaux.
41
ULB - 2002
Echantillonnage systmatique : Exemple: Pour obtenir une estimation des ventes dans un magasin avec un chantillon de 2% des transactions. Prendre un reu tous les 50. De faon gnrale: pour chantillonner une fraction 1/M de la population, on prend un des premiers M individus et ensuite chaque Mime individu suivant. Echantillon systmatique 1-sur-M. Cots, efficacit et taille : - qualit de lestimation taille de lchantillon cots. - Cot total = cot fixe + cot fonction du nombre dunits. - Cots dependant des strates.
42
ULB - 2002
. Convergence : si non biais et la variance de lestimateur tend vers zro lorsque la taille de lchantillon tend vers linfini. Exemples: x et s2 Efficacit : si la variance de lestimateur est minimale parmi les estimateurs non biaiss du paramtre. Suffisance : si lestimateur utilise toute linformation relative au paramtre qui est contenue dans lchantillon.
43
ULB - 2002
2 connue
Estimation par intervalle : intervalle contenant la valeur du paramtre estim, avec un certain degr de conviction. (On ne peut pas associer de niveau de confiance une estimation ponctuelle.) Intervalle de confiance. Intervalle plus troit niveau de confiance plus bas. Intervalle de confiance Population distribue normalement: x distribu normalement avec x = et =
2 x
2
n
ULB - 2002
Composantes de lintervalle de confiance : Estimation (facteur de confiance) (erreur standard) - facteur de confiance : valeur de la normale rduite, dpend du niveau de confiance (95%). - erreur standard : cart-type de lestimateur. Formule exacte : pour un niveau de confiance 1 : x z1 2 x
z1 2
45
ULB - 2002
Interprtation: avec une probabilit de 100 1 % nous pouvons dire que lintervalle x z1 2 x , calcul partir dun chantillon alatoire simple de taille n provenant dune population normale, contient la valeur de la moyenne population .
Exemple: Chez un fabricant de cable, lexprience montre que la rsistance dun certain type de cable est normalement distribue avec un cart-type de = 200 livres. Un chantillon de n = 16 cables donne une moyenne de x = 6200 livres. Intervalle de confiance pour 95% ? 200 6200 196 . = 6200 196 . 50 16
a f
6102 , 6298
46
ULB - 2002
Prcision de lestimation : Prcision = (facteur de confiance) (erreur standard) - fonction de la taille de lchantillon, - fonction des caractristiques de la population. Intervalle de confiance Population non-normale : Formule correcte comme approximation pour de grands chantillons ( n 30 ) (Cf. thorme central limite).
47
ULB - 2002
48
ULB - 2002
Exemple: Dans une entreprise, 16 employs sont choisis au hasard pour tudier le temps requis pour accomplir une tche particulire. Chaque employ ralise la tche. Le temps moyen observ est de 13 min, et lcart-type est de 3 min.
Intervalle de confiance 95% pour le temps moyen mis par un employ (population) ?
Suppositions: population normale, chantillon alatoire simple. x = 13 s = 3 n = 16 df = 15
x t0.975
3 16
13 2.1315 0.75 11.4 , 14.6 Intervalle de confiance population non-normale : 1 Grand chantillon ( n 30 ): thorme central limite : s x z1 2 n 2 Petit chantillon (n < 30): ??? Observations apparies : au sein dune seule population.
Exemples:
- mesures ralises sur des individus avant et aprs un traitement, - mesures faites pour deux priodes de temps distinctes, ... Analyse de la diffrence entre les deux mesures.
49
ULB - 2002
e.g. pour une population normale avec variance inconnue : s d t1 2 d n Exemple: Un chantillon de n = 10 entreprises du secteur lectronique ont donn le montant dpens la formation de leurs employs durant lanne coule et durant la mme priode il y a dix ans. Les donnes sont prsentes dans le tableau suivant (ajustes pour tenir compte de linflation): Entreprises il y a10 ans
di
C 8 8 0
D 12 7 5
E 8 9 -1
F 10 6 4
G 8 10 -2
H 9 9 0
I 7 3
J 9 1
anne passe 12 14 10 11 2 3
10 10
50
ULB - 2002
x1 x2 =
n1
2 2
n2
ax x f z
1 2
1 2
2 1
n1
2 2
n2
Exemple: Une entreprise produit une fibre synthtique dans deux usines diffrentes. En vue de dterminer si le mme niveau de qualit (rsistance) est atteint dans les deux usines, un chantillon de 25 spcimens est prlev dans lusine 1 et un chantillon de 16 spcimens dans lusine 2.
2 Usine 1: 1 = 10lb 2 2 Usine 2: 2 2 = 10lb
n1 = 25 x1 = 22lb n2 = 16 x2 = 20lb
ULB - 2002
0.0 , 4.0
2 p
an 1fs + an 1fs =
1 2 1 2
2 2
n1 + n2 2
Intervalle de confiance : ( df = n1 + n2 2)
ax x f t
1 2
1 2
s2 s2 p + p n1 n2
ax x f t'
1 2
1 2
2 s12 s2 + n1 n2
avec :
s12 w1 = n1
t '1 2 =
t1 = t1 2 df = n1 1
w1t1 + w2 t2 w1 + w2
2 s2 w2 = n2
t2 = t1 2 df = n2 1
52
ULB - 2002
Populations non normalement distribues : Intervalle de confiance approch pour deux grands chantillons ( n1 30 et n2 30 ) :
ax x f z
1 2
1 2
2 s12 s2 + n1 n2
a f
p 1 p n
a f
a f
ULB - 2002
! p ! f z ap
1 2
1 2
a f ! a1 p !f p ! a1 p ! f p +
1 1 2 2
n1
n2
Exemple: Un sondage est ralis pour tudier les caractristiques des personnes abonnes deux journaux. Un chantillon de 500 abonns au journal A montre que 300 dentre eux ont un revenu annuel suprieur 40,000. Un autre chantillon de 500 abonns au journal B montre que 200 de ces personnes ont un revenu suprieur 40,000.
Intervalle de confiance 95% pour la diffrence entre les proportions dabonns ayant un revenu suprieur 40,000 dans les deux populations ? 300 200 !A = !B = p = 0.6 p = 0.4 500 500 . a0.6 0.4f 196 0.6 1 0.6 0.4 1 0.4 + 500 500
54
ULB - 2002
z 2 2 n= 2 d Exemple: Une entreprise de publicit veut estimer le montant moyen des achats raliss dans un certain type de magasins. Lexprience a montr que la variance population est de lordre de 1,800,000. Quel doit tre la taille minimum de lchantillon prlever si lon veut connatre la moyenne population 500 prs, au niveau de confiance 95% ?
z = z0.975 = 1.96 2 = 1,800,000 d = 500
!z - intervalle de confiance: p
! 1 p ! p n
a f
! 1 p ! p n
a f
f
a f
a f