Vous êtes sur la page 1sur 21

Aide la dcision - Statistique

ULB - 2002

4. Echantillonnage 1. Echantillonnage simple


Un chantillon doit tre reprsentatif de la population. Importance de choisir une bonne mthode dchantillonnage. Echantillon probabiliste : Echantillon prlev dans la population de faon telle que chaque individu de la population a une probabilit connue et positive dtre slectionn. Echantillon non probabiliste : Dans les autres cas. Echantillon alatoire simple : Echantillon de taille n prlev dans une population de taille N de telle faon que chaque chantillon possible de taille n a la mme probabilit dtre slectionn. Lchantillonnage alatoire simple peut tre ralis avec remplacement ou sans remplacement.

2. Distributions dchantillonnage
Distribution dchantillonnage dune statistique: Distribution de toutes les valeurs possibles de la statistique, calcules partir des chantillons de la mme taille prlevs alatoirement dans la mme population. Moyenne, variance, forme de la distribution ? Construction: - Prlev alatoirement tous les chantillons possibles de taille n. - Calculer la valeur de la statistique pour chaque chantillon. - Etablir la liste des diffrentes valeurs et de leurs frquences dapparition.
35

Aide la dcision - Statistique

ULB - 2002

3. Distribution de la moyenne chantillon


Moyenne de la population ? Echantillonnage (statistique x ) et infrence. Distribution dchantillonnage de la moyenne chantillon ? Exemple: (trs petite population usage didactique) - Population: 10 vendeurs - Variable (X): nombre danne passes dans la firme. - Valeurs: 3, 6, 2, 4, 8, 7, 9, 5, 1, 10

. et 2 = 8.25 - = 55 - Construction de la distribution dchantillonnage (pour n = 2): 100 possibilits (avec remplacement):
x 1 2 3 4 5 6 7 8 9 1 2 3 4 5 6 7 8 9 10

1 1.5 2 2.5 3 3.5 4 4.5 5

1.5 2 2.5 3 3.5 4 4.5 5 5.5

2 2.5 3 3.5 4 4.5 5 5.5 6

2.5 3 3.5 4 4.5 5 5.5 6 6.5

3 3.5 4 4.5 5 5.5 6 6.5 7


36

3.5 4 4.5 5 5.5 6 6.5 7 7.5

4 4.5 5 5.5 6 6.5 7 7.5 8

4.5 5 5.5 6 6.5 7 7.5 8 8.5

5 5.5 6 6.5 7 7.5 8 8.5 9

5.5 6 6.5 7 7.5 8 8.5 9 9.5

Aide la dcision - Statistique

ULB - 2002

10

5.5

6.5

7.5

8.5

9.5

10

Distribution dchantillonnage : Frquence Frqu. rel. x x 1 1 0.01 6 1.5 2 2.5 3 3.5 4 4.5 5 5.5 2 3 4 5 6 7 8 9 10 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.10 6.5 7 7.5 8 8.5 9 9.5 10
Total

Frequence

Frqu. rel.

9 8 7 6 5 4 3 2 1 100

0.09 0.08 0.07 0.06 0.05 0.04 0.03 0.02 0.01 1.00

Moyenne et variance de la distribution dchantillonnage :


8.25 2 x = 55 . = et = 4.125 = = n 2
2 x

Proprits: Mesure descriptive Moyenne Variance Ecart-type Population Echantillon unique


x

Distribution de x

x
2 x

s2 s

x est appel lerreur standard.


37

Aide la dcision - Statistique

ULB - 2002

Echantillonnage sans remplacement:

n Echantillonnage dans une population distribue normalement :


1. 2. 3. La distribution de x est normale.

x = et =
2 x

x = =
2 x

2
n

Thorme central limite : Pour une population infinie dont la distribution est de moyenne et de variance finie 2 , la distribution dchantillonnage de x , pour un chantillon alatoire simple de taille n, est approximativement normale de moyenne et de variance 2 n lorsque la taille de lchantillon est suffisamment grande. En pratique: grand chantillon n 30 Echantillonnage sans remplacement: corrections (pop. finie). negligeable lorsque la taille de lchantillon est beaucoup plus petite que celle de la population.

38

Aide la dcision - Statistique

ULB - 2002

Exemple: La dure de vie moyenne dun type de lame de scie est de 41.5h, avec un cart-type de 2.5h. Quel est la probabilit que l amoyenne des dures de vie dun chantillon alatoire simple de 50 lames ait une moyenne comprise entre 40.5h et 42h ? 2.5 = = 0.35 x = 415 . et 2 x 50 40.5 415 . 42 415 . P 40.5 x 42 = P z 0.35 0.35 = P z 143 . P z 2.86 = 0.9236 0.0021 = 0.9215

f FH a

f a

I K

39

Aide la dcision - Statistique

ULB - 2002

4. Distribution dune proportion chantillon


Population: Proportion p des individus ayant une caractristique particulire (variable dichotomique).
! ? Distribution dchantillonnage de la proportion chantillon p

Pour un chantillon de taille n (avec remplacement):


n p Binomiale ( n, p )

! est approximativement Pour un grand chantillon: p normalement distribute avec :

p 1 p n En pratique : grand n p > 5 et n 1 p > 5


2 p ! = p et p ! =

a f a f

Exemple: Un fabricant de clous a dtermin que 3% des clous produits sont dfectueux. On tudie un chantillon alatoire de 300 clous. Quelle est la probabilit que la proportion de clous dfectueux dans lchantillon soit comprise entre 2% et 3.5% ? n = 300 et p = 0.03 0.03 0.97 2 N ( p p = 0.03, = ) p 300

F I G 0.02 0.03 z 0.035 0.03 JJ ! 0.035f = PG Pa0.02 p 0.97 0.03 0.97 GH 0.03300 J 300 K . f = Pa z 0.51f Pa z 102
. = 0.6950 01539 = 0.5411

40

Aide la dcision - Statistique

ULB - 2002

5. Techniques avances
Echantillonnage alatoire simple Echantillonnage alatoire stratifi : - Population subdivise en sous-populations (strates) partir dune variable connue qui a un lien avec la variable tudie. Exemple: Revenu moyen dans une population ? Lchantillon contient : ouvriers, cadres, employs, ... Pour avoir une bonne reprsentation de la population: stratification en fonction du type dactivit. Slection dun sous-chantillon dans chaque groupe (strate). Variance des estimateurs infrieure au cas de lchantillonnage alatoire simple. Echantillonnage en grappes: Parfois difficile ou impossible didentifier tous les individus de la population en vue de prlever un chantillon. Utiliser des groupes dindividus comme base de lchantillonnage : districts lectoraux, quartiers, classes, Slection dun chantillons de groupes. Lchantillon est constitu par lensemble des individus de chaque groupe. Echantillonnage en grappes simple. Si on prlve un chantillon dans chaque groupe slectionn : Echantillonnage en grappes deux niveaux.

41

Aide la dcision - Statistique

ULB - 2002

Echantillonnage systmatique : Exemple: Pour obtenir une estimation des ventes dans un magasin avec un chantillon de 2% des transactions. Prendre un reu tous les 50. De faon gnrale: pour chantillonner une fraction 1/M de la population, on prend un des premiers M individus et ensuite chaque Mime individu suivant. Echantillon systmatique 1-sur-M. Cots, efficacit et taille : - qualit de lestimation taille de lchantillon cots. - Cot total = cot fixe + cot fonction du nombre dunits. - Cots dependant des strates.

42

Aide la dcision - Statistique

ULB - 2002

5. Infrence Statistique - Estimation


Tirer une conclusion quant une population partir de linformation contenue dans un chantillon prlev dans cette population. Estimateur: procdure (formule) utilise pour calculer une estimation. 1 n Exemple: x = xi n i =1 Estimation: valeur numrique particulire. Exemple: valeur de x calcule partir dun chantillon. Estimation ponctuelle : valeur unique (dune statistique).

1. Proprits de bons estimateurs


Non biais : lorsque lesprance de la statistique est gale au paramtre estimer. Exemples: x s2 s estimateur non biais de , estimateur non biais de 2 , estimateur biais de

. Convergence : si non biais et la variance de lestimateur tend vers zro lorsque la taille de lchantillon tend vers linfini. Exemples: x et s2 Efficacit : si la variance de lestimateur est minimale parmi les estimateurs non biaiss du paramtre. Suffisance : si lestimateur utilise toute linformation relative au paramtre qui est contenue dans lchantillon.
43

Aide la dcision - Statistique

ULB - 2002

2. Estimation de la moyenne population Variance population connue


=?
-

2 connue

Estimation par intervalle : intervalle contenant la valeur du paramtre estim, avec un certain degr de conviction. (On ne peut pas associer de niveau de confiance une estimation ponctuelle.) Intervalle de confiance. Intervalle plus troit niveau de confiance plus bas. Intervalle de confiance Population distribue normalement: x distribu normalement avec x = et =
2 x

2
n

P x 2 x x x + 2 x 0.95 Estimation par intervalle de : x 2 x


44

Aide la dcision - Statistique

ULB - 2002

Composantes de lintervalle de confiance : Estimation (facteur de confiance) (erreur standard) - facteur de confiance : valeur de la normale rduite, dpend du niveau de confiance (95%). - erreur standard : cart-type de lestimateur. Formule exacte : pour un niveau de confiance 1 : x z1 2 x

Niv. de confiance 90% 95% 99%

0.10 0.05 0.01

z1 2

1.645 1.96 2.58

45

Aide la dcision - Statistique

ULB - 2002

Interprtation: avec une probabilit de 100 1 % nous pouvons dire que lintervalle x z1 2 x , calcul partir dun chantillon alatoire simple de taille n provenant dune population normale, contient la valeur de la moyenne population .
Exemple: Chez un fabricant de cable, lexprience montre que la rsistance dun certain type de cable est normalement distribue avec un cart-type de = 200 livres. Un chantillon de n = 16 cables donne une moyenne de x = 6200 livres. Intervalle de confiance pour 95% ? 200 6200 196 . = 6200 196 . 50 16

a f

6102 , 6298

46

Aide la dcision - Statistique

ULB - 2002

Prcision de lestimation : Prcision = (facteur de confiance) (erreur standard) - fonction de la taille de lchantillon, - fonction des caractristiques de la population. Intervalle de confiance Population non-normale : Formule correcte comme approximation pour de grands chantillons ( n 30 ) (Cf. thorme central limite).

3. Estimation de la moyenne population Variance population inconnue


Estimateur de lerreur standard :
s n Distribution t de Student : pour une population normale : x x x x t= (z = ) sx x sx =

47

Aide la dcision - Statistique

ULB - 2002

Intervalle de confiance population normale : s x t1 2 n o t1 2 est fonction de la taille de lchantillon n ( df = n 1).

48

Aide la dcision - Statistique

ULB - 2002

Exemple: Dans une entreprise, 16 employs sont choisis au hasard pour tudier le temps requis pour accomplir une tche particulire. Chaque employ ralise la tche. Le temps moyen observ est de 13 min, et lcart-type est de 3 min.

Intervalle de confiance 95% pour le temps moyen mis par un employ (population) ?
Suppositions: population normale, chantillon alatoire simple. x = 13 s = 3 n = 16 df = 15

x t0.975

3 16

13 2.1315 0.75 11.4 , 14.6 Intervalle de confiance population non-normale : 1 Grand chantillon ( n 30 ): thorme central limite : s x z1 2 n 2 Petit chantillon (n < 30): ??? Observations apparies : au sein dune seule population.
Exemples:

- mesures ralises sur des individus avant et aprs un traitement, - mesures faites pour deux priodes de temps distinctes, ... Analyse de la diffrence entre les deux mesures.

49

Aide la dcision - Statistique

ULB - 2002

Intervalle de confiance pour lcart moyen :


di = x1i x2i (diffrence entre les paires de valeurs observes)
di d di 2 d = s = d n 1 n intervalle de confiance pour d = 1 2 :
2

e.g. pour une population normale avec variance inconnue : s d t1 2 d n Exemple: Un chantillon de n = 10 entreprises du secteur lectronique ont donn le montant dpens la formation de leurs employs durant lanne coule et durant la mme priode il y a dix ans. Les donnes sont prsentes dans le tableau suivant (ajustes pour tenir compte de linflation): Entreprises il y a10 ans
di

C 8 8 0

D 12 7 5

E 8 9 -1

F 10 6 4

G 8 10 -2

H 9 9 0

I 7 3

J 9 1

anne passe 12 14 10 11 2 3

10 10

Intervalle de confiance 95% pour la diffrence moyenne ?


d =

15 2.3 = 15 . sd = 517 . = 2.3 sd = = 0.73 10 10 15 . 2.2622 0.73


- 0.2 , 3.2

50

Aide la dcision - Statistique

ULB - 2002

4. Estimation de la diffrence entre deux moyennes population Variances population connues


Diffrence entre les moyennes dune mme variable dfinie sur deux populations ?

Deux chantillons alatoire indpendants : Population 1: 1 1 n1 Population 2: 2 2


n2 x1 x2 s1 s2

x1 x2 est un estimateur non biais de 1 2 Pour deux populations normales :


2 1

x1 x2 =

n1

2 2
n2

Intervalle de confiance pour 1 2 :

ax x f z
1 2

1 2

2 1

n1

2 2
n2

Exemple: Une entreprise produit une fibre synthtique dans deux usines diffrentes. En vue de dterminer si le mme niveau de qualit (rsistance) est atteint dans les deux usines, un chantillon de 25 spcimens est prlev dans lusine 1 et un chantillon de 16 spcimens dans lusine 2.
2 Usine 1: 1 = 10lb 2 2 Usine 2: 2 2 = 10lb

n1 = 25 x1 = 22lb n2 = 16 x2 = 20lb

Supposition: les deux populations sont distribues normalement.


51

Aide la dcision - Statistique

ULB - 2002

intervalle de confiance 95% pour 1 2 ?


. a22 20f 196 10 10 + 25 16

0.0 , 4.0

5. Estimation de la diffrence entre deux moyennes population Variances population inconnues


Populations normalement distribues Variances inconnues mais gales : Estimation groupe de 2 :

2 p

an 1fs + an 1fs =
1 2 1 2

2 2

n1 + n2 2

Intervalle de confiance : ( df = n1 + n2 2)

ax x f t
1 2

1 2

s2 s2 p + p n1 n2

Populations normalement distribues Variances ingales :


Intervalle de confiance approch :

ax x f t'
1 2

1 2

2 s12 s2 + n1 n2

avec :
s12 w1 = n1

t '1 2 =
t1 = t1 2 df = n1 1

w1t1 + w2 t2 w1 + w2
2 s2 w2 = n2

t2 = t1 2 df = n2 1

52

Aide la dcision - Statistique

ULB - 2002

Populations non normalement distribues : Intervalle de confiance approch pour deux grands chantillons ( n1 30 et n2 30 ) :

ax x f z
1 2

1 2

2 s12 s2 + n1 n2

6. Estimation dune proportion


! p ? chantillon alatoire de taille n : estimateur p

Pour np > 5 et n 1 p > 5 :


! approximativement normale avec p p ! = p et p ! =

a f

p 1 p n

a f

Intervalle de confiance approch pour p :


! 1 p ! p n Exemple: Une socit de marketing veut estimer quelle est la proportion dindividus qui jouent au tennis dans une rgion donne. Un chantillon alatoire de 500 individus rvle que 76 des individus constituant lchantillon jouent au tennis. ! z1 2 p

a f

Intervalle de confiance 95% pour la proportion dans la population ? 0152 196 . .


0.848 0152 . 500

0.152 0.031 0.121 , 0.183


53

Aide la dcision - Statistique

ULB - 2002

7. Estimation de la diffrence entre deux proportions


!1 p !2 p1 p2 ? Deux chantillons alatoires indpendants : p
Intervalle de confiance approch pour p1 p2 :

Suppositions: n1 p1 > 5 n1 1 p1 > 5 n2 p2 > 5 n2 1 p2 > 5

! p ! f z ap
1 2

1 2

a f ! a1 p !f p ! a1 p ! f p +
1 1 2 2

n1

n2

Exemple: Un sondage est ralis pour tudier les caractristiques des personnes abonnes deux journaux. Un chantillon de 500 abonns au journal A montre que 300 dentre eux ont un revenu annuel suprieur 40,000. Un autre chantillon de 500 abonns au journal B montre que 200 de ces personnes ont un revenu suprieur 40,000.

Intervalle de confiance 95% pour la diffrence entre les proportions dabonns ayant un revenu suprieur 40,000 dans les deux populations ? 300 200 !A = !B = p = 0.6 p = 0.4 500 500 . a0.6 0.4f 196 0.6 1 0.6 0.4 1 0.4 + 500 500

54

Aide la dcision - Statistique

ULB - 2002

8. Dtermination de la taille dun chantillon


Pour lestimation de moyennes : - intervalle de confiance : x z

- prcision demi-longueur de lintervalle: d = z

z 2 2 n= 2 d Exemple: Une entreprise de publicit veut estimer le montant moyen des achats raliss dans un certain type de magasins. Lexprience a montr que la variance population est de lordre de 1,800,000. Quel doit tre la taille minimum de lchantillon prlever si lon veut connatre la moyenne population 500 prs, au niveau de confiance 95% ?
z = z0.975 = 1.96 2 = 1,800,000 d = 500

. f 1,800,000 a196 n= = 27.65 28 a500f


2 2

Pour estimer des proportions:

!z - intervalle de confiance: p

! 1 p ! p n

a f
! 1 p ! p n

- prcision demi-longueur de lintervalle: d = z


! 1 p ! z2 p n= d2

a f
f

a f

! est inconnu ! mais p

! 1 p ! z2 p z 2 0.5 1 0.5 z2 dans le pire des cas : n = = 2 4d d2 d2


55

a f