Vous êtes sur la page 1sur 133

Lchantillonnage

Les caractristiques de la population sont obtenues en analysant un chantillon, cest-dire une partie, souvent trs petite, de la population. Comment obtenir un bon chantillon? Quelle est la fiabilit des rsultats obtenus? Comment interprter les rsultats obtenus?

Pourquoi prendre un chantillon


1) le cot: analyser toute la population cote trop cher. Le recensement suisse de 2000 a cot plus de 10 millions. Analyser le contenu en alcool de toutes les bouteilles de vin cote trop cher. 2) le temps: couter tous les CD pour connatre leur qualit ne peut pas se faire rapidement mais on doit prendre une dcision dachat dans un bref dlai.

Types dchantillons
1) Echantillon alatoire simple 2) Echantillon systmatique 3) Echantillon stratifi 4) Echantillon par grappe 5) Echantillon plusieurs degrs 6) Echantillon selon la mthode des quota

Echantillon alatoire simple


Tous les lments de la population ont la mme probabilit de faire partie de lchantillon. Si les lments de la population sont N et ceux de lchantillon n, la probabilit quun lment soit dans lchantillon est n/N.

Exemple
On dsire connatre les dpenses moyennes des tudiants lausannois en prenant un chantillon alatoire simple de 1000 personnes. En utilisant MINITAB, on met les numros des tudiants dans C1. La commande Sample 1000 C1 C2 permet dobtenir lchantillon dsir. On peut aussi utiliser une table de nombres alatoires.

Nombres alatoires

Commande MINITAB
Introduire les valeurs dans C1 Choisir dans le menu: Calc / Donnes alatoires / Echantillon des colonnes Dans Prlever, mettre la grandeur de lchantillon Dans Mmoriser les chantillons, mettre par exemple C2 Cocher Echantillon avec remplacement si lon veut un chantillon non exhaustif.

Estimations de la moyenne
1) Mthode des moments: prendre le mme moment de lchantillon la moyenne de lchantillon (x) est lestimateur de la moyenne de la population (). 2) Prendre le premier lment de lchantillon 3) Choisir la valeur la plus probable: mthode du maximum de vraisemblance

Population et chantillons
Population, ge de 3 tudiants: 19 20 24 N=3 ; =21 ; 2 =42/3 ; = 2.1602 Echantillons non exhaustifs de grandeur 2 19 19, 19 20, 20 19, 20 20, 19 24, 24 19, 20 24, 24 20, 24 24 Estimateur de la moyenne de la population: moyenne de lchantillon 19 19.5 19.5 20 21.5 21.5 22 22 24 Moyenne: 21=, Variance=21/3=2/2

Population et chantillons
Population: 19 20 24 N=3 ; =21 ; 2 =42/3 ; = 2.1602 Echantillons non exhaustifs de grandeur 2 19 19, 19 20, 20 19, 20 20, 19 24, 24 19, 20 24, 24 20, 24 24 Estimateur de la moyenne de la population: premire valeur de lchantillon 19 19 20 20 19 24 20 24 24 Moyenne: 21=, Variance=42/3=2

Population et chantillons
Population: 19 20 24 N=3 ; =21 ; 2 =42/3 ; = 2.1602 Echantillons exhaustifs de grandeur 2 19 20, 20 19, 19 24, 24 19, 20 24, 24 20 Estimateur de la moyenne de la population: moyenne de lchantillon 19.5 19.5 21.5 21.5 22 22 Moyenne: 21=, Variance=11/6=2/4

N=10 ; n=4

x =21

Conclusions
1) Lestimation nest pas prcise mais les valeurs obtenues sont centres autour de la moyenne de la population 2) La variance des moyennes des chantillons est plus petite que celle des valeurs de la population. 3) La variance du premier lment de lchantillon est gale la variance des valeurs de la population. Estimateur peu prcis.

Ne pas confondre
1 2 s = ( xi x) 1) : variance (corrige) des n 1 lments de lchantillon.
2

2) Var ( x ) = = n : variance de la moyenne de lchantillon. Elle indique comment la moyenne peut varier dun chantillon lautre
2 x

Petite population
Lorsque lchantillon est exhaustif, il faut corriger la formule de la variance de la moyenne:

Var ( x) =

N n
2

n N 1

Exemple: voir les chantillons exhaustifs ci-dessus. La correction est . Rgle pratique: appliquer cette correction lorsque n > 0.1 N.

Ingalit de Chebyshev
En utilisant la dfinition de la variance, on peut calculer une limite infrieure de la probabilit que la diffrence entre un lment et la moyenne de la population soit infrieure une certaine valeur:

1 P ( x h ) 1 2 h

Applications
Lingalit de Chebyshev sapplique toute distribution ayant une variance. Elle ne peut pas donner un rsultat trs prcis. Exemples: 2 = 1 ; h =2 P(Ix-I2) 0.75 Distribution normale: normalcdf(-2,2)= 0.95 Dans les chantillons exhaustifs ci-dessus on a, avec h=2, P(112/3x301/3) 0.75 En ralit, toutes les valeurs sont dans cet intervalle (P=1).

Loi des grands nombres


La moyenne de lchantillon a une distribution avec moyenne et cart-type /n . En utilisant lingalit de Chebyshev on a:

P ( h / n x h / n ) 1 1 / h

Soit =1/h2 ; =h/n (n=2/2). Si n>2/2, >0 et 0 < < 1 on obtient: P(- < xn < ) > 1- La probabilit que xn dvie de de moins que peut tre aussi prs de 1 quon veut. Il suffit de choisir une valeur de n suffisamment grande.

Thorme limite central


Soit une distribution quelconque avec moyenne et cart-type . On tire un chantillon de grandeur n. La distribution de la moyenne de lchantillon approchera une distribution normale avec moyenne et cart-type /n lorsque n tend vers linfini. On a dj une bonne approximation lorsque n > 30.

2500000 tirages [binompdf(10,0.1,x)], 50000 chantillons de grandeur 50

2500000 tirages, 50000 chantillons de grandeur 50

2500000 tirages (entiers 0-10), 50000 chantillons de grandeur 50

2500000 tirages, 50000 chantillons de grandeur 50

2500000 tirages, 50000 chantillons de grandeur 50

2500000 tirages, 50000 chantillons de grandeur 50

2500000 tirages, 50000 chantillons de grandeur 50

2500000 tirages, 50000 chantillons de grandeur 50

2500000 tirages, 50000 chantillons de grandeur 50

Estimation
Un estimateur du paramtre est une fonction des lments de lchantillon: = f(x1,x2,,xn) Proprits dsirables: 1) centr ou sans biais: E( )= 2) variance minimale: E[* -E*]2 E[-E]2 3) convergent: P lim (I n- I < ) = 1
n

Population et chantillons
Population: 19 20 24 N=3 ; =21 ; 2 =42/3 ; = 2.1602 Echantillons non exhaustifs de grandeur 2 19 19, 19 20, 20 19, 20 20, 19 24, 24 19, 20 24, 24 20, 24 24 Estimateur de la variance de la population: variance 2 de lchantillon: ( x x ) i 2 sn = n 0 0.25 0.25 0 6.25 6.25 4 4 0 Moyenne: 21/3=2/2 , Variance=6.8055

Population et chantillons
Population: 19 20 24 N=3 ; =21 ; 2 =42/3 ; = 2.1602 Echantillons non exhaustifs de grandeur 2 19 19, 19 20, 20 19, 20 20, 19 24, 24 19, 20 24, 24 20, 24 24 Estimateur de la variance de la population: variance 2 corrige de lchantillon: ( x x ) i 2 s = n 1 0 0.5 0.5 0 12.5 12.5 8 8 0 Moyenne: 42/3=2 , Variance=27.222

Population et chantillons
Population: 19 20 24 N=3 ; =21 ; 2 =42/3 ; = 2.1602 Echantillons non exhaustifs de grandeur 2 19 19, 19 20, 20 19, 20 20, 19 24, 24 19, 20 24, 24 20, 24 24 Estimateur de lcart-type de la population: s 0 0.7071 0.7071 0 3.5355 3.5355 2.82843 2.82843 0 Moyenne: 1.571 2.1602 Estimateur biais mais le biais nest pas trs grand si n > 30.

centr

n=2 ;

: x1 = 0.5 , x2=1.5 , x= 1 ;

: x1 = 1 , x2 = 3 , x=2

Maximum de vraisemblance
0.14 0.12 0.10 0.08

L
0.06 0.04 0.02 0.00 0

0.5

V = ( e

x1

)(e

x 2

lambda

xi )= e 2

Estimation ponctuelle
Les estimateurs donns ci-dessus sont des estimations ponctuelles. On donne une valeur comme estimateur du paramtre de la population. Il faut toujours donner la prcision de lestimation. Dans le cas de la moyenne, le thorme limite central nous dit quon peut utiliser la loi normale pour calculer la prcision de lestimation.

0.95=1-

Intervalle de confiance
Un intervalle permet de saisir facilement la notion de prcision dun estimateur. Intervalle de confiance pour la moyenne: P( - z/2 x < x < +z/2 x)=1- P(x - z/2 x < < x+z/2 x)=1- Ne jamais crire: P(30 < < 50)=0.95 car P= 1 ou 0 ! Ecrire: I.C. 95% (30,50) I.C. (1-) pour : x z/2 /n

Signification de P=0.95
Si lon prend plusieurs chantillons et dans chaque cas on calcule lintervalle de confiance, alors dans 95% des cas lintervalle contient la moyenne. Si lchantillon est grand (n30), on peut utiliser lestimateur de (s): x = /n s/n

Valeurs usuelles de
0.01 0.02 0.05 0.10 1- 0.99 0.98 0.95 0.90 /2 0.005 0.01 0.025 0.05 z/2 2.576 2.326 1.96 1.645
[invNorm(0.005)=-2.576]

Commande TI-83/84
Introduire les donnes dans L1 avec Stat/Edit (si donnes brutes) Aller dans STAT/TESTS et choisir 7:ZInterval Pour Inpt choisir Data si donnes brutes ou Stats si donnes dj labores Mettre la valeur de (estimateur s si inconnu) Mettre L1 pour List et 1 pour Freq Si donnes labores, mettre x et n Mettre le niveau de confiance (1-) En pressant CALCULATE vous obtenez lintervalle de confiance de la moyenne

Commandes MINITAB et EXCEL


Pour MINITAB, introduire les donnes dans C1 Aller dans Stat / Statistiques lmentaires/ Test Z 1 chantillon Slectionner C1, introduire la valeur de Sigma. Aller dans Options et introduire le niveau de confiance Pour EXCEL, chercher Intervalle.Confiance dans les fonctions statistiques. Introduire , et n (grandeur de lchantillon). Pour avoir lintervalle, ajouter et soustraire x cette valeur.

Intervalle pour p
En utilisant lapproximation de la loi binomiale par la loi normale, on peut crire: P(p-z/2 pq/n < p < p+ z/2 pq/n)=1- Si p est inconnu, on le remplace par son estimateur p=x/n. I.C. (1-) pour p: p z/2 p(1-p)/n

Commande TI-83/84
Aller dans STAT/TESTS et choisir A:1-PropZInterval Introduire x (nombre de succs) et n (grandeur de lchantillon) Mettre le niveau de confiance (1-) En pressant CALCULATE vous obtenez lintervalle de confiance dune proportion

Commandes MINITAB
Introduire les donnes dans C1 (ex. OUI=1, NON=0) Aller dans Stat / Statistiques lmentaires/ 1 proportion Slectionner C1. Cocher Donnes rcapitules, introduire le nombre dessais et le nombre de succs si vous avez des donnes labores. Aller dans Options et introduire le niveau de confiance. Cocher Utiliser le test et lintervalle bass sur la loi normale.

Rsultats dun sondage 1.96 0.25/1003 = 0.03


Indication imprcise (24 Heures): Ce sondage a t ralis du 12 au 19 mars 2001 par lInstitut MIS Trend Lausanne, auprs de 1002 citoyens vaudois, gs de 18 74 ans, reprsentatifs de la population. Marge derreur: plus ou moins 3%. Indications correcte (Gallop Poll). Survey Methods The most recent results are based on telephone interviews with 1003 national adults, aged 18+, conducted February 1-4, 2001. For results based on the total sample of national adults, one can say with 95% confidence that the margin of sampling error is +/- 3 percentage points. In addition to sampling errror, question wording and practical difficulties in conducting surveys can introduce error or bias into the findings of public opinion polls.

Autre exemple dindication imprcise


Ce sondage a t ralis par l'institut gfs.bern pour le compte de SRG SSR ide suisse. Au total, 1220 personnes reprsentatives ont t interroges dans toute la Suisse. La marge d'erreur est d'environ 2%. Il faudrait dire: La marge derreur est denviron 2 points de pourcentage avec une probabilit de 95%.

Grandeur de lchantillon
Soit e lerreur de lestimation et zo la valeur correspondante la probabilit dsire. On a:

zo

z =en= 2 e n
2 o

zo

pq 2 pq = e n = zo 2 n e

Diffrence de deux moyennes


2 variables indp.: X ~ N(x,2x) ; Y ~N(y,2y) X-Y ~ N(x - y;2x + 2y)

x N ( x ,

2 x

nx

) ; y N ( y ,

2 y

x y N ( x y ,

2 x

nx

ny

2 y

ny

Commande TI-83/84
Introduire les donnes dans L1 et L2 avec Stat/Edit (si donnes brutes) Aller dans STAT/TESTS et choisir 9:2-SampZInt Pour Inpt choisir Data si donnes brutes ou Stats si donnes dj labores Mettre les valeurs de 1 et 2 Mettre L1 et L2, Freq1 et Freq2. Si donnes labores, mettre x1 , n1 , x2 , n2 Mettre le niveau de confiance (1-) En pressant CALCULATE vous obtenez lintervalle de confiance de la diffrence de deux moyennes

Diffrence de deux proportions


p1 p2 ~ N(p1-p2,p1q1/n1+p2q2/n2) I.C. (1-):

) ) ( p1 p2 ) z / 2

) ) ) ) p1 (1 p1 ) p2 (1 p2 ) + n1 n2

Commande TI-83/84
Aller dans STAT/TESTS et choisir B:2-PropZInterval Introduire x1, n1, x2, n2 (nombres de succs et grandeurs des chantillons) Mettre le niveau de confiance (1-) En pressant CALCULATE vous obtenez lintervalle de confiance de la diffrence de deux proportions

Commandes MINITAB
Introduire les donnes dans C1 et C2 (ex. OUI=1, NON=0) Aller dans Stat / Statistiques lmentaires/ 2 proportions Cocher Echantillons dans deux colonnes. Slectionner C1 et C2. Cocher Donnes rcapitules, introduire les nombres dessais et les nombres de succs si vous avez des donnes labores. Aller dans Options et introduire le niveau de confiance.

Loi de Student
Si n < 30 , la variable suit une loi normale et est inconnu il faut utiliser la distribution de Student (t/2) et non pas la loi normale (z/2). Nombre de degrs de libert: =n-1 t = n (x-)/s P(x-tv,/2 s/n < < x + tv,/2 s/n)=1- I.C. (1-): x tv,/2 s /n

0.4

normale
0.3

C2

0.2

0.1

Student

0.0 -4 -3 -2 -1 0 1 2 3 4

C1

Commande TI-83/84
Introduire les donnes dans L1 avec Stat/Edit (si donnes brutes) Aller dans STAT/TESTS et choisir 8:TInterval Pour Inpt choisir Data si donnes brutes ou Stats si donnes dj labores Mettre L1 pour List et 1 pour Freq Si donnes labores, mettre x, s et n Mettre le niveau de confiance (1-) En pressant CALCULATE vous obtenez lintervalle de confiance de la moyenne

Commande MINITAB
Introduire les donnes dans C1 Aller dans Stat / Statistiques lmentaires/ Test t 1 chantillon Slectionner C1 Aller dans Options et introduire le niveau de confiance

Valeurs t de Student: P(t>t)=

Diffrence de deux moyennes avec Student

x x =
1 2

s s + n1 n2

2 1

2 2

s s n +n 1 2 = 2 2 2 2 s1 s2 n n 1 + 2 n1 1 n2 1
2 1 2 2

I.C. (1-): (x1 x2)tv,/2 x1-x2

Commande TI-83/84
Introduire les donnes dans L1 et L2 avec Stat/Edit (si donnes brutes) Aller dans STAT/TESTS et choisir 0:2-SampTInt Pour Inpt choisir Data si donnes brutes ou Stats si donnes dj labores Mettre L1 et L2 pour List1 et List2 et 1 pour Freq Si donnes labores, mettre x1, s1, n1, x2, s2, n2 Mettre le niveau de confiance (1-) Pour Pooled choisir No si 1 2 En pressant CALCULATE vous obtenez lintervalle de confiance de la diffrence de deux moyennes

Commande MINITAB
Introduire les donnes dans C1 et C2 Aller dans Stat / Statistiques lmentaires/ Test t 2 chantillons Choisir Echantillons dans plusieurs colonnes Slectionner C1 pour Premier et C2 pour Deuxime Cocher Assumer variances gales si 1=2 Aller dans Options et introduire le niveau de confiance

Echantillon
1) alatoire simple 2) systmatique 3) stratifi 4) par grappe 5) mthode des quota

xi=3+(i-1)5

(i=1,2,..,n)

Calcul de lintervalle de confiance pour ou p avec un chantillon stratifi Introduire les proportions des strates dans L1, les grandeurs des chantillons dans L2, les moyennes ou les pourcentages de oui dans L3 en utilisant la commande STAT / EDIT. Aller dans PRGM et choisir STRATM pour ou STRATP pour p Introduire les carts-types des strates si STRATM Introduire le niveau de confiance (C-LEVEL) En pressant ENTER vous obtenez les intervalles Ce programme ne fait pas partie des programmes standard de la TI. Vous devez le tlcharger (voir page web du cours)

Commande TI-83/84

en dehors

en dehors si 95%

R. Perrot 19%: en dehors

Cot dun sondage


CATI (computer assisted telephone interview): 43 Fr par interview Face-to-face: 59 Fr Questionnaire: 16 Fr Personne interviewe en 2005: 2763442

Commande TI-83/84
Calcul des probabilits a posteriori avec une probabilit conditionnelle binomiale Introduire les proportions dans L1 et les probabilits a priori dans L2 en utilisant la commande STAT / EDIT. Aller dans PRGM et choisir BAPOBI Introduire nombre preuves et nombre de succs En pressant ENTER vous obtenez les probabilits a posteriori dans L5 que vous pouvez utiliser pour le programme DECISION Ce programme ne fait pas partie des programmes standard de la TI. Vous devez le tlcharger (voir page web du cours)

Vous aimerez peut-être aussi