Vous êtes sur la page 1sur 53

Conservatoire National des Arts et Mtiers

Ple Sciences et Techniques de l'Information et de la Communication, Spcialit Mathmatiques

UE STA 108

Enqutes et sondages

MANUEL DEXERCICES

Sylvie Rousseau

Anne scolaire 2011 2012

Table des matires

I. Rappels de probabilits et de statistique infrentielle ........................................3


Rappels sur les lois de probabilits Rappels sur les intervalles de confiance 5 7

II. Sondage alatoire simple ...................................................................................11


Rappels sur le sondage alatoire simple 16

III. Plans probabilits ingales ............................................................................18


Rappels sur les plans probabilits ingales 20

IV. TP1 : Simulations de tirage dchantillons ......................................................21 V. Plans stratifis.....................................................................................................24


Rappels sur les plans stratifis 29

VI. Plans par grappes ..............................................................................................31


Rappels sur les plans par grappes 35

VII. Plans plusieurs degrs ..................................................................................37


Rappels sur les plans plusieurs degrs 40

VIII. Redressements ................................................................................................42


Rappels sur les redressements 44

IX. TP2 : Calage sur marges ...................................................................................49 X. TP3 : Correction de la non-rponse...................................................................49 XI. Complments et rvisions.................................................................................49

I. Rappels de probabilits et de statistique infrentielle

Exercice 1

Notions desprance et de variance

Un passager du mtro mesure son temps de trajet domicile-travail pendant 10 jours et relve successivement (en minutes) : 32 ; 25 ; 28 ; 36 ; 30 ; 26 ; 37 ; 25 ; 33 ; 28 . Quel est en moyenne la dure du trajet ? valuer aussi la variabilit de cette dure. Comparer avec un autre itinraire emprunt par notre voyageur pendant les jours suivants et qui lui prend : 46 ; 21 ; 24 ; 38 ; 44 ; 22 ; 37 ; 20 ; 25 ; 23 minutes.

Exercice 2 A chaque balade quil effectue, un cavalier a une probabilit p dtre dsaronn.

Loi binomiale

1. Quelle est la probabilit que le cavalier ait chut k fois au terme de n balades ? On suppose que les diffrentes promenades sont indpendantes les unes des autres. 2. Quelle est la loi du nombre de chutes en n balades ? 3. Donner lesprance et la variance du nombre de chutes en n balades.

Exercice 3

Loi hypergomtrique

Le responsable qualit dune usine contrle 20 objets dans chaque lot de 1000 objets avant de le laisser partir vers le client. Il accepte seulement les lots pour lesquels il ne trouve aucun objet non conforme dans lchantillon ; dans le cas contraire, le lot est tri unit par unit. 1. Si p% des pices fabriques sont dfectueuses, quelle est la probabilit den trouver k dans un lot donn de taille 20 ? 2. Quelle est la probabilit pour quun lot contenant une proportion p = 0,05 dobjets non conformes soit accept ? 3. Mme question pour p = 0,1.

Exercice 4

La moyenne empirique

Soient X1, X2, , Xn n variables alatoires indpendantes et identiquement distribues (i.i.d.) de moyenne m et de variance . La moyenne empirique est : X =

1 n X i . Calculer E (X ) et V (X ). n i =1

Exercice 5

Intervalle de confiance pour une moyenne

On a mesur le rendement de 100 parcelles de bl dune varit donne. On a obtenu 100 2 1 100 me parcelle (en qx/ha). x i = 86 et x i = 750000 o xi exprime le rendement observ sur la i 100 i =1 i =1 On suppose que les rendements sont mutuellement indpendants et quils sont issus dune population infinie distribue selon une loi normale de moyenne m et de variance . Construire un intervalle de confiance pour le rendement moyen au niveau de confiance 95%. 3

Exercice 6

Protection de lanonymat dans une enqute

Pour prserver lanonymat dans certaines enqutes par sondage, le procd suivant peut tre suivi. Admettons que lon veuille estimer la proportion de personnes qui remplissent leur dclaration fiscale de manire honnte. On demande alors chaque personne interroge de se retirer dans une pice isole, et de jouer pile ou face. - si elle obtient pile alors elle doit rpondre honntement par oui ou non la question Votre dclaration fiscale est-elle honnte ? - si elle obtient face , elle devra lancer la pice une nouvelle fois et rpondre par oui ou non la question Avez-vous obtenu face au deuxime tirage ? . Grce ce procd, il est impossible lenquteur de savoir quelle question se rapporte la rponse de la personne interroge, celle-ci peut donc fournir sans crainte une rponse sincre. 1. On note p la proportion inconnue de dclarations fiscales remplies honntement dans la population et la proportion de rponses oui . Montrer que = p/2 + 1/4 . 2. Soit X la variable alatoire dsignant le nombre de rponses oui dans une enqute auprs de n personnes. Quelle est la loi de X ? Donner un estimateur de et un estimateur de p. Calculer leur esprance et variance respectives. 3. En dduire un intervalle de confiance de niveau 1- pour p. On utilisera lapproximation normale de la loi binomiale. 4. Application numrique avec n = 1000 et 600 rponses affirmatives. Donner une estimation de p et un intervalle de confiance pour p au niveau 95%. Quel est le prix pay pour la confidentialit ?

Quelques rappels sur les lois de probabilit


Variable alatoire X Cest une grandeur qui peut prendre diffrentes valeurs avec diffrentes probabilits. Elle est dfinie sur l'ensemble des rsultats possibles (ou vnements) d'une exprience alatoire (ex : rsultat dun jeu de hasard, dure dattente,). Loi de probabilit La loi de probabilit, ou distribution, d'une variable alatoire X est dfinie par l'ensemble des valeurs prises par X ainsi que par : - la probabilit de chaque valeur possible de X quand X est une v.a. discrte, - la probabilit que X se ralise dans un intervalle donn quand X est une v.a. continue. La fonction de densit de X, drive de la fonction de rpartition caractrise la loi de probabilit. Esprance E(X) Cest la valeur que l'on peut esprer obtenir, en moyenne, en ralisant une v.a. X. On lassimile la moyenne de X par abus de langage. Pour une variable alatoire discrte, E ( X ) = k P( X = k ) .
k

Pour une variable alatoire continue admettant une densit f(x), E ( X ) = xf ( x ) Proprits : - Pour c constante relle, E (c ) = c E ( X + Y ) = E ( X ) + E (Y ) : on dit que l'esprance est un oprateur linaire - Si X et Y sont indpendantes alors E ( XY ) = E ( X ) E (Y ) Variance Var(X) Cest une mesure de la variabilit des valeurs par rapport la moyenne. Plus les valeurs de X sont
2 = E[X E ( X )] = E ( X ) [E ( X )] imprvisibles , plus elle est grande. Elle se dfinit par Var( X ) = X ( moyenne des carrs des carts la moyenne ) Proprits : - La variance est toujours positive ou nulle Var ( X ) = 0 X constante -

Var (cX ) = c Var ( X ) o c est une constante relle Var ( X + Y ) = Var ( X ) + Var (Y ) + 2Cov( X , Y )
o o

Cov( X , Y ) = 0 si X et Y sont indpendantes

Cov( X , Y ) = XY = E [X E ( X )] E [Y E (Y )]

Loi de Bernoulli B(p) Cest la loi de la variable X qui indique si le rsultat dune preuve est un chec ou un succs (par exemple : jouer pile ou face). P( X =1)= p et P( X =0)=1 p Loi de probabilit : Esprance : E(X)= p Variance : Var(X)= p(1 p) Loi binomiale B(n,p) Cest la loi de la variable X qui compte le nombre de boules blanches obtenues lissue de n tirages, indpendants et avec remise, dans une urne de taille N contenant p % de boules blanches. Loi de probabilit : Esprance :
k pk( P( X =k )=Cn 1 p ) nk

avec k{0,1,...,n}

Variance : N.B. : une loi binomiale de paramtres n et p est aussi la somme de n lois de Bernoulli indpendantes et de mme paramtre p. 5

E(X)=np Var(X)=np(1 p)

Loi hypergomtrique H(N, n,p) Cest la loi de la variable X qui compte le nombre de boules blanches slectionnes lissue de n tirages sans remise dans une urne de taille N contenant des boules blanches en proportion p. Loi de probabilit : Esprance : Variance :

P( X =k )=

k C n_k CNp N Np avec max(0,n(N Np) )k min(n, Np ) n CN

E(X)=np
Var(X)=np(1 p) N n N 1

Convergence de la loi hypergomtrique vers la loi binomiale Si N tend vers l'infini, la loi H(N,n,p) tend vers la loi B(n, p), c'est--dire que lorsqu'on effectue un tirage dans une grande population, il importe peu que ce tirage se fasse avec ou sans remise (en pratique, on considrera que la population est grande lorsque l'chantillon reprsente moins de 10% de cette population : n /N < 0,1). Loi normale ou loi de Laplace-Gauss N(m,) Cest la loi dune variable X continue, variant de - + , dont la densit de probabilit vaut :
2 1 exp 1 xm 2 2 E(X)=m Esprance : Variance : Var(X)=

f(x)=

( )

Convergence de la loi binomiale vers la loi normale X np Si X suit une B(n,p) et que n tend vers linfini alors N (0,1) np (1 p) En pratique, on considre que l'approximation est correcte ds que n p(1-p) > 18, d'autant plus que n est grand et p proche de 0,5.

Loi uniforme U(0,1) Une variable X suit une loi uniforme U(0,1) si sa densit de probabilit vaut : f(x)=1]0,1[(x) Esprance : E(X)=1/ 2 Variance : Var(X)=1/12

F(x)= P( X x )= x sur [0,1]

Loi faible des grands nombres Si (X1,X2,,Xn) sont des variables indpendantes et identiquement distribues (i.i.d.) selon une loi quelconque de mme moyenne m, alors: X n = 1

n i =1

Xi m
n

Autrement dit, la moyenne d'une variable sur un chantillon alatoire simple tend vers la moyenne dans la population, quand la taille de lchantillon tend vers l'infini. Par exemple, si l'on pouvait jouer indfiniment "pile ou face" avec une pice bien quilibre, le pourcentage de "pile" obtenu tendrait vers 50 %. Thorme central limite Si (X1,X2,,Xn) sont des variables i.i.d. selon une loi quelconque de moyenne m et de variance , alors:

n X n m N(0,1)
Loi

Quelques rappels sur les intervalles de confiance


I/ Gnralits
Soient X une variable alatoire de loi paramtre par et X 1 ,...,X n n variables i.i.d. selon la loi de X. 1) Principe dun intervalle de confiance Plutt que destimer ponctuellement la vraie valeur inconnue du paramtre , on recherche un intervalle recouvrant trs vraisemblablement cette vraie valeur. Dfinition : On appelle intervalle de confiance de niveau de confiance 1 du paramtre tout intervalle IC tel que : P( IC ) = 1 pour [ 0,1] fix. Les bornes de lintervalle de confiance IC dpendent de lchantillon, elles sont donc alatoires. Par abus de langage, on note souvent P( IC ) = 1 . Remarquons que si augmente (ou que si n augmente), lamplitude de lintervalle de confiance diminue. 2) Vocabulaire La probabilit pour que lintervalle de confiance ne contienne pas la vraie valeur peut tre rpartie diffremment de part et dautre des bornes de lintervalle de confiance. crivons donc = 1 +2 o 1 et 2 mesurent respectivement les risques gauche et droite de dpasser un seuil plancher ou plafond. Lintervalle de confiance est dit bilatral quand 1 0 et 2 0 . Si 1 = 2 = est dit symtrique. Il est dissymtrique sinon. Lintervalle de confiance est dit unilatral si 1 2 = 0 : - quand on veut assurer une valeur minimale au paramtre estimer, on considre 1 = et 2 = 0 , lintervalle de confiance est alors de la forme : IC = [ a ,+[ . - quand on ne veut pas dpasser un seuil maximal, on prend 1 = 0 et 2 = et on obtient alors un intervalle de confiance de la forme : IC = ] , b] . 3) Construction Pour construire un intervalle de confiance, on utilise une variable alatoire dont on connat la distribution de probabilit. Dfinition : une fonction pivotale pour le paramtre est une fonction des observations ( X 1,..., Xn) et du paramtre dont la loi ne dpend pas du paramtre . On recherche dans la suite des fonctions pivotales particulires adaptes aux cas tudis.

, lintervalle

II/ Intervalles de confiance pour lesprance


On envisage deux cas : la variable alatoire mesure est normale et le nombre de ralisations est quelconque, la variable alatoire mesure n'est pas normale et le nombre de ralisations est important. Dans ce cas, la distribution de la moyenne empirique tend vers une loi normale d'aprs le thorme central limite. On parlera dintervalle de confiance asymptotique. 7

Dans la suite on considre X ~ N(m, 2 ) et X 1 ,...,X n n variables i.i.d. selon la loi de X. On dfinit
1 n 1
n

la

moyenne
Xn) .
2

empirique

Xn =

1 n

X
i =1

et

la

variance

empirique

modifie

S n' 2 =

( X
i =1

1) Cas o la variance est connue Aprs centrage et rduction de la moyenne empirique, on obtient :
Xn m u = 1 On a : P u n n Xn m

N ( 0,1)

o u est le fractile dordre 1

de la loi N ( 0,1) .

Ce qui revient :

P X n u m Xn + u = 1 . n n

Quand la variance est connue, lintervalle de confiance bilatral symtrique pour lesprance dune loi normale scrit donc au niveau 1 sous la forme suivante :
, xn + u IC ( m ) = x n u n n

x n est la ralisation de X n sur lchantillon.

Remarque : si = 5% , le fractile dordre 0,975 de la loi normale centre rduite correspond 1,96. si = 10% , le fractile dordre 0,95 de la loi normale centre rduite vaut environ 1,64.

2) Cas o la variance est inconnue On a : d'o


n Xn m
' Sn

St (n 1)

(loi de Student n-1 degrs de liberts). o t est le fractile dordre 1

Xn m P t n t = 1 S n'

de la loi St (n 1)

' ' Sn Sn = 1 . et donc P X n t m Xn + t n n Quand la variance est inconnue, lintervalle de confiance bilatral symtrique pour lesprance dune loi normale scrit donc au niveau 1 sous la forme suivante :

sn' sn' IC ( m ) = x n t , xn + t n n

' ' x n et sn sont les ralisations respectives de X n et S n

sur lchantillon.

Remarque : quand n , on approxime la loi de Student par la loi normale centre rduite. On retrouve alors le cas prcdent.

3) Cas particulier : intervalle de confiance pour une proportion Soient X 1 ,...,X n i.i.d. selon B( p ) et X = -

X
i =1

~B(n, p ) . Notons Fn =

X estimateur sans biais de p. n Fn p p(1 p)

Dans le cas de grands chantillons :


n
N (0,1) .
loi n

En approchant une loi binomiale vers une loi normale, on a :


Ce qui permet dcrire : P u n loi N ( 0,1) . Fn p

de la u = 1 o u est le fractile dordre 1 2 p(1 p)

Et donc lintervalle de confiance bilatral symtrique pour une proportion p au niveau 1 sobtient en rsolvant linquation :
n Fn p p (1 p ) u

Ce qui donne en notant f n la ralisation de Fn sur lchantillon:


u u u u u u + f n (1 f n ) f n + + + f n (1 f n ) fn + 2n 2n n 4n n 4n , IC(p) = u u 1+ 1+ n n

Pour une taille dchantillon importante, on considre lapproximation suivante :


IC ( p) = f n u f n (1 f n ) , fn + u n f n (1 f n ) n

Cette approximation est parfaitement justifie sur le plan thorique. En effet, daprs le thorme de Slutsky, on a : On en dduit donc que :
Do : P u n Fn p Fn (1 Fn ) n Fn p Fn (1 Fn ) u = 1
loi n
p

Fn (1 Fn ) p 1 p .

N (0,1) .

o u est le fractile dordre 1

de la loi N ( 0,1) .

Quand n est grand, lintervalle de confiance bilatral symtrique pour une proportion scrit donc au niveau 1 sous la forme :
f n 1 f n IC (p) = f n u n

f n 1 f n , fn + u n

f n est la ralisation de Fn sur lchantillon.

Sinon, construction dintervalles de confiance exacts :

On construit ces intervalles en considrant la fonction de rpartition de la loi binomiale. Si la probabilit de recouvrement de lintervalle ne vaut pas exactement 1 , on prend lintervalle ayant la plus petite probabilit de recouvrement parmi ceux ayant une probabilit de recouvrement suprieure 1 .

III/ Intervalles de confiance pour la variance d'une loi normale


Soient X ~ N(m, 2 ) et X 1 ,...,X n n variables i.i.d. selon la loi de X. 1) Cas o lesprance est connue Soit
S n* 2 = 1 n

( X i m) 2 .
i =1

On a

*2 Sn

2 ( n)

*2 Sn 2 2 Do P n 2 2 1 1 2 2

= 1

2 o est le fractile dordre 1 de la loi 2 ( n) , 1 2 2 et 1 2 est le fractile dordre 1 2 de la loi ( n ) .

Quand lesprance est connue, lintervalle de confiance bilatral pour la variance dune loi normale scrit donc au niveau 1 sous la forme suivante :
*2 *2 sn sn , n 2 IC ( 2 ) = n 2 1 2 2 1 2
* * sn est la ralisation de S n sur lchantillon.

Remarque : cet intervalle n'est pas centr car la loi du khi-deux n'est pas symtrique.

2) Cas o lesprance est inconnue On considre la variance empirique modifie pour . On sait que
( n 1) S n' 2 2 ( n 1) . 2 est le fractile dordre 1 de la loi 2 ( n 1) = 1 o 1
2 2 et 1 2 le fractile dordre 1 2 de la loi ( n 1) .

S n' 2

1 = n 1

( X
i =1

X n ) comme fonction pivotale


2

'2 Sn 2 ( n 1) 2 2 2 On a donc P 1 1 2 2

Quand lesprance est inconnue, lintervalle de confiance bilatral pour la variance dune loi normale scrit donc au niveau 1 sous la forme suivante :
'2 '2 sn sn ( ) ( ) IC ( ) = n 1 2 , n 1 2 2 1 1 2 2
2

' ' sn est la ralisation de S n sur lchantillon.

10

II. Sondage alatoire simple


Exercice 1 Un petit exemple

Lexercice propose de retrouver sur un exemple les rsultats de la thorie pour un sondage alatoire simple sans remise de taille fixe. On considre pour cela tous les chantillons possibles de taille 2 pris dans une population de taille N = 5. On connat par ailleurs les valeurs de la variable dintrt Y pour chaque unit de la population, savoir respectivement : 8, 3, 11, 4 et 7. 1. Calculer la moyenne Y et la dispersion S Y du caractre dintrt sur la population. 2. Lister tous les chantillons possibles de taille 2.
2

3. Pour chacun de ces chantillons, calculer lestimateur Y de la moyenne de la variable

. Y dintrt ainsi que lestimateur de sa variance V


4. Vrifier que Y estime sans biais la vraie moyenne. 5. Calculer la variance V Y . 6. Vrifier que V Y concide avec la formule de la variance donne par la thorie. 7. Vrifier que estime sans biais la vraie variance V Y .

()

( ) ) (Y V

( )

( )

Exercice 2

Rappels de cours

Lexercice propose de dmontrer des rsultats prsents dans le cours et dinsister sur des techniques de raisonnement usuelles en sondage. Considrons quon veuille estimer le total et la moyenne dune grandeur Y dans une population U de taille N. Pour cela, on procde un sondage alatoire simple sans remise de taille n et on note S lchantillon alatoire obtenu. 1. Combien y a-t-il dchantillons possibles ? Quelle est la probabilit de tirer chacun dentre eux ? 2. On considre un individu k quelconque dans U. Combien y a-t-il dchantillons contenant cet individu ? En dduire la probabilit de tirage de k. 3. On note I k la variable alatoire valant 1 si k appartient lchantillon et 0 sinon. a. Que vaut E (I k ) ?

b. Comment peut-on rcrire

k S

partir des I k ?

4. En dduire que : a.

N ty = n

k S

estime sans biais le vrai total t y =

k U

b. et que Y =

1 1 Yk estime sans biais la vraie moyenne Y = n k S N

k U

5. Combien y a-t-il dchantillons comprenant les individus identifis k et l ? En dduire la probabilit de tirer ces deux individus conjointement. Que vaut alors E (I k I l ) ? En dduire

Cov(I k , I l ) .

11

6. On note S y =
2

1 n (Yk Y )2 et f = N . Montrer que : N 1 k U


2 Sy

y ) = N ( N n ) a. Var (t
b.

= (1 f ) S Var Y n

()
2

2 y

7. Quel est lintrt du sondage sans remise par rapport au sondage avec remise ? 8. Montrer que s =

1 Yk Y n 1 k S

estime sans biais S y .


2

. y et de Var Y 9. En dduire des estimateurs sans biais de Var t

( )

()

Exercice 3 Estimation de la surface agricole utile dun canton (daprs P.Ardilly et Y.Till, Exercices corrigs de mthode de sondage, Ellipses, 2003 ) On veut estimer la surface moyenne cultive dans les fermes dun canton rural. Sur 2010 fermes que comprend ce canton, on en tire 100 par sondage alatoire simple. On mesure Yk la surface cultive par la ferme k en hectares et on trouve :

k S

= 2907 ha et

k S

2 k

= 154 593 ha 2 1 N

1. Donner la valeur de lestimateur sans biais classique de la moyenne Y = 2. Donner un intervalle de confiance 95% pour Y .

k U

Exercice 4 Estimation dune retombe touristique (daprs A-M. Dussaix et J-M. Grosbras, Exercices de sondage, Economica, 1992 ) 145 mnages de touristes sjournant en France dans une rgion donne ont dpens 830 en moyenne par jour. Lcart type estim de leurs dpenses slve 210 . Sachant que 50 000 mnages de touristes ont visit la rgion o a t effectue lenqute, que peut-on dire de la dpense totale journalire de lensemble de ces mnages ? On supposera pour cela que lchantillon est issu dun plan alatoire simple probabilits gales.

Exercice 5 Taille dchantillon pour un sondage dopinion (daprs A-M. Dussaix et J-M. Grosbras, Exercices de sondage, Economica, 1992 )

= 30% Un sondage sur la popularit dune personnalit politique lui accorde un pourcentage p dopinions favorables. En admettant quil sagisse dun sondage alatoire simple sans remise et que la taille de lchantillon est ngligeable au regard de celle de la population, combien de personnes ontelles t interroges pour que lon puisse dire avec un degr de confiance de 95% que la vraie de plus de deux points ? proportion dopinions favorables dans la population ne scarte pas de p

12

Exercice 6 Taille dchantillon pour une proportion (daprs P.Ardilly et Y.Till, Exercices corrigs de mthode de sondage, Ellipses, 2003 ) On sintresse lestimation de la proportion P dindividus atteints par une maladie professionnelle dans une entreprise de 1500 salaris. On sait par ailleurs que trois personnes sur dix sont ordinairement touches par cette maladie dans des entreprises du mme type. On se propose de slectionner un chantillon au moyen dun sondage alatoire simple. 1. Quelle taille dchantillon faut-il slectionner pour que la longueur totale dun intervalle de confiance avec un niveau de confiance 0,95 soit infrieure 0,01 pour un plan simple : a. avec remise ? b. sans remise ? 2. Que faire dans le cas du plan sans remise si on ne connat pas la proportion dindividus habituellement touchs par la maladie ?

Exercice 7 Nombre despaces de stationnement prvoir (daprs A-M. Dussaix et J-M. Grosbras, Exercices de sondage, Economica, 1992 ) Une entreprise de promotion immobilire dsire estimer le nombre despaces de stationnement requis pour une nouvelle tour devant abriter des bureaux. Elle dcide de procder un sondage alatoire simple sans remise. Elle sait que le nouveau btiment abritera 5 000 personnes et que, dans des entreprises de mme type que celles devant emmnager dans les futurs locaux, la proportion de personnes se rendant leur bureau en utilisant les moyens de transport en commun est toujours suprieure 75%. Quelle doit tre la taille de lchantillon pris au sein des futurs occupants des bureaux pour pourvoir estimer le nombre despaces de stationnement prvoir avec une marge derreur symtrique dau plus 150 places au niveau de confiance 90% ?

Exercice 8 Application au marketing direct (daprs A-M. Dussaix et J-M. Grosbras, Exercices de sondage, Economica, 1992 ) Les sondages sont trs largement utiliss dans le marketing direct : il arrive souvent que lon estime par sondage le rendement dun fichier donn, ou que lon souhaite comparer les rendements de plusieurs fichiers, ou encore, que disposant de plusieurs fichiers, on souhaite estimer par sondage le rendement global de lensemble de ces fichiers. Dans cet exercice, on suppose lexistence d'un fichier de N = 200 000 adresses. On note p le rendement inconnu du fichier une offre dabonnement prix rduit avec calculette offerte en prime ; cest donc la proportion dindividus qui sabonneraient si loffre est lestimation de p obtenue partir dun tait offerte tous les individus du fichier. Selon lusage p test fait sur un chantillon de n adresses choisies probabilits gales et sans remise sur le fichier. 1. On sait par exprience que les rendements ce type doffre sur ce fichier ne dpassent pas gnralement 3%. Quelle taille dchantillon doit-on prendre pour estimer p avec une prcision absolue de 0,5 point et un degr de confiance de 95% ? 2. Mmes questions pour une prcision de 0,3 point et 0,1 point. 3. Le test a port sur 10 000 adresses et on a not 230 abonnements. En dduire lintervalle de confiance bilatral 95% pour le rendement p ainsi que le pour le nombre total dabonnements si la mme offre tait faite sur lensemble du fichier.

) o t1 Rappel : on appelle prcision absolue au niveau de confiance 1-- la quantit t1 V ( p


2

est le fractile dordre 1 de la loi normale centre rduite. 2

13

Exercice 9 Un cas denqute rpte (daprs P.Ardilly et Y.Till, Exercices corrigs de mthode de sondage, Ellipses, 2003 ) On considre une population de 10 stations-services et on sintresse au prix du litre de supercarburant que chacune dentre elles affiche. Plus exactement, sur deux mois conscutifs, mai et juin, les donnes de prix figurent dans le tableau ci-dessous : Prix du litre de supercarburant Station Mai Juin 1 5,82 5,89 2 5,33 5,34 3 5,76 5,92 4 5,98 6,05 5 6,20 6,20 6 5,89 6,00 7 5,68 5,79 8 5,55 5,63 9 5,69 5,78 10 5,81 5,84

On veut estimer lvolution du prix moyen du litre entre mai et juin. On choisit, comme indicateur de cette volution la diffrence des prix moyens On propose deux mthodes concurrentes: Mthode 1 : on chantillonne n stations (n < 10) en mai et n stations en juin, les deux chantillons tant totalement indpendants ; Mthode 2 : on chantillonne n stations en mai, et on interroge de nouveau ces stations en juin (technique de panel).

1. Comparer lefficacit des deux mthodes. 2. Mme question si on souhaite cette fois estimer un prix moyen sur la priode globale mai-juin. 3. Si on sintresse au prix moyen de la question 2, ne vaut-il pas mieux tirer, non pas 2 fois n relevs avec la mthode 1 (n chaque mois) mais directement 2n relevs sans se soucier des mois (mthode 3) ? Aucun calcul nest ncessaire.

Exercice 10

chantillonnages successifs

En cours de collecte, la taille dun chantillon savre parfois insuffisante pour assurer la prcision attendue. Une solution naturelle est denquter un chantillon complmentaire. Intressons-nous au plan de sondage final obtenu aprs : Un premier chantillonnage simple sans remise de n1 units parmi N probabilits gales, Suivi dun second tirage simple sans remise de n2 units parmi N-n1 probabilits gales

La slection des n = n1 + n2 units ainsi retenues obit-elle un plan simple sans remise et probabilits gales dans la population de taille N?

Exercice 11

Estimation dans un domaine

On souhaite estimer la moyenne et le total d'une variable y sur un domaine U0 dune population finie U de taille N. Ces quantits sont notes :

t y0 =

kU 0

et

Yo =

t y0 N0

1 N0

kU 0

o N D est la taille du domaine. On slectionne un chantillon s au sein de la population entire par un sondage alatoire simple sans remise de taille n. On observe un sous-chantillon s0 de taille n0 dont les individus sont dans le domaine U0.

14

On dispose des deux estimateurs suivants de la moyenne et du total de y sur le domaine U0 : 1.

N ty 0 = n

ks0

Yk
ks0

et

= ty 0 = N Y Yk 0 N 0 N 0 n ks0

2.

= 1 Y 0 n0

et

= N0 y 0 = N 0 Y t 0 n0

ks0

a) La taille n0 du sous-chantillon s0 est alatoire. Calculer sa valeur moyenne . b) Montrer que les deux estimateurs du total (ou de la moyenne) sont tous deux sans biais pour le vrai total (ou la vraie moyenne) du domaine. Est-ce que lun est prfrable lautre ? c) Donner les expressions de variance des deux estimateurs de la moyenne. Comparer ces deux variances. d) Donner les estimateurs sans biais pour les variance de ces deux estimateurs. e) Exemple : considrons une population de N = 5 793 entreprises. Supposons connues les quantits suivantes :

N 0 = 984 ,
o y dsigne le chiffre daffaires.

kU 0

=154814 ,

kU 0

2 k

= 42148912

Calculer les vraies variance pour les deux estimateurs de la moyenne pour un chantillon de taille n = 579. f) On a observ sur un chantillon particulier de taille n = 579

n0 = 89 ,

y
is0

= 13782 ,

y =4530306
2 i is0

Donner les valeurs des deux estimateurs de la moyenne et calculer les valeurs de leur variance estime.

15

Rappels sur le sondage alatoire simple


I/ Dfinition
Tirage dun chantillon de n units sans remise et probabilits gales dans une population finie compose de N units identifiables.
U s

II/ Notations
1,2,..., k ,..., N } 1. Dans la population (ou univers) U = {
Variable dintrt : Y de caractristique individuelle Yk Total : TY =

kU

Yk

Moyenne: Y =
2

TY 1 = N N

Y kU k
k

Variance : y =

1 N

(Y
kU

)2
1 N 1

2 Dispersion (variance modifie) : S y =

(Y
k U

Y ) =
2

N 2 y N 1

2. Dans lchantillon s : sous-ensemble de U de taille n(s) Ensemble des chantillons possibles : S Plan de sondage probabiliste : loi de probabilit sur S

p( s ) 0, s S , et

sS

p( s ) = 1.

Moyenne : y =

1 n

Y kS k
2

y = Dispersion empirique : s

1 n 1

(Y
k S

Probabilit dinclusion dordre un de k :

k = P(k s ) = sS / ks p(s )

Probabilit dinclusion ou double de k et l :

kl = P (k s , l s ) = sS / k ,ls p (s )

kl = kl k l

16

III/ Formulaire du sondage alatoire simple


Probabilit de slectionner lchantillon s :
n p(s) = 1/ CN

Probabilit de slectionner lindividu k : k U , k = P (k s ) =

n = f (taux de sondage) N

Paramtre dintrt Statistique Estimateur du paramtre dintrt Vraie variance dchantillonnage de cet estimateur Estimateur de la variance dchantillonnage

Moyenne

Proportion p = N0/N

Total

=1 y n

k S

( s) Yk = y
2

= p

1 n yk = 0 n n ks

=N y = N y t n

Y kS k
2

n Sy = Var y 1 N n

()

n N p(1 p) n Sy ) = Var( p y = N 1 1 Var t N N 1 n N n

( )

y n s = ar y V 1 N n

()

(1 p ) np ar( p ) = 1 V N n 1

2 n s y Var t y = N 1 N n

( )

Intervalle au niveau de confiance 95% pour la moyenne :

1,96 V , y + 1,96 V ar y ar y IC95% Y = y


sous hypothse que n est grand

()

()

()

Y y N (0, 1) ) Var ( y

17

III. PLANS PROBABILITS INGALES

Exercice 1

Rappels de cours sur lestimateur dHorvitz-Thompson

On considre une population U et on sintresse lestimation du total dune variable dintrt Y not ty = Yk . Pour cela, on prlve un chantillon s avec des probabilits individuelles de slection notes ( k )kU . 1. Rappeler lexpression de lestimateur dHorvitz-Thompson (ou -estimateur ou encore estimateur des valeurs dilates ). 2. tudier son esprance et sa variance. Exercice 2 Application directe du cours
kU

1,2,3} ,sur laquelle on dfinit le plan de sondage suivant : On considre une population U = {

1 1 1 , p({ 1,3}) = , p({2,3}) = 2 4 4 Y est une variable dfinie sur U, telle que : Y1 = Y2 = 3,Y3 = 6 dont on veut estimer le total t y .
1. Calculer les probabilits d'inclusion simple k et double kl .

1,2}) = p({

Y du total. 2. Donner la distribution de probabilit de l'estimateur de Horvitz-Thompson t


Calculer la variance de cet estimateur.

Y (il est conseill de 3. Donner la distribution de probabilit d'un estimateur de variance de t


choisir l'estimateur le plus simple calculer). On pourra vrifier que cet estimateur est sans biais. Exercice 3 Volume darchives

On dsire estimer lchelle dun canton le nombre de kilomtres linaires darchives stockes dans les mairies. Pour cela, on procde un tirage de 4 communes parmi les 9 du canton, proportionnellement leur population. 1. Calculer les probabilits dinclusion de chaque communes, partir des donnes suivantes : N de commune 1 2 3 4 5 6 7 8 9 Nom de la commune Val le Grand Les Gries Les Combres Flins Villers le Lac Fortin Montlebon Sanzeau Aumont Population 1100 650 500 2300 4000 5500 1900 200 150

2. Estimer le mtrage total des archives du canton partir des rsultats suivants : N de commune 2 4 5 6 Nom de la commune Les Gries Flins Villers le Lac Fortin Mtres darchives 17 38 55 70

18

Exercice 4

Tirage systmatique dentreprises

On veut slectionner un chantillon de taille 4 dans une population de 8 entreprises dont on connat la taille, mesure en termes deffectif salari. Lchantillon est tir probabilits proportionnelles la taille. Entreprise Taille 1 300 2 300 3 150 4 100 5 50 6 50 7 25 8 25

1. Donner les probabilits d'inclusion dordre 1 des entreprises. 2. Slectionner lchantillon selon un tirage systmatique en utilisant 0,27 comme nombre alatoire ; 3. Lister les chantillons possibles que l'on peut obtenir avec un tirage systmatique, et indiquer les probabilits de tirage de chacun d'eux. 4. A partir des chantillons obtenus, donner une estimation du total de leffectif salari des entreprises. Le rsultat tait-il prvisible ? 5. Calculer la matrice des probabilits dinclusion dordre 2 ? Commenter.

Exercice 5 Tirage de Poisson (daprs P.Ardilly et Y.Till, Exercices corrigs de mthode de sondage, Ellipses, 2003) Lorsquon effectue des tirages probabilits ingales, on utilise en gnral des mthodes dchantillonnage de taille fixe. Il existe cependant des algorithmes trs simples permettant des tirages probabilits ingales mais confrant lchantillon une taille variable. On sintresse ici au tirage de Poisson dont le principe consiste effectuer une loterie sur chaque individu de la population indpendamment dun individu lautre. Ainsi, pour une population de taille N o les probabilits dinclusion individuelles k sont connues pour tout k, on simule N alas indpendants dans la loi uniforme sur [0,1] et on retient lindividu k si et seulement si u k k 1. Vrifier que lalgorithme de tirage respecte les probabilits dinclusion dordre 1 en calculant la probabilit pour que lindividu k soit slectionn. 2. La taille de lchantillon est une variable alatoire note n S . a. crire n S en fonction des variables indicatrices de Cornfield. b. Que vaut lesprance et la variance de n S ? c. Quelle est la probabilit pour que lchantillon ait une taille au moins gale 1 ? On supposera dans la suite que lchantillon a une taille au moins gale 1.

= 3. On utilise lestimateur du total Y


des N loteries.

kS

Yk
k

o S dsigne lchantillon alatoire obtenu lissue

estime le vrai total sans biais. a. Vrifier que Y ? Comment peut-on lestimer sans biais ? b. Quelle est la variance de Y c. Que valent les probabilits dinclusion dordre 2 ?
4. Comparer un plan gnral de taille fixe n de mmes probabilits dinclusion. Quelles sont les inconvnients dun plan de taille non-fixe ?

19

Rappels sur les plans probabilits ingales


I/ Intrt
Retenir de prfrence les units les plus porteuses dinformation afin daccrotre la prcision.

III/ Formulaire
Probabilit de slectionner lindividu k : - Pour un plan probabilits proportionnelles une variable X de taille (corrle positivement Y)

U, k =P(kS)=n X k k Xk
kU

Pour un plan de taille fixe,

=n
k kU

Paramtre dintrt Statistique

Moyenne Si la taille N est connue :

Total

Estimateur dHorvitz-Thompson du paramtre dintrt (-estimateur)

y = 1 Yk = ty N ks k N
Sinon, estimateur de Hjek :

y = Yk t
ks
k k k y

k
= 1 N
ks

yH

Y = 1 Y = =t N 1 N
k ks ks k ks

En particulier :

Cas gnral Vraie variance dchantillonnage de cet estimateur

y )= 1 Yk Yl kl Var( N kU lU k l
Si la taille de lchantillon est fixe

Cas gnral :

y )= Yk Yl kl Var( t
kU lU

k l

y )= 1 Yk Yl kl Var( 2N kU lU k l
2

Si la taille de lchantillon est fixe

Var( ty )= 1 Yk Yl kl 2 kU lU k l
2

Cas gnral

Estimateur de la variance dchantillonnage

ar y )= 1 Yk Yl kl 1( V N ks ls k l kl
Si la taille de lchantillon est fixe

Cas gnral

ar y )= Yk Yl kl V 1( t
ks ls

k l kl

ar2( y )= 1 Yk Yl kl V 2N ks ls k l kl
2

Si la taille de lchantillon est fixe

ar2( ty )= 1 Yk Yl kl V 2 ks ls k l kl
2

Si n est grand, lintervalle de confiance pour la moyenne au niveau de confiance 1- est :

ar( ar( y ) y ); y +u12 V y u12 V IC1 ( y)=


o u1 dsigne le fractile dordre 1- /2 de la loi N(0,1) 2 20

IV. TP1 : SIMULATIONS DE TIRAGE DCHANTILLONS


Objectifs de la sance Utiliser diffrents algorithmes de tirages dchantillons pour des plans simples sans remise et des plans probabilits ingales ; valuer le paramtre dintrt et la prcision de cette estimation ; Valider de manire empirique certaines proprits de la thorie des sondages ; Comparer les mthodes dchantillonnage.

Donnes utilises La population tudie est celle des 771 communes rurales dle-de-France recenses en 1999. On cherche estimer le nombre total dhabitants rsidant dans ces communes ainsi que le nombre moyen dhabitants par commune. Les donnes datent des recensements de 1999 et de 1990.

Partie I : Tirage dun chantillon On cherche chantillonner 100 communes en raisonnant successivement probabilits gales puis probabilits ingales, proportionnellement la population recense en 1990. Slectionner un tel chantillon en utilisant les diffrents algorithmes suivants : 1) Tirage de Bernoulli ; 2) Mthode du tri alatoire ; 3) Mthode de slection-rejet ; 4) Tirage de Poisson ; 5) Tirage systmatique ; 6) Algorithme de Sunter.

Partie II : Simulations 1) On choisit dabord dchantillonner les communes selon un plan simple sans remise. a. Slectionner 100 chantillons de taille 50. Pour chaque chantillon, estimer le paramtre dintrt ainsi que la variance dchantillonnage. b. Vrifier empiriquement labsence de biais de lestimateur de la moyenne. c. Tracer la distribution de lestimateur de la moyenne et commenter. d. Vrifier empiriquement labsence de biais de lestimateur de la variance dchantillonnage. 2) On choisit maintenant de slectionner les communes proportionnellement leur taille, mesure en nombre dhabitants recenss en 1990. a. Slectionner 100 chantillons de taille 50. Pour chaque chantillon, estimer le paramtre dintrt. b. Vrifier empiriquement labsence de biais de lestimateur de la moyenne. c. Tracer la distribution de lestimateur de la moyenne.
3)

Comparer les deux plans de sondage.

Le choix du logiciel est libre. A toutes fins utiles, la suite de lnonc propose deux modes demploi : lun sous Excel (des macros pr-programmes sont mises disposition), lautre sous SAS qui appelle aux procdures SURVEYSELECT et SURVEYMEANS.

21

Mode d'emploi sous Excel

La base de sondage et le catalogue de macros

TP1.xls

Entre La base de sondage est dcrite dans l'onglet BS . Par commodit, le contenu de cette base se limite l'identifiant, la variable d'intrt, voire la variable auxiliaire utile au calcul de probabilits ingales proportionnelles. Paramtres L'utilisateur spcifi le nombre d'chantillons tirer ainsi que leur taille dans l'onglet Paramtres prvu cet effet. Dans le cas de simulations, un paramtre supplmentaire permet galement de spcifier si les tirages systmatiques sont probabilits gales ou ingales. Algorithmes pr-programms Les macros mises disposition permettent de slectionner un ou plusieurs chantillon(s) selon diffrents algorithmes de tirage. Elles fournissent galement les estimations de total et de moyenne de la variable d'intrt sur l'(les) chantillon(s) obtenu(s). Dans le cas de simulations, elles dressent aussi le bilan de l'ensemble des tirages. Les algorithmes pr-programms sont ceux-ci : Mthode du tri alatoire pour un plan simple sans remise (macro Tri_alatoire) ; Mthode de slection-rejet pour un ou plusieurs plan(s) simple(s) sans remise (macros Slection_rejet et Simulations_SAS_SR) ; Tirage de Bernouilli pour un plan probabilits gales et sans remise (macro Bernoulli) ; Algorithme de Sunter pour un plan probabilits ingales, de taille fixe et sans remise (macro Sunter) ; Tirage systmatique pour un ou plusieurs plan(s) probabilits ingales, de taille fixe et sans remise (macros Tirage_systmatique et Simulations_systmatique) ; Tirage de Poisson pour un plan probabilits ingales, sans remise (macro Poisson).

Sorties Les rsultats de chaque macro alimentent un onglet prcis. Avant lancement de chaque macro, il convient donc de vrifier la prsence de la feuille vierge ad-hoc ainsi que labsence dun onglet portant le nom rserv aux sorties. Plus prcisment, les onglets rservs par chaque mthode sont : Algorithme Tri alatoire Systmatique Slection-Rejet Sunter Bernoulli Poisson Simulation de plans simples sans remise Simulation de plans probabilits ingales Nom de longlet en entre Feuil1 Feuil2 Feuil3 Feuil4 Feuil5 Feuil6 Feuil7 Feuil8 Nom de longlet en sortie Ech.Tri_Alatoire Ech.Systmatique Ech. Slection-Rejet Ech.Sunter Ech.Bernoulli Ech. Poisson Simul_SAS_SR Simul_Systmatique

22

Mise en uvre 1. A l'ouverture du fichier Excel, cliquer sur Activer les macros ; 2. Renseigner la feuille BS en indiquant l'identifiant de chaque unit de la base de sondage en 1re colonne, la variable d'intrt en 2me colonne, voire la variable auxiliaire en 3me colonne si le plan est probabilits ingales proportionnelles cette donne ; 3. Renseigner les paramtres souhaits dans la feuille Paramtres ; 4. Vrifier la disponibilit des onglets requis dans le classeur ; 5. Cliquer sur Outils, puis Macro suivi de Macros ; 6. Slectionner la mthode voulue, puis cliquer sur Excuter pour lancer la macro retenue ; 7. Consulter les rsultats dans la feuille correspondante la mthode choisie. Remarques 1. Au 1er lancement, il est conseill de limiter le nombre de simulations afin de contrler le temps d'excution des macros. 2. Pour modifier le contenu des macros, a. Cliquer sur Modifier aprs Outils > Macro > Macros b. Saisir le nouveau code. NB : des commentaires permettent de comprendre le rle de chaque action. 3. Pour tracer un histogramme, une possibilit est d'utiliser l'utilitaire d'analyse d'Excel. Pour cela, cliquer sur Outils, puis Macro Complmentaire. Cocher Utilitaire d'analyse et valider par OK. Ensuite, cliquer sur Outils, puis Utilitaire d'analyse. Choisir histogramme dans le menu droulant qui s'affiche et suivre les indications.

Mode d'emploi sous SAS


La base de sondage

tp1.sas7bdat

Les procdures SURVEYSELECT et SURVEYMEANS

Procdures SAS d'chantillonnage.pdf

23

V. PLANS STRATIFIES

Exercice 1

Rappels de cours

Dans une population de taille N partitionne en H strates, on slectionne un chantillon de taille n suivant un plan stratifi. Dans chaque strate h, on tire nh individus parmi Nh selon un sondage alatoire simple sans remise de taille fixe. Pralable : montrer la formule de dcomposition de la variance :

2 y =

1 N

k U

(Y

Y ) =
2

1 N

N
h =1

2 yh +

1 N

N (Y
H h =1 h

Y )

1. Pour une variable dintrt Y, donner les estimateurs du total t Y et de la moyenne. 2. Montrer que ces deux estimateurs sont sans biais et calculer leur variance. 3. On considre lallocation proportionnelle de lchantillon : on dcide de tirer dans chaque strate h un nombre dindividus nh tel que :

nh n n = (en supposant que N h soit entier). Nh N N


a. Comment scrivent alors les estimateurs du total et de la moyenne ? b. Que vaut leur variance ? c. Montrer alors, que si on suppose :
2 2 2 2 y S y et yh S yh pour tout h, lallocation

proportionnelle est toujours meilleure quun sondage alatoire simple.

4. Le point de vue envisag maintenant est celui dune allocation optimale afin de satisfaire un souci de prcision. Sous la contrainte que

n
h =1

= n,

a. Quelle est lallocation des nh qui minimise la variance de lestimateur du total ? b. Que vaut alors la variance ? c. Comment peut-on interprter le choix des allocations optimales ?

Exercice 2 Estimation du poids des lphants dun cirque (daprs P.Ardilly et Y.Till, Exercices corrigs de mthode de sondage, Ellipses, 2003 ) Un directeur de cirque possde 100 lphants classs en deux catgories : "mles" et "femelles". Le directeur veut estimer le poids total de son troupeau, car il veut traverser un fleuve en bateau. Il a la possibilit de faire peser seulement 10 lphants de son troupeau. Cependant, en 1998, ce mme directeur a pu faire peser tous les lphants de son troupeau, et il a obtenu les rsultats suivants (en tonnes) : Mles Femelles Effectif 60 40 Moyenne 6 4 Variance 4,00 2,25

24

1. Calculer la variance dans la population de la variable "poids de l'lphant" en 1998. 2. Si, en 1998, le directeur avait procd un sondage alatoire simple sans remise de 10 lphants, quelle aurait t la variance de l'estimateur du poids total du troupeau ? 3. Si le directeur avait procd un sondage stratifi, avec SAS dans chaque strate, avec allocation proportionnelle de 10 lphants, quelle aurait t la variance de l'estimateur du poids total du troupeau ? 4. Si le directeur avait procd un sondage stratifi optimal, avec SAS dans chaque strate, de 10 lphants, quels auraient t les effectifs de l'chantillon dans les strates, et quelle aurait t la variance de l'estimateur du poids total du troupeau ?

Exercice 3

Lge du personnel

Une grande entreprise veut raliser une enqute auprs de son personnel qui comprend 10 000 personnes. Des tudes prliminaires ont montr : que les variables que lon cherche analyser dans lenqute sont trs contrastes selon les catgories de personnel et quil y a donc intrt stratifier selon ces catgories. Pour simplifier, on considrera quil y a 3 grandes catgories qui formeront les strates, que ces variables sont galement trs fortement lies lge des individus.

On va donc proposer des plans dchantillonnage comme si on voulait tudier lge des individus : si une stratgie est meilleure que dautres pour estimer lge moyen, alors on a de bonnes raisons de penser quelle le sera aussi pour les variables dintrt. Comme on connat lge des membres du personnel, on peut raisonner en faisant les comparaisons exactes. On dispose des renseignements suivants : Catgorie de personnel 1 2 3 Ensemble Poids dans lensemble du personnel 20% 30% 50% 100% cart type des ges 18,0 12,0 3,6 16,0

1. Soit Y lge moyen et Y lestimateur issu dun chantillon alatoire simple sans remise probabilits gales de n = 100 individus. Quelle est lerreur type de Y ? 2. On dcide que lchantillon de 100 individus doit tre stratifi selon les catgories de personnel. Quelle est la rpartition reprsentative ? Quelle est lerreur type de lestimateur de Y qui en dcoule ? Comparer avec les rsultats de la question 1. 3. Quelle serait la rpartition optimale de lchantillon ? Quelle est lerreur type de lestimateur de

Y qui en dcoule ? Comparer avec les rsultats de la question 2.

Exercice 4 proportion

Estimation dune

Sur les 7500 employs dune entreprise, on souhaite connatre la proportion p dentre eux qui possdent au moins un vhicule. Pour chaque individu de la base de sondage, on dispose de la valeur de son revenu. On dcide alors de constituer trois strates dans la population : individus de faibles revenus (strate 1), de revenus moyens (strate 2) et de revenus levs (strate 3). 25

On note : - Nh la taille de la strate h, - nh la taille de lchantillon dans la strate h, h lestimateur de la proportion dindividus possdant au moins un vhicule dans la strate h. - p On obtient le rsultat suivant : h=1 Nh nh 3500 500 0,13 h=2 2000 300 0,45 h=3 2000 200 0,50

h p

de p proposez-vous ? Que peut-on dire de son biais ? 1. Quel estimateur p , et donnez un intervalle de confiance 95% pour p. 2. Calculez la prcision de p
3. Estimez-vous que le critre de stratification est adquat ?

Exercice 5 0ptimalit pour une diffrence (daprs J-M. Grosbras, Mthodes statistiques des sondages, Economica, 1987) Le but de lexercice est de montrer que si une stratgie est optimale pour estimer prcisment une quantit dans lensemble dune population stratifie, elle peut ne plus ltre tout fait si lobjectif du sondage est justement de comparer les strates entre elles. La bonne dfinition des objectifs atteindre est donc essentielle au choix de la technique employer. Considrons une population de taille N forme de deux strates, de taille N1 et N2 et intressons-nous la moyenne X dune variable X. Les moyennes de X dans les strates 1 et 2 sont notes X 1 et X 2 et leurs estimateurs X 1 et X 2 . On dispose dun budget C et on suppose que : -

le tirage effectu est un sondage alatoire simple sans remise de nh units parmi Nh dans la strate h (h =1 ou 2), la fonction de cot scrit C1n1 + C2n2 o Ch dsigne le cot unitaire dans la strate h.

1. Si on cherche estimer prcisment la moyenne X , a. Donner lexpression de X , estimateur sans biais de X en fonction de X 1 et X 2 . b. Calculer sa variance. c. Quelle rpartition (n1, n2) de lchantillon donne une variance V X minimale ? Que vaut alors V X ?

()

()

d. Application numrique : calculer n1, n2, n et V X avec : N2 = 20 000 N1 = 10 000 S1 = 2 S2 = 1 C1 = 4 C2 = 9 C = 1 000 2. Si on avait appliqu une allocation proportionnelle, cest--dire : nh / Nh = n / N , a. Quaurait-on trouv pour n1, n2 et n ? b. Que vaudrait alors V X ? c. Avec les mmes donnes numriques, valuer la perte relative de prcision par rapport lchantillon optimal.

()

()

26

3. En fait, on cherche valuer lcart entre les moyennes des deux groupes : X 1 X 2 . a. Montrer que X 1 X 2 est un estimateur sans biais de X 1 X 2 . b. Calculer sa variance. c.

Dterminer la rpartition (n1, n2) de lchantillon pour que V X 1 X 2 soit minimale, toujours avec la mme contrainte de budget. (on pourra ventuellement utiliser, en les adaptant, certains rsultats de la question 1).

d. Calculer dans ces conditions V X . Comparer ce rsultat avec celui de la 1re question en crivant la diffrence des variances de ces deux estimateurs. e. Reprendre lapplication numrique pour trouver les nouvelles valeurs de n1, n2, n,

()

et la perte relative de prcision par rapport lchantillon optimal. V X

()

Exercice 6 Choix des allocations (daprs A-M. Dussaix et J-M. Grosbras, Exercices de sondage, Economica, 1992 ) Cet exercice est une application du principe : " chaque objectif son chantillon". Une entreprise comporte 400 excutants et 100 cadres. La direction de l'entreprise dsire valuer un indice de satisfaction, assimilable une variable numrique positive Y, mesurable pour chaque individu partir d'un ensemble de questions : elle dcide pour cela de faire raliser une enqute auprs de 100 personnes employes dans l'entreprise, l'aide d'un plan de sondage stratifi, avec un sondage alatoire simple dans chaque strate. Le cot d'une interview est le mme dans les deux strates. On pense a priori que la dispersion de la variable Y doit tre la mme au sein de chacun des deux groupes. Comment rpartir l'chantillon entre les deux groupes, selon que l'on vise l'un des objectifs suivants : a. obtenir la meilleure prcision possible sur la valeur moyenne de l'indice de satisfaction dans l'entreprise ; b. obtenir la mme prcision sur la valeur moyenne de l'indice de satisfaction dans chacune des deux catgories ; c. obtenir la meilleure prcision possible sur la diffrence entre les valeurs moyennes de l'indice de satisfaction dans les deux catgories.

Exercice 7

Estimation dune diffrence

On considre une population U de taille N partitionne en H strates notes U 1 KU h KU H , de tailles respectives N 1 K N h K N H .On note Y1 KYh KYH les moyennes d'une variable d'intrt Y au sein de chaque strate, et S 1 K S h K S H les dispersions.
2 2 2

La moyenne de Y dans la population vaut bien sr : Y =

h =1

H Nh Yh = wh Yh . N h =1

On ralise un sondage stratifi, avec sondage alatoire simple sans remise dans chaque strate, de taux de sondage f h = n h / N h . La taille de l'chantillon total est n =

n
h =1

27

L'objectif est de comparer une strate particulire U i la population totale : on veut estimer

Di = Yi Y
1. Donner l'expression de l'estimateur de Horvitz-Thompson de Di , not l'expression de sa variance. 2. Pour une taille d'chantillon fixe n, trouver l'allocation optimale n1 K n h K n H , qui minimise la

, ainsi que D i

$ . Comparer avec l'allocation optimale de Neyman. variance de D i

28

Rappels sur les plans stratifis


I/ Dfinition
Partition de la population en sous-groupes appels strates selon un critre li au paramtre dintrt puis tirage dautant dchantillons indpendants quil y a de strates.
U1 Uh UH

S1

Sh

SH

Constituer des strates homognes en intra au regard de la variable dintrt permet de gagner en prcision.

II/ Notations
1. Dans la population

U =h Uh =1
Total : ty =

et
H

N =Nh
h=1

t =N y
yh h=1 h=1

h h

Moyenne:

y= ty = Nh yh N h=1 N
N kU

avec
H

yh = 1 yk Nh kU h
H

Variance :

2= 1 2 + y (yk y)= Nh yh Nh (yh y)= y2intra+ y2inter = N 1Sy2 h=1

h=1

avec

2 = 1 yh

Nh k U h

(yk yh )

2. Dans lchantillon

S =h Sh =1

et

n=nh
h=1

Moyenne dans Sh :

h= 1 yk y nh kSh
yh 2= 1 h S yk y nh1k Sh

Dispersion dans Sh :

29

III/ Formulaire du sondage stratifi


Paramtre dintrt Statistique Estimateur du paramtre dintrt Moyenne Proportion Total

= Nh y h y h=1 N

Vraie variance dchantillonnage de cet estimateur Si plan simple dans chaque strate :
2 2 = Nh 1 nh Syh Var y Nh nh h=1 N H

H H =Var Nh y h=Var Nh y h Var y N h=1 N h=1

[]

[ ]

= Nh p h p h=1 N

=t h yh=Nh y ty =Ny
= NVar y Var[ty ]=Var Ny
h=1

[ ]

h=1

[]

Si plan simple dans chaque strate


H

[ ] ( )(
[ ] ( )(

2 p (1 ph) strate : ]= Nh 1 nh Nh h Var[p H Nh Nh1 nh S2 h=1 N 21 Var[ty]=Nh nh yh Nh nh h=1

( )( ) ( )( )

Si plan simple dans chaque

( )

Si plan simple dans chaque strate Estimateur H 2 2 de la variance ar y = Nh 1 nh S yh V dchantillonnage Nh nh h=1 N

Si plan simple dans chaque strate


H 2 (1 p h) p ar[p ]= Nh 1 nh h V Nh nh1 h=1 N

Si plan simple dans chaque strate


H 2 S ar[ty]= Nh 21 nh yh V Nh nh h=1

( )

Intervalle au niveau de confiance 95% pour la moyenne :

1,96 V , y + 1,96 V ar y ar y IC95% Y = y


sous hypothse que n est grand

()

()

()

Y y N (0, 1) ) Var ( y

Choix des allocations


-

Allocations proportionnelles :

nh = Nh h{ 1,...H } n N
NhSyh

Allocations optimales de Neyman (sans contrainte de budget) : nh=n

N S
l =1

l yl

Allocations optimales sous contrainte budgtaires :

nh=C

NhSyh Ch NlSyl Cl
l =1 H

30

VI. PLANS PAR GRAPPES

Exercice 1

Problmatique dun plan par grappes

Lobjet de cet exercice est de rappeler le formulaire tabli en cours et de revenir sur les notions deffet de sondage et deffet de grappe. Un sondage en grappes se pratique sur une population partitionne en groupes dindividus appels grappes : il consiste slectionner certaines grappes, selon un plan quelconque, et retenir tous les individus des grappes dsignes dans lchantillon final. Procder de la sorte permet de rduire les cots denqute. On sintresse ici au cas particulier o m grappes sont choisies par sondage alatoire simple sans remise parmi les M grappes de taille Ni dune population de taille N. On cherche estimer le total t y et la moyenne y sur la population dun caractre dintrt Y. 1. Partie 1 : gnralits 1.1. Quelle est la probabilit pour quun individu appartienne lchantillon ? 1.2. Que pouvez-vous dire de la taille finale de lchantillon ? Mme question si toutes les grappes sont de mme taille N0 . 1.3. Quels estimateurs sans biais 1.3.1. 1.3.2.

proposez-vous ? ty et y

Quelle est la prcision de ces estimateurs ? Montrez que dans le cas o les grappes sont de mme taille alors on obtient

)= M m y int er . Var(y M 1 m
1.3.3. En dduire comment constituer les grappes pour obtenir des rsultats prcis. 1.4. Comment estimez-vous sans biais la prcision des estimateurs du total et de la moyenne ? 1.5. Dans le cas o N est inconnue, quel estimateur de y proposez-vous ? Cet estimateur est-il sans biais ? Approcher son esprance et son erreur quadratique moyenne. 2. Partie 2 : effet de sondage On souhaite caractriser la prcision de lchantillonnage par grappes par rapport au sondage alatoire simple de mme taille dans le cas o les grappes sont deffectifs gaux N0. 2.1. Montrez que leffet de sondage dfini par Deff =
M

) Var(y vaut N0 o dsigne le ) Varsas(y


i

rapport de corrlation inter-grappes :

=
2

N (Y (Y
i =1 k =1 i =1 M N0 0

Y )

Y )

2 inter y 2 y

2.2. En dduire quand le plan par grappes est plus prcis que le sondage alatoire simple. 3. Partie 3 : effet de grappe On dfinit le coefficient de corrlation intra-grappes par :
N0 N0

(Y
i =1 k =1 l =1,l k

Y )(Yl Y )
.

2 ( N 0 1)( N 1) S Y

Ce coefficient mesure leffet de grappe. Il se rapproche de 1 si lintrieur de chaque grappe, il ny a pas de diffrence entre les individus ; au contraire, il est ngatif si les individus sont trs disparates lintrieur de leurs grappes. 31

3.1. Montrez que leffet de grappe vaut :

er = 1 N0 y int 1 2 N0 1 y
2

n 1 2 S y [1 + ( N 0 1)] . Nn

) = 1 3.2. En dduire que Deff = 1 + ( N 0 1) et que Var ( y

4. Partie 4 subsidiaire: estimation de leffet de sondage et de leffet de grappe

) On cherche estimer leffet de sondage et leffet de grappe et donc estimer sans biais Varsas (y
autrement dit la dispersion
2 . Les grappes sont de mme taille. Sy
2= 1 ) possde sy (yk y n1 kS

4.1. Montrez que la dispersion empirique observe sur lchantillon

un biais sous un plan complexe de taille fixe et probabilits gales (comme ici avec des grappes de mme taille) donn par :
2 ]= n 2 Var(y ) E[s y y n1

eff = 4.2. En dduire que lexpression D

( )

) Var(y est justifie si n est assez grand. 2 sy n 1 N n


Nombre de signataires dune ptition

Exercice 2 (Extrait de Cochran, Sampling Technics)

On a collect des signatures pour une ptition sur 676 feuilles. Sur chacune dentre elles, il y a la place pour 42 signatures, mais beaucoup ne sont pas trs remplies. Le nombre de signatures par feuille a t tudi sur un chantillon de 50 feuilles ( peu prs 7% de lensemble donc). A partir des rsultats sont consigns dans le tableau cicontre, estimer le nombre total de signatures et donner un intervalle de confiance pour ce nombre 95% et 80% . Nombre de signatures 42 41 36 32 29 27 23 19 16 15 14 11 10 9 7 6 5 4 3 Frquence 23 4 1 1 1 2 1 1 2 2 1 1 1 1 1 3 2 1 1

32

Exercice 3 Slection dlots (Ardilly P, Till Y, 2003, Exercices corrigs de mthodes de sondage, Ellipses) Lobjectif est destimer le revenu moyen des mnages dans un arrondissement dune ville compose de 60 lots de maisons (un lot est un pt de maison , de taille variable). Pour cela, on slectionne 3 lots par sondage alatoire simple sans remise et on interroge tous les mnages qui y rsident. On sait en outre que 5 000 mnages rsident dans cet arrondissement. Le rsultat est donn dans le tableau ci-dessous. 1. Estimez le revenu moyen et le revenu total des mnages de larrondissement par lestimateur dHorvitz-Thompson. 2. Estimez sans biais la variance de lestimateur dHorvitz-Thompson de la moyenne. 3. Estimez le revenu moyen des mnages de larrondissement par le ratio de Hjek, et comparez lestimation issue de 1. Le sens de variation tait-il prvisible ? Numro de llot 1 2 3 Nombre de mnages dans llot 120 100 80 Revenu total des mnages de llot 2100 2000 1500

Exercice 4

Emprunts bancaires

Une socit bancaire structure en 3 980 succursales gre 39 800 clients, raison de 10 clients par agence. On choisit 40 succursales par sondage alatoire simple sans remise pour lesquelles on compte le nombre de clients ayant obtenu un prt durant une priode donne. On note t yi le nombre obtenu dans la succursale i et on observe :

t
i =1

40

yi

=185 et

t
i =1

40

2 yi

=1263 .

1. Estimer le nombre total de clients de la banque qui ont obtenu un prt durant la priode de rfrence ainsi que leur proportion dans lensemble de la clientle. On notera ces estimateurs

. ty et p
2. Calculer la variance des estimateurs

. ty et p

3. Estimer ces variances et fournir un intervalle de confiance approch 95% pour chacune des quantits estimes. 4. Calculer leffet de sondage dfini comme le ratio mesurant la perte de variance estime par rapport un sondage alatoire simple sans remise de mme taille (indication : on 2 ). On pourra commenter le rsultat en comparant commencera par estimer la dispersion S y les amplitudes des intervalles de confiance 95% obtenus pour la proportion dintrt entre les deux plans de sondage. 5. Calculer le coefficient de corrlation intra-grappe.

Exercice 5 Influence de la taille et du nombre de grappes chantillonnes (Ardilly P, Till Y, 2003, Exercices corrigs de mthodes de sondage, Ellipses) Un statisticien souhaite raliser une enqute sur la qualit des soins assurs dans les services de cardiologie des hpitaux. Pour cela, il tire par sondage alatoire simple 100 hpitaux parmi les 1 000 hpitaux rpertoris , puis, dans chacun des hpitaux tirs, il recueille lavis de tous les malades du service de cardiologie. 1. Comment se nomme ce plan de sondage et quelle est sa raison dtre ? 33

2. On considre que chaque service de cardiologie comprend exactement 50 lits et que lintervalle de confiance 95% sur la vraie proportion P de malades insatisfaits est : P [ 0,10 0,018], (cela signifie en particulier que, dans l chantillon, 10 % des malades sont insatisfaits de la qualit des soins). Comment estimez-vous leffet de grappe (commencer par estimer
2 Sy , dispersion du caractre dintrt sur toute la population) ?

3. Le statisticien se demande comment voluerait la prcision de son enqute de satisfaction si, dun seul coup, il chantillonnait deux fois plus dhpitaux mais que dans chaque hpital tir, il ne collectait ses donnes que sur la moiti du service de cardiologie (mettons que les services soient systmatiquement partags par un couloir et que notre statisticien ne sintresse exclusivement quaux 25 lits qui se situent droite du couloir) ? 4. Commentez ce rsultat par rapport ce que donnait le premier plan de sondage.

34

Rappels sur les plans par grappes


I/ Dfinition
Objectif principal : rduire les cots denqute et/ou de pallier le manque dune base de sondage. Principe : partition de la population en sous-groupes appels grappes, puis tirage de grappes et enfin recensement de toutes les units qui les composent.

U1

Ug

UM

S Rgle : constituer des grappes htrognes en intra au regard de la variable dintrt.

II/ Notations
1. Dans la population U constitue de M grappes et N individus

U =g Ug =1
M

et
M

N = N g
g =1

t y =t yg = N g yg
g =1 g =1

1 yk y = t y = N g yg avec yg = N g kUg N g =1 N
M ty 2= 1 SG t yg M 1 M g =1

2. Dans lchantillon S constitu de m grappes et ns individus

S = g Ug SG

et

ns = N g
gSG

35

III/ Formulaire du plan par grappe dans le cas dun plan simple de grappes
Paramtre dintrt Statistique Estimateur du paramtre dintrt Vraie variance dchantillonnage de cet estimateur Estimateur de la variance dchantillonnage

Total

Moyenne

y = M t yg t m gSG
M ty Var[ty ]= M 1 m 1 1 t yg M m M 1 g =1 M

= 1 t y = M N g yg y Nm gSG N
2

( )

= 1 Var[ty] Var y N
ar[t ar y = 1V y ] V N

[]

ar[ty ]=M 1 m 1 1 V t yg t y M m m1 gS G M

( )

[]

Intervalle au niveau de confiance 95% pour la moyenne :

1,96 V , y + 1,96 V ar y ar y IC95% Y = y


sous hypothse que la taille de lchantillon est assez grande.

()

()

()

36

VII. PLANS PLUSIEURS DEGRS

Exercice 1 Probabilits dinclusion et plans de sondage (Ardilly P, Till Y, 2003, Exercices corrigs de mthodes de sondage, Ellipses)

1,2,3,4,5,6,7,8,9}, sur laquelle on dfinit le plan de sondage On considre une population U = { suivant :

1 1 1 , p({ 1,3}) = , p({2,3}) = 6 6 6 1 1 1 p({4,5}) = , p({4,6}) = , p({5,6}) = 12 12 12 1 1 1 p({7,8}) = , p({7,9}) = , p({8,9}) = 12 12 12


1. Calculer les probabilits d'inclusion simple k . 2. Ce plan de sondage est-il simple, stratifi, en grappes, deux degrs, ou aucun de ces plans particuliers?

1,2}) = p({

Exercice 2

Rappels de cours

Considrons une population de taille N rpartie en M units primaires elles-mmes quadrilles en Ni units secondaires. Le premier degr de tirage consiste extraire un chantillon dunits primaires parmi lesquelles, dans un second degr de tirage, sont slectionnes des units secondaires. Les individus des units secondaires dsignes composent lchantillon final. Par exemple, si les UP quadrillent le territoire selon un dcoupage en communes, elles-mmes composes dUS dfinies partir des lots (ou pts de maisons ), alors lenqute sera limite gographiquement aux communes et lots slectionns. Dans la suite, on considrera le cas o les UP sont choisies selon un sondage alatoire simple sans remise de taille m et o les US sont tires dans les UP retenues au 1er degr selon un plan simple sans remise de taille ni parmi Ni . On sintresse au total t y dun caractre dintrt Y .

y estimateur sans biais de t y ? 1. Quelle est lexpression de t y et interprter les diffrents termes de ce calcul. 2. Donner lexpression de la variance de t
3. Comment estime-t-on cette variance ? 4. Que pouvez-vous dire de la taille finale de lchantillon ?

Exercice 3

Estimation dun effectif

Un camion transporte des vis sur 500 palettes, chacune d'elles contenant 40 botes de vis. L'industriel rceptionnant ces palettes souhaite estimer le nombre moyen de vis par bote. Pour cela, il tire un chantillon de 100 palettes, selon un sondage alatoire simple sans remise, puis il tire dans chacune de ces 100 palettes un chantillon de 5 botes, selon un sondage alatoire simple sans remise galement, et enfin il compte le nombre de vis dans les botes ainsi tires.

37

L'industriel, et nanmoins statisticien, calcule pour chaque palette i de son chantillon le nombre moyen de vis par bote, et la dispersion du nombre de vis par bote (ces deux quantits sont calcules partir des 5 botes chantillonnes dans la palette). Il calcule ensuite les moyennes, sur les 100 palettes, de ces deux quantits : moyenne du nombre moyen de vis par bote = 50 moyenne de la dispersion du nombre de vis par bote = 455. Il calcule aussi la dispersion des 100 estimations du nombre de vis par palette et obtient 375 000. 1. Donner un estimateur sans biais du nombre moyen de vis par bote. 2. Donner la prcision de cet estimateur. 3. Donnez un intervalle de confiance 95% pour le nombre moyen de vis par bote.

Exercice 4 Nombre de caractres par enregistrement (Ardilly P, Till Y, 2003, Exercices corrigs de mthodes de sondage, Ellipses) Sur un disque dur de micro-ordinateur, on compte 400 fichiers, chacun comprenant exactement 50 enregistrements. Pour estimer le nombre moyen de caractres par enregistrement, on dcide de tirer par sondage alatoire simple 80 fichiers, puis 5 enregistrements dans chaque fichier. On note m = 80 et n = 5 . On mesure aprs tirage : la dispersion des estimateurs du nombre total de caractres par fichier, soit s I = 905000 ,
2

la moyenne des m dispersions s i est gale 805 o s i reprsente la dispersion du nombre


2 2

de caractres par enregistrement dans le fichier i. 1. Comment estimez-vous le nombre moyen Y de caractres par enregistrement ? 2. Comment estimez-vous sans biais la prcision de lestimateur prcdent ? 3. Donnez un intervalle de confiance 95% pour Y .

Exercice 5

tude dimpact pralable au lancement dun produit financier

En vue de prparer le lancement dun nouveau produit financier, une socit bancaire ayant un rseau de M succursales souhaite mener une tude approfondie auprs de particuliers possesseurs de comptes chez elle . Les variables dintrt de lenqute ont trait aux caractristiques de la clientle et ses motivations ventuelles. On cherche estimer la proportion p de personnes potentiellement intresses par la nouvelle offre. Lenqute opre selon un plan 2 degrs : dans un premier temps, on choisit m succursales pour participer lopration parmi lesquelles, au second temps, on dsigne des chantillons de titulaires de comptes interroger. Le plan de sondage est le suivant : Au premier degr, on ralise un sondage alatoire simple sans remise de m = 10 succursales parmi M = 100. Le taux de sondage f1 vaut 0,10. La socit bancaire gre N = 100 000 titulaires de compte. Au second degr de tirage, le taux de sondage f2 est uniforme 10%.

. 1. Donner un estimateur sans biais de p quon notera p

38

2 ST 1 f2 M V p + ( ) ( 1 f 2. Montrer que 1) m Nf1 f 2 N


2 2 T s 1 f2 M V ( p ) ( 1 f + 3. Montrer que 1) m Nf1 f 2 N

M i =1

Ni pi (1 pi ) N
Ni i (1 p i ) p N

iS1

4. Application numrique : donner un intervalle de confiance 95% pour p avec les rsultats denqute suivants :

y =102 , s =1200 , N
k kS

2 T

Ni

i (1 p i ) = 0,01 p

isI

Exercice 6

Choix entre mthodes concurrentes

Une population de 1010 saucisses est partitionne en deux units primaires, de tailles respectives 1000 et 10. Pour estimer le nombre moyen de bouts de saucisses dans cette population, on emploie le plan de sondage suivant : on slectionne une UP selon un sondage alatoire simple, on slectionne deux saucisses dans l'UP tire selon un sondage alatoire simple sans remise. La premire UP est slectionne. On observe que chacune des deux saucisses tires dans l'UP possde deux bouts. Le statisticien A calcule le nombre moyen de bouts sur son chantillon de deux saucisses et trouve 2. Il affirme que cette valeur est une estimation sans biais du nombre moyen de bouts dans la population. Le statisticien B propose comme estimation sans biais de ce nombre moyen de bouts la valeur :

1000 4 = 3.96 1010


Discuter les deux mthodes d'estimation, en prcisant les logiques qui les sous-tendent.

39

Rappels sur les plans deux degrs


I/ Dfinition
Objectif principal : rduire les cots denqute et/ou de pallier le manque dune base de sondage. Principe : dans une population partitionne en sous-groupes appels units primaires, eux-mmes composs dunits secondaires :
-

au 1er degr, tirage dunits primaires au 2nd degr, tirage dunits secondaires dans les units primaires retenues au 1er degr (indpendamment dune unit primaire lautre) U1
S1

Ui
Si

UM
SM

Rgle : constituer des units primaires htrognes en intra au regard de la variable dintrt.

II/ Notations
1. Dans la population U constitue de M units primaires et N individus

U = Ui i =1
M i =1

et
M

N = Ni
i =1

t y =t yi = Ni yi
i =1

y = t y = Ni yi N i =1 N

avec

yi = 1 yk Ni kUi
et

M ty SI2 = 1 t yi M 1 i =1 M

Si2 = 1 ( yk yi ) Ni 1 k =1

Ni

2. Dans lchantillon S constitu de m units primaires et ns individus

S = USi
iSUP

et

ns =ni
iSi

I2 = 1 s tyi t y m1iSUP M

et

i i2 = 1 yk y s ni 1kSi

40

III/ Formulaire du plan deux degrs dans le cas dun plan simple des units primaires et
des units secondaires
Paramtre dintrt Statistique Estimateur du paramtre dintrt Vraie variance dchantillonnage de cet estimateur Estimateur de la variance dchantillonnage

Total

Moyenne

yk ty = = M tyg = M Ni yk m iSUP m iSUP ni kSi kS k

= 1 t g y = M y Ng y N Nm g SG

M 2 2 1 Var[ty ]=M 1 m SI + M Ni2 1 ni Si Var y = NVar[t y ] M m m i =1 Ni ni


2 I 2 i i 2 i i

( ) ( ) ar[ty ]=M( 1 m )s + M N ( 1 n )s V M m m N n
iSUP i

[]

ar y ar[t = 1V y ] V N

[]

Intervalle au niveau de confiance 95% pour la moyenne :

1,96 V , y + 1,96 V ar y ar y IC95% Y = y


sous hypothse que la taille de lchantillon est assez grande

()

()

()

41

X. REDRESSEMENTS

Exercice 1

Post-stratification

Un institut de sondage est charg de mesurer laudience dun nouveau magazine. Il interroge pour cela un chantillon de taille n selon un procd que lon assimilera un plan simple probabilits gales et sans remise au sein de la population franaise des individus gs de 15 ans et plus. On supposera de plus quil ny a pas de non-rponse. Pour satisfaire la demande de lditeur, les rsultats sont ventils selon le critre habitant en zone urbaine ou habitant en zone rurale . Les donnes recueillies se prsentent ainsi : Lecteurs Non lecteurs Total Habitant en zone rurale 64 576 640 Habitant en zone urbaine 476 884 1 360 Total 540 1 460 2 000

1. Estimez la proportion du lectorat du magazine dans lensemble de la population et proposez un intervalle de confiance 95% de ce taux de lecture. 2. Sachant que la proportion relle dhabitants en zone urbaine vaut 75%, proposez un nouvel estimateur de la proportion de lecteurs et donnez en un intervalle de confiance 95%. Quel gain de prcision obtient-on ?

Exercice 2 Chiffre daffaires et effectif salari (Ardilly P, Till Y, 2003, Exercices corrigs de mthodes de sondage, Ellipses) Dans une population de 10 000 entreprises, on veut estimer le chiffre daffaires moyen Y . Pour cela, on chantillonne n=100 entreprises par sondage alatoire simple. On dispose par ailleurs de linformation auxiliaire nombre de salaris note x par entreprise. Les donnes issues du sondage sont : -

X =50 salaris (vraie moyenne sur les xk ), =5.210 6 euros (chiffre daffaires moyen dans lchantillon), y =45 salaris (effectif moyen dans lchantillon), x 2 =25 sy 1010 (dispersion corrige des yk calcule dans lchantillon),
2 =15 (dispersion corrige des xk calcule dans lchantillon), sx =0.8 (coefficient de corrlation linaire entre x et y calcul dans lchantillon).

1. Que vaut lestimateur par le ratio ? Cet estimateur est-il biais ? 2. Rappelez la formule de variance vraie de cet estimateur. 3. Calculez une estimation de la variance vraie. Lestimateur de variance utilis est-il biais ? 4. Donnez un intervalle de confiance 95% pour Y . Exercice 3 Estimation dune surface cultive (Ardilly P, Till Y, 2003, Exercices corrigs de mthodes de sondage, Ellipses) On considre une rgion agricole comprenant N = 2010 fermes o on cherche estimer la moyenne de la surface cultive en crales (variable Y mesure en hectares). On possde linformation auxiliaire sur la surface agricole totale cultive de chaque ferme. En particulier, on sait quil y a 1 580 fermes de moins de 160 hectares (post-strate 1) et 430 fermes dau moins 160 hectares (post-strate 2). On ralise un sondage alatoire simple de n = 100 exploitations et on obtient (avec les indices 1 et
2 1 =19,40 y 2 =51,63 s2 2 pour les deux post-strates dfinies) : n1 =70 n2 =30 y y1 =312 s y2 =922 .

42

1.

a.

Quel est l'estimateur post-stratifi post ? Est-il diffrent de la moyenne simple?

b. Quelle est la loi de n1 ? Que valent son esprance et sa variance? c. Calculer l'estimateur sans biais de la variance de post et donner un intervalle de confiance 95% pour la surface moyenne cultive en crales. 2. On exploite dsormais la variable auxiliaire X mesurant la surface agricole totale cultive pour construire un estimateur par le ratio. On connat la moyenne X =118,32 ha et on obtient sur
2 =9173 s 2 =708 =132,25 sx est lestimateur du vrai coefficient =0,57 o l'chantillon : x y de corrlation linaire inconnu .

a. Rappeler lexpression de b. c.

. Comment dfinissez-vous
>1

? Sagit-il dune estimation sans biais de

Montrez que lestimateur par le ratio de Y apparat prfrable la moyenne simple si et seulement si

V(x) C V estiment les coefficients de variation. o les C V(y) 2C

Quobtient-on dans le cas prsent ?

q de Y . d. Calculez lestimateur par le ratio y


e. Estimez sa prcision et donnez un intervalle de confiance 95% pour Y . Exercice 4 Taille des pieds (Ardilly P, Till Y, 2003, Exercices corrigs de mthodes de sondage, Ellipses) Le directeur dune entreprise de confection de chaussures veut estimer la longueur moyenne des pieds droits des hommes adultes dune ville. Soient y le caractre longueur du pied droit (en centimtre) et x la taille de lindividu (en centimtres). Le directeur sait en outre par les rsultats dun recensement que la taille moyenne des hommes adultes de cette ville est de 168 cm. Pour estimer la longueur des pieds, le directeur effectue un sondage alatoire simple sans remise de 100 hommes

=169, y =24 .Sachant que 400 000 adultes. Les rsultats sont les suivants : s y =2,sx =10,sxy =15, x hommes adultes vivent dans cette ville,
1. Calculez lestimateur dHorvitz-Thompson, lestimateur par le quotient, lestimateur par diffrence et lestimateur par la rgression. 2. Estimez les variances de ces 4 estimateurs 3. Quel estimateur conseilleriez-vous au directeur ? 4. Exprimez la diffrence littrale entre la variance de lestimateur par le quotient et la variance

de la droite de et de la pente b ,y de lestimateur par la rgression en fonction de x rgression de y sur x dans lchantillon. Commentez.
Exercice 5 Comparaison destimateurs (Ardilly P, Till Y, 2003, Exercices corrigs de mthodes de sondage, Ellipses) On se propose destimer la moyenne Y dun caractre dintrt au moyen dun chantillon slectionn selon un plan alatoire simple sans remise de taille 1 000 dans une population de taille 1 000 000. On connat la moyenne X =15 dun caractre auxiliaire x et on donne, avec les notations usuelles,
2 2 =10 ; x =14 ; s x y = 25 ; s y = 20 et s xy = 15

1. Estimez Y au moyen des estimateurs dHorvitz-Thompson, par diffrence, par le quotient et par la rgression. Estimez les variances de ces estimateurs. 2. Quel estimateur choisiriez-vous pour estimer Y ? 43

Rappels sur les redressements


I/ Intrt
Accrotre la prcision en tirant parti dinformation auxiliaire lie au caractre dintrt. Selon la nature de linformation auxiliaire, techniques de post-stratification, destimation par diffrence, par le ratio, par la rgression, par calage gnralis.

II/ Formulaire pour le total


En notant X linformation auxiliaire, Vraie erreur quadratique moyenne de cet estimateur
Var ty n Sy ( ) = N 1 N n
2

Mthode Estimateur dHorvitz-Thompson Estimateur par la diffrence

Estimateur du total

y = yk = N yk t n kS kS k

yD=t y +tx t x t
yQ=t y tx t x t
(tx t yD=t y +b x ) t
avec
H

Estimateur par le ratio (ou le quotient)

2 2 n (S y + S x 2S xy ) ( D ) = N 1 N n n (S + R S 2RS ) Var t = N 1

y Var t

yQ

2 y

2 x

xy

avec

R=ty = Y tx X
= sxy
H

Estimateur par la rgression Estimateur poststratifi

xy = s b 2 x s
H

2 n Sy 1 Var t = N (1 ) avec yQ N n
H

sx sy

N Nh S 2 2 + N n N h = Nh yk Var(t y post )= N n NhSyh y post =Nh y t 1 h n N n N yh n h=1 h=1 h=1 h=1 kSh

Estimateur par substitution de lerreur quadratique moyenne

Intervalle au niveau de confiance 95% pour la moyenne :

1,96 V , y + 1,96 V ar y ar y IC95% Y = y


sous hypothse que la taille de lchantillon est assez grande.

()

()

()

44

IX. TP2 : CALAGE SUR MARGES


Cette sance utilise la macro SAS %CALMAR dveloppe par lInsee. Elle est disponible sur le site insee.fr, accompagne de sa documentation.

Exercice 1 Un institut spcialis a ralis une enqute auprs des salaris d'une entreprise, qui compte 230 salaris rpartis sur deux tablissements A (70 salaris) et B (160 salaris). L'institut a effectu un sondage alatoire simple dans chaque tablissement, de taux de sondage respectifs 1/10 (A) et 1/20 (B). Le but est destimer la proportion de salaris prts montariser une partie de leurs congs. Pour chaque salari enqut, on dispose de : son identifiant (variable ID), 3 caractres : le premier indique l'tablissement, les deux suivants constituent un numro d'ordre dans l'tablissement ; la variable SERVICE indiquant si le salari travaille dans un service productif (1) ou administratif (2) ; la variable CATEG qui indique la catgorie de personnel laquelle appartient le salari : employs (1), ouvriers (2), autres (9) ; la variable SEXE ; la variable SALAIRE annuel brut ; la variable Y indiquant si lemploy est intress par le paiement de jours de son compte-pargne temps (oui = 1, non = 0). Par ailleurs, la direction de l'entreprise a aimablement fourni les informations suivantes sur ses salaris : l'entreprise compte 80 employs, 90 ouvriers, 140 hommes, 100 personnes travaillent dans le secteur productif, et le salaire total annuel vaut 47 000. On vous demande d'utiliser cette information auxiliaire, en ralisant diffrents calages : par la mthode linaire ; par la mthode raking ratio : par la mthode logit LO=0.5 UP=2.2. Comment estimez-vous le paramtre dintrt ?

Les donnes sont disponibles ci-joint au format SAS :

tp2_exercice1.sas7b dat

45

Exercice 2 Exercice 2 Vous disposez dune base de sondage de 11 600 individus dcrits par la rgion, lge, le niveau scolaire, la catgorie socio-professionnelle, etc. (cf. tableau ci-dessous). Le but de lexercice est den slectionner un chantillon, puis de procder des estimations et des redressements, en faisant comme si linformation dintrt avait t collecte sur lchantillon seulement. Les variables dintrt mesurent limportance consacre aux activits sportives et culturelles. Ci-dessous le contenu de la base de donnes :
Nom IDENTIND Type Libell et modalits C Identifiant Tranche dge 1 : de 15 25 ans 2 : de 25 29 ans 3 : de 30 39 ans 4 : de 40 49 ans 5 : de 50 64 ans 6 : de 65 69 ans 7 : plus de 70 ans Niveau scolaire 1 : infrieur au baccalaurat 2 : suprieur au baccalaurat Catgorie socio-professionnelle 1 : agriculteurs 2 : artisans, commerants, chefs dentreprises, professions librales 3 : cadres 4 : professions intermdiaires 5 : employs 6 : ouvriers 7 : retraits Rgion Zone demploi et damnagement du territoire 1 : Rgion parisienne 2 : Bassin parisien 3 : Nord 4 : Est 5 : Ouest 6 : Sud-ouest 7 : Centre-est 8 : Mditerrane Nombre de fois o lindividu est all au cinma au cours des 12 derniers mois Nombre dexpositions visites au cours des 12 derniers mois Nombre dheures de sport pratiques au cours de la dernire semaine Nombre dheures de lecture au cours de la dernire semaine Nombre dheures passes devant la tlvision au cours de la dernire semaine

TRAGE

NIVSCO2

CS

REGION

ZEAT

CINEMA EXPO SPORT LECTURE TELE

N N N N N

Les donnes vous sont fournies au format SAS :

tp2_exercice2.sas7b dat

46

1 / Donner la rpartition de la population par tranche dge et niveau scolaire.

2 / Slectionner un chantillon de taille 1 160 selon un sondage alatoire simple. Pour rappel, la syntaxe de la procdure SURVEYSELECT de SAS est la suivante :
PROC SURVEYSELECT DATA = nom de la base de sondage lue en entre STATS METHOD = SRS pour un sondage alatoire simple sans remise SEED = germe SAMPSIZE = taille de lchantillon souhaite OUT = nom de la table de sortie (lchantillon); RUN;

3 / A partir de lchantillon, estimer la rpartition de la population par tranche dge et niveau scolaire. valuer galement le nombre moyen dheure par semaine consacres la lecture, au sport, passes devant la tlvision ainsi que le nombre moyen dexpositions visites en une anne et le nombre moyen de sances de cinma en un an. Pour rappel, la syntaxe de la procdure SURVEYMEANS de SAS est la suivante :
PROC SURVEYMEANS DATA = nom de la table-chantillon N = Effectif de la population MEAN STDERR CLM CV = Statistiques dites en sortie; VAR listes de variable dintrt; WEIGHT variable de pondration; RUN;

4 / Caler lchantillon sur la vraie structure par tranche dge et niveau scolaire. Pourquoi ces variables de calage sont-elles pertinentes ?

5/ R-estimer les grandeurs cites la question 3.

47

X. TP3 : CORRECTION DE LA NON-REPONSE


Le but de l tude de cas est de corriger la non-rponse (totale et partielle) pour une enqute conduite auprs de 2 389 personnes interroges sur leur perception de leur tat de sant. L'chantillon a t choisi par sondage alatoire simple sans remise dans une population de 2 millions d'individus. Les informations disponibles sont les suivantes : - l'identifiant de l'enqut (variable ident ), - son poids de sondage initial ( poids ), - son ge ( ge ), - son sexe ( sexe ), - son niveau de revenu ( revenu ), - sa rgion d'habitat ( region ), - son nombre de consultations chez un professionnel de la sant en un an ( visites ), - sa consommation de tabac ( tabac ), - sa perception de son tat de sant ( sante ), une indicatrice de la non-rponse totale ( nrt ), une indicatrice de la non-rponse partielle ( nrp ).
Variable Modalits

Les modalits des caractristiques qualitatives sont dfinies de la sorte : Age 3-4 : Junior 5-6 : Jeune adulte 7-8 : Adulte 9-11: Senior 1 : Homme 2 : Femme 1-4 : Bas revenus 5-6 : Moyens revenus 7-8 : Bons revenus 9-11: Hauts revenus 1 : Fume quotidiennement 2 : Ayant fum quotidiennement 3 : Fume occasionnellement 4 : Ayant fum occasionnellement 5 : Jamais fum 1-2 : Excellente 3 : Bonne 4-5 : Passable

Sexe Revenu

Tabac

Sante

La base de donnes est fournie au format SAS :

tp3.sas7bdat

1. Dresser un tat des lieux sur limportance des non-rponses. 2. Corriger la non-rponse totale. On commencera par dcrire le comportement de non-rponse totale en fonction des caractristiques disponibles pour tous les individus. 3. Corriger la non-rponse partielle pour la variable dintrt en envisageant diverses mthodes (imputation par la moyenne, imputation par la moyenne par classe, imputation par dduction, imputation par hot-deck, imputation par hot-deck par classe, etc.).

XI. COMPLMENTS ET RVISIONS

Exercice 1

Algorithme de tirage bernoullien

On considre une population U de 1000 individus compose de trois sous-populations disjointes U 1 ,U 2 ,U 3 de tailles respectives N1 = 600, N 2 = 300, N 3 = 100 . On va chantillonner dans cette population au moyen de tirage bernoullien : cette mthode consiste choisir une probabilit dinclusion commune , puis simuler sur la population une variable alatoire distribue selon une loi uniforme sur [0,1[ et slectionner les individus pour lesquels la ralisation de cette variable est infrieure . 1. On dcide dans un premier temps de tirer un chantillon dans U en utilisant le plan de sondage suivant : dans la sous-population U 1 , on ralise un tirage bernoullien, tel que chaque lment k a

k = 0.1 d'tre slectionn, dans la sous-population U 2 , on ralise un tirage bernoullien, tel que chaque lment k a la probabilit k = 0.2 d'tre slectionn, dans la sous-population U 3 , on ralise un tirage bernoullien, tel que chaque lment k a la probabilit k = 0.8 d'tre slectionn,
la probabilit l'chantillon complet est constitu de la runion des trois sous-chantillons ainsi obtenus.

Calculer l'esprance et la variance de la taille

ns de l'chantillon.

2. On ralise maintenant un tirage bernoullien directement dans U, tel que chaque lment a la probabilit d'tre slectionn. a. Dterminer pour que l'esprance de la taille de l'chantillon, sous ce plan de sondage, soit gale l'esprance de la taille de l'chantillon calcule la question prcdente. b. Calculer alors la variance de la taille de l'chantillon, et comparer cette variance celle de la question prcdente.

Exercice 2 Tendance linaire et tirage systmatique (daprs J-M. Grosbras, Mthodes statistiques des sondages, Economica, 1987) On considre une population de taille N avec N = n k o n est la taille souhaite de lchantillon et k un nombre entier. On suppose que pour tout individu k de la population, on a Yk= k pour k = 1 N. 1. On note respectivement
2 Y et S Y la moyenne et la dispersion du caractre dintrt sur la N +1 N ( N + 1) 2 population. Vrifier que Y = et S Y = . 2 12

2. On ralise un sondage alatoire simple sans remise de taille n.

de la moyenne ? Y (k 1)( N + 1) . b. Montrer que sa variance vaut : V Y = 12


a. Quel est lestimateur classique

()

49

3. On ralise prsent un tirage systmatique de taille n : on tire un nombre a au hasard entre 1 et k et on forme un chantillon de taille voulue avec les units a, a + k, a + 2k, , a + (n-1)k. Soit Ysys la moyenne des units slectionnes dans lchantillon. Montrer que : E Ysys = Y et que 4. Comparer et
sys

( ) ) ) V (Y V (Y

2 = k 1 VY sys 12

( )

et commenter

Exercice 3

Algorithme du tri alatoire

On veut estimer le poids moyen de 10 lphants dun cirque. Pour cela, on ralise un sondage alatoire simple sans remise de taille 5 laide dun tri alatoire. On simule donc une variable alatoire uniforme U ~ U[0,1] sur la population des lphants, puis on trie les ralisations obtenues par ordre croissant (ou dcroissant) et on retient lchantillon correspondant aux 5 plus grandes valeurs (ou plus petites). La simulation a t effectue partir de la fonction ALEA() sous Excel et a donn les ralisations ci-dessous : N de l'lphant 1 2 3 4 5 6 7 8 9 10 1. Quel est lchantillon tir ? 2. On pse les lphants retenus et on obtient en tonnes les poids respectifs suivants : 3,65 ; 3,17 ; 4,18 ; 3,55 et 4,26. 3. Donnez un estimateur du poids moyen des lphants puis un intervalle de confiance 95% de ce poids moyen. 4. Finalement, on ralise une pese exhaustive des lphants. On obtient un poids moyen de 3,45 tonnes. Que dire de lintervalle de confiance prcdent ? Do peut venir le problme ? Valeur gnre 0,84 0,12 0,36 0,60 0,68 0,11 0,87 0,44 0,21 0,77

Exercice 4

Algorithme de slection-rejet

La mthode de slection-rejet permet dobtenir un chantillon de taille n en une seule lecture du fichier. Lalgorithme est le suivant : On initialise 0 les compteurs k et j renseignant respectivement le nombre dunits du fichier dj examines et le nombre dunits dj slectionnes dans lchantillon. On se positionne sur le premier individu du fichier. Tant que j est strictement infrieur la taille dchantillon voulue, on a gnr un nombre alatoire u selon une loi uniforme sur [0,1[ pour lindividu de rang k+1 sur lequel on est positionn et on dcide :
-

Si on obtient

u<

n j , alors on slectionne lunit de rang k+1 . On incrmente donc N k

j dune unit, puis on passe lindividu suivant en incrmentant k.


-

Sinon, lunit k+1 nest pas tire et on passe lindividu suivant en incrmentant k.

50

1. Montrer que le plan est de taille fixe n et quil suffit effectivement donc dau plus N oprations pour slectionner ces n units 2. Montrer que le plan est simple. En dduire que les probabilits dinclusion individuelles sont bien gales :

k =

n , k U . N

3. Application : slectionner un chantillon de taille 4 dans une population de taille 10 selon cette mthode en utilisant les ralisations suivantes dune variable alatoire U uniforme sur [0,1[ :
Individu k 1 2 3 4 5 6 7 8 9 10

uk

0,375

0,620

0,518

0,0454

0,633

0,246

0,927

0,326

0,646

0,178

Exercice 5 Non-rponse dans les enqutes par quotas (A-M. Dussaix, J-M. Grosbras, 1992, Exercices de sondage, Economica) Lobjet de cet exercice est de montrer lexistence de biais pouvant dcouler de non-rponses dans les enqutes par quotas. On considre une enqute o sont imposs des quotas relatifs une variable qualitative donne. Pour fixer les ides, on supposera, par exemple, quil y a dans la population, H variables dge ou de poids en proportion Nh/N pour h = 1 H. On demande aux enquteurs de complter un chantillon reprsentatif, cest--dire tel que nh/n = Nh/N. A la fin de lenqute, la

, ce qui peut moyenne Y de la variable dintrt est estime par la moyenne simple sur lchantillon y encore scrire : = nh y h = Nh y h y h =1 n h =1 N
H H

h = 1 y nh

kS h

Pour tudier linfluence de la non-rponse, on fait lhypothse quil existe dans la population un partage en 2 catgories : La 1re est celle des personnes accessibles et rpondant volontiers lenqute caractrise par les effectifs N 1 et

N h1 dans les tranches dge h, et les moyennes Y1 et Yh1 .

La 2me est celle des personnes inaccessibles ou refusant de rpondre lenqute caractrise par les effectifs N 0 et N h 0 dans les tranches dge h, et les moyennes

Y0 et Yh 0 .
Naturellement, les quantits N 1 ,

N h1 , N 0 , N h 0 , Y1 , Yh1 , Y0 et Yh 0 sont inconnues.


est un estimateur biais N h1 , montrer que y

1. Si on fait lhypothse que les nh rponses constituent un chantillon dun plan alatoire simple sans remise prlev dans un ensemble deffectif pour

Y . On crira lexpression du biais en fonction de N , N h 0 et h = Yh1 Yh 0 .

2. Commentez brivement cette expression. Construire un exemple numrique illustrant une situation o le biais est lev (on prendra H = 3).

Exercice 6 Nombre de titulaires de comptes CODEVI interroger (daprs A-M. Dussaix et J-M. Grosbras, Exercices de sondage, Economica, 1992 ) Une banque dsire tudier par sondage (interviews par enquteur) les caractristiques sociodmographiques (ge, catgorie sociale,) et les comportements financiers des titulaires de comptes CODEVI. Leur rpartition en fonction des montants moyens annuels des comptes est la suivante :

51

Solde moyen annuel De 0 100 De 100 900 Plus de 900 Ensemble

Nombre de comptes 15 000 15 000 30 000 60 000

Pour chacun des trois groupes, on veut tudier la rpartition des titulaires par classe dge, catgorie sociale, etc. Par exemple, on sintresse la proportion de titulaires ayant entre 25 et 35 ans. Quelle taille dchantillon doit-on prvoir dans chaque strate sil sagit de dterminer les diffrentes proportions avec une prcision de 2,5% au niveau de confiance 95% ?

Exercice 7 Tirage des UP avec remise Taille de mnages (Ardilly P, Till Y, 2003, Exercices corrigs de mthodes de sondage, Ellipses) Pour estimer le nombre moyen 2 degrs :

Y de personnes par mnage dans un pays donn, on ralise un tirage

1er degr : tirage alatoire avec remise de m = 4 villages parmi M = 400 proportionnellement leur taille. La taille dun village est le nombre de mnages quil contient. Ainsi, chacun des 4 tirages indpendants, un village est slectionn avec une probabilit proportionnelle sa taille. 2me degr : tirage alatoire simple de ni mnages parmi les Ni si le village i est tir.

Le nombre total de mnages dans le pays est N = 10 000. Les donnes sont reprsentes dans le tableau ci-dessous ; lchantillon.

i est le nombre moyen de personnes par mnage dans le village i daprs Y


i Ni 1 20 2 23 3 25 4 18 5

i Y

5.25 5.50 4.50

1. a. Quelle est la probabilit de tirage pi de chacun des 4 villages slectionns ? (on appelle probabilit de tirage la probabilit qua le village dtre choisi lors de chacun des 4 tirages indpendants raliss successivement dans les mmes conditions). b. Calculer Pr(iS) en fonction de (1- pi). En dduire la probabilit dinclusion fonction de pi . Examiner le cas o pi est petit. 2. Quelle est lexpression de

i =Pr(iS) en

Y (vraie valeur) et quel est son estimateur sans biais ?

3. Estimer la variance de cet estimateur. Quel intrt a-t-on utiliser un tirage avec remise au 1er degr ?

Exercice 8 (Ardilly P, Till Y, 2003, Exercices corrigs de mthodes de sondage, Ellipses)

Raking-ratio

On sintresse la population des 10 000 tudiants inscrits en 1re anne dans une universit. On connat le nombre total dtudiants dont les parents ont un diplme dtudes primaires, secondaires et suprieures (respectivement 5000, 3000 et 2000). On effectue un sondage selon un plan alatoire simple sans remise de 150 tudiants. On ventile ces 150 tudiants selon le diplme des parents et leurs rsultats (chec ou russite) lexamen de 1re anne et on obtient le rsultat ci-dessous : Niveau dtudes Primaire Secondaire Suprieure chec 45 25 10 Russite 15 25 30

52

1. Estimez le taux de russite des tudiants en utilisant lestimateur de Horvitz-Thompson et donnez un estimateur de variance et un intervalle de confiance 95% de ce taux. 2. Expliquez pourquoi il est a priori intressant deffectuer un redressement, et pourquoi le redressement doit diminuer la valeur de lestimation issue de 1. 3. Estimez le taux de russite des tudiants par lestimateur post-stratifi et donnez un estimateur de variance et un intervalle de confiance 95% de ce taux. 4. Estimez le taux de russite par niveau dtudes des parents en utilisant une technique de raking-ratio et sachant que dans la population totale tudiante, le taux de russite est en ralit de 40%. Exercice 9 Cas pratique dans une pisciculture

Un leveur de poissons souhaite connatre le poids moyen de ses poissons. Il dispose de 3 bassins selon lge des animaux : n1 pour ceux de petite taille , n2 de taille moyenne et n3 de grande taille . Le nombre total de poissons par bassin est respectivement de 1000, 900 et 950. Notre pisciculteur appelle un statisticien sa rescousse pour estimer le poids moyen des poissons. Arm de son puisette, le statisticien attrape 20 poissons dans le bassin n1, 15 dans le n2 et 10 dans le n3. Ensuite, il calcule le poids moyen sur les 3 chantillons relatifs aux 3 bassins. Il trouve : 0.152 Kilo pour le bassin N1, 0.255 Kilo pour le n2 et 0.305 Kilo pour le n3. Il calcule galement la dispersion corrige des poids des poissons sur les 3 chantillons et trouve respectivement: (0.05) Kilo, (0.02) Kilo et (0.01) Kilo pour les bassins N1, 2 et 3. On admettra que le mode de tirage des chantillons de poissons dans chacun des trois bassins est assimilable un sondage alatoire simple de taille fixe. 1) a) Proposer un estimateur sans biais du poids moyen des poissons relativement un bassin. b) Donner les 3 estimations des poids moyens relatifs aux 3 bassins puis les 3 intervalles de confiance 95% correspondants. c) Pour estimer le poids moyen relatif lensemble des 3 bassins, le statisticien a mis en uvre lestimateur stratifi. Aprs avoir rappel la forme gnrale de cet estimateur et prcis les strates adoptes par le statisticien, donner lestimation recherche et lintervalle de confiance 95% correspondant. 2) a) Est-ce que lallocation dfinie par le statisticien correspond lallocation proportionnelle? b) Compte tenu des mesures effectues sur les chantillons, expliquer (qualitativement) pourquoi lallocation du statisticien semble tre lgitime. c) A partir des rsultats obtenus sur les trois chantillons, calculer lallocation de Neyman pour une taille totale de lchantillon de poissons de 45. 3) Le pisciculteur propose destimer le poids moyen des poissons sur lensemble des 3 bassins en faisant la moyenne arithmtique des poids des poissons sur lensemble des 3 chantillons. a) Calculer lestimation fournie par le pisciculteur. b) Montrer que cet estimateur est en ralit biais (on exprimera ce biais thorique en fonction des vrais poids moyens des poissons relatifs aux bassins, des vrais effectifs de poissons et des tailles des chantillons de poissons relatifs aux bassins). c) Donner une estimation de ce biais. 4) Le statisticien apprend par hasard, en discutant avec lun des employs, quun contrle de la taille des poissons a t ralis rcemment. Ce contrle a t effectu dans chacun des bassins et de faon quasi-exhaustive. Il rvle que la taille moyenne des poissons par bassin est de : 25 cm pour le bassin n1, 40 cm pour n2 et 50 cm pour le n3. a) Expliquer pourquoi la connaissance de cette nouvelle information est intressante par rapport au phnomne tudi. b) A partir de cette nouvelle information, proposer un nouvel estimateur du poids moyen des poissons pour un bassin fix . Donner les 3 nouvelles estimations du poids moyen relatives chacun des bassins. On donne pour cela les tailles moyennes des poissons mesures sur les chantillons : 23 cm (bassin n1), 42 cm (n2), 51 cm (n3). c) Proposer une nouvelle estimation du poids moyen pour lensemble des 3 bassins.

53