Vous êtes sur la page 1sur 7

TD Données Manquantes

Ensai
Année 2023-2024

Exercice 1 (examen 2016-2017)


Nous sélectionnons dans une population U de taille N un échantillon S avec
des probabilités d’inclusion πk > 0. En raison de la non-réponse totale, nous
n’observons qu’un sous-échantillon Sr de répondants. Nous supposons que le
mécanisme de réponse est MCAR, et que les individus répondent indépen-
damment.

Pour une variable d’intérêt y à valeurs positives, il est proposé d’utiliser


l’estimateur
X yk
t̂y = .
k∈S
π k
r

1) Exprimer le biais relatif de cet estimateur en fonction de la probabilité de


réponse p.
2) Quel est le signe de ce biais ? Ce résultat était-il prévisible ?
3) Montrer que la variance de cet estimateur peut s’écrire sous la forme
X y2 X yk yl
k
V (t̂y ) = p(1 − p) + p2 (πkl − πk πl ).
k∈U
π k
k,l∈U
π k πl

A quoi correspondent chacun des deux termes dans la décomposition précé-


dente ?

Nous considérons maintenant l’estimateur


N̂π X 1 X 1
t̂yr = t̂y avec N̂ = et N̂π = .
N̂ k∈S
π k
k∈S
π k
r

1
Nous admettons l’approximation
 
1 t̂yπ X yk
t̂yr − t̂yπ ' t̂y − × N̂ avec t̂yπ = .
p N̂π k∈S
π k

4) Montrer que t̂yr est approximativement sans biais pour ty .


5) Quel estimateur des probabilités de réponse est utilisé pour produire t̂yr ?

Exercice 2 (extrait de l’examen 2018-2019)


Dans une commune de N = 10 000 habitants, nous sélectionnons un échan-
tillon S de taille n = 500 par sondage aléatoire simple. Parmi les personnes
interrogées, 300 possèdent une voiture.

1) Donner un estimateur du nombre de personnes possédant une voiture.


2) Donner un intervalle de confiance à 95% pour ce paramètre.

Nous faisons passer un questionnaire sur les habitudes d’utilisation de la


voiture auprès d’un sous-échantillon S2 . Ce sous-échantillon est obtenu par
tirage de Poisson dans S, avec une probabilité de tirage 1/4 si l’individu a
moins de 60 ans, et 1/2 si l’individu a 60 ans ou plus.

3) Comment s’appelle le plan de sondage conduisant à la sélection de S2 ?


4) Donner les poids d’extrapolation de l’estimateur par expansion t̂ye .

Dans l’échantillon S2 , 10 personnes de moins de 60 ans pratiquent le covoi-


turage, et 5 personnes de 60 ans et plus pratiquent le covoiturage.

5) Donner une estimation du nombre total de personnes pratiquant le covoi-


turage.

2
Rappel pour les exercices 3 et 4
Si l’échantillon S souffre de non-réponse totale, nous pouvons estimer le total
ty en utilisant l’estimateur corrigé de la non-réponse totale
X yk
t̂yr = .
k∈S
π k p̂k
r

Pour cet estimateur, nous pouvons utiliser l’estimateur de variance :

V̂ (t̂yr ) = V̂p (t̂yr ) + V̂nr (t̂yr ), (1)

où le premier terme de (1) est un estimateur de la variance d’échantillonnage,


et le second terme est un estimateur de la variance due à la non-réponse (cf
diapo 77, poly 1).

Dans le cas particulier où le plan de sondage est un sondage aléatoire simple
stratifié, nous avons (cf diapo 82, poly 1) :
H
X 1 − fh 2
V̂p (t̂yr ) = (Nh )2 s , (2)
h=1
nh yhr
1
− ȳhr )2
P
k∈Shr p̂k (yk
avec s2yhr = P 1
k∈Shr p̂k
P yk
k∈Shr p̂k
et ȳhr = P 1 .
k∈Shr p̂k

Dans le cas particulier où la non-réponse est corrigée selon la méthode des
GHR, on a (cf diapo 80 ou 83, poly 1) :
C
!2
X 1 − p̂c X yk 1 X yl
V̂nr (t̂yr ) = − (3)
c=1
(p̂c )2 k∈Src
πk nrc l∈S πl
rc

3
Exercice 3 (examen 2017-2018)
Nous souhaitons estimer le nombre total ty d’élèves attachés de 2ème année
qui portent des lunettes. Parmi les N = 50 attachés de la promotion, nous sé-
lectionnons un échantillon de n = 25 individus par sondage aléatoire simple.
Parmi ces 25 individus, 20 acceptent de répondre. Parmi ces 20 répondants,
8 portent des lunettes.
Nous supposerons que les individus répondent indépendamment les uns des
autres, et que le mécanisme de réponse est MCAR.

1) Donner l’estimateur corrigé de la non-réponse totale de ty , et le calculer.


2) En utilisant la formule (2), montrer que l’estimateur de la variance due à
l’échantillonnage peut se réécrire sous la forme
 
2 1 1
V̂p (t̂yr ) = N − s2yr ,
n N
1 X 1 X
avec s2yr = (yk − ȳr )2 et ȳr = yk .
nr k∈S nr k∈S
r r

3) En utilisant la formule (3), montrer que l’estimateur de la variance due à


la non-réponse peut se réécrire sous la forme
 
2 1 1
V̂nr (t̂yr ) = N − s2 .
nr n yr
4) En utilisant les deux questions précédentes, montrer qu’un estimateur de
variance global est donné par
 
2 1 1
V̂ (t̂yr ) = N − s2yr .
nr N
A quel plan de sondage correspond cette formule d’estimation de variance ?
5) En déduire un intervalle de confiance à 95% pour ty , et le calculer.

Après relance, nous obtenons la réponse des 5 non-répondants initiaux : parmi


ceux-ci, 3 portent des lunettes.
6) Proposer un nouvel estimateur de ty , et le calculer.
7) Donner un estimateur de variance sans biais et le calculer.
8) En déduire un intervalle de confiance à 95% pour ty , et le calculer.

4
Exercice 4 (extrait de l’examen 2017-2018)
Nous voulons estimer le chiffre d’affaires total dans une population de 1 000
entreprises, découpée en une strate U1 de N1 = 400 entreprises de plus de 50
salariés, et en une strate U2 de N2 = 600 entreprises de moins de 50 salariés.
Nous sélectionnons un échantillon S1 de taille n1 = 60 dans U1 , et un échan-
tillon S2 de taille n2 = 40 dans U2 par sondage aléatoire simple stratifié.

Parmi les entreprises de S1 , nr1 = 50 acceptent de répondre et parmi celles


de S2 , nr2 = 20 acceptent de répondre. D’après un expert, les entreprises
ont répondu indépendamment les unes des autres et le mécanisme de non-
réponse peut être considéré comme homogène au sein des strates. Sur les
sous-échantillons Sr1 et Sr2 , on obtient les résultats suivants
1 X 1 X
ȳr1 = yk = 1.80 et (yk − ȳr1 )2 = 1.79,
nr1 k∈S nr1 − 1 k∈S
r1 r1

1 X 1 X
ȳr2 = yk = 0.40 et (yk − ȳr2 )2 = 0.50.
nr2 k∈S nr2 − 1 k∈S
r2 r2

avec yk le chiffre d’affaires en millions d’euros.

1) Donner l’estimateur corrigé de la NR totale t̂yr du chiffre d’affaires.


2) Donner un estimateur, noté vN R (t̂yr ), sans biais de la variance de t̂yr due
à la non-réponse, et le calculer.

Vous avez la possibilité de faire de la relance auprès des non-répondants selon


deux stratégies, équivalentes en termes de coût :
— Stratégie 1 : faire de la relance auprès des entreprises de S1 unique-
ment, jusqu’à ce qu’elles répondent toutes.
— Stratégie 2 : faire de la relance auprès des entreprises de S2 unique-
ment, jusqu’à ce qu’elles répondent toutes.
3) Laquelle des deux stratégies choisissez-vous ? Justifiez quantitativement
votre réponse.

5
Exercice 5
Nous nous intéressons à l’estimation de la moyenne µy = N −1 k∈U yk d’une
P
variable d’intérêt yk . Nous sélectionnons un échantillon S de taille n par
sondage aléatoire simple. Parmi ces n individus, seul un sous-échantillon Sr
accepte de renseigner la variable d’intérêt y. Nous notons pk la probabilité
de réponse d’un individu k ∈ S.
Un chargé d’études propose d’utiliser comme estimateur la moyenne simple
des répondants
1 X
ȳr = yk .
nr k∈S
r

Nous admettons l’approximation


P
k∈Sr (yk − ȳp )
P
pk yk
ȳr − ȳp ' P avec ȳp = Pk∈S .
k∈S pk k∈S pk

1) Montrer que

E (ȳr − ȳp |S) ' 0, (4)


syp
puis E (ȳr − ȳ|S) ' , (5)

avec
1X 1X
p̄ = pk et syp = (yk − ȳ)(pk − p̄). (6)
n k∈S n k∈S

2) Que représente syp ? En déduire une condition pour que ȳr soit un estima-
teur non biaisé de µy . Dans quel(s) cas cette condition est-elle vérifiée ?

3) Quel estimateur des probabilités de réponse est utilisé pour produire ȳr ?

Nous supposons maintenant que l’échantillon S est partitionné en H groupes


de tailles nh connues. Nous proposons d’utiliser l’estimateur
H
X nh 1 X
ȳr2 = ȳrh avec ȳrh = yk .
h=1
n nrh k∈S
rh

6
4) En remarquant que
H
X nh
ȳ = ȳh ,
h=1
n

obtenir sans calcul et en vous inspirant de la question 1) que


H
X nh syph
E(ȳr2 − ȳ|S) ' ,
h=1
n p̄h

avec
1 X 1 X
p̄h = pk et syph = (yk − ȳh )(pk − p̄h ).
nh k∈S nh k∈S
h h

5) Que représente syph ? En déduire une condition pour que ȳr2 soit un esti-
mateur non biaisé de µy . Dans quel(s) cas cette condition est-elle vérifiée ?
6) Quel estimateur des probabilités de réponse est utilisé pour produire ȳr2 ?

Vous aimerez peut-être aussi