Académique Documents
Professionnel Documents
Culture Documents
ees manquantes en
epid
emiologie :
application de limputation multiple `
a des donn
ees de
surveillance et denqu
etes
Vanina Heraud Bousquet
UNIVERSITE PARIS XI
FACULTE DE MEDECINE PARIS SUD
Ecole Doctorale de Sant Publique - ED420
Anne 2011/2012
THSE
Pour obtenir le grade de
Composition du jury :
Pr Jean-Christophe THALABARD
Dr Rodolphe THIBAUT
Pr Philippe VANHEMS
Pr Arnaud FONTANET
Dr Jean-Claude DESENCLOS
Prsident
Rapporteur
Rappporteur
Examinateur
Directeur de thse
REMERCIEMENTS
Mes remerciements sadressent en premier lieu mon directeur de thse, Jean-Claude Desenclos,
pour mavoir permis deffectuer ce travail de recherche lInstitut de Veille Sanitaire. Merci
davoir eu lide audacieuse de me proposer un tel sujet, tout dabord en master puis en thse,
davoir pris le risque de mencadrer pour ce projet, et de mavoir laisse choisir en toute libert
mes sujets de recherche. Ta rigueur scientifique, tes critiques pertinentes et ta prsence attentive
tout au long de ce parcours ont t essentiels la ralisation de ce travail. Jespre que ce travail
de thse est digne de ton attente et de ton investissement personnel.
Je remercie aussi tout particulirement Yann Le Strat pour avoir accept de co-encadrer cette
thse, en assurant le soutien statistique de cette recherche. Tu as pris le temps dacqurir une
expertise dans le traitement des donnes manquantes, de menseigner avec patience les
ncessaires bases statistiques et de dvelopper avec moi des projets de recherche. Ta forte
implication dans ce travail de thse et ton soutien amical mont t prcieux.
Je remercie aussi :
Les membres du ple biostatistique pour la richesse de nos changes sur nos projets communs, en
souhaitant pouvoir les prolonger lavenir.
Virginie Bufkens qui, depuis mon arrive comme stagiaire, sest charge avec efficacit de mes
multiples dplacements au sein du DMI pendant ces 5 annes. Merci aussi pour notre colocation
finale !
Christine Aranda pour sa participation active et tout fait indispensable la finalisation de ce
travail.
Et pour finir :
Je remercie ma famille et mes amis, qui avez su comprendre et accepter cette bien tardive lubie.
Jai un peu tout fait dans le dsordre, mais je marrterai l, peut tre Merci davoir tenu bon.
A mon petit Octave enfin, qui a grandi en mme temps que cette thse. Tu sais lire maintenant
Bibou, et je sais que tu seras content de voir enfin mon livre.
SOMMAIRE
*
1
-"." % $ %
+ $ , ' /0' $
78 & ." % $ %
+ $ , ' /0' $
6
6
'" $
*
1
6
+(
*
*
**
+(
+(
6
6
6*
+!'
-0! 0- % $ %
+ $ , ' /0' $
+!' "$, $ % %
+ $ , ' /0' $
*
-, " & ."
*
78 & ." .+ +-'&
**
&&0$ -' "
+8"%+, " & ."
% $ $", 8& $ % -'" ,
% $%
+ $ , ' /0' $
'&7$ !'$9! , 8&
'&7$ %
0$ & $ !'$ %"$8 " & $
*
-+' " %;0 !' +. -" '%%" "
&&
*
%"!' 0-% %
+ , ' /0'
, 80 ' " $", 8&
% 8'-, ' ", "$' " % &' <-'"$ , &' !
% $ 8'-", 80 ' " , 0& "8&
5"$ -"/0
'$ $ (+ -"/0 $
6
-" !"8
6
('$ %;", 80 ' "
6 *
('$ %;' '&7$
'8 $ 8-' "/0 $ % &' , "$
'88&"!' "
6*
'8 4 ',
' '&7$ % &' '$ % %
+ $ " ! , 8&)
6*
'8 4
$ -0! " %0 , %)& %;", 80 ' "
6**
'8 * 4 '&7$ % $ %
+ $ ", 80 + $ 8-+$ ' " % $ -+$0& ' $
"$, $ % %
+ $ , ' /0' $
"'"$ 4 0% % $", 0&' "
*
*
*
*
*6
*6
*:
*:
*
*
*
*
1
1
1
1*
66
6
6
:
:
:
:
:
:
:
= =>
*
:
>
; 2 @
2 =>
;5=
? G
'&7$ + " & ."/0 % $ #'! 0-$ % -"$/0 % ! , 8&"!' " $ (+8' "/0 $ .-'< $
80&' " %;+ 0%
!-" )- $ %;" !&0$"
!0 "&% %
+ $
+ $ ! && ! + $
',
% $%
+ $ , ' /0' $
*
$ -0! "
<'&"%' " %0 , %)& %;", 80 ' "
*
$ -0! " % $ +/0' " $ % 8-+%"! "
*
( " %0 , - % '$ $ % !7!& $
**
'&7$ % $ '$ $ % %
+ $ ", 80 + $
*1
"'. $ "! % &;", 80 ' "
1
+$0& ' $ %"$!0$$"
'&7$ % $ $" "&" + 8'-8 %+-' "
*
1
6
:
-.0,
$ +8"%+, " & ."/0 $ 8 0-& !( " % $ <'-"' & $
+ ( % %;' '&7$ % $ $" "&" + 8'-8 %+-' "
88&"!' " 8-' "/0 % &;' '&7$ % $ $" "&" + 8'-8 %+-' "
1
- &+, ' "/0
1
- ! $$0$ % $+& ! " %0 8'-', ) - % $ $" "&" + % & '
+$0& ' $
"$!0$$"
? G
7$ ),
*
**
**
*1
*1
*6
*:
1
1
1
11
1:
1:
1
6*
6
% $0-< "&&' ! %0 5
+!&'-' "
&".' "- % $ %"'. $ "!$ %;" # ! " B 5
0-< "&&' ! <"- & ."/0
*
! "#$ %0 8- ! $$0$ %;", 80 ' " , 0& "8&
',
% &' '$ % %
+ $
',
/0' " ' "#
',
/0'&" ' "#
- ! $$0$ %;", 80 ' "
% 0 8('$ $
*
5"$ -"/0 % $+- & ." $ 5
*
, 80 ' " ! %" "
&&
'8 $ 8-+&", " '"- $
1
'$ % %
+ $ % %+8'1
! %'. $ &"+$ B % $ 8- &+, ' "/0 $ $8+!"#"/0 $
1
" , '-/0 0-$ *
1
+- & ." ' +-" 0- +.' "<
$ -0! " % $ , %)& $ %;", 80 ' "
6
$ -0! " $ % $ +/0' " $ % 8-+%"! "
6
, + ( % & ."/0
6
- , ")- 8('$
6 *
0 "), 8('$
6
-'" ,
% $ <'-"' & $ !' +. -" && $ ! " 0 $
6
-'" ,
% $ <'-"' & $ !' +. -" && $
6
-'" ,
% $ <'-"' & $ ! " 0 $
6*
( " %0 , - % '$ $ % !7!& $
6*
, - % '$ $
6*
, - % !7!& $
, 80 ' "
' '&7$
'&"%' " " "'. $ "! % &;", 80 ' "
- &+, ' "/0
'-"' & $ %"$!-) $
*
'-"' & $ ! " 0 $
1
-" )- $ %"'. $ "/0 $ %0 , - % '$ $
6
!&0$"
'&"%' " !- "$+
:
:
:
:*
:1
:6
:6
:
:
:
:
*
*
*
1
*
*
1
6
:
:
:
:
:
*
*
*
1
1
6
*
5G
10
Figure 1.2
Figure 1.3
Figure 1.4
Figure 1.5
Figure 1.6
Figure 1.7
Figure 2.1
Tendances dincidence du VIH parmi les donneurs HSH et les autres donneurs pour la
priode 1994-2008...................................................................................................... 86
Evolution des effectifs en fonction des variables incluses
successivement dans le modle danalyse multivarie cas-complet............................. 95
Distribution du nombre de diagnostics dinfection VIH selon la source .................. 118
Inclusion des patients du systme de surveillance dans ltude .................................. 129
Dtermination graphique dune valeur de pour la variable gnotype 3 .................... 149
Poids normaliss selon pour chaque base de donnes impute ................................ 150
Analyse de la variable genotype 3 pour =0.15 ......................................................... 152
Poids normaliss selon pour chaque base de donnes impute, pour les variables
consommation dalcool et statut srologique VIH ..................................................... 153
Taux de variation selon aprs analyse de sensibilit pour les variables gnotype 3,
consommation dalcool et co-infection par le VIH .................................................... 155
Reprsentation schmatique du systme de dclaration obligatoire du VIH ............... 163
Imputation en deux phases ........................................................................................ 170
Description du processus dimputation en deux phases.............................................. 175
Reprsentation graphique des distributions observes des biomarqueurs,
des dlais positifs et ngatifs, et des CD4 .................................................................. 181
Comparaison graphique des donnes observes et imputes des dlais positifs et ngatifs
par des graphes quantiles-quantiles et des histogrammes ........................................... 198
Comparaison graphique des donnes observes et imputes des biomarqueurs V3 et TM
par des graphes quantiles-quantiles et des histogrammes ........................................... 199
Comparaison graphique des donnes observes et imputes des taux de CD4 par des
graphes quantiles-quantiles et des histogrammes ...................................................... 200
Probabilit de couverture de lIC, biais relatif et efficacit statistique relative pour des
mcanismes MCAR et MAR, pour les 500 chantillons, et pour 5 ou 20 bases
imputes ................................................................................................................... 210
Reprsentation graphique de lvolution de lefficacit statistique relative selon le
nombre de bases imputes, pour les 500 chantillons et pour les mcanismes MCAR et
MAR ........................................................................................................................ 211
Figure 2.2
Figure 2.3
Figure 3.1
Figure 3.2
Figure 3.3
Figure 3.4
Figure 3.5
Figure 3.6
Figure 4.1
Figure 4.2
Figure 4.3
Figure 4.4
Figure 4.5
Figure 4.6
Figure 4.7
Figure 4.8
Figure 4.9
11
Tableau 1.2
Tableau 1.3
Statistiques courantes pouvant tre combines ou non selon les rgles de Rubin ...... 69
Tableau 1.4
Tableau 1.5
Tableau 1.6
Tableau 2.1
Tableau 2.2
Tableau 2.3
Tableau 2.4
Tableau 2.5
Slection des variables incluses dans les modles danalyse et dimputation ............. 94
Tableau 2.6
Tableau 2.7
Tableau 2.8
Tableau 2.9
Tableau 2.10
Tableau 2.11
Distribution des nouveaux diagnostics dinfection VIH identifis par chacune des
trois sources selon lge et le pays de naissance, aprs imputation multiple............. 118
Tableau 2.12
Tableau 2.13
Estimation du nombre de nouveau diagnostics par les modles log- linaires incluant
les variables dhtrognit, analyse pas pas descendante .................................. 121
Tableau 2.14
Tableau 3.1
12
Tableau 3.2
Tableau 3.3
Tableau 3.4
Tableau 3.5
Tableau 3.6
Tableau 3.7
Tableau 4.1
Tableau 4.2
Tableau 4.3
Tableau 4.4
Tableau 4.5
Tableau 4.6
Tableau 4.7
Tableau 4.8
Tableau 4.9
Tableau 4.10
Tableau 4.11
Tableau 4.12
Tableau 4.13
Distribution des variables mode de contamination et stade clinique pour les nouveaux
diagnostics de la DO et les sources Copana et Odysse........................................... 220
Tableau 4.14
13
GLOSSAIRE
AIC :
ANRS :
ARS :
B:
BIC :
CNR :
COPANA :
Cohorte ANRS CO9 COPANA coordonne par lInserm, dmarre en 2004 et incluant
des patients non traits par antirtroviraux pour ltude du pronostic court, moyen et
long terme des patients infects par le VIH rcemment diagnostiqus.
DOVIH :
CSF :
Enqute sur le contexte de la sexualit en France, ralise en 2006 par lInserm et lIned.
DIC :
DOVIH :
EPF :
Enqute Prinatale
CO1/CO10/CO11).
ECDC :
Centre europen pour la prvention et le contrle des maladies (European Center for
Disease Prevention and Control).
EIA-RI :
Test dinfection rcente dvelopp par le centre national de rfrence du VIH (Enzyme
Immuno Assay for Recent Infection).
FMI :
HSH :
InVS :
LaboVIH :
MAR :
MCAR :
MCMC :
Algorithme de type Monte Carlo par chane de Markov (Markov chain Monte Carlo).
MNAR :
Franaise,
cohorte
14
finance
par
lANRS
(ANRS-EPF
Odysse :
OMS :
p:
PCR :
RE :
TME :
UDI :
VHB :
Virus de lHpatite B.
VHC :
Virus de lHpatite C.
VIH :
W:
15
RESUME
Le traitement des donnes manquantes est un sujet en pleine expansion en
pidmiologie. La mthode la plus souvent utilise restreint les analyses aux sujets
ayant des donnes compltes pour les variables dintrt, ce qui peut rduire la
puissance et la prcision et induire des biais dans les estimations.
Lobjectif de ce travail a t dinvestiguer et dappliquer une mthode
dimputation multiple des donnes transversales denqutes pidmiologiques et
de systmes de surveillance de maladies infectieuses. Nous avons prsent
lapplication dune mthode dimputation multiple des tudes de schmas
diffrents : une analyse de risque de transmission du VIH par transfusion, une
tude cas-tmoins sur les facteurs de risque de linfection Campylobacter et une
tude capture-recapture estimant le nombre de nouveaux diagnostics VIH chez les
enfants. A partir dune base de donnes de surveillance de lhpatite C chronique
(VHC), nous avons ralis une imputation des donnes manquantes afin
didentifier les facteurs de risque de complications hpatiques graves chez des
usagers de drogue. A partir des mmes donnes, nous avons propos des critres
dapplication dune analyse de sensibilit aux hypothses sous-jacentes
limputation multiple. Enfin, nous avons dcrit llaboration dun processus
dimputation prenne appliqu aux donnes du systme de surveillance du VIH et
son volution au cours du temps, ainsi que les procdures dvaluation et de
validation.
Les applications pratiques prsentes nous ont permis dlaborer une stratgie de
traitement des donnes manquantes, incluant lexamen approfondi de la base de
donnes incomplte, la construction du modle dimputation multiple, ainsi que
les tapes de validation des modles et de vrification des hypothses.
Mots cls :
16
ABSTRACT
Missing data management in epidemiology: Application of multiple imputation to
data from surveillance systems and surveys.
The management of missing values is a common and widespread problem in
epidemiology. The most common technique used restricts the data analysis to
subjects with complete information on variables of interest, which can reduce
substantially statistical power and precision and may also result in biased
estimates.
This thesis investigates the application of multiple imputation methods to manage
missing values in epidemiological studies and surveillance systems for infectious
diseases. Study designs to which multiple imputation was applied were diverse: a
risk analysis of HIV transmission through blood transfusion, a case-control study
on risk factors for Campylobacter infection, and a capture-recapture study to
estimate the number of new HIV diagnoses among children. We then performed
multiple imputation analysis on data of a surveillance system for chronic hepatitis
C (HCV) to assess risk factors of severe liver disease among HCV infected
patients who reported drug use. Within this study on HCV, we proposed
guidelines to apply a sensitivity analysis in order to test the multiple imputation
underlying hypotheses. Finally, we describe how we elaborated and applied an
ongoing multiple imputation process of the French national HIV surveillance data
base, evaluated and attempted to validate multiple imputation procedures.
Based on these practical applications, we worked out a strategy to handle missing
data in surveillance data base, including the thorough examination of the
incomplete database, the building of the imputation model, and the procedure to
validate imputation models and examine underlying multiple imputation
hypotheses.
Keywords :
17
PRODUCTION SCIENTIFIQUE
PUBLICATIONS DANS DES REVUES INTERNATIONALES
AVEC COMITE DE LECTURE
Articles scientifiques issus du travail de thse
Articles publis
Pillonel J, Bousquet V, Pelletier B, Semaille C, Velter A, Saura C, Desenclos JC,
Danic B. Deferral from donating blood of men who have sex with men: impact on
the risk of HIV transmission by transfusion in France. Vox Sang. 2012 ;102 :1321.
Larsen C*, Bousquet V*, Delarocque-Astagneau E*, Pioche C, Roudot-Thoraval F,
Desenclos JC. Hepatitis C virus genotype 3 and the risk of severe liver disease in a
large population of drug users in France. J Med Virol. 2010;82(10):1647-54.
Gallay A, Bousquet V, Siret V, Prouzet-Maulon V, Valk H, Vaillant V, Simon F,
Le Strat Y, Mgraud F, Desenclos JC. Risk factors for acquiring sporadic
Campylobacter infection in France: results from a national case-control study. J
Infect Dis. 2008 ;15;197(10):1477-84.
Article accept sous rserve de modification mineure
Bousquet V, Lot F, Esvan M, Cazein F, Warszawski J, Laurent C, Bernillon P,
Gallay A. A three-source capture-recapture estimate of the number of new HIV
diagnoses in children in France during 2003-2006 with multiple imputation of a
variable of heterogeneous catchability. BMC Infect Dis.
Article en rvision
Bousquet V, Larsen C, Carpenter J, Desenclos JC, Le Strat Y. Practical
considerations for sensitivity analysis after multiple imputation applied to
epidemiological studies with incomplete data. BMC Med Res Methodol.
Article en prparation
Bousquet V, Le Strat Y, Cazein F, Le Vu S, Pillonel J, Semaille C, Desenclos J-C.
A two-stage multiple imputation process applied to the National HIV surveillance
in France.
* Contribution gale des 3 premiers auteurs
18
19
20
INTRODUCTION
1.
Contexte
dimputation multiple sont les plus performantes. Pour notre travail de recherche, nous avons fait
le choix dappliquer une mthode dimputation multiple selon des critres thoriques et pratiques.
Cette mthode permet destimer les valeurs manquantes dune base de donnes partir des
valeurs observes, et de redresser les biais potentiels dus aux donnes manquantes. Issue des
travaux de Rubin et base sur les statistiques baysiennes, limputation multiple consiste
remplacer chaque donne manquante par un jeu de donnes estimes partir des donnes
observes, ce qui permet de prendre en compte lincertitude associe chaque tape du processus
dimputation. Chacune des bases compltes ainsi gnres fournit alors une estimation du
paramtre dintrt, puis un estimateur unique est obtenu en calculant la moyenne de ces
estimations.
22
2.
Objectifs de la thse
Lobjectif de ce travail est dinvestiguer et dappliquer une mthode dimputation multiple des
donnes denqutes et de surveillance dans le domaine des maladies infectieuses.
Cet objectif gnral se dcompose en objectifs plus spcifiques :
Modliser les mcanismes de donnes manquantes des variables dintrt dans le cadre
denqutes et de systmes de surveillance. Estimer les donnes manquantes par une
mthode dimputation multiple avec comme objectif un gain de puissance lors des
analyses descriptives et/ou tiologiques et lobtention destimations non-biaises.
Aborder
partir
dapplications
pratiques
varies
les
diffrentes
questions
23
3.
Dmarche mthodologique
CHAPITRE 1
TRAITEMENT DES DONNEES MANQUANTES EN
EPIDEMIOLOGIE : REVUE DES METHODES
1.
Malgr des collectes de donnes qui se veulent aussi performantes que possible et pour des
raisons souvent hors de tout contrle, les donnes manquantes sont frquemment rencontres en
pidmiologie. Cest le cas pour tous les types denqutes pidmiologiques : enqutes de
cohorte avec des patients perdus de vue lorigine du phnomne dattrition, enqutes castmoins et enqutes transversales avec des problmes de non-rponse aux questionnaires. Ce
phnomne est galement prgnant dans le cadre des essais cliniques avec des sorties dtude ou
des problmes de non-compliance au traitement. On observe le mme phnomne dans des
systmes de surveillance li des dfauts de dclaration ou bien des dclarations incompltes.
Les donnes manquantes peuvent dcouler soit dune non-rponse relle, soit dune rponse
inexploitable.
Dans le cas dune non-rponse relle, la non-rponse est dite totale lorsque toutes les variables
dintrt sont manquantes ou lorsque la quantit dinformation utilisable est juge insuffisante.
Cest le cas lorsquune personne refuse de rpondre une enqute dans sa globalit, ou lorsque la
variable dintrt (par exemple un test biologique) est manquante alors que les autres variables
ont t recueillies. Face une non-rponse totale, il est important de rechercher si les rpondants
et les non-rpondants diffrent selon les variables recueillies. On dispose le plus souvent de
quelques informations concernant la personne qui ne souhaite pas rpondre lenqute, soit
recueillies lors du contact en mme temps que la raison du refus, par exemple partir de la feuille
contact ou de donnes sociodmographiques rcoltes au pralable, soit provenant de bases
mdico-administratives. Nous naborderons pas dans ce travail le traitement de la non-rponse
totale, habituellement effectu au moyen dune mthode dajustement des poids de sondage.
25
alimentaires plus ou moins rcentes, sur des expositions professionnelles prcises au fil du temps,
sur un pass mdical ou sur des antcdents mdicaux familiaux. Il est alors flagrant que les
expositions marquantes vont tre mmorises de faon diffrentielle, comme par exemple pour
une maladie hrditaire grave de type diabte dans un historique mdical familial, au dtriment
de pathologies moins connues ou plus bnignes.
Les mcanismes de non-rponse voqus ont en commun le fait quils sont dus des phnomnes
involontaires, c'
est--dire quil nexiste pas de lien entre la non-rponse et le mcanisme
lorigine de cette non-rponse. Par contre, cela nest pas le cas lorsque la non-rponse dpend de
la nature des questions abordes qui peuvent tre considres par le rpondant comme trop
sensibles comme pour certaines consommations telles que la consommation dalcool ou de tabac,
certains comportements lis lhygine ou la sexualit, ainsi que certains sujets dordre mdical
ou intime. La non-rponse sera alors lie un phnomne volontaire d au rpondant et
rpercute comme un refus direct ou comme une rponse de type "ne sait pas".
Dans lidal, il faudrait tenir compte du risque de non-rponse lors du recueil de donnes en
construisant des questionnaires adapts, c'
est--dire les plus courts possible, avec une dure de
passation suffisante avant daborder les questions sensibles, ou encore de fiches de dclaration
obligatoire synthtiques et claires. Une modalit "ne sait pas" devrait tre prvue pour chaque
question afin de discriminer les vraies non-rponses. Enfin, lorsque le recueil de donnes est
termin et quaucun retour lenqut nest possible, il est important de pouvoir identifier le
mcanisme lorigine de la non-rponse, dun point de vue pidmiologique mais aussi
statistique, car le traitement des donnes manquantes reposera en partie sur la connaissance a
priori de ce mcanisme.
27
2.
Notations
, n de l'
enqute, on note Yi obs l'
ensemble des valeurs renseignes et
Yi miss l'
ensemble des valeurs manquantes. Pour chaque individu i, on peut donc constituer
l'
ensemble Yi = (Yi obs , Yi miss ) auquel on associe un vecteur, not Ri = ( Rij ; j = 1,
, k ) , compos de
2.2.
La structure des donnes manquantes doit tre explore avant le traitement dune base de donnes
incomplte, car le choix de la mthode destimation des donnes manquantes en dpend [2].
Structure univarie
La structure des donnes manquantes est dite univarie lorsquune seule variable contient des
donnes manquantes comme illustr en Figure 1.1. Cest le cas le plus simple et il est rarement
observ en pratique. Nous y ferons rfrence dans une illustration simple des mcanismes de
donnes manquantes (paragraphe 2.3.3).
Structure monotone
La structure des donnes manquantes est dite monotone lorsque les variables incompltes
peuvent tre ordonnes en fonction de la proportion de donnes manquantes quelles contiennent.
Ainsi, on peut dire que les variables Y1 ,..., Yk sont ordonnes selon une structure monotone si,
pour j = 1,..., k 1 , tous les cas contenant des donnes manquantes pour Y j prsentent galement
des donnes manquantes pour Y> j (Figure 1.1).
Une structure de type monotone est observe par exemple sur des donnes dtude longitudinale
lorsquun vnement cause la sortie dtude dun sujet. On parle alors de phnomne dattrition.
28
Lorsquun sujet ne se prsente pas une visite ou quun examen mdical ne peut tre effectu, on
parle alors de structure monotone intermittente.
Structure arbitraire
La structure des donnes manquantes est dite arbitraire lorsque les variables incompltes ne
peuvent pas tre ordonnes selon leur proportion de donnes manquantes. Les donnes
manquantes suivent alors une structure non-monotone puisquelles sont rparties uniformment
dans lensemble de la base de donnes (Figure 1.1). Une structure de type arbitraire est souvent
observe en pidmiologie pour les donnes de type transversal ainsi que pour les donnes
produites par les systmes de surveillance.
1
2
3
4
5
6
7
8
9
10
X2
Monotone
X1
X2
Y1
Y2
1
2
3
4
5
6
7
8
9
10
Y4
X1
1
2
3
4
5
6
7
8
9
10
29
X2
Y1
Y2
Y3
Y4
2.3.
Lorsque lon souhaite analyser un jeu de donnes prsentant des donnes manquantes, il est
ncessaire dapprhender la loi de probabilit lorigine de ces donnes manquantes. De
manire formelle, cette loi est souvent nomme mcanisme de donnes manquantes. Ce
mcanisme est dfini indpendamment de la structure de donnes manquantes prcdemment
dcrite.
En reprenant les notations prcdentes, un mcanisme peut tre formul comme la
distribution conditionnelle de R (vecteur dindicatrices de donnes manquantes) sachant Y
(vecteur de covariables incompltes) et X (vecteur de covariables compltes), soit
P(R = 1) = p . Dans ce cas, cette probabilit ne dpend pas des valeurs observes ou
manquantes des autres variables. Les donnes manquantes reprsentent alors un souschantillon alatoire de lensemble des donnes.
Les donnes sont dites manquantes au hasard, ou MAR pour "Missing At Random", si la
probabilit quune donne soit manquante ne dpend que des valeurs observes des variables
(Y )
obs
(X ) :
P (R = 1) = f R Y obs , X , . Cette
probabilit ne dpend donc pas des valeurs non-observes des variables, conditionnellement
aux valeurs observes.
30
Les donnes sont dites manquantes non au hasard, ou MNAR pour "Missing Non At
Random", si la probabilit quune donne soit manquante dpend de valeurs non-observes
des
variables,
ou
bien
de
variables
qui
nauraient
pas
recueillies :
P (R = 1) = f R Y miss , Y obs , X , . Cette probabilit peut donc dpendre des valeurs observes
( )
des variables Y obs , des valeurs des variables compltes ( X ) , mais aussi des valeurs non-
( )
Mcanisme MCAR
La probabilit de donnes manquantes peut scrire : P(R = 1 M = m, E = e, C = c ) = p . Cest
lhypothse la plus stricte concernant les mcanismes de donnes manquantes et elle est
rarement rencontre en pratique. Outre les cas de figures o des donnes sont manquantes de
faon non-planifie, comme par exemple si un chantillon biologique est perdu ou
inutilisable, un mcanisme MCAR est plausible lorsque les donnes manquantes sont
planifies. Ainsi, un examen complmentaire coteux peut tre effectu seulement pour un
sous-chantillon alatoire de patients, comme par exemple le gnotypage du VIH dans un
systme de surveillance du VIH, ou certains dosages biologiques tels que le dosage de
plombmie ou des dioxines, dans une enqute de terrain en sant environnementale. Ces
donnes manquantes sont alors planifies ds llaboration du protocole et lanalyse se fait en
deux temps en tenant compte de ce mode de recueil diffrentiel [1;5].
31
Mcanisme MAR
Trois scnarios sont possibles :
(1) La probabilit de donnes manquantes du facteur de confusion C ne dpend que du
statut de la maladie M : P(R = 1 M = m, E = e, C = c ) = p(m) et nous noterons alors le
mcanisme de donnes manquantes MAR(M).
33
Mcanisme MNAR
Un mcanisme MNAR signifie que la probabilit de donnes manquantes pour le facteur de
confusion C dpend des valeurs non-observes de C (et ventuellement dautres variables
non-recueillies). Le mcanisme de donnes manquantes est not selon les cas de figure
MNAR(C), MNAR(EC), MNAR(MC) ou MNAR(MEC).
Par exemple, dans une base de donnes de surveillance du VIH, le mode de contamination
suppos peut tre moins bien renseign si le sujet est homosexuel ou bisexuel car il sagit
dune question sensible. Le mcanisme est alors MNAR(C).
De mme, dans une enqute transversale sur les risques de complication dune hpatite C, les
personnes ayant une consommation dalcool importante peuvent donner moins frquemment
le niveau de celle-ci. Les donnes manquantes dpendent alors de la vraie valeur, non
renseigne pour cette variable, et suivent un mcanisme de type MNAR(C). Ce mcanisme
peut tre amplifi pour les patients souffrant de complications hpatiques graves. Il dpend
alors galement de la variable dintrt et il est donc de type MNAR(MC). Il est par ailleurs
possible que des patients, soumis une autre exposition telle que la co-infection par le VIH,
aient tendance moins bien renseigner la variable consommation dalcool. On est alors dans
le cas dun mcanisme de type MAR(EC), voire MAR(MEC) si une dpendance additionnelle
avec la prsence de complications hpatiques graves est observe.
Ces mcanismes de donnes manquantes, dfinis partir de trois variables seulement,
permettent dexplorer les principaux cas de figures que lon peut rencontrer en pratique.
34
3.
sera systmatiquement biaise [10]. Mme si dans un contexte pratique cette assertion sera
souvent vrifie, il est important de la modrer en spcifiant quune analyse cas-complet sera
non-biaise pour un mcanisme MCAR, ou MAR ne dpendant pas de la variable expliquer
[11]. Il faut aussi noter que, comme le souligne Allison [12], une analyse cas-complet peut
tre valide lorsque le mcanisme de donnes manquantes est de type MNAR, alors que des
analyses plus labores telles que limputation multiple seront biaises.
En pratique, une analyse cas-complet est justifie si la proportion de cas incomplets est faible,
induisant ainsi une perte de puissance et de prcision limite. En pratique, un seuil de 5% de
donnes manquantes est souvent cit dans la littrature. Il est cependant difficile de formuler
des recommandations puisquil faut galement tenir compte du mcanisme lorigine des
donnes manquantes et du nombre dindividus dans la base de donnes.
3.2.
Une approche alternative lanalyse cas complet, souvent utilise en pidmiologie lorsque
les variables incluses dans lanalyse sont binaires ou catgorielles, consiste crer une
catgorie additionnelle en remplaant toutes les donnes manquantes par une valeur fixe.
Cette approche prsente lavantage de conserver lintgralit des effectifs. Elle est peu
discute dans la littrature, mais Vach et Blettner [1;4] ont dmontr partir dun exemple
simple quelle produit toujours des estimations biaises, et ce quelle que soit la typologie des
donnes manquantes, c'
est--dire mme lorsque les donnes sont MCAR.
Par ailleurs, dun point de vue pidmiologique, les estimations produites sont difficilement
interprtables puisque la catgorie additionnelle peut regrouper des modalits trs diffrentes
de la variable ainsi recode. Cette mthode ne peut donc tre considre comme valide que
dans des cas de figures trs particuliers tels que lutilisation des scores de dmence en
psychiatrie: les rsultats dun test sont manquants car les patients ne le comprennent pas et la
catgorie donnes manquantes est alors trs prdictive du diagnostic [13]. Cette approche
reste donc proscrire en dehors de cas trs particuliers.
36
3.3.
Imputation simple
Limputation simple consiste remplacer chaque donne manquante par une estimation (et
une seule) de sa valeur et analyser la base de donnes ainsi complte. Dun point de vue
statistique, cette procdure de remplacement peut tre stochastique ou dterministe, selon
quelle implique ou non le tirage dun nombre alatoire.
Pour les mthodes dterministes, sous lhypothse MCAR, les valeurs manquantes peuvent
tre remplaces par la valeur moyenne des valeurs observes auprs des sujets ayant des
donnes compltes. Sous lhypothse MAR, il est frquent de remplacer les donnes
manquantes par la moyenne des valeurs observes sur les sujets ayant les mmes
caractristiques ou par la valeur prdite en fonction des covariables laide dun modle de
rgression estim sur lchantillon complet [12].
Pour la mthode stochastique la plus simple, la valeur de remplacement est issue dun tirage
alatoire partir des rponses compltes. Le choix de cette valeur peut galement tre
effectu par tirage alatoire parmi les sujets ayant la mme probabilit de non-rponse pour la
variable estimer [14;15]. Les modalits de tirage alatoire peuvent tre plus ou moins
complexes. Ainsi, des chantillonnages de type bootstrap ou jacknife sont choisis pour des
mthodes destimation conditionnelle labores [16].
37
Les mthodes dterministes produisent des estimateurs biaiss si les donnes ne sont pas
MCAR. Si le modle dimputation est correct et que les donnes sont MAR, les paramtres
estims partir des donnes compltes sont non biaiss. Cependant, ces mthodes
dimputation simple induisent systmatiquement une sous estimation de la variance car
lincertitude lie la prsence de valeurs estimes nest pas prise en compte par les logiciels
standards [17].
4.
i =1
i =1
Lorsque le mcanisme de donnes manquantes est MAR, le second terme dans l'
intgrale
38
L( , Y obs , R) = f Ri Yi obs ,
n
i =1
5.
39
5.1.
Historique
40
Au cours du temps, la mise en uvre de limputation multiple est devenue plus accessible du
fait de lapparition dordinateurs performants et de programmes ddis [20]. Le champ
dapplication de limputation sest tendu dans le domaine de la sant publique, avec des
applications dimportantes bases de sant publique [21-23], mais aussi des enqutes
observationnelles [24], et de faon prcoce et labore aux essais cliniques [25]. Cependant
son utilisation dans le domaine de lpidmiologie reste encore globalement limite [26],
mme si une littrature trs rcente dtaille les aspects thoriques ainsi que la mise en
application de la mthode [27;28], ce qui prfigure une utilisation plus frquente.
Lapproche de limputation multiple a volu au cours du temps vers un mode dimputation
dit "in house", puisque cest souvent la mme quipe qui excute les processus dimputation
et danalyse des donnes. Limputation est ralise conditionnellement aux analyses
ultrieures, et les rsultats des analyses peuvent tre pris en compte pour une amlioration
ventuelle du processus dimputation. Cest dans cette optique que nous avons choisi
dappliquer la mthode dimputation multiple des donnes de surveillance et denqutes, et
nous verrons que, dans certains cas, il est impratif de tenir compte des analyses programmes
par les utilisateurs.
Dans la littrature, les livres de Little et Rubin [3] et de Schafer [29] sont les ouvrages de
rfrence, complts par le livre de Molenberghs [8] dans le domaine clinique. Par ailleurs,
des articles synthtisent lessentiel de la thorie [10;17;19;30] alors que dautres articles
privilgient une approche plus pratique [31-33]. Des articles prsentent galement des
applications de limputation multiple des donnes denqutes ou de surveillance [21;22;3437], ou dans le cadre de la construction de modles prdictifs [6;9]. Les diverses
implmentations ddies limputation multiple sont dtailles par Horton et al. [38;39] et
des informations compltes et accessibles sont disponibles sur des sites internet
(www.missingdata.org.uk de Carpenter et Kenward ; www.multiple-imputation.com de Van
Buuren).
41
5.2.
Bases thoriques
Nous dtaillons dans cette partie les fondements statistiques des tapes dimputation et
danalyse, sachant que la mise en pratique du processus complet dimputation multiple sera
prsente dans le paragraphe 5.3.
5.2.1. Principe
Le principe gnral de limputation multiple consiste remplacer chaque valeur manquante
par un ensemble de M valeurs plausibles, de faon prendre en compte lincertitude lie au
processus destimation des valeurs manquantes [3].
Limputation multiple se dcompose en trois phases (Figure 1.2) :
Phase dimputation
Les donnes manquantes sont estimes M fois partir dun modle spcifique pour obtenir M
bases de donnes compltes et potentiellement diffrentes.
42
1
1
base 2
2
2
base 3
3
3
base 4
4
4
base 5
5
5
Analyses spares
Phase dimputation
= moyenne( i)
= intrabase
+ interbase
Analyse conjointe
Phase danalyse
Alors que ltape danalyse de multiples bases de donnes est simple pour la plupart des
estimations, la phase dimputation constitue une tape complexe, dont dpend la validit des
estimations finales.
Sous lhypothse que les donnes sont manquantes au hasard, la distribution prdictive
f Y miss Y obs =
=
(
f (Y
)
, ) f ( Y ) d
f Y miss , Y obs d
miss
Y obs
obs
Les donnes manquantes sont imputes en deux tapes. (i) Une valeur est estime pour les
paramtres daprs leur distribution a posteriori observe sur les donnes f Y obs . Les
tirages dans les distributions de probabilit a posteriori sont raliss partir dun algorithme
de type Monte Carlo par chane de Markov (MCMC). Cette premire tape permet dobtenir
une variabilit dans les paramtres. (ii) Les donnes manquantes sont estimes daprs leur
44
Limputation par quations chanes est une mthode plus flexible puisquelle ne fait pas
lhypothse dune distribution multivarie normale. En effet, une distribution est spcifie
pour chaque variable incomplte conditionnellement toutes les autres variables incluses
dans le modle dimputation. Concrtement, cette mthode permet de ramener un problme
multivari de dimension k en k problmes univaris successifs conditionnant chaque pas une
variable impute sur les valeurs observes et sur les valeurs les plus rcentes gnres des
autres variables [41].
Le tirage dans les distributions conditionnelles seffectue avec un algorithme spcifique
driv des chanes de Markov (lchantillonneur de Gibbs), dont le principe est dtaill dans
le paragraphe suivant. Le nombre ditrations ncessaire la convergence est faible, entre 5 et
20 dans la plupart des applications selon la taille du jeu de donnes et la proportion de cas
incomplets, puisque la convergence se fait vers une distribution estime et non une
distribution exacte [41].
Cette approche est particulirement flexible puisquune fonction de lien ainsi quun ensemble
de variables prdictrices peuvent tre spcifis pour chaque variable incomplte, par exemple
une rgression logistique pour une variable binaire ou une rgression multinomiale pour une
variable catgorielle. Lhypothse de normalit nest ainsi plus requise que pour les variables
continues.
Une limite thorique de cette mthode est due au fait que les distributions conditionnelles
pourraient ne pas tre compatibles avec la distribution jointe, ce qui causerait des problmes
de convergence du modle dimputation. Les rpercussions pratiques ne sont cependant pas
documentes dans la littrature [2;42], et quelques tudes de simulation de cas thoriques,
montrant des distributions conditionnelles non compatibles avec la distribution jointe, tendent
montrer que les estimations sont non-biaises [41;43].
Cette approche a dabord t implmente en tant que programme additionnel (ado) sous
STATA (ICE), mais elle est prsent disponible comme fonction de base dans la version 12
de STATA. Elle est galement disponible comme un ensemble de routines pouvant tre
appel partir de SAS (IVEware) et sous R (librairie MICE). Son utilisation est en
progression constante [39].
Les rsultats obtenus en appliquant ces deux mthodes sont variables selon les tudes. Ainsi,
Faris et al. [35], Yu et al. [44] et Van Buuren et al. [43] concluent partir dtudes par
45
simulation que la mthode par quations chanes donne des rsultats plus fiables que
lapproche multivarie normale en termes de biais et de couverture de lintervalle de
confiance. Dans une tude rcente, Lee et al. [45] comparent les performances des deux
mthodes partir de donnes simules de diffrents types, et montrent quelles constituent
toutes les deux une approche valide. Ils concluent que, mme si lapproche par quations
chanes se distingue par sa flexibilit et sa capacit grer les donnes discrtes, la mthode
multivarie normale produit galement des estimations valides quel que soit le type de
donnes.
Un avantage majeur de limputation par quations chanes rside cependant dans la gestion
adquate des variables discrtes, ainsi que dans la possibilit de spcifier un jeu de prdicteurs
pour chaque variable, permettant dinclure des liens complexes entre les variables. En relation
avec le type de donnes que nous avons t amens traiter, savoir des donnes
essentiellement discrtes, nous avons fait le choix dappliquer la mthode dimputation
multiple par quations chanes. Un exemple dimputation complexe prsent dans ce travail
et ralis partir de la base de donnes de surveillance du VIH illustre bien les avantages lis
la flexibilit de cette approche (chapitre 4).
suit
une
loi
normale
de
moyenne
1
(x ) .
P( X ) = P( X = x ) =
exp
2 2
2
2
46
et
de
variance
alors
Exemple : X 1 ~ N 1 ; 12 et X 2 ~ N 2 ; 22
)
47
P( X 1 )
Distribution jointe
P( X 2 )
P( X 1 , X 2 )
X2
X1
X1
X2
P( X 1 , X 2 )
P( X 1 , X 2 )
et P ( X 2 X 1 ) =
.
P( X 2 )
P( X 1 )
X2.
48
P( X 1 X 2 = 3.02 )
P( X 1 X 2 = 1.08)
P( X 1 X 2 = 0.21)
P (X 1 ,..., X p ). Il est cependant trs difficile de tirer ces valeurs directement partir de la
distribution jointe. Une solution est dutiliser lchantillonneur de Gibbs. Celui-ci gnre des
valeurs issues de la distribution jointe, mais uniquement partir des distributions
conditionnelles :
49
Etape 2 : On tire les valeurs selon les distributions conditionnelles de la manire suivante :
(
)
~ p (x
Cycle 1
x1(1)
x2(1)
Cycle 2
Cycle k
x1(2 )
...
...
x2(2 )
x1(k )
x2(k )
.
(0 )
xp
.
(1)
xp
...
xp
(2 )
x (pk )
(x ( ) , x( ) ,..., x ( ) ),
k
k
2
k
p
conditionnelles successives, sapparente, sous des conditions trs gnrales et pour un nombre
k de cycles suffisamment grand, un vecteur de valeurs qui aurait t tir de la distribution
50
Illustration 1 :
On se place dans le cas o lon ne dispose que de deux variables X 1 et X 2 . La variable X 1 a
des donnes manquantes et la variable X 2 est complte.
X1
1
0
1
0
0
1
.
.
.
X2
18
24
33
67
49
43
26
61
45
Notons quil ny a pas ici de notion de variable explicative et de variable expliquer. Toutes
les variables du modle dimputation sont alternativement des variables explicatives et des
variables expliquer, au sens statistique.
( )
Etape 1 : On remplace les donnes manquantes de X 1 par des valeurs initiales x1(0 ) . Cellesci peuvent tre tires de la distribution des valeurs observes.
X1
1
0
1
0
0
1
.
.
.
X2
18
24
33
67
49
43
26
61
45
X1
1
0
1
0
0
1
0
1
0
51
X2
18
24
33
67
49
43
26
61
45
P xi1 xi 2,
exp( xi 2 )
=
1 + exp( xi 2 )
xi 1
1 exp( xi 2 )
1 + exp(xi 2 )
1 xi 1
Cette spcification entrane le choix dun modle dimputation, qui est un modle de
rgression incluant des variables explicatives, ainsi que de la fonction de lien entre la variable
qui prsente des donnes manquantes et ces variables explicatives. Puisque la variable est
binaire, le lien est une fonction logit.
Le paramtre et sa variance sont estims en maximisant une fonction de vraisemblance.
= 0 . 0138385 et de sa variance
()
V = 0.0428534 2 .
On tire une nouvelle valeur * partir de la distribution suppose normale de ,
()
N = 0.0138385, V = 0.0428534 2 .
52
On impute les valeurs manquantes. Pour chaque individu i pour lequel la variable X 1 est
manquante :
exp xi *
On calcule sa probabilit dtre X 1 = 1 : wi =
1 + exp xi *
X1
1
0
1
0
0
1
0
1
0
X2
18
24
33
67
49
43
26
61
45
0.667 0.876
0.836 0.658
0.769 0.036
X1
1
0
1
0
0
1
0
1
1
X2
18
24
33
67
49
43
26
61
45
53
Illustration 2 :
On se place dans le cas o lon ne dispose que de deux variables X 1 et X 2 , toutes deux
incompltes.
(x ( ) , x ( ) ). Celles-ci peuvent tre tires dans chacune des distributions des donnes observes.
1
0
2
X1
1
0
1
0
0
1
.
.
.
X2
18
24
33
.
.
43
.
61
45
X1
1
0
1
0
0
1
0
1
0
X2
18
24
33
45
38
43
29
61
45
Cycle 1
X1
1
0
1
0
0
1
0
1
1
X2
18
24
33
45
38
43
29
61
45
X1
1
0
1
0
0
1
0
1
0
54
X2
18
24
33
43
36
43
25
61
45
utilisant les valeurs que lon vient dimputer X 2 : x2(1) ~ p x2 x1(2 ) . Le cycle 2 est achev.
Cycle 1
X1
1
0
1
0
0
1
.
.
.
X2
18
24
33
67
49
43
26
61
45
X1
1
0
1
0
0
1
0
1
1
X2
18
24
33
45
38
43
29
61
45
Cycle2
X1
1
0
1
0
0
1
0
1
0
X2
18
24
33
43
36
43
25
61
45
X1
1
0
1
0
0
1
0
0
1
X2
18
24
33
43
36
43
25
61
45
X1
1
0
1
0
0
1
0
0
1
X2
18
24
33
42
35
43
26
61
45
On recommence ce processus jusqu ce que les valeurs imputes ne varient plus dun cycle
lautre. On a alors atteint la convergence de lchantillonneur.
On retient les valeurs obtenues au dernier cycle et lensemble de ces valeurs vont former une
base de donnes complte. En pratique, le nombre de cycles est fix par lutilisateur, en
gnral 10 cycles. Le processus complet est rpt M fois pour obtenir M bases de donnes
compltes.
55
Q m et U m pour m = 1,..., M .
Lestimateur combin Q * est la moyenne des Q m pour les M imputations :
1
Q * =
M
M
m =1
Q m
1
M
M
m =1
U m
1 M
B=
Qm Q *
M 1 m=1
(Q
U * ~ t ,
avec
le
nombre
U
= (M 1) 1 +
.
(1 + 1 M )B
56
de
degrs
de
libert
gal
Les phases dimputation et danalyse sont ralises par le biais de procdures ddies, et
seffectuent de faon automatise. Lors de la phase dimputation, il est seulement ncessaire
de choisir certains paramtres comme le nombre de cycles de lchantillonneur et le nombre
de bases imputer, ainsi que certaines options spcifiques de la mthode. La phase danalyse
est encore plus aise, puisque les rsultats combins sont obtenus directement avec les
commandes classiques prcdes de commandes propres limputation multiple, sachant que
les rsultats des analyses intermdiaires napparaissent pas.
Du fait de la simplification des procdures implmentes sous les diffrents logiciels,
limputation multiple apparat dune application abordable. Cependant, mme si certains cas
simples ne requirent pas dexpertise particulire, limputation multiple ncessite une mise en
uvre mthodique et rigoureuse, aussi bien pour la construction du modle dimputation que
pour linterprtation des rsultats et la vrification des hypothses. Cest ce processus que
nous allons maintenant dtailler.
5.3.
57
Selon la taille de la base de donnes dorigine, il est parfois intressant de constituer une base
restreinte limite ces variables, en restreignant la proportion de donnes manquantes
maximale environ 30%. Ce chiffre est cit titre dexemple car il nexiste pas de limite
thorique la proportion de donnes manquantes que lon peut traiter par imputation multiple
[47;48]. Cette limite peut tre fixe de faon empirique en fonction du nombre de variables
incompltes mais aussi selon la proportion dinformation annexe disponible dans la base de
donnes. Des outils diagnostiques appliqus aprs imputation permettent de valider ce choix.
Il est informatif ce stade didentifier la typologie des donnes manquantes afin de dcrire le
motif et le mcanisme des donnes manquantes. Des commandes spcifiques permettent de
visualiser le motif de rpartition des donnes manquantes de toutes les variables ainsi que
dvaluer la perte deffectifs attendue lors dune analyse cas complet. Afin didentifier le
mcanisme de donnes manquantes, on associe chaque variable dexposition incomplte Ei
une indicatrice de donnes manquantes Ri binaire (code 1 si Ei nest pas renseigne et 0
sinon). On croise chaque indicatrice Ri avec, dune part la variable expliquer M , dautre
part chacune des variables dexposition Ei (Figure 1.7). Le lien statistique recherch est un
test du Chi2 significatif (p 0.05) pour des variables binaires ou catgorielles, ou bien un
coefficient de corrlation suprieur 0.15 pour des variables continues [42]. Cet examen
univari simple permet de proposer une premire synthse des mcanismes de donnes
manquantes observs. Un examen multivari peut galement tre ralis.
Cette analyse permet gnralement dexclure un mcanisme MCAR pour une variable donne
si au moins un des croisements avec la variable expliquer (maladie) ou une des variables
explicatives (expositions) est significatif. Le mcanisme de donnes manquantes nest alors
pas compltement alatoire car il dpend au moins dune autre variable de la base de donnes.
Par ailleurs, cet examen permet didentifier pour chaque variable un mcanisme de type
MAR(M), MAR(E) ou MAR(ME), c'
est--dire dpendant seulement de la maladie, seulement
dune ou plusieurs variables dexposition, ou conjointement des deux.
58
Liens Ri M ?
(Chi2 p 0.05 ou cor>0.15)
Liens Ri Ei ?
(Chi2 p 0.05 ou cor>0.15)
A partir des rsultats de cet examen prsents dans le Tableau 1.1, il est possible de dgager
un mcanisme de donnes manquantes global, c'
est--dire danticiper le risque de biais en
analyse cas-complet si un mcanisme de type MAR(ME) est identifi. Il faut noter que lon ne
peut exclure un mcanisme de type MNAR si des liens existent entre des indicatrices de
donnes manquantes et des variables incompltes, car le mcanisme de donnes manquantes
peut aussi dpendre des valeurs non-observes de ces variables.
A la suite de cet examen statistique des mcanismes de donnes manquantes, il est important
de proposer des hypothses pidmiologiques pour ces mcanismes, tout particulirement
lorsquun mcanisme de type MNAR est envisag.
59
Tableau 1.1
R2
R3
R4
E1
E2
E3
E4
Mcanisme
MCAR
MAR(E)
MAR(M)
MAR(ME)
Rubin [3] propose dinclure le plus de variables explicatives possible, tout en construisant un
modle dimputation de faon raisonne, c'
est--dire en respectant les relations entre les
variables. Selon lui, il est en principe plus dangereux domettre des variables explicatives que
den inclure trop dans le modle dimputation. Rubin fait alors rfrence un type particulier
dimputation qui consiste estimer les donnes manquantes dans des bases de donnes
importantes, et ceci sans tenir compte des analyses qui seront ralises par la suite sur des
sous-parties des bases compltes.
Meng [49] prcise la mthode de slection des variables en introduisant la notion
dhomognit entre la procdure dimputation et les analyses ultrieures. Ainsi, il montre
quil est ncessaire dinclure au minimum dans le modle dimputation toutes les variables
retenues pour les analyses ultrieures, sous peine dintroduire des biais. Concrtement, si on
ralise une analyse tiologique partir dune base de donnes incomplte, on doit inclure
dans le modle dimputation les covariables retenues au terme de lanalyse univarie cascomplet ainsi que la variable expliquer.
Bien que cette dmarche ne paraisse pas intuitive, il est ncessaire dinclure la variable
expliquer dans le modle dimputation afin de reproduire le niveau de lien entre les valeurs
observes de la variable expliquer et les valeurs imputes des covariables incompltes, tel
quil existe pour les autres donnes observes de la base [50;51;52]. Si la variable expliquer
nest pas retenue, le niveau de lien entre la variable expliquer et les covariables sera sousestim lors de limputation, ce qui faussera lanalyse tiologique ultrieure [20]. Ces
variables, retenues systmatiquement pour limputation, sont dnommes variables
principales. Elle composent le modle dimputation le plus rduit.
Cependant, suivant les indications princeps de Rubin [30], Van Buuren [42] propose une
stratgie de construction du modle dimputation consistant slectionner le plus de variables
prdictrices possible, dans la mesure o elles contiennent des informations sur le mcanisme
de donnes manquantes des variables incompltes. Il faut donc retenir dune part les variables
lies aux variables imputer, et dautre part les variables lies au mcanisme de donnes
manquantes des variables imputer. Ces variables additionnelles, dites variables auxiliaires
[14], permettent damliorer les capacits prdictrices du modle dimputation [53], mme
lorsquelles ne sont pas retenues dans les analyses ultrieures des donnes imputes. Le
modle dimputation est alors plus gnral que le modle danalyse. Il est conseill de retenir
61
un total de 15 25 variables prdictrices [42], mais nous verrons quen pratique il est peu
courant de pouvoir slectionner plus de 15 variables.
Lajout de variables auxiliaires permet de capturer au mieux le mcanisme de donnes
manquantes et ainsi de rendre lhypothse MAR plus plausible, puisque la modlisation des
variables incompltes dpend davantage de valeurs observes et donc dans une moindre
mesure de valeurs non-observes [10;14]. Van Buuren [42] a ainsi dmontr dans une tude
par simulation que limputation de donnes manquantes selon un mcanisme MNAR tait
nettement amliore par lajout de variables auxiliaires, c'
est--dire que les estimateurs taient
moins biaiss par rapport la vraie valeur que lors dune imputation ralise partir dun
modle plus rduit.
En pratique, la slection des variables seffectue en deux temps. Tout dabord, on retient les
variables slectionnes pour les analyses ultrieures, les variables principales, puis on
identifie les variables auxiliaires en croisant les indicatrices de donnes manquantes des
variables incompltes avec les variables disponibles dans la base de donnes.
La slection des variables prdictrices, principales et auxiliaires, est prsente par Van Buuren
[42] comme une recherche de corrlations entre les variables deux deux, aussi bien pour les
liens entre variables incompltes, quentre indicatrices de donnes manquantes et variables
incompltes ou/et compltes. Il est cependant informatif de tenir compte dans cette slection
de lajustement sur les autres variables, c'
est--dire de se placer dans un cas multivari. On
slectionne ainsi les variables prdictrices par rgression de chaque indicatrice de donnes
manquantes et de chaque variable imputer sur lensemble des variables de la base de
donnes [41]. Cependant, si cette stratgie permet de prendre en compte les relations entre les
donnes utilises lors du processus dimputation, ces analyses multivaries sont ralises en
cas-complet et peuvent donc tre affectes par une perte de puissance ainsi que par un biais de
slection du fait des donnes manquantes.
Il a donc t propos par Wood et al.[54] et plus rcemment par White et al. [28] deffectuer
cette slection partir des donnes imputes. Cette approche, qui peut paratre circulaire, a t
retenue dans notre travail essentiellement comme un procd de validation du jeu de variables
prdictrices retenues. En effet, sachant quune imputation multiple valide doit prserver les
relations entre les variables, il parait cohrent dexaminer les liens entre les variables partir
des donnes imputes puisquils doivent reflter les liens initiaux entre les variables
incompltes.
62
value lefficacit de lutilisation dun nombre fini M dimputations par rapport un nombre
infini dimputations.
Si la fraction dinformation manquante, que lon dnotera FMI (Fraction of Missing
Information), est dfinie comme une fonction des variances intra-imputation (W ) et interimputation (B ) avec FMI =
B
, alors lefficacit statistique relative (Relative Efficiency,
W +B
FMI
.
m
FMI
0.05 et
M
donc M = 5 est adquat si FMI 0.25. On se place ici dans un cas univari, ce qui signifie
quil suffit dimputer 5 bases pour obtenir une efficacit statistique relative de 95% si la
variable incomplte a une FMI de 25%. Pour une mme efficacit statistique, il suffirait
dimputer 10 bases pour prendre en compte une FMI de 50%.
Tableau 1.2
0,2
0,3
0,5
0,7
0,9
95
91
87
80
74
69
97
94
91
86
81
77
98
96
94
91
88
85
10
99
98
97
95
93
92
20
100
99
99
98
97
96
64
Formul autrement, une perte defficacit statistique relative correspond une inflation de la
variance de lestimation. Ainsi, tolrer une efficacit statistique de 95% implique une
augmentation de la variance dun facteur de 1.02 pour une proportion de donnes manquantes
de 25% et M = 5 . Ce facteur atteint 1.08 pour une FMI=50% et M = 10 .
Cependant, de nouveaux arguments en faveur dun nombre dimputations plus important sont
dcrits dans la littrature. Ainsi, Graham et al. [58] reprennent les arguments defficacit
statistique proposs par Rubin en les prcisant. Ils observent par simulation une baisse notable
de puissance statistique, avec un impact sur la largeur de lintervalle de confiance et sur la pvaleur, baisse suprieure 5% pour une FMI 0.25 et pour M = 10 , par rapport 100
imputations. Selon cet exemple, le nombre de bases quil faudrait imputer pour limiter la perte
de puissance statistique 5% serait le double de celui retenu selon les arguments prcdents,
pour une FMI similaire.
White et al. soulignent cependant que les arguments defficacit statistique relative et de
puissance statistique ne sont pas suffisants pour dterminer le nombre de bases imputer.
Comme suggr par Horton et al. [38], il faudrait tenir compte dans le choix du nombre de
bases de la stabilit des rsultats obtenus en analysant des jeux de donnes imputes partir
de la mme base de donnes initiale (et le mme modle dimputation). On se base ainsi sur
lestimation de lerreur de Monte Carlo, donne par lexpression MCerror = B
qui tend
vers 0 lorsque M augmente. A partir dune tude par simulation, Bodner [57] propose
destimer lerreur de Monte Carlo dun paramtre . Afin de valider le choix du nombre de
bases imputes, on peut retenir comme critre que lerreur de Monte Carlo de doit tre
gale environ 10% de lcart type de .
De faon sassurer que tous ces critres sont remplis, White et al. suggrent de choisir,
quand cela est possible, un nombre de bases imputes M tel que M 100 FMI . En
approximant la FMI par la proportion de donnes manquantes, il faudrait alors imputer, si une
seule variable est incomplte, environ 100 fois la proportion de donnes manquantes de cette
variable.
65
En pratique, il est rare davoir traiter une base de donnes contenant une seule variable
incomplte et la FMI peut diffrer de la proportion de donnes manquantes. Nous verrons
dans les applications prsentes quun diagnostic simple du nombre de bases imputes peut
tre obtenu en combinant ces diffrents critres, et quil est souvent difficile en pratique
dimputer un nombre de bases adquat. Il reste cependant intressant dexplorer ces critres
diagnostiques, tout particulirement lorsquun processus dimputation peut tre amlior au
cours du temps, comme cest le cas pour les donnes de systmes de surveillance.
Autres options
Nombre de cycles
Plusieurs cycles sont ncessaires seulement si plusieurs variables sont incompltes.
Lchantillonneur de Gibbs converge rapidement (5 10 itrations) et le programme
additionnel ICE spcifie 10 cycles par dfaut. Dans la littrature, les auteurs observent peu de
variations au-del de 20 cycles [35;42;59]. En pratique, le temps dimputation varie peu entre
10 et 30 cycles, ce qui peut autoriser un choix conservateur.
Racine
La racine ("seed") est un nombre que lon peut spcifier dans les options du modle
dimputation. Cest un nombre qui initialise le gnrateur de nombres alatoires. Si ce nombre
est spcifi, il est alors possible dobtenir un jeu de donnes identique lorsque lon rpte le
processus dimputation partir du mme modle. Dans le cas contraire, une racine est gnre
par ICE et chaque nouvelle imputation donnera des rsultats potentiellement diffrents.
66
Abayomi et al. [61] proposent des comparaisons numriques et graphiques afin de dpister
des anomalies dans le processus dimputation, appliques conscutivement plusieurs bases
de donnes imputes. Comme soulign par Raghunatan et al. [62], les comparaisons
numriques ne sont pas toujours interprtables en raison de la diffrence deffectifs entre
valeurs observes et imputes, car elles peuvent tre de ce fait artificiellement significatives.
Les diagnostics graphiques permettent de tester aisment les donnes imputes, sur une seule
base ou sur lensemble des bases imputes. Dans le cas des variables continues, limputation
se fait sous lhypothse dune distribution normale, ce qui implique souvent une
transformation pralable de ces variables. Une analyse graphique permet ainsi de dpister des
dfauts de superposition des distributions observes et imputes.
Cette premire tape de validation du processus dimputation doit prendre place avant la
phase danalyse. Lexprience montre que, bien quelle repose sur des examens qualitatifs,
cette tape est cruciale pour sassurer (i) de la validit du modle dimputation retenu, (ii) de
la plausibilit de lhypothse MAR. Dans le cas o les tests diagnostiques montrent des
variations inexpliques, et si le modle dimputation parait valide, il est important denvisager
une analyse de sensibilit sur la base dhypothses pidmiologiques. Cette approche est
illustre dans le chapitre 3. Une autre approche consiste appliquer une procdure de
validation croise [63] partir dchantillons simuls selon plusieurs mcanismes de donnes
manquantes. Cette procdure permet de tester ltendue des biais sur les estimateurs, ainsi que
la couverture des intervalles de confiance selon les mcanismes de donnes manquantes
gnrs. Elle est illustre dans le chapitre 4.
La ralisation dune analyse multivarie implique une stratgie de slection de variables base
sur le test dhypothses. Aprs imputation multiple, le test de Wald est approxim par un test
de Student pour tester les coefficients de rgression. Un test de Fisher permet galement de
tester conjointement une srie de coefficients de rgression sur lensemble des bases imputes
[65].
Cependant, certaines statistiques ne peuvent tre obtenues directement partir de donnes
imputes, car elles ne peuvent tre combines sur les M bases imputes selon les rgles de
Rubin. White et al. [28] ont rcemment synthtis cette problmatique pour les statistiques les
plus frquemment utilises (Tableau 1.3).
Tableau 1.3
Les critres statistiques permettant la slection du meilleur modle tels que le test de rapport
de vraisemblances, le test de la dviance, les critres dadquation AIC (Akake Information
Criterion) et BIC (Bayesian Information Criterion) ainsi que le test du Chi2 du modle (test
dadquation) ne peuvent pas tre obtenus directement. Une approximation de la statistique
du rapport de vraisemblances a t propose par Meng et Rubin [66]. La problmatique de la
slection dun modle selon des critres dadquation sera aborde dans le chapitre 2.
69
Matriel et mthodes
Prsenter les variables incompltes, la proportion de donnes manquantes par variable
et leur motif global de rpartition. Donner un ordre de grandeur de la perte deffectifs
attendue en analyse cas-complet.
Proposer un mcanisme de donnes manquantes par variable partir des variables
indicatrices de donnes manquantes. Si des analyses tiologiques sont prvues,
prciser le risque de biais attendu en analyse cas-complet, c'
est--dire si un mcanisme
MAR(ME) global est attendu.
Identifier selon le type de donnes recueillies et le mode de collecte les principaux
mcanismes gnrant des donnes manquantes. Formuler des hypothses MCAR,
MAR, MNAR en fonction de ces informations.
Dgager lintrt de lestimation des donnes manquantes par imputation multiple par
rapport lanalyse cas-complet. Prciser la mthode retenue (modle multivari
normal ou modle par quations chanes), ainsi que le logiciel utilis.
Dtailler le processus dlaboration du modle dimputation. Prciser les variables
incluses dans le modle, leur type ainsi que les transformations ventuelles ainsi que
les termes dinteraction retenus. Spcifier le nombre de bases de donnes imputes en
le rapportant la proportion de donnes manquantes.
70
Rsultats
Proposer un diagnostic de limputation en comparant les donnes imputes et
observes pour les variables contenant une proportion non-ngligeable de donnes
manquantes.
Prsenter si possible les rsultats des deux analyses, cas-complet et imputation
multiple. Prciser, si cest le cas, les variables qui ne sont pas communes aux modles
finaux retenus au terme des deux analyses. Prsenter les estimations obtenues sur la
base dun modle incluant les mme variables pour les bases de donnes incomplte et
impute.
Discussion
Discuter les diffrences entre les deux analyses en termes de (i) slection des variables
(c'
est--dire les variables retenues dans le modle final), (ii) comparaison des
estimations tenant compte de la variabilit des rsultats laide du coefficient de
variation
CV =
SE
71
6.
Contexte
Il est tabli quune analyse cas-complet peut donner des rsultats biaiss lorsque le
mcanisme de donnes manquantes dpend conjointement de la variable expliquer et dune
autre variable. En revanche, si le mcanisme de donnes manquantes ne dpend pas de la
variable expliquer, une analyse cas-complet peut savrer plus robuste, c'
est--dire donner
des rsultats non-biaiss, en cas de donnes de type MNAR [4;12;67].
Les mthodes dimputation multiple, telles quelles sont implmentes dans les logiciels
standards, sont bases sur lhypothse que les donnes sont manquantes selon un mcanisme
MAR, que le mcanisme de donnes manquantes dpende ou non de la variable expliquer.
Ainsi, une analyse par imputation multiple permet de redresser les biais observs en analyse
cas-complet lorsque le mcanisme de donnes manquantes dpend de la variable expliquer.
Cependant, si les donnes sont MNAR, c'
est--dire que le mcanisme de donnes manquantes
dpend de valeurs non-observes dune variable, alors limputation multiple peut donner des
rsultats biaiss. Selon Carpenter et al., ce biais peut tre plus important si le mcanisme de
donnes manquantes dpend de la variable expliquer [68]. Ce dernier concept nest
cependant pas explicit clairement dans la littrature, et larticle de Wang et al. [69] tend
montrer que la relation entre le type de mcanisme de donnes manquantes et les biais
observs en imputation multiple est probablement plus complexe.
6.2.
Etude de simulation
6.2.1. Matriel et mthodes
En reprenant lexemple propos par Vach et al. [4] et illustr par Chavance et al. [70], nous
avons choisi de simuler une enqute cas-tmoins, avec un tmoin par cas. Comme prsent
dans le Tableau 1.4, la base de donnes contient 792 individus, et trois variables binaires M
(maladie), E (exposition) et C (confusion).
72
Tableau 1.4
M=1
M=0
Total
C=1
M=1
M=0
Total
C=0
M=1
M=0
Total
E=1
180
162
342
E=1
90
135
225
E=1
90
27
117
E=0
216
234
450
E=0
36
117
153
E=0
180
117
297
Total
396
396
792
Total
126
252
378
Total
270
144
414
OR=1.204
OR=2.167
OR=2.167
IC95% = [0.908;1.595]
IC95% = [1.349;3.429]
IC95% = [1.329;3.533]
Les effectifs ont t calculs de faon respecter certaines contraintes : obtenir pour lodds
ratio stratifi une valeur plausible dun point de vue pidmiologique (environ 2) et similaire
pour les deux strates du facteur de confusion.
Des donnes manquantes sont ensuite simules pour le facteur de confusion selon les
mcanismes prsents en paragraphe 2.3.3. Puis des analyses cas-complet et par imputation
multiple sont ralises.
6.2.2. Rsultats
Analyse cas-complet
Une proportion variable de donnes manquantes est applique pour chaque strate selon le
mcanisme recherch. Par exemple, pour un mcanisme MCAR, une proportion de 11% de
donnes manquantes est applique chaque cellule des tableaux de contingence des deux
strates du facteur de confusion. Pour simuler un mcanisme MAR(M) dpendant de la
maladie, une proportion de 22% de donnes manquantes est applique pour les malades et
33% pour les non-malades. Il nous a paru cohrent de simuler une proportion plus leve de
donnes manquantes parmi les non-malades que parmi les malades, ainsi que parmi les nonexposs que parmi les exposs. Ce principe est dclin pour tous les autres mcanismes. Par
exemple, pour le mcanisme MAR(ME), 2% de donnes manquantes sont simules pour les
non-malades/non-exposs,
4% pour les
malades/non-exposs,
3% pour les
non-
Tableau 1.5
M=1
M=0
Total
C=1
M=1
M=0
Total
C=0
M=1
M=0
Total
E=1
160
144
304
E=1
80
120
200
E=1
80
24
104
E=0
192
208
400
E=0
32
104
136
E=0
160
104
264
Total
352
352
704
Total
112
224
336
Total
240
128
368
OR=1.204
OR=2.167
IC95% = [0.908;1.595]
OR=2.167
IC95% = [1.332;3.526]
IC95% = [1.290;3.640]
M=0
Total
C=1
M=1
M=0
Total
C=0
M=1
M=0
Total
E=1
140
108
249
E=1
70
90
160
E=1
70
18
88
E=0
168
156
324
E=0
28
78
106
E=0
140
78
218
Total
308
264
572
Total
98
168
266
Total
210
96
306
OR=1.204
OR=2.167
OR=2.167
IC95% = [0.908;1.595]
IC95% = [1.204;3.898]
IC95%=[1.290;3.640]
M=0
Total
C=1
M=1
M=0
Total
C=0
M=1
M=0
Total
E=1
160
144
304
E=1
80
120
200
E=1
80
24
104
E=0
144
156
300
E=0
24
78
102
E=0
120
78
198
Total
304
300
604
Total
104
198
302
Total
200
102
302
OR=1.204
OR=2.167
OR=2.167
IC95% = [0.908;1.595]
IC95% = [1.265;3.710]
IC95% = [1.265;3.710]
Maladie - Exposition
MAR(ME) : %E1M1 = 2% - %E1M0 = 4% - %E0M1 = 3% - %E0M0 = 50%
M=1
M=0
Total
C=1
M=1
M=0
Total
C=0
M=1
M=0
Total
E=1
176
156
332
E=1
88
130
218
E=1
88
26
114
E=0
210
118
328
E=0
35
59
94
E=0
175
59
234
Total
386
274
660
Total
123
189
312
Total
263
85
348
OR=0.634
OR=1.141
OR=1.141
IC95% = [0.464;0.866]
IC95% = [0.693;1.878]
IC95% = [0.673;1.934]
74
M=0
Total
C=1
M=1
M=0
Total
C=0
M=1
M=0
Total
E=1
140
138
278
E=1
80
120
200
E=1
60
18
78
E=0
152
182
334
E=0
32
104
136
E=0
120
78
198
Total
292
320
612
Total
112
224
336
Total
180
96
276
OR=1.215
OR=2.167
OR=2.167
IC95% = [0.883;1.671]
IC95% = [1.332;3.526]
IC95% = [1.190;3.944]
Maladie - Confusion
MNAR(MC) : %C1M1 = 6% - %C1M0 = 11% - %C0M1 = 22% - %C0M0 = 33%
M=1
M=0
Total
C=1
M=1
M=0
Total
C=0
M=1
M=0
Total
E=1
155
138
293
E=1
85
120
205
E=1
70
18
88
E=0
174
182
356
E=0
34
104
138
E=0
140
78
218
Total
329
320
649
Total
119
224
343
Total
210
96
306
OR=1.175
OR=2.167
OR=2.167
IC95% = [0.862;1.601]
IC95% = [1.345;3.490]
IC95% = [1.204;3.898]
Exposition - Confusion
MNAR(EC) : %C1E1 = 2% - %C1E0 = 11% - %C0E1 = 22% - %C0E0 = 44%
M=1
M=0
Total
C=1
M=1
M=0
Total
C=0
M=1
M=0
Total
E=1
158
153
311
E=1
88
132
220
E=1
70
21
91
E=0
132
169
301
E=0
32
104
136
E=0
100
65
165
Total
290
322
612
Total
120
236
356
Total
170
86
256
OR=1.175
OR=2.167
OR=2.167
IC95% = [0.962;1.818]
IC95% = [1.342;3.499]
IC95% = [1.214;3.866]
M=1
M=0
Total
C=1
M=1
M=0
Total
C=0
M=1
M=0
Total
E=1
168
150
318
E=1
88
130
218
E=1
80
20
100
E=0
185
126
311
E=0
35
29
94
E=0
150
67
217
Total
353
276
629
Total
123
189
312
Total
230
87
317
OR=0.763
OR=1.141
OR=1.787
IC95% = [0.447;1.079]
IC95% = [0.643;1.639]
IC95% = [1.218;2.355]
75
Les rsultats du Tableau 1.5 montrent que les estimations des OR stratifis sont biaises pour
le mcanisme MAR(ME) avec un odds ratio de 1.141 [0.373 ;1.934] pour C=0. Lintervalle
de confiance de lodds ratio pour ce mcanisme ne contient donc pas la vraie valeur de lOR
qui est gale 2.167 [1.349 ;3.429]. Pour le mcanisme MEC, on observe un biais de la mme
amplitude, mme si lintervalle de confiance de lOR stratifi contient la vraie valeur de lOR
pour C=0.
Tableau 1.6
Maladie
MAR(E)
Exposition
MAR(ME)
Maladie + Exposition
MNAR(C)
Confusion
MNAR(EC)
Exposition + Confusion
MNAR(MC)
Maladie + Confusion
MNAR(MEC)
Cas Complet
Imputation Multiple
2.167
[1.33;3.53]
2.167
[1.20;3.90]
2.167
[1.26;3.71]
1.141
[0.69;1.88]
2.167
[1.33;3.53]
2.167
[1.34;3.50]
2.167
[1.34;3.49]
1.395
[0.64;1.64]
2.162
[1.54;3.06]
2.185
[1.53;3.11]
2.171
[1.53;3.08]
2.157
[1.54;3.02]
2.132
[1.51;3.02]
1.964
[1.40;2.75]
2.219
[1.57;3.14]
2.184
[1.55;3.07]
Sont prsents les odds ratios associs la variable dexposition aprs ajustement sur le facteur de confusion.
Les zones en vert reprsentent les OR biaiss en analyse cas-complet, et les zones en jaune les OR biaiss en
analyse par imputation multiple.
6.2.3. Discussion
Les rsultats montrent que lanalyse cas-complet est effectivement biaise pour les
mcanismes impliquant la variable expliquer et lune des variables dexposition, c'
est--dire
les mcanismes MAR(ME) et MNAR(MEC). Limputation multiple donne des rsultats non76
biaiss lorsque le mcanisme de donnes manquantes est de type MCAR ou MAR, et permet
donc de redresser le biais observ en analyse cas-complet pour le mcanisme MAR(ME).
Pour les mcanismes MNAR, les rsultats apparaissent effectivement biaiss aprs imputation
multiple.
Cependant, selon les connaissances sur ce sujet, des biais plus importants sont attendus pour
les mcanismes MNAR dpendant de la variable expliquer, c'
est--dire les mcanismes
MNAR(MC) et MNAR(MEC). Or, cest pour le mcanisme MAR(EC) que le biais est le plus
important. Cela montre tout dabord les limites dune analyse simple de simulation. Il aurait
en effet t intressant de faire varier les effectifs de dpart, ainsi que les proportions de
donnes manquantes selon les mcanismes, mais les contraintes imposes ne permettaient pas
denvisager dautres scnarios. Par ailleurs, et cela sera confirm dans une application plus
complexe sur des donnes relles (chapitre 3), lamplitude de la dpendance entre le
mcanisme de donnes manquantes et la variable expliquer peut varier selon les variables,
avec un impact diffrentiel sur les biais attendus en cas de mcanisme MNAR.
Conclusion
Nous avons abord dans ce chapitre le traitement des donnes manquantes dans des bases de
donnes transversales ou de systmes de surveillance. Nous navons pas prsent le mode de
traitement de donnes longitudinales, car limputation est alors base sur des modles
diffrents de ceux dcrits, tenant compte de la rptition des observations pour les mmes
individus. Ainsi, la prise en compte de donnes manquantes de type monotone et selon un
processus MAR lies des sorties dtudes dans le cadre de donnes de cohorte est plus
facilement grable en pratique par une estimation par maximum de vraisemblance des
paramtres dun modle mixte plutt que par imputation multiple. Par ailleurs, certaines
donnes transversales ont une structure hirarchique du fait de la prsence de sous-groupes
dfinis au sein de lchantillon analys. Il est alors possible dimputer ce type de donnes
avec les mthodes dimputation prsentes ici, en incluant des variables indicatrices
identifiant les sous-groupes. Cette adaptation a cependant ses limites si le nombre de sousgroupes est lev, et il est alors prfrable dappliquer des procdures ddies [31].
77
78
CHAPITRE 2
PROCESSUS DIMPUTATION MULTIPLE DEDIE A DES
ANALYSES SPECIFIQUES : APPLICATION A DES DONNEES
DENQUETES ET DE SURVEILLANCE
1.
En France, les hommes ayant des rapports sexuels avec des hommes (HSH) sont exclus de
faon permanente du don de sang parce quils ont un risque plus lev dtre infects par le
VIH [71;72], mais aussi par lhpatite B ou la syphilis, et donc un risque de transmettre ces
infections. Depuis 1985, des progrs trs importants ont t raliss en matire de tests de
dpistage pour le VIH, incluant depuis 2001 le Dpistage Gnomique Viral (DGV) qui permet
la dtection dinfections trs rcentes.
Cependant, un risque de transmission du VIH persiste, essentiellement d lexistence dune
fentre silencieuse, c'
est--dire dune priode qui survient aprs que le donneur ait t infect
et avant que les marqueurs de linfection soient dtectables. Du fait de lexistence de cette
fentre silencieuse, les autorits de sant ont maintenu lexclusion permanente des HSH des
dons de sang. Cette mesure, considre comme discriminatoire par certains activistes, nest
pas totalement respecte car certains HSH ne dclarent pas leur comportement sexuel avant le
don.
Lobjectif de cette tude tait destimer la part de risque rsiduel de transmission du VIH par
transfusion attribuable aux HSH.
79
1.1.
Mthodes
1.1.1. Recueil de donnes
Depuis 1992 en France, tous les centres de transfusion collectent chaque trimestre le nombre
total de dons et de donneurs selon le statut du donneur (nouveau ou connu) et les
caractristiques pidmiologiques (sexe, ge, sous-type du VIH 1, origine gographique) des
donneurs confirms VIH positifs au systme national de surveillance des donneurs de sang
[73]. Parmi les donneurs identifis comme positifs pour le VIH, plus des trois quarts
reviennent pour une consultation mdicale aprs le don durant laquelle linformation sur le
mode probable de contamination est recueillie.
de donnes manquantes de type MNAR ne peut tre exclu pour la variable mode de
contamination.
1.2.
La variable mode de contamination est catgorielle et une fonction de lien multinomiale est
spcifie. Les variables retenues pour les analyses de risque rsiduel sont lanne de
diagnostic, le sexe, le type de donneur et la prsence danticorps VIH. Ces 4 variables
constituent les variables principales, systmatiquement incluses dans le modle dimputation.
Peu de variables supplmentaires ont pu tre retenues dans la base de donnes de dpart, et 3
variables auxiliaires ont t identifies : lge, le dpartement de domicile et le pays de
naissance.
1.3.
Diagnostic de limputation
Afin destimer si le modle dimputation est correct et si lhypothse MAR est plausible, nous
avons compar les proportions observes et estimes de la variable mode de contamination.
En effet, si le processus dimputation est valide, on sattend ce que les variations entre
valeurs observes et imputes restent dans des limites raisonnables et quelles soient
explicables par un mcanisme identifi.
Les rsultats de cet examen sont prsents dans le Tableau 2.1. Les proportions observes de
la variable mode de contamination ne diffrent pas significativement des proportions
estimes, puisquelles appartiennent aux intervalles de confiance 95% (IC 95%) des
proportions estimes, aussi bien pour chacune des priodes de 3 ans que sur lensemble de la
priode dtude.
81
Tableau 2.1
Mode de transmission
1994-1996
1997-1999
2000-2002
2006-2008
1994-2008
Observ
Imput
IC 95%
Hrrosexuel
29.30
32.96
26.2,39.8
24.59
26.25
18.6,33.9
32.58
34.02
24.5,43.5
26.25
28.38
18.6,38.2
34.15
34.90
24.7,45.1
31.4
33.72
30.5,37.0
Observ
Imput
IC 95%
65.61
61.50
54.5,68.5
72.13
70.39
62.4,78.3
65.17
63.55
54.0,73.1
72.5
70.13
60.2,80.1
64.63
63.85
53.6,74.0
64.35
61.43
58.1,64.8
3.28
3.36
0.2,6.6
2.25
2.43
0.8,5.7
1.25
1.48
0.9,5.7
1.22
1.25
0.8,3.6
4.25
4.86
3.2,6.5
Homosexuel
2003-2005
Proportions (%)
5.1
5.54
2.1,9.0
Nous en concluons que le risque davoir des donnes MNAR est limit, ou que le modle est
suffisamment riche en variables prdictrices pour rendre lhypothse MAR plausible.
1.4.
Le risque rsiduel de transmettre le VIH par transfusion a t calcul par priodes de 3 ans en
faisant le produit de lincidence du VIH chez les donneurs de sang ayant donn au moins deux
fois au cours de la priode dtude par la dure de la fentre silencieuse (en annes) [74].
Lincidence du VIH correspond au nombre de donneurs rguliers ayant sroconverti pour le
VIH pendant la priode de 3 ans (S) divis par le nombre de donneurs-annes (DA) calcul en
sommant les dlais entre le premier et le dernier don de chaque donneur au cours de la priode
dtude. La fentre silencieuse pour le VIH correspond la priode pendant laquelle le virus
est indtectable, et a t estime 12 jours [75].
82
I=
DAHSH
I
+
(DAHSH + DAAUTRES ) HSH
avec I HSH =
DAAUTRES
I
(DAHSH + DAAUTRES ) AUTRES
S HSH
S
10 5 et I AUTRES = AUTRES 10 5 o S HSH et S AUTRES sont respectivement
DAHSH
DAAUTRES
le nombre de sroconversions VIH observes chez les donneurs HSH et chez les autres
donneurs pendant la priode dtude.
Cependant, contrairement aux nombres de sroconversions, les nombres de Donneurs-Annes
nont pu tre obtenus sparment pour les HSH et les autres donneurs partir du systme de
surveillance des donneurs de sang.
Les deux quantits DAHSH et DAAUTRES ont pu tre estimes partir des donnes suivantes :
(1) Pendant la priode 2006-2008, 50.2% des donneurs taient des hommes
(2) Un intervalle a t propos pour estimer la proportion dHSH parmi les donneurs
masculins, dduit des rsultats dune tude en population gnrale sur le comportement sexuel
des Franais (CSF-2006) [76]. Lintervalle propos est [1.5% ; 4.1%] et les bornes sont
utilises pour proposer des valeurs des incidences et des risques rsiduels pour les donneurs
de sang HSH et les autres donneurs.
83
Ainsi on aurait, selon le scnario, une proportion de 1.5% ou de 4.1% de HSH parmi les
donneurs de sang masculin, ce qui donne :
I HSH 1 =
S HSH
S AUTRES
10 5 et I AUTRES 1 =
10 5
DA 0.502 0.015
DA (1 (0.502 0.015))
I HSH 2 =
S HSH
S AUTRES
10 5 et I AUTRES 1 =
10 5
DA 0.502 0.041
DA (1 (0.502 0.041))
1.5.
Rsultats
1.5.1. Risque rsiduel VIH pour la priode 2006-2008
Les rsultats sont prsents dans le Tableau 2.2. Pour la priode 2006-2008, 31
sroconversions VIH ont t observes parmi les donneurs de sang ayant fait au moins deux
dons, ce qui donne une incidence de 1.3 pour 100 000 Donneurs-Annes. A partir de cette
incidence, le risque rsiduel a t estim 0.41 par million de dons soit 1 sur 2 440 000 de
dons.
Tableau 2.2
Nombre de cas
VIH incidents
Nombre de DA
Incidence pour
100 000 DA
(IC 95%)
Dure de la priode
fentre en jours
(tendue)
Risque rsiduel
par million de dons
(IC 95%)
31
2 467 560
1.26
(0.87-1.81)
12 (0 28)
0.41
(0.0 1.39)
84
Tableau 2.3
Autres donneurs
SHSH = 15
SAUTRES = 16
18 590
2 448 970
50 813
2 416 747
IHSH-1 = 80.7
IAUTRES-1 = 0.65
IHSH-2 = 29.5
IAUTRES-2 = 0.66
RRHSH-1 = 26.5
RRAUTRES-1 = 0.21
RRHSH-2 = 9.7
RRAUTRES-2 = 0.22
Pour le scnario 1 (1,5% des donneurs masculins seraient des HSH), le risque rsiduel
dinfection par le VIH li aux HSH a t estim 26.5 par million de dons ou 1 sur 38 000
dons, soit 125 fois plus que le risque imputable aux autres donneurs (1 sur 4 700 000 dons).
Pour le scnario 2 (4,5% des donneurs hommes seraient des HSH), le risque rsiduel
dinfection par le VIH li aux HSH a t estim 9,7 par million de dons ou 1 sur 100 000
dons, soit 45 fois plus que le risque imputable aux autres donneurs (1 sur 4 600 000 dons).
85
Ces rsultats montrent que, si tous les HSH avaient renonc donner leur sang au cours de la
priode 2006-2008, le risque rsiduel de transmission du VIH se serait situ dans lintervalle
[1 sur 4 700 000 1 sur 4 600 000 dons] soit la moiti du risque actuel (1 sur 2 440 000
dons).
Notons que lincidence, et donc le risque rsiduel, sont plus levs pour le scnario 1 (1.5%
des donneurs masculins sont des HSH) que pour le scnario 2 (4.1% des donneurs masculins
sont des HSH) car, pour un nombre de sroconversions identique, le nombre de DonneursAnnes est plus faible pour le scnario 1 que pour le scnario 2.
Figure 2.1 Tendances dincidence du VIH parmi les donneurs HSH et les autres
donneurs pour la priode 1994-2008
100.0
10.0
Incidence VIH
globale
1.0
Autres donneurs
0.1
1994-96
1997-99
2000-02
2003-05
2006-08
Priodes d'
tude
Les rsultats illustrs par la Figure 2.1 montrent que lincidence a augment de faon
significative parmi les donneurs HSH entre la priode 1994-1996 et la priode 2006-2008
(p=0.02) alors que lincidence globale est reste stable.
86
1.6.
Discussion
87
Conclusion
Cette illustration partir de donnes de surveillance du VIH chez les donneurs de sang
prsente une application simple de la mthode dimputation multiple. En effet, une seule
variable est manquante et le schma de donnes manquantes est donc univari, cas de figure
rarement rencontr en pratique. Cependant, on doit faire lhypothse que les donnes sont
MNAR pour cette variable, puisquil est tabli partir des entretiens postrieurs au don de
sang que certains HSH ont volontairement dissimul leur prfrence sexuelle. Parmi les 35%
dindividus positifs pour le VIH qui ne se prsentent pas lentretien, certains sont
probablement en partie des HSH avec un comportement risque qui recherchent un test VIH
rapide et fiable. Des donnes rcentes de lInVS (non publies) indiquent dailleurs que les
cas dinfection dpists par DGV un stade trs prcoce sont trs majoritairement des
homosexuels.
88
2.
Dans la plupart des pays industrialiss, les infections Campylobacter reprsentent, avec les
infections par les Salmonelles, la cause la plus frquente de gastroentrite bactrienne
dorigine alimentaire. Des tudes antrieures ont montr que les principaux facteurs de risque
dinfection Campylobacter actuellement identifis sont : la consommation de poulet peu cuit
ainsi que dautres produits carns, la consommation deau non-traite, les contacts avec des
animaux de compagnie ou de ferme ainsi que le fait de voyager ltranger [78-80].
Lobjectif de cette tude tait didentifier les facteurs de risque des cas sporadiques
dinfection Campylobacter survenant en France. Cette tude consistait en une enqute castmoins incidents exploratoire nationale avec appariement, et elle a t mene du 15/08/02 au
30/06/04.
2.1.
2.2.
Recueil de donnes
2.2.1. Donnes collectes
La priode dexposition explore correspondait aux 8 jours prcdant la date dapparition des
premiers symptmes du cas. Le questionnaire a port sur des expositions alimentaires (types
daliments, mode de cuisson et/ou lieu de consommation) et sur des contacts avec des
animaux (vivants ou morts) ainsi quavec des malades diarrhiques dans lentourage du cas.
Lhygine en cuisine a t explore comme une habitude comportementale et non sur une
priode donne.
A partir de la base de donnes dorigine, nous avons constitu une base de donnes restreinte
pour les analyses (cas-complet et imputation multiple). Pour cela, nous avons dabord
slectionn et/ou reconstruit 28 variables binaires. Des variables ayant un pourcentage lev
de donnes manquantes (30%) ont t retenues, mais les variables ayant de faibles effectifs
dans la catgorie des exposs ont t exclues. La base de donnes contient au final 21
variables dexposition.
De ce fait, les 21 variables sont entirement renseignes pour 202 individus seulement, sur un
effectif total de 538.
Examen qualitatif
Afin didentifier le mcanisme de donnes manquantes, on associe chaque variable
dexposition incomplte Ei une indicatrice de donnes manquantes Ri binaire, qui vaut 1 si la
variable Ei est manquante pour lindividu i et 0 sinon. On croise chaque indicatrice Ri avec
dune part la variable expliquer M (infection Campylobacter), et dautre part chacune des
variables dexposition Ei . Le lien statistique recherch est un test du Chi2 significatif
(p 0.05). Cet examen univari permet de proposer une premire synthse des mcanismes de
donnes manquantes.
Le mcanisme de donnes manquantes dpend de la variable expliquer pour une seule
variable, avoir mang au restaurant. Cela signifie que, pour les autres variables dexposition,
la proportion de donnes manquantes ne diffre pas significativement entre les cas et les
tmoins. Le dtail des relations entre les variables indicatrices de rponse et les variables
dexposition est donn dans le Tableau 2.4. Il montre que 18 des 21 variables dexposition
sont lies significativement au moins une variable indicatrice de donnes manquantes.
Le mcanisme de donnes manquantes serait donc a priori de type MAR(ME) pour la variable
avoir mang au restaurant, MAR(E) pour 17 autres variables, et MCAR pour les 3 variables
de contact (avec des malades diarrhiques ou des animaux). On peut en dduire que le risque
de biais des estimateurs en analyse cas-complet est rduit. Notons quun mcanisme MCAR
pour les 3 variables de contact est peu raliste, mme si aucune relation statistique na t
mise en vidence. Par ailleurs, un mcanisme de type MNAR doit tre envisag pour les 18
autres variables, puisquun lien existe entre leurs indicatrices de donnes manquantes et des
variables dexposition incompltes, donc potentiellement avec les valeurs non-observes de
ces variables.
91
Tableau 2.4
Variables d'exposition
Libell Signification
Variables de non
rponse *
Tmoins
(N=269)
Cas
(N=269)
Libell
d'exposition
Consommation de volaille
E1
32.7
27.1
R1
R2 R8 R16
E2
23.8
28.6
R2
R1
11.1
13.4
R3
R1 R2 R6 R7
Consommation de buf
E3
E4
4.5
2.2
R4
R2 R6 R7
E5
0.0
0.4
R5
R3 R6 R7
E6
15.6
18.6
R6
R2 R18
E7
7.8
11.1
R7
R3
6.0
1.1
R8
R1 R2 R6 R10
R16 R17 R18
E9
0.0
0.0
R9
E10
11.9
9.7
R10
R1 R6
E11
7.4
4.5
R11
R1 R3 R6
E12
7.4
11.5
R12
R8
E13
3.0
3.0
R13
R11
E14
0.0
0.0
R14
R1 R6 R8 R21
E15
0.7
1.1
R15
R6
4.1
6.3
R16
R21
E17
3.3
5.6
R17
R8 R18
E18
5.2
7.1
R18
R21
6.0
3.0
R19
E20
0.0
0.0
R20
E21
3.3
5.2
R21
* Variables indicatrices de donnes manquantes indiquant si la variable est entirement renseigne ou non
Variables indicatrices de donnes manquantes lies significativement chacune des variables d'
exposition
(Chi2, p 0,05)
92
2.3.
Une analyse cas-complet est ralise afin (i) didentifier les variables retenues pour tre
incluses dans le modle danalyse multivarie en cas-complet et aprs imputation multiple, et
(ii) dobtenir des estimations qui pourront tre compares celles obtenues aprs imputation
multiple. Au terme de lanalyse univarie, 14 variables ont t retenues pour lanalyse
multivarie car elles sont lies la variable expliquer avec un seuil de significativit p 0.2
(Tableau 2.5). Des interactions dordre 1 ont t recherches mais aucune ntait significative.
93
Tableau 2.5 Slection des variables incluses dans les modles danalyse et dimputation
Variables d'exposition
Libell
Signification
(IC 95%)
Variables d'
exposition lies la variable expliquer
et la non rponse : variables principales
E1
0,7 (0,4;1,2)
0.2
E2
0,5 (0,3;1,0)
0.05
E3
0,8 (0,5;1,2)
0.2
E5
0,6 (0,4;1,0)
0.03
E6
0,6 (0,4;0,9)
0.02
E7
2,0 (1,2;3,4)
0.009
E8
1,6 (1,0;2,7)
0.06
E10
0,5 (0,3;0,9)
0.01
E11
0,4 (0,2;0,7)
0.002
E12
0,5 (0,4;0,8)
0.004
E16
1,5 (1,0;2,2)
0.04
E17
1,7 (1,1;2,6)
0.009
E19
1,5 (1,0;2,3)
0.06
E21
2,3 (1,3;3,9)
0.003
Variables d'
exposition non lies la variable expliquer
mais lies la non rponse : variables auxiliaires
E4
0,9 (0,4;2,1)
0.8
E14
0,8 (0,5;1,2)
0.3
E9
1,5 (0,8;2,3)
0.3
E13
0,8 (0,4;1,5)
0.4
E15
1,0 (0,7;1,4)
0.9
E18
1,3 (0,8;2,0)
0.3
1,3 (0,8;2,0)
0.3
Variable d'
exposition ni lie la variable expliquer
ni lie la non rponse : variable accessoire
E20
94
Nous avons ralis une analyse multivarie en appliquant une stratgie de slection des
variables pas pas descendante. Cependant, les 14 variables incluses dans le modle sont
incompltes, et la perte deffectifs en analyse multivarie est importante et aggrave par
lappariement. En effet, comme illustr sur la Figure 2.2, la prsence dune donne manquante
pour un cas ou un tmoin entraine la perte de la paire complte lors de lanalyse.
Figure 2.2 Evolution des effectifs en fonction des variables incluses successivement
dans le modle danalyse multivarie cas-complet
600
500
Effectifs
400
300
200
100
0
Modle
vide
E1
E2
E3
E5
E6
E7
E8
E10
E11
E12
E16
E17
E19
Modle
complet
Avec appariement
Ainsi, aprs inclusion des 14 variables dans le modle multivari tenant compte de
lappariement, les effectifs sont ramens 94 individus sur les 538 initiaux. De ce fait,
lalgorithme de maximisation de la vraisemblance du modle ne converge pas et les
paramtres ne peuvent pas tre estims. Nous avons donc appliqu une stratgie danalyse par
sous-modles qui consiste effectuer une premire slection des variables en les incluant par
groupes de variables corrles dans 4 modles multivaris indpendants. Les 9 variables
retenues au terme des 4 analyses (p 0.2) sont incluses dans un modle unique et le modle
final obtenu porte sur 340 individus.
95
96
Le programme additionnel utilis (ICE) spcifie 10 cycles par dfaut car la convergence de
lchantillonneur de Gibbs est rapide si le modle est correctement spcifi, et nous avons
retenu cette valeur.
Diagnostic
Cette tape, qui en pratique est ralise en parallle de la phase danalyse, a pour objectif de
valider le modle dimputation, et destimer si lhypothse que les donnes soient MAR est
plausible.
Tableau 2.6
Cas Complet
Imputation Multiple
Variables d'exposition
Diagnostic (%)
|ORIM-ORCC|*
SE
SE
ORCC
Donnes
manquantes
(%)
E1
0.69 (0.42-1.16)
0.18
0.91 (0.60-1.38)
0.19
31.9
30.0
E2
0.55 (0.30-0.99)
0.17
0.73 (0.47-1.13)
0.16
32.7
26.2
E3
0.80 (0.54-1.19)
0.16
0.85 (0.60-1.21)
0.15
6.3
12.3
E5
0.64 (0.43-0.97)
0.13
0.69 (0.46-1.03)
0.14
7.8
3.3
E6
0.62 (0.41-0.94)
0.13
0.78 (0.54-1.12)
0.14
25.8
17.1
E7
2.00 (1.18-3.38)
0.53
2.26 (1.39-3.69)
0.56
13.0
9.5
E8
Avoir mang au
restaurant
1.64 (1.00-2.70)
0.42
1.67 (1.02-2.72)
0.41
1.8
3.5
E10
0.55 (0.34-0.88)
0.13
0.55 (0.36-0.86)
0.12
0.0
10.8
E11
0.42 (0.25-0.72)
0.12
0.45 (027-0.74)
0.12
7.1
6.0
E12
0.55 (0.37-0.83)
0.11
0.64 (0.44-0.94)
0.12
16.4
9.5
E16
1.50 (1.01-2.22)
0.3
1.51 (1.03-2.21)
0.29
0.7
5.2
E17
1.71 (1.15-2.55)
0.35
1.68 (1.14-2.49)
0.34
1.8
4.5
E19
1.52 (0.98-2.35)
0.34
1.46 (0.95-2.23)
0.32
3.9
4.5
E21
2.26 (1.32-3.88)
0.62
2.03 (1.22-3.39)
0.53
5.8
4.3
* Variation relative des OR obtenus en analyse cas-complet (ORCC) et aprs imputation multiple (ORIM)
98
Des variations relatives de 20 30% sont observes pour les 3 variables ayant une proportion
de donnes manquantes leve, de 17 30%. Pour ces variables, les ORCC et les ORIM ne
diffrent pas significativement puisque les ORCC appartiennent aux intervalles de confiance
95% des ORIM. Pour les autres variables, le critre de variation relative des OR est infrieur
10% pour 10 variables sur 12.
En ce qui concerne les variables dhygine pour lesquelles les donnes sont risque dtre
MNAR, la variation relative est infrieure 2%. Cela peut tre li au faible pourcentage de
donnes manquantes pour ces variables (<5%), ainsi que par linclusion des principaux
prdicteurs de ces variables dans le modle dimputation.
Tableau 2.7
Donnes
manquantes
(%)
10
20
30
50
E1
29.9
E6
17.1
E10
16.8
E17
4.5
Variables
E1 : Avoir mang du poulet ; E6 : Avoir mang du buf achet au dtail ; E10 : Avoir mang du poisson ou des
fruits de mer ; E17 : Hygine insuffisante des ustensiles
Les rsultats prsents dans le Tableau 2.7 montrent peu de variations au-del de 20 bases,
aussi bien pour la valeur de lORa que pour lintervalle de confiance 95%. On peut en
dduire quil est suffisant dimputer 30 bases.
99
2.4.
Rsultats
Les rsultats des analyses cas-complet et par imputation multiple sont prsents dans le
Tableau 2.8. Pour le modle danalyse final, les effectifs sont respectivement de 340 et 538
individus.
Tableau 2.8
Variables
OR
IC 95%
OR
IC 95%
0.51
0.28 - 0.93
0.03
0.59
0.37 - 0.94
0.03
2.71
1.37 - 5.39
0.004
2.76
1.75
1.02 - 3.03
0.04
0.40
0.22 - 0.70
0.002
2.10
1.32 - 3.30
0.002
2.01
1.13 - 3.58
0.02
NS
0.45
0.23 - 0.88
0.002
NS
3.19
1.57 - 6.48
0.001
Sont nots en caractres gras les ORa des variables associes une augmentation du risque dinfection
Campylobacter.
* Nombre dindividus pris en compte dans le calcul des ORa dans le modle final
Analyse cas-complet ralise par lintermdiaire de sous-modles
Odds ratio non significatif
Pour les deux analyses, la consommation de buf insuffisamment cuit et le contact avec une
personne diarrhique sont des facteurs indpendamment associs au risque de survenue dune
Campylobactriose. Par ailleurs, la consommation de buf achet en boucherie, la ferme ou
au march, ainsi que la consommation de lgumes crus ou de salades sont des facteurs
associs une diminution du risque de Campylobactriose.
Lanalyse ralise par imputation multiple met en vidence deux facteurs de risque
supplmentaires de Campylobactriose : le fait davoir mang au restaurant et une hygine
insuffisante des ustensiles de cuisine lors de la prparation des repas.
Les odds ratios ajusts (ORa) prsents dans le Tableau 2.8 sont issus de modles multivaris
diffrents en analyse cas-complet et en imputation multiple. Nous avons restreint lanalyse
100
par imputation multiple aux 4 variables slectionnes par lanalyse cas-complet afin de
pouvoir comparer les estimations en fonction du type danalyse. Les rsultats sont prsents
dans le Tableau 2.9.
Tableau 2.9
Variables
OR
SE
(SE/OR)x100
E5 - Avoir mang du
buf achet en
boucherie, la ferme ou
au march
0.51 (0.28-0.93)
0.15
E7 - Avoir mang du
buf peu cuit
2.71 (1.37-5.38)
OR
SE
(SE/OR)x100
29.4
0.61 (0.39-0.97)
0.14
23.1
0.95
35.1
2.62 (1.57-4.38)
0.69
26.3
0.45 (0.23-0.88)
0.15
33.3
0.47 (0.27-0.80)
0.13
27.7
3.19 (1.57-6.48)
1.15
36.1
2.03 (1.17-3.53)
0.57
28.1
* Nombre d'
individus pris en compte dans le calcul des OR dans le modle final
Coefficient de variation associ l'
OR, exprim en %
Les ORa sont proches pour les deux analyses pour les variables E5, E7 et E11. On observe un
gain de prcision aprs imputation multiple avec une baisse du coefficient de variation. Pour
la variable contact avec une personne diarrhique, la diffrence entre les ORa obtenus dans les
deux analyses est plus marque avec une variation relative de 36%. Notons que, pour cette
variable, lcart type est divis par 2 aprs imputation et le coefficient de variation est rduit
de presque 10%.
101
2.5.
102
Modles d'imputation
E5
E7
E8
E11
E17
E21
0.60
(0.14)
2.79
(0.76)
1.69
(0.47)
0.41
(0.12)
2.05
(0.47)
2.02
(0.60)
0.59
(0.14)
2.74
(0.76)
1.74
(0.49)
0.39
(0.11)
2.10
(0.49)
2.04
(0.60)
0.59
(0.14)
2.84
(0.78)
1.73
(0.48)
0.39
(0.11)
2.11
(0.49)
2.03
(0.60)
0.58
(0.14)
2.77
(0.76)
1.75
(0.49)
0.40
(0.12)
2.10
(0.49)
2.01
(0.59)
0.60
(0.14)
2.75
(0.76)
1.75
(0.49)
0.39
(0.11)
2.10
(0.49)
1.98
(0.58)
0.60
(0.14)
2.71
(0.75)
1.64
(0.45)
0.44
(0.13)
2.07
(0.48)
1.96
(0.57)
0.61
(0.14)
2.85
(0.77)
1.73
(0.48)
0.40
(0.11)
2.10
(0.47)
1.99
(0.58)
0.60
(0.14)
2.78
(0.80)
1.63
(0.45)
0.40
(0.11)
2.00
(0.47)
1.93
(0,57)
0.59
(0.14)
2.86
(0.83)
1.61
(0.44)
0.39
(0.11)
2.07
(0.48)
1.95
(0.57)
0.60
(0.14)
2.69
(0.73)
1.66
(0.46)
0.41
(0.12)
2.09
(0.48)
2.03
(0.60)
E5 : Avoir mang du buf achet en boucherie, la ferme ou au march ; E7 : Avoir mang du buf peu cuit ;
E8 : Avoir mang au restaurant ; E11 : Avoir mang des lgumes crus ou des salades ; E17 : Hygine
insuffisante des ustensiles ; E21 : Avoir t en contact avec une personne diarrhique.
E1 : Avoir mang du poulet ; E3 : Avoir mang du buf ; E10 : Avoir mang du poisson ou des fruits de mer.
En gris fonc : modle retenu pour limputation ; en gris clair : modle incluant toutes les variables disponibles.
103
2.6.
Discussion
2.6.1. Interprtation des rsultats
Puissance et prcision
Outre une amlioration du processus de slection des variables, limputation multiple permet
dobtenir un gain de puissance et donc de prcision, ainsi que de redresser les biais potentiels
en analyse cas-complet, sous lhypothse MAR.
Lanalyse cas-complet est ralise sur 38.6% des effectifs totaux pour les 4 variables
communes aux deux analyses. Les coefficients de variation rendent compte de limpact de
104
cette perte deffectifs en analyse cas-complet. Ils ont des valeurs proches pour les 4 variables
considres. Notons que la perte deffectifs est alors indpendante de la proportion de
donnes manquantes initiale de ces variables, mais dpend de leffet conjugu des donnes
manquantes des 4 variables. Lors de lanalyse aprs imputation multiple, portant sur des
effectifs restaurs, la variabilit lie la prsence de donnes estimes est prise en compte
dans le calcul de la variance (en intgrant une variance inter-bases). Limputation dun
nombre suffisant de bases de donnes, tenant compte de la proportion de donnes manquantes
dans la base de donnes de dpart, doit permettre de limiter cette variabilit. Dans cette tude,
cet objectif est atteint puisque le coefficient de variation est nettement rduit aprs imputation
multiple pour les 4 variables considres. Par ailleurs, un examen simple des ORa de
variables cls selon le nombre de bases imputes montre que le choix dimputer 30 bases est
valide. Une limite de cette tude est de navoir pas prcis cette notion par le calcul pour
chacune des variables de la FMI, de lefficacit statistique et de lerreur de Monte-Carlo.
105
106
Conclusion
Cette application pratique a t ralise partir dune base de donnes contenant de
nombreuses variables incompltes, avec des donnes qui sont manquantes selon un schma
arbitraire et un mcanisme majoritairement MAR. Lintrt de cette tude est donc dillustrer
le processus de slection des variables lorsque de nombreuses variables sont disponibles.
Notons que pour certaines bases de donnes de sant publique, pouvant contenir plus de 100
variables, des procdures automatiques de construction des quations de prdiction sont
disponibles pour certaines implmentations. Par exemple, le programme IVEware retient par
107
une procdure danalyse pas pas descendante automatique les variables considres comme
prdictrices. La slection est automatise en spcifiant au pralable la valeur de la part de la
variance explique du modle de rgression [82]. Cependant, le nombre de variables retenues
dans lquation de prdiction de chaque variable varie sensiblement selon la valeur de ce
critre. Ce type de slection automatique contient donc une part darbitraire quil convient de
contrler au mieux.
108
3.
Lobjectif mthodologique de ce travail tait destimer par imputation multiple les donnes
manquantes dune variable de stratification non-renseigne pour une des trois sources de
donnes, puis dappliquer la mthode capture-recapture des bases de donnes imputes.
3.1.
Contexte
Au niveau mondial, limmense majorit des infections par le VIH chez les enfants est due
une transmission mre-enfant (TME) au cours de la grossesse, de laccouchement ou de
lallaitement. Environ 430 000 nouvelles infections pdiatriques ont t diagnostiques dans
le monde en 2008 [83]. La plupart de ces infections auraient pu tre vites par des
programmes de prvention de la TME.
En France, le risque de transmission du VIH lenfant a t rduit de faon marque depuis la
fin des annes 80 grce lutilisation prophylactique et thrapeutique des thrapies
antirtrovirales (ART). Ces traitements administrs la mre pendant la grossesse, mais aussi
au bb pendant les premires semaines de vie, ont permis dobtenir un taux de transmission
trs faible, de lordre de 1% pour les femmes ayant accouch entre 1997 et 2004 [84]. Ainsi,
un diagnostic prcoce durant la grossesse et une mise sous traitement rapide de la mre
permet une prvention efficace de la TME. En France, une nouvelle politique nationale datant
de 1993 stipule quun test de dpistage de linfection par le VIH doit tre systmatiquement
propos aux femmes enceintes lors du premier examen prnatal (1er trimestre de la
grossesse).
Il est communment admis que le nombre denfants vivant avec le VIH en France est
denviron 1 500 sur un total estim de 150 000 personnes sropositives. De plus, 10 15
nouvelles infections sont diagnostiques chez des nouveau-ns chaque anne [85], auxquelles
il faudrait ajouter les diagnostics chez les enfants ns en pays de forte endmie, arrivant en
France aprs leur naissance et pour lesquels aucune estimation nest disponible.
109
3.2.
Objectif
Notre objectif tait destimer par la mthode capture-recapture le nombre total de nouveaux
diagnostics dinfection VIH chez les enfants de moins de 13 ans en France mtropolitaine
pour la priode 2003-2006, partir de trois sources de donnes : la dclaration obligatoire du
VIH (DOVIH), lEnqute Prinatale Franaise (EPF) et la surveillance de lactivit de
dpistage du VIH auprs des laboratoires (LaboVIH). Lobjectif secondaire de cette tude
tait dvaluer lexhaustivit de la DOVIH chez lenfant et celle dEPF.
La mthode capture-recapture permet, en croisant au moins deux sources dinformations
dune mme maladie, destimer le nombre total de cas de la maladie et ainsi lexhaustivit de
chaque source [86].
Dfinition de cas
Un cas est un enfant de moins de 13 ans pour lequel un nouveau diagnostic dinfection VIH
a t effectu en France mtropolitaine entre le 01 janvier 2003 et le 31 dcembre 2006. Le
diagnostic est bas sur un examen virologique (culture virale ou PCR) chez lenfant de moins
de 18 mois ou sur une srologie confirme positive (Western Blot) chez lenfant de plus de 18
mois [85].
3.3.
sont saisies dans une base de donnes nationale. Afin de tenir compte des dlais de
dclaration, plus longs pour les notifications des enfants que pour celles des adultes, la base
DOVIH utilise a inclus des notifications jusquau 31 mars 2010.
3.4.
Mthodes
3.4.1. Identification des cas communs
En labsence dun identifiant unique pour chaque nouveau diagnostic, des algorithmes
didentification des cas communs aux sources ont t construits en fonction de critres
communs disponibles dans chacune des bases de donnes. Lanne de naissance, le sexe,
lhpital de suivi (ou son dpartement) et la date de diagnostic (ou de prise en charge) taient
renseigns dans les trois sources. Lalgorithme didentification des cas communs la DOVIH
et EPF a galement pris en compte la maternit de naissance pour les enfants ns en France ou
le pays de naissance, lorigine gographique de la mre et le statut vital de lenfant.
Lidentification des cas communs a t ralise par la procdure SQL de SAS (version 9.1)
et a t complte par une vrification manuelle.
112
3.5.
3.5.2.
Analyses prliminaires
La dpendance entre les sources peut tre prise en compte dans le calcul du nombre total de
cas. Ainsi, Wittes propose de comparer les estimations obtenues pour chaque combinaison des
sources deux deux et dvaluer la dpendance entre les sources en comparant ces
estimations [86]. Si un couple de sources donne une estimation trs diffrente des autres
couples, une dpendance entre ces sources peut tre suspecte (positive ou ngative). La
dpendance entre deux sources peut tre plus directement approche par le calcul du rapport
de cotes (OR) de Wittes et son intervalle de confiance 95%.
Une analyse prliminaire ralise partir de la base de dpart (non-impute) a t applique
en ajustant 8 modles log-linaires aux donnes rparties dans un tableau de contingence 23
cellules selon la prsence ou non des cas dans chacune des 3 sources. La variable dpendante
pour chaque modle est le logarithme nprien du nombre de cas dans chacune des 7 cellules
non-vides du tableau de contingence. Ces analyses permettent dobtenir des estimations pour
la population dtude tenant compte des dpendances entre les sources. Les 8 modles loglinaires construits vont du modle le plus simple sans interaction au modle satur incluant
les trois interactions dordre 1. Cette analyse prliminaire est base sur lhypothse dune
homognit de capture au sein de chaque source et a t ralise en utilisant le programme
additionnel RECAP de STATA [90]. Les intervalles de confiance des estimations ont t
calculs selon une mthode base sur la vraisemblance propose par Regal et Hook [91].
didentifier les bases a t reconstruite. Le fichier obtenu a t ensuite mis en forme de faon
permettre lanalyse jointe des 100 bases de donnes.
Des modles log-linaires ont t ajusts aux donnes imputes avec la commande GLM de
STATA ddie aux modles linaires gnraliss, en spcifiant un lien logarithmique et une
distribution de Poisson. Une procdure manuelle de slection des variables pas pas
descendante a t effectue en partant dun modle incluant toutes les interactions dordre 2
entre sources, entre sources et variables dhtrognit, et entre variables dhtrognit.
Pour chaque modle log-linaire construit lors de lanalyse pas pas descendante, les
analyses ont t effectues sparment puis de faon jointe selon les rgles de Rubin, en
utilisant le module MI ESTIMATE de STATA 11 [65]. La slection des variables
dinteraction a t base sur un test de la significativit des coefficients, par un test de Student
pour les variables binaires et par un test de Fisher pour les interactions avec la variable
catgorielle anne de diagnostic.
Les estimations de la taille de la population, calcules comme une somme dexponentielles de
coefficients de rgression, ont t obtenues par des commandes spcifiques limputation
multiple. Leurs variances respectives ont t estimes en appliquant la mthode delta. Les
intervalles de confiance des estimations ont t calculs en utilisant une approximation de
Student, avec un nombre de degrs de libert dpendant pour chaque variable des variances
intra et inter-imputation et du nombre de bases imputes.
Classiquement, dans les tudes appliquant la mthode capture-recapture, le choix du modle
final est bas sur ladquation du modle aux donnes par la statistique du rapport de
vraisemblances (entre le modle test et le modle satur) dit test de la dviance (G2), mais
aussi sur lAIC (Akake Information Criterion) et le DIC correspondant au BIC (Bayesian
Information Criterion) adapt par Draper [92;93]. Les critres AIC et DIC ont t calculs
pour chaque base de donnes imputes selon les expressions suivantes : AIC = G 2 2(ddl ) et
DIC = G 2 (ln(N obs 2 )) (ddl ) o ddl est le nombre de degrs de libert associ chaque
modle et N obs est le nombre de cellules renseignes du tableau de contingence.
Lapproche nave consistant faire la moyenne des tests de la dviance sur lensemble des
bases de donnes imputes ne donne pas une p-valeur valide [28]. Une approche propose par
Meng et Rubin [66], et rcemment illustre par Marshall et al. [94], a t applique pour
calculer un test de la dviance global sur les donnes imputes et la p-valeur correspondante.
116
Les coefficients de rgression de chacun des 100 modles log-linaires ont t contraints aux
valeurs des coefficients de rgression obtenus par lanalyse jointe, cest--dire la moyenne
des coefficients de rgression sur les 100 bases de donnes. Les estimations des AIC et DIC
ont alors t calcules comme la moyenne des 100 AIC et DIC obtenues avec ce modle
contraint.
La stratgie danalyse retenue consiste slectionner un seul modle final, et fait ainsi
abstraction de lincertitude lie au choix du modle. Nous avons donc calcul un estimateur
composite driv de tous les K modles impliqus dans la procdure pas--pas descendante
comme suggr par Draper [92]. Nous avons choisi de retenir lestimateur pondr par le DIC
exprim comme N WDIC =
K
i =1
N i e ( DICi / 2 )
K
i =1
3.6.
Rsultats
3.6.1. Cas communs aux sources
Entre le 1er janvier 2003 et le 31 dcembre 2006, 216 nouveaux diagnostics dinfection VIH
chez des enfants de moins de 13 ans en France mtropolitaine ont t recenss par au moins
lune des trois sources (Figure 2.3).
117
EPF
101
36
31
20
28
22
15
LaboVIH
129
64
3.6.2.
Tableau 2.11
DOVIH
< 1 an
EPF
1 an
< 1 an
Labo VIH
1 an
< 1 an
1 an
N l'tranger
130 (60.2%)
1 (12.5%)
24 (85.8%)
1 (12.5%)
9 (75%)
4 (33.3%)
37 (71.2%)
N en France
86 (39.8%)
7 (87.5%)
4 (14.3%)
7 (87.5%)
3 (25%)
8 (66.7%)
18 (28.8%)
216
28
12
12
52
DOVIH : Systme de dclaration obligatoire du VIH ; EPF : Enqute prinatale franaise ; LaboVIH :
Surveillance de lactivit de dpistage par les laboratoires.
118
Tableau 2.12 Estimations du nombre de nouveaux diagnostics VIH par les modles loglinaires, analyses prliminaires
n
IC 95%
ddl
AIC
BIC
LaboVIH*DOVIH, LaboVIH*EPF,
DOVIH*EPF
126
342
259,573
LaboVIH*DOVIH, LaboVIH*EPF
23
239
225,263
18.83
<10
16.83
16.89
LaboVIH*DOVIH, DOVIH*EPF
58
274
243,331
3.78
0.05
1.78
1.84
LaboVIH*EPF, DOVIH*EPF
153
369
294,521
0.24
0.63
-1.76
-1.71
14.49
14.6
26.12
26.23
Modles log-linaires
-4
LaboVIH*DOVIH, EPF
29
249
234.272
18.49
<10
-4
LaboVIH*EPF, DOVIH
51
267
245,300
30.12
<10
-4
DOVIH*EPF, LaboVIH
85
301
268,349
5.96
0.05
1.96
2.07
49
265
246,292
30.2
<10
-4
24.2
24.36
n : estimation du nombre de diagnostics recenss dans aucune des trois sources ; N : estimation du nombre de
diagnostics ; IC 95% : intervalle de confiance 95% ; ddl : nombre de degrs de libert ; G2 : dviance ; p : pvaleur ; AIC : Akake Information Criterion ; BIC : Bayesian Information Criterion.
119
Exhaustivit
Lexhaustivit estime des trois sources combines tait de 55.8% (IC 95% [42.9 ;79.7]),
mais variait selon la source (Tableau 2.4). Lexhaustivit de la source DOVIH (28.4%) et
dEPF (26.1%) tait plus basse que celle de LaboVIH (33.3%). Lexhaustivit a diminu
lgrement depuis 2004 aussi bien pour DOVIH que pour EPF, puis plus nettement pendant la
dernire anne dtude (2006). Lexhaustivit tait plus leve en rgion parisienne quen
province pour les trois sources, et tait meilleure pour les enfants ns en France que pour les
enfants ns ltranger pour les sources EPF et LaboVIH.
120
Tableau 2.13 Estimation du nombre de nouveau diagnostics par les modles loglinaires incluant les variables dhtrognit,
analyse pas pas descendante
n
IC 95%
df
AIC
DIC
108.3
324.3
210.9,437.6
78
93.84
0.07
-62.16
-130.85
106.9
322.9
211.2,434.5
79
93.95
0.08
-64.05
-133.62
108.6
324.6
211.7,437.5
82
96.17
0.10
-67.83
-140.05
Modle 4: DO*LABO,
LABO*EPF,DO*pays, EPF*pays,
DO*rgion, Labo*rgion, EPF*rgion,
DO*anne, Labo*anne, EPF*anne,
pays*rgion, pays*anne.
148.0
364.0
257.9,470.1
83
96.82
0.10
-69.18
-142.27
Modle 5: DO*LABO,
LABO*EPF,DO*pays, EPF*pays,
DO*rgion, Labo*rgion, EPF*rgion,
DO*anne, Labo*anne, EPF*anne,
pays*anne.
152.3
368.3
259.9,476.7
84
98.31
0.10
-69.69
-143.66
Modle 6: DO*LABO,
LABO*EPF,DO*pays, EPF*pays,
DO*rgion, Labo*rgion, EPF*rgion,
Labo*anne, EPF*anne, pays*anne.
143.3
359.3
259.1,459.6
87
102.28
0.09
-71.72
-148.34
Modle 7: DO*LABO,
LABO*EPF,DO*pays, EPF*pays,
DO*rgion, Labo*rgion, EPF*rgion,
EPF*anne, pays*anne.
140.8
356.8
258.0,455.6
90
105.54
0.09
-72.46
-153.71
Modle 8: DO*LABO,
LABO*EPF,DO*pays, EPF*pays,
DO*rgion, Labo*rgion, EPF*rgion,
EPF*anne.
171.0
387.0
271.0,502.9
93
112.72
0.07
-73.28
-155.17
Modle 9: DO*LABO,
LABO*EPF,DO*pays, EPF*pays,
DO*rgion, Labo*rgion, EPF*rgion.
171.0
387.0
271.0,502.9
96
118.48
0.05
-73.52
-158.06
Modles log-linaires
384.3
n : estimation du nombre de diagnostics recenss dans aucune des trois sources ; N : estimation du nombre de
diagnostics ; IC 95% : intervalle de confiance 95% ; ddl : nombre de degrs de libert ; G2 : dviance ; p : pvaleur ; AIC : Akake Information Criterion ; DIC : Draper Information Criterion ; estimation pondre :
estimation de
121
Tableau 2.14 Estimation de lexhaustivit pour chaque source selon lanne de diagnostic,
le pays de naissance et la rgion de diagnostic
Strate
Total
Nest
DOVIH
EPF
LaboVIH
IC 95%
Nobs
Exh(%)
IC 95%
Nobs
Exh(%)
IC 95%
Nobs
Exh(%)
IC 95%
Nobs
Exh(%)
IC 95%
72.4-142.7
68.9-129.4
62.4-120.9
55.4-121.8
60
59
53
44
55.8
59.5
57.8
49.7
42.0-82.9
45.6-85.7
43.8-85.0
36.1-79.4
30
35
27
18
27.9
35.3
29.5
20.3
21.0-41.4
27.0-50.8
22.3-43.3
14.8-32.5
28
32
27
14
26.0
32.3
29.5
15.8
19.6-38.7
24.7-46.5
22.3-43.3
11.5-25.3
30
35
34
30
27.9
35.3
37.1
33.9
21.0-41.4
27.0-50.8
28.1-54.5
24.6-54.2
100.3-204.9
158.9-309.9
86
130
56.4
55.5
42.0-85.7
42.0-81.8
37
73
24.2
31.1
18.1-36.9
23.6-45.9
47
54
30.8
23.0
22.9-46.8
17.4-34.0
55
74
36.0
31.6
26.8-54.8
23.9-46.6
Anne de diagnostic
2003
2004
2005
2006
107.6
99.1
91.7
88.6
Pays de naissance
France
Etranger
152.6
234.4
Rgion de diagnostic
Ile de France
198.1
154.7-241.4
139
70.2
57.6-89.9
79
39.9
32.7-51.1
79
39.9
32.7-51.1
82
41.4
34.0-53.0
Province
188.9
101.0-276.8
77
40.8
27.8-76.2
31
16.4
11.2-30.7
22
11.6
7.9-21.8
47
24.9
17.0-46.5
387
271-503
216
55.8
42.9-79.7
110
28.4
21.9-40.1
101
26.1
20.1-37.3
129
33.3
25.6-47.6
Total
N : estimation du nombre de diagnostics ; IC 95% : intervalle de confiance 95% ; N obs : nombre de cas observs ; Exh(%) : exhaustivit en %.
122
3.7.
Discussion
Cette tude a permis destimer pour la premire fois le nombre total de nouveaux diagnostics
dinfection VIH chez les enfants gs de moins de 13 ans en France mtropolitaine. Cette
estimation, ralise sur la priode 2003-2006, slve 369 (IC 95% [294 ;532]). Les trois
sources combines ont permis de recenser plus de la moiti des cas, alors que lexhaustivit du
systme de dclaration obligatoire et de la cohorte EPF sont relativement faibles (<30%).
La variable pays de naissance ntait pas collecte dans la source LaboVIH, mais tait presque
complte pour les deux autres sources. Lapproche standard dans les tudes capture-recapture
consiste ignorer les variables qui ne sont pas disponibles dans chacune des sources, ce qui peut
mener des estimations biaises de la taille de la population [96]. Une approche classique pour
traiter les bases de donnes incompltes consiste remplacer chaque donne manquante par une
donne impute et analyser la base de donnes comme si elle tait complte. Nous avons vu que
de telles mthodes dimputation simple ne sont pas valides statistiquement, puisquelles peuvent
donner des estimations biaises et quelles induisent une sous-estimation systmatique des
variances [12]. Deux mthodes sont couramment recommandes pour traiter les donnes
manquantes de faon adquate : lestimation par la mthode de maximisation de la vraisemblance
et limputation multiple. Il a t montr que ces deux mthodes sont asymptotiquement
quivalentes, sachant quelles sont bases sur la mme hypothse que les donnes sont
manquantes alatoirement [17]. Dans cette tude, la variable pays de naissance est manquante du
fait du schma dtude puisque non collecte dans la source LaboVIH. De ce fait, le mcanisme
de donnes manquantes ne dpend pas des valeurs non-observes de la variable incomplte, et
lhypothse MAR est vrifie.
Limputation de donnes manquantes dans des applications de la mthode capture-recapture a t
rapporte dans quelques tudes seulement [96-98], et la mthode destimation par maximisation
de la vraisemblance utilisant un algorithme dEstimation-Maximisation (EM) avait t applique.
Van der Heidjen et al. [98] ont estim les donnes manquantes de variables dhtrognit de
capture non collectes dans toutes les sources telles que le sexe et la rgion de rsidence.
Cependant, les auteurs soulignent que lalgorithme EM implique souvent une phase dintgration
numrique complexe (tape E) et que limputation multiple prsente lavantage dtre plus simple
123
appliquer dans la plupart des cas de figures, surtout pour des variables incompltes structure
continue [99].
Au cours du processus danalyse pas pas descendante, la slection du modle final, incluant les
variables dhtrognit de capture, a t effectue sur la base des critres AIC et DIC. Le
modle retenu est donc celui pour lequel les valeurs de lAIC et du DIC sont les plus petites, et
pour lequel ladquation aux donnes apparait correcte daprs les rsultats du test du rapport de
vraisemblances dit test de la dviance. Ce test a t ralis daprs une approche propose par
Meng et Rubin, et a donn des p-valeurs lgrement plus basses que celle obtenues par
lapproche nave. Cependant, une limitation de cette tude est due au fait que les critres AIC et
DIC ont t calculs en prenant la moyenne de leurs valeurs pour les 100 bases de donnes
imputes et que les rsultats doivent donc tre interprts avec prcaution [100]. Ainsi, en se
basant sur les valeurs de ces critres, les diffrences entre les modles embots pourraient tre
surestimes, ce qui pourrait mener retenir un modle trop complexe. Cependant, dans notre
application, le modle slectionn selon lAIC et le DIC (modle 9) tait plus parcimonieux que
celui slectionn selon la statistique du rapport de vraisemblances (modle 8) et les estimations
fournies par ces deux taient identiques (387.0). Nous avons fait le choix de retenir le modle le
moins parcimonieux (modle 8) de faon sassurer que ladquation du modle tait correcte
selon le test du rapport de vraisemblance (p=0.07). De plus, le modle 8 incluait une interaction
entre la source EPF et lanne de diagnostic, qui nous paraissait pertinente dun point de vue
pidmiologique.
Notons que dans ltude de Zwane et al. [96], la slection du modle final, base sur les critres
AIC et BIC aprs imputation multiple, a t ralise partir dune seule base impute
supplmentaire (M+1), gnre pour le processus de slection du modle. Par ailleurs, Zwane et
al. ont soulign que lapproche par imputation multiple permettait dobtenir directement les
variances et intervalles de confiance des estimations. En revanche, lapproche par maximisation
de la vraisemblance requiert de calculer les intervalles de confiance des estimations par bootstrap
(paramtrique ou non). Notons cependant que lincertitude lie au choix du modle final na pas
t prise en compte dans notre approche par imputation multiple. Des recherches
complmentaires dans ce domaine pourraient permettre dincorporer cette incertitude dans le
calcul de la variance aprs imputation multiple.
124
Conclusion
Dans cette tude, une seule variable est incomplte et les donnes sont manquantes selon un
schma univari et un mcanisme de type MCAR. La construction du modle dimputation sest
rvle simple puisque peu de variables taient disponibles. Au cours danalyses antrieures, les
donnes manquantes avaient t estimes par raffectation proportionnelle. Limputation multiple
permet de tenir compte des informations des variables dhtrognit qui sont par la suite
incluses dans les modles danalyses et ainsi dviter des biais. De plus, le calcul de la variance
tient compte du processus destimation des donnes manquantes.
La phase danalyse a ncessit une restructuration des bases permettant la cration de tableaux de
contingence pour chaque base impute. Puis, les estimations partir des modles log-linaires
ont t obtenues par des commandes spcifiques limputation. Cependant, cette application
souligne le problme de ltape de post-estimation aprs imputation multiple. En effet, la
littrature rcente prcise que les statistiques drives de la vraisemblance ne peuvent tre
combines simplement [100]. Lors dune stratgie danalyse par modles emboits, le choix du
meilleur modle est essentiellement bas sur une approximation de Student permettant de
slectionner les variables retenir dans le modle. Lvaluation de ladquation dun modle aux
donnes est plus difficile, mme si lapproche de Meng et Rubin permet de comparer des
modles emboits entre eux.
125
126
CHAPITRE 3
Linfection par le virus de lhpatite C (VHC) demeure un important problme de sant publique
en France du fait de sa prvalence (1.05% en 1994 [101], 0.84% en 2004 [102]), du risque de
complications hpatiques graves et de la transmission prenne parmi les usagers de drogues
intraveineuses (UDI).
De ce fait, un programme national a t mis en place en 1998 avec pour objectif de rduire la
transmission du VHC, damliorer le dpistage dans les populations risque ainsi que laccs aux
soins pour les patients infects chroniquement par le VHC. Afin de contribuer lvaluation de
ce programme, lInVS a mis en place un systme de surveillance depuis 2000.
Nous prsenterons dans une premire partie une tude visant identifier les facteurs de risque de
complications hpatiques graves de linfection par le VHC au sein de ce systme de surveillance,
aprs estimation des donnes manquantes par imputation multiple sous lhypothse MAR. Dans
une deuxime partie nous dtaillerons une mthode danalyse de sensibilit par pondration
permettant de tester la robustesse de ces rsultats un ventuel non-respect de lhypothse MAR.
127
1.
128
1.2.
Recueil de donnes
1.2.1. Donnes collectes
Un formulaire standard a t utilis pour collecter les donnes en routine. Les donnes
disponibles taient : lanne du dernier test ngatif, la date du test, la charge virale qualitative
(ARN), le gnotype du VHC, une ventuelle co-infection par le VIH ou/et lhpatite B (antignes
HBs), lhistorique de consommation excessive dalcool dfinie comme plus de 210 grammes par
semaine dthanol pur chez les femmes et 280 grammes par semaine chez les hommes, et le
nombre dannes de consommation excessive.
La svrit de latteinte hpatique a t objective par une biopsie hpatique (score Metavir)
ou/et par une valuation clinique incluant un examen clinique, des dosages biochimiques (ALAT)
et des examens dimagerie mdicale, essentiellement une chographie abdominale.
129
Variables construites
La variable dintrt tudie est la prsence ou non de complications hpatiques graves (cirrhose
ou carcinome hpatocellullaire) base sur un examen clinique seul (pas de biopsie). Il a t choisi
de ne retenir que les patients pour lesquels cette information tait disponible. La variable dintrt
est donc complte.
Les variables retenues pour tre incluses dans lanalyse univarie sont prsentes dans le Tableau
2.15 et dtailles ci-dessous :
Donnes sociodmographiques : le sexe et lge (
130
Tableau 3.1
Variables
Anne de prise en charge
Sexe
Age
Dure de l'infection par le VHC
Dlai de prise en charge
Consommation excessive passe d'alcool
Co-infection par le VIH
Co-infection par le VHB (AgHbs)
VHC Gnotype 3
Codage
2001-2007
F/H
40 ans/>40 ans
18 ans/>18 ans
1an/>1an
non/oui
non/oui
non/oui
non/oui
0
0
0
14.6
10.4
11.1
16.3
15.7
26.3
Examen quantitatif
A lexception des variables sexe, ge et anne dinclusion, toutes les variables retenues pour
lanalyse statistique sont incompltes, avec une proportion de donnes manquantes variant de
10.4 26.3 % (Tableau 3.1).
En ralisant un examen de la rpartition des donnes manquantes parmi les diffrentes
combinaisons des 6 variables incompltes, la rpartition apparait arbitraire, c'
est--dire que la
proportion de donnes manquantes est du mme ordre de grandeur (<3%) pour chacune des
combinaisons de ces 6 variables. De ce fait, la perte deffectifs attendue lors dune analyse cascomplet est importante.
Ainsi, une analyse multivarie incluant les 6 variables incompltes porterait sur seulement 1818
individus au lieu des 4343 initiaux, soit sur 41.8% de leffectif. On peut donc craindre que le
processus de slection des variables lors dune analyse multivarie cas-complet ne soit fauss au
profit des variables les mieux renseignes.
Examen qualitatif
Les analyses prvues taient la fois descriptives et de nature tiologique. Pour lidentification
des facteurs de risque, il est informatif deffectuer un examen qualitatif du mcanisme de nonrponse, dpendant ou non de la variable dintrt, et ainsi didentifier le risque de biais en
analyse cas-complet. Une variable indicatrice binaire de donnes manquantes est gnre pour
chaque variable incomplte. Des analyses univaries et multivaries permettent dexpliquer
chaque variable indicatrice partir des 9 variables retenues. Lobjectif de ces analyses est de
131
rechercher des liens significatifs entre, dune part chaque variable indicatrice, et dautre part la
variable expliquer et les variables explicatives. Ces analyses peuvent tre ralises partir de la
base incomplte, mais une perte deffectifs importante est attendue en analyse multivarie. De ce
fait, comme suggr par White et al. [28], ces analyses ont t effectues partir des donnes
imputes.
Tableau 3.2
Rdlai
Ralcool
Rvih
Rgeno3
Sexe
Age
x
x
x
x
x
x
Rvhb
La zone en gris clair reprsente les croisements entre les indicatrices de donnes manquantes et la variable
expliquer, et les zones en gris fonc les intersections entre chaque variable dexposition et son indicatrice de donnes
manquantes.
X reprsente une liaison significative entre les variables dfinie comme un test de Wald significatif (p 0.05).
Au vu des rsultats prsents dans le Tableau 3.2, un mcanisme de type MCAR peut tre exclu
puisque des liens existent entre les indicatrices de donnes manquantes et les autres variables. De
plus, cette analyse permet didentifier un mcanisme de type MAR(ME) pour les variables dlai
de prise en charge, consommation dalcool et co-infection par le VIH, et MAR(E) pour les autres
variables incompltes. La terminologie MAR(ME), dfinie dans le chapitre 1, signifie que le
mcanisme de donnes manquantes dpend conjointement de la variable expliquer (M) et dau
moins une variable dexposition (E). Un risque de biais en analyse multivarie cas-complet doit
donc tre envisag. Par ailleurs, un mcanisme de type MNAR ne peut tre exclu puisque
certaines indicatrices de donnes manquantes sont lies des variables incompltes. Par exemple,
lindicatrice de la variable srologie VHB est significativement lie aux variables dlai de prise
en charge et consommation dalcool qui sont incompltes. Le mcanisme de donnes manquantes
peut donc dpendre des valeurs non-observes de ces variables.
132
1.3.
Au cours de la premire tape du processus dimputation, il est important didentifier les relations
entre les variables par une analyse cas-complet. Lorsque lanalyse prvue aprs imputation est
tiologique, lanalyse univarie cas-complet permet de slectionner les variables qui seront
incluses dans le modle danalyse multivarie. A ce stade sont identifies les interactions
ventuelles qui doivent tre prises en compte lors de limputation. Il est galement informatif de
raliser une analyse cas-complet multivarie afin dobtenir des estimations qui pourront tre
compares avec celles obtenues aprs imputation multiple (valeur centrale, variance).
133
Fonction de lien
Les variables incompltes incluses dans le modle dimputation taient toutes binaires et ont t
imputes par rgression logistique. La variable date dinclusion tait catgorielle et complte.
Elle a t incluse telle quelle dans les quations de prdiction. Il a t montr plus rcemment,
aprs la finalisation de cette tude, quil tait prfrable de dcomposer toutes les variables
catgorielles, mme compltes, en variables indicatrices binaires [56].
Nombre de cycles
Le programme additionnel utilis (ICE) spcifie 10 cycles par dfaut car la convergence de
lchantillonneur de Gibbs est rapide si le modle est correctement spcifi, et que les
distributions de chaque variable incomplte convergent vers une distribution jointe. Nous avons
fait le choix conservateur de spcifier 20 cycles car la plupart des variables incluses dans le
modle dimputation sont incompltes.
variables a t effectue par des tests de rapport de vraisemblances sur modles emboits pour
lanalyse cas-complet. Une stratgie diffrente a t utilise pour lanalyse aprs imputation,
puisque la vraisemblance est une statistique qui ne peut tre combine sur toutes les bases
imputes [28]. De ce fait, la slection des variables a t base sur un test des coefficients de
rgression. Aprs imputation multiple, le test de Wald est approxim par un test de Student dont
le nombre de degrs de libert dpend des variances inter et intra-imputation et du nombre de
bases.
Tableau 3.3
Dlai de prise
en charge
Consommation
d'alcool
Srologie VIH
Srologie VHB
Genotype3
( 18 ans)
( 1an)
(excessive)
(positive)
(aghbs+)
(positif)
Observ (%)
53.95
55.6
47.82
8.09
2.43
34.91
Estim (%)
52.20
58.3
46.12
8.19
2.76
35.20
46.4-58.0
51.3-65.0
38.1-54.2
5.1-11.3
0.7-4.9
31.1-39.3
IC 95%
1.4.
Rsultats et discussion
Le Tableau 3.4 prsente les rsultats compars des deux analyses cas-complet et imputation
multiple.
136
Tableau 3.4
Variables
Patients
(N=4343)
Complications
Donnes
hpatiques
manquantes
(%)
(%)
Analyse multivarie
Cas Complet
Imputation Multiple
(N*=2130)
ORa (IC 95%)
(N*=4343)
ORa (IC 95%)
Priode d'
inclusion
2001-2003
2330
7.0
2004-2007
2013
9.5
NS
NS
femmes
993
4.2
1.0
1.0
hommes
3350
9.3
1.8 (1.1-3.0)
2.0 (1.4-2.9)
Sexe
Age
40 ans
2435
3.9
1.0
1.0
>40 ans
1908
13.6
2.2(1.5-3.3)
2.3 (1.7-3.1)
<1an
1an
1728
2163
6.7
8.7
NS
NS
manquant
452
11.5
1709
2002
632
3.0
12.5
8.2
1.0
3.1 (2.0-5.1)
1.0
2.6 (1.8-3.7)
1.0
2.6 (1.8-3.7)
1.0
2.8 (2.2-3.7)
1.0
2.4 (1.0-5.9)
NS
NS
1.0
1.8 (1.2-2.6)
1.0
1.5 (1.1-2.0)
1.0
1.6 (1.3-2.1)
10.4
Dure de l'
infection VHC
<18 ans
18 ans
manquant
14.6
2015
1847
4.5
13.2
manquant
481
4.4
ngatif
positif
3570
89
8.3
13.5
manquant
684
6.7
3342
294
707
8.2
14.0
5.7
2083
1117
1143
7.2
10.3
7.8
11.1
Statut AgHBs
15.7
16.3
VHC gnotype 3
non
oui
manquant
26.3
* Nombre dindividus pris en compte dans le calcul des ORa dans le modle final
Odds ratio non significatif
137
Afin de pouvoir comparer les rsultats des analyses cas-complet et imputation multiple, le mme
modle incluant les 5 variables communes aux deux analyses a t appliqu aux deux bases de
donnes (initiale et impute). Les rsultats sont prsents dans le Tableau 3.5. Les odds-ratios
ajusts (ORa) ne diffrent pas significativement entre les deux analyses puisque les ORa en
analyse cas-complet appartiennent aux intervalles de confiance 95% des ORa aprs imputation.
Les carts-types sont globalement rduits aprs imputation, puisque les effectifs sont restaurs
par limputation (2265 4343), et ce malgr la prise en compte dans le calcul de la variance de la
variabilit entre les bases imputes. Paradoxalement, la baisse dcart type la plus marque
concerne une variable complte, lge, alors que pour la variable gnotype 3 contenant une forte
proportion de donnes manquantes, lcart-type reste trs stable entre les deux analyses. Lors de
lanalyse cas-complet, les donnes manquantes ont induit une perte importante deffectifs, de
prs de 50%, qui affecte proportionnellement davantage les variables originellement compltes
comme lge, variable pour laquelle les effectifs varient donc beaucoup entre les deux analyses.
Cet argument explique la rduction marque dcart-type pour lge, essentiellement due une
lvation artificielle de la valeur de lcart-type en analyse cas-complet. Inversement, la variable
genotype 3 induit la majorit des donnes manquantes en analyse cas-complet, et la valeur de son
cart-type varie peu entre les deux analyses.
Tableau 3.5
Sexe
Age
Dure de l'infection par le
VHC
Consommation d'alcool
Gnotype 3
1.93
(1.24 - 3.01)
2.44
(1.67 - 3.57)
2.83
(1.82 - 4.41)
2.54
(1.85 - 3.48)
1.50
(1.11 - 2.02)
SE
(SE/OR)100
(%)
0.44
22.5
0.47
19.4
0.64
22.6
0.41
16.2
0.23
15.2
ORa
(IC 95%)
1.94
(1.38 - 2.73)
2.28
(1.70 - 3.06)
2.65
(1.84 - 3.81)
2.78
(2.14 - 3.60)
1.62
(1.23 - 2.12)
138
SE
(SE/OR)100
(%)
0.34
17.4
0.34
15.0
0.49
18.5
0.37
13.3
0.22
13.7
Ces rsultats sont issus dune imputation multiple utilisant un modle simple, cest dire
nincluant pas de variables auxiliaires. Des modles dimputation plus complexes, incluant des
variables auxiliaires et/ou des termes dinteraction (par exemple entre ge et dure de la maladie),
nont pas apport de changements dans les estimations. Comme pour toute procdure
dimputation, lhypothse MAR doit tre discute, ce qui sera fait dans la deuxime partie de
cette tude.
Discussion pidmiologique
Les donnes ont t collectes pour un sous-chantillon dusagers de drogues au sein dun
systme de surveillance. Le type dtude correspond donc une enqute transversale et il est
dlicat didentifier des facteurs de risque de complications hpatiques graves au moyen dune
analyse tiologique. Cependant, bien que les variables dexposition aient t renseignes en
mme temps que la variable dintrt (complications hpatiques graves), la plupart de ces
variables refltent des expositions antrieures lissue de la maladie hpatique.
Les rsultats de lanalyse tiologique aprs imputation multiple montrent que les variables
suivantes sont significativement associes des complications hpatiques graves chez les patients
nouvellement diagnostiqus : sexe masculin, ge >40 ans, dure de linfection 18ans, historique
de consommation excessive dalcool, co-infection par le VIH et infection par le VHC de
gnotype 3. A lexclusion de la variable gnotype 3, tous ces facteurs ont dj t identifis
comme facteurs associs avec une fibrose hpatique [106].
De nombreuses tudes ont montr quune consommation excessive passe ou actuelle dalcool
tait associe une volution plus rapide de la fibrose hpatique chez les patients porteurs du
VHC [103;106]. Par ailleurs, linfection par le VIH est connue pour modifier lhistoire naturelle
de la maladie en acclrant la progression de la fibrose hpatique, que ce soit avant ou depuis
lavnement des traitements antirtroviraux [107]. Une tude a montr une association entre une
infection par un virus de lhpatite C de gnotype 3 et une fibrose hpatique avance chez des
patients co-infects par le VIH [108]. Par ailleurs, le portage du gnotype 3, qui est le gnotype
de lhpatite C le plus rpandu parmi les usagers de drogue (>30%), a pu tre li une statose
hpatique et a galement merg comme un co-facteur de risque de progression de fibrose
hpatique [109].
139
Ces trois facteurs de risque ont dj t identifis parmi les usagers de drogues. Ils doivent tre
pris en compte de faon optimiser la prise en charge des patients ayant t soumis ces
expositions. Lidentification du portage dun virus de gnotype 3 comme facteur de risque de
fibrose hpatique est rcente [109], et a t renforce par ce travail.
Hypothse MAR
La validit des rsultats de limputation multiple repose, lors de lutilisation de logiciels
standards, sur lhypothse que le mcanisme de donnes manquantes est de type MAR.
La co-infection par le VIH et linfection par le VHC de gnotype 3 ont t identifis comme
facteurs de risque de fibrose hpatique aprs estimation des donnes manquantes par imputation
multiple. La consommation excessive dalcool est un facteur de risque bien tabli de fibrose,
mais sa dclaration peut tre considre comme sensible.
Mme si les rsultats des analyses cas-complet et imputation multiple sont proches, ce qui peut
laisser supposer que les deux analyses sont valides (car non-biaises), il parait important de tester
la robustesse des rsultats pour ces trois variables cls. De ce fait, une analyse de sensibilit par
pondration, base sur une approche propose par Carpenter et al., a t applique ces trois
facteurs de risque.
2.
Limputation multiple, telle quelle est implmente dans les logiciels standards danalyse
statistique [38], permet destimer des paramtres sous lhypothse que les donnes sont
manquantes au hasard (MAR), impliquant quelles dpendent seulement des donnes observes
des variables [3].
Lanalyse cas-complet, applique par dfaut par les logiciels danalyses statistiques, restreint
lanalyse aux individus pour lesquels les variables incluses dans lanalyse sont entirement
renseignes. Dans le cas danalyses tiologiques, une approche cas-complet induit une perte de
puissance, mais peut donner des estimations non-biaises si le mcanisme de donnes
140
manquantes ne dpend pas de la variable expliquer [110]. Dans le cas contraire, une analyse
cas-complet donne des rsultats systmatiquement biaiss, mme si le mcanisme de donnes
manquantes est MAR. Par contre, une approche par imputation multiple permettra dobtenir des
estimations valides sous lhypothse MAR, si le modle dimputation est correct, et ce mme si
le mcanisme de donnes manquantes dpend de la variable expliquer [3].
Les donnes manquantes peuvent galement tre dues un mcanisme MNAR et il nest pas
possible en pratique de diffrencier statistiquement ces deux mcanismes [60]. Si les donnes
manquantes sont MNAR, alors limputation multiple ralise par le biais de procdures
classiques donnera des estimations biaises. Limportance des biais observes sous ce mcanisme
est a priori proportionnelle la dpendance entre le mcanisme de donnes manquantes et la
variable expliquer [111].
Dans de nombreuses analyses, le mcanisme de donnes manquantes dau moins une covariable
peut dpendre de la variable expliquer et il est alors prfrable dappliquer une approche par
imputation multiple. Cependant, le mcanisme de non-rponse peut dans ce cas dpendre
galement de donnes non-observes de certaines covariables, et les estimations des coefficients
peuvent y tre sensibles, et ce dautant plus si des variables auxiliaires ne peuvent pas tre
incluses dans le modle dimputation afin de rendre lhypothse MAR plus plausible [14]. Il est
donc important de tenir compte de limpact dun mcanisme MNAR potentiel sur les estimations
lors de linterprtation des rsultats.
Dans la littrature biostatistique, deux types dapproches ont t proposes pour traiter des
donnes manquantes selon un mcanisme MNAR : les modles par slection [112] et les modles
par mlange [113]. Ces approches ncessitent de faire des hypothses fortes et invrifiables pour
modliser le mcanisme de donnes manquantes, mme si cette incertitude peut tre rduite en
incluant dans les modles des variables lies au mcanisme de donnes manquantes. Des
procdures permettant dadapter ces modles pour raliser des analyses de sensibilit ont t
proposes [114;115]. Cependant, ces mthodes ne sont pas implmentes dans des logiciels
statistiques standards et restent globalement dune application complexe. Ceci peut expliquer
quelles soient peu utilises en pratique courante. Ainsi, daprs une revue de Sterne et al. [52],
une analyse de sensibilit a t ralise dans seulement 1 des 59 applications dimputation
multiple publies dans des journaux majeurs entre 2002 et 2007.
141
La mthode prsente dans ce travail permet de raliser rapidement une analyse de sensibilit
aprs une imputation multiple classique sous lhypothse MAR. Cette approche plus directe est
drive des modles par slection et a t propose par Carpenter et al. [68;116]. Elle permet
dexplorer la robustesse des estimations un non-respect "local" de lhypothse MAR. Cela
signifie que la sensibilit des estimations au non-respect de lhypothse MAR peut tre estime
partir des donnes observes, sans quil soit ncessaire de modliser la non-rponse [117]. Les
paramtres issus de lanalyse de bases de donnes imputes sous lhypothse MAR sont pondrs
de faon reprsenter la distribution des donnes imputes selon un mcanisme MNAR. De cette
faon, les estimations obtenues sous les hypothses MAR et MNAR peuvent tre compares, ce
qui permet de tester la robustesse des estimations un non-respect "local" de lhypothse MAR.
Cette mthode est attractive dans la mesure o elle est relativement facile implmenter aprs
imputation multiple. Elle na pas, notre connaissance, t applique des donnes
pidmiologiques de type observationnel. Nous avons donc mis en uvre cette mthode
danalyse de sensibilit partir des donnes de surveillance de lhpatite virale C en France, et
propos des rgles dapplication pratiques.
2.2.
Nous avons choisi dappliquer cette mthode aux donnes prsentes en premire partie de ce
chapitre. Lanalyse initiale visait identifier les facteurs de risque de complications hpatiques
graves dans une population dusagers de drogues infects par le VHC et nouvellement pris en
charge au sein des ples de rfrences (priode 2001-2007).
Les variables prdictrices incluses dans le modle dimputation ont t limites la variable
expliquer et aux 9 variables retenues aprs lanalyse univarie. Puisque le modle dimputation
na pas pu tre enrichi de variables auxiliaires qui auraient pu rendre lhypothse MAR plus
plausible, une analyse de sensibilit a t envisage. Parmi les facteurs de risque identifis au
terme de lanalyse aprs imputation multiple, trois variables ont t retenues pour lanalyse de
sensibilit, sur la base dhypothses pidmiologiques sur leur mcanisme de donnes
manquantes respectif : une consommation excessive passe dalcool, une co-infection par le VIH
et le portage dun virus de lhpatite C de gnotype 3.
142
2.3.
(1)
MAR =
1
M
M
m=1
( )
( ) (
144
) V ( ),
B
MAR
( )
1
o VW MAR =
M
M
m =1
( )
m2 et VB MAR =
1 M
m MAR 2.
M 1 m =1
Lapproche de Carpenter consiste remplacer cette moyenne simple par une moyenne pondre,
pour laquelle les estimations issues de limputation qui sont les plus susceptibles dtre affectes
par un mcanisme MNAR vont tre surpondres par rapport aux autres. Une explication
intuitive du processus de pondration est donne dans le paragraphe suivant. Selon le modle de
rgression logistique expliquant la probabilit de donnes manquantes dcrit dans (1), Carpenter
et al. montrent que les poids prennent une forme particulirement simple [116].
Le modle (1) fait lhypothse que, aprs ajustement sur les autres variables observes, la
probabilit dobserver Y lorsque Y varie dune unit est gale au log-odds ratio . Ainsi le poids,
~ ( ) pour limputation m, (m = 1,..., M ) , est gal exp[
not w
m
n1
iI Y
Yi m ] , o Yi m (i I Y )
~ ( )
w
m
M
k =1
~ ( )
w
k
MNAR ( ) =
M
m =1
wm ( ) m ,
) (
o VW MNAR ( ) =
M
m =1
) V (
MNAR
wm ( ) m2 et VB MNAR ( ) =
145
M
m =1
( )),
2
wm ( ) m MNAR ( ) .
Notons que si les donnes sont MAR, alors = 0 et toutes les imputations sont pondres de
faon quivalente comme dans les rgles de Rubin.
Pour donner une explication intuitive de ces poids, supposons que Y prenne seulement des
valeurs positives et que
importante pour les valeurs positives de Y les plus leves. Alors, les bases pour lesquelles la
somme des valeurs de Y est petite seront sous-reprsentes parmi lensemble des bases imputes
sous lhypothse MAR. Les poids permettent de corriger cela en surpondrant les estimations
issues de bases ayant une somme des valeurs imputes de Y petite (par rapport aux autres bases
de donnes imputes).
Nous prsentons ci-dessous les estimations MAR pour les donnes de la base de surveillance de
lhpatite C. Nous explorerons la robustesse de ces estimations un mcanisme MNAR lorsque
sloigne de 0 et nous proposerons des rgles dapplication pratiques pour slectionner une valeur
de .
2.4.
Les analyses prliminaires sont prsentes dans la premire partie de ce chapitre. Elles ont port
sur 30 bases de donnes imputes avec un modle incluant les 6 variables incompltes, 3
variables compltes et la variable expliquer.
Afin dappliquer la mthode de Carpenter, il est recommand dimputer plus de 50 bases de
donnes. Nous avons fait le choix dimputer 1000 bases afin dillustrer au mieux les particularits
de la mthode. Le programme additionnel ICE de STATA a t utilis pour limputation, en
incluant les mme variables que lors des analyses prliminaires, mais cest le logiciel R et la
librairie MICE qui ont permis de raliser les analyses et les graphes afin de grer les problmes
de calcul dus la taille du fichier imput.
Il est parfois possible de slectionner la valeur du paramtre de sensibilit
partir de lavis
dexperts, aptes proposer des valeurs plausibles du paramtre de sensibilit dans leur domaine
de comptence. Peu dinformations sont disponibles en pidmiologie dobservation et
146
147
Coefficients
de rgression
SE
-0.05
0.13
0.72
Age
0.17
0.09
0.06
Sexe
0.04
0.08
0.63
0.19
0.09
0.04
0.05
0.08
0.53
Consommation d'alcool
-0.005
0.07
0.94
0.02
0.14
0.90
-0.15
0.23
0.52
normalis maximal se situe autour de 0.5 et quau moins 5 poids normaliss soient suprieurs
1/M (c'
est--dire la valeur des poids lorsque = 0 ) [68]. Ainsi, lestimateur MNAR obtenu est
dduit dinformations issues dau moins 5 bases de donnes imputes, ce qui correspond au
nombre minimum usuellement recommand en pratique.
Nous recommandons de reprsenter cette information sur un graphique tel que la Figure 3.2. La
partie gauche de la Figure reprsente (pour chacune des 1000 bases imputes) lhistogramme de
la somme des valeurs imputes de Y pour la variable gnotype 3. Les valeurs extrmes sont 340
pour la base impute n921 et 480 pour la base n771. Sur la partie droite de la Figure sont
reprsents les poids normaliss en fonction de la valeur de , pour chacune des M = 1000 bases
de donnes imputes. Le poids normalis maximal correspond la base de donnes pour laquelle
la somme de valeurs imputes de Y est minimale (base n921) quand > 0 ou maximale (base
148
~ (0 ) sont
n771) quand < 0 . Lorsque = 0 , le poids normalis est gal 1 M car tous les w
m
gaux 1.
pour la variable gnotype 3
1.0
Im puted
data s et
n92 1
Im puted
data set
n921
Im puted
data set
n771
0.0
0.2
10
0.4
15
wm
0.6
20
25
0.8
30
Im puted
data set
n771
340
360
3 80
400
42 0
440
46 0
480
-1.0
-0.5
0.0
0.5
1.0
Partie gauche : histogramme de la somme des valeurs imputes de gnotype 3 pour chaque base de donnes impute
parmi M=1000 bases.
Partie droite : poids normaliss (wm) selon la valeur de pour chaque base de donnes impute.
La Figure 3.3 montre la partie centrale de la Figure 3.2. En suivant les recommandations cites
prcdemment, nous retenons des valeurs positives de correspondant un poids normalis
denviron 0.5, ce qui donne un intervalle pour
de cet intervalle, on note que plus de 5 poids normaliss sont suprieurs 0.001. Notons que la
partie centrale de la zone hachure correspond des valeurs de
lhypothse MAR trop rduits pour tre utiliss en pratique, puisque tous les poids normaliss
dcroissent vers 1 M .
149
0.0
0.1
0.2
wm
0.3
0.4
0.5
-0.4
-0.3
-0.2
-0.1
0.0
0.1
0.2
La zone hachure dlimite les valeurs de correspondant des poids normaliss gaux 0.5 au maximum.
et le
150
lestimateur MNAR en fonction dun nombre croissant dimputation. Pour ces deux
reprsentations, si la mthode donne des rsultats valides, la distribution de lestimateur MNAR
doit tre contenue dans la distribution des m obtenus par imputation multiple sous lhypothse
MAR, sans tre positionne aux extrmes de la distribution MAR.
Pour la variable gnotype 3, les rsultats de cet examen graphique sont prsents sur la Figure
3.4. La partie gauche de la Figure reprsente, pour = 0.15 , les poids normaliss selon m pour
chaque base de donnes imputes (sachant que m est lestimation du coefficient de rgression
obtenu sous lhypothse MAR pour chaque base de donnes impute). La partie droite de la
figure reprsente lestimateur MNAR, calcul pour n imputations en fonction du nombre de bases
de donnes imputes not n, (n = 10,..., M ) , et dfini comme :
n
MNAR
( , n ) =
m =1
wm ( ) m
n
m =1
wm ( )
Par exemple :
151
) (w ( ) + w ( ))
1
0.0
0.5
0.3
0.2
0.4
0.4
wm
^ MNAR(, n)
0.6
0.6
0.8
0.7
1.0
0.3
0.4
0.5
0.6
0.7
200
400
600
800
1000
MNAR
donnes imputes. A lextrmit droite du graphe est reprsente la distribution des 1000 estimations de
pour chaque base de donnes impute.
Pour les deux graphes, la ligne pointille reprsente MAR (moyenne des
imputes).
m , une
Sur le graphe nous observons que (i) lestimateur MNAR parat se stabiliser lorsque le nombre
dimputations augmente et que (ii) la distribution de lestimateur MNAR ne se situe pas dans les
valeurs extrmes de la distribution MAR (reprsente par les traits sur la partie droite du graphe).
152
2.5.
Rsultats
Les rsultats des analyses cas-complet et imputation multiple sous lhypothse MAR sont
prsents dans le Tableau 3.7. Nous prsentons galement dans ce tableau les rsultats de
lanalyse de sensibilit pour les trois variables suivantes : gnotype 3 du VHC, srologie VIH et
historique de consommation excessive dalcool.
Pour le gnotype 3 du VHC, nous utilisons la valeur de
procdure en 4 tapes propose. Nous appliquons la mme approche pour les variables srologie
du VIH et consommation dalcool. La Figure 3.5 reprsente les graphes de lEtape 2 pour ces
deux variables.
Figure 3.5
Poids normaliss (wm) selon pour chaque base de donnes impute, pour les
variables consommation dalcool et statut srologique VIH
0.8
0.6
0.0
0.2
0.4
wm
0.0
0.2
0.4
wm
0.6
0.8
1.0
HIV
1.0
Alcohol
-1.0
-0.5
0.0
0.5
1.0
-1.0
-0.5
0.0
0.5
1.0
Lintervalle retenu pour est [-0.4;0.4] pour lalcool (partie gauche) et [-0.4;0.7] pour le VIH (partie droite).
153
Pour la variable consommation dalcool, lEtape 1 montre que la probabilit davoir des
observations pour cette variable dpend de la variable expliquer (complications hpatiques
graves). LEtape 2 permet didentifier une tendue de valeurs de
la Figure 3.5). Tenant compte des rsultats de lEtape 1 et des hypothses pidmiologiques
formules prcdemment, nous supposons que la probabilit dobserver la consommation
dalcool est plus faible si cette consommation est excessive et nous choisissons = 0.4.
Linterprtation de ce choix est que, aprs ajustement sur les autres covariables, la probabilit
dobserver lhistorique de consommation dalcool est rduite dun facteur 0.7 = exp( 0.4) pour
les individus ayant un historique de consommation dalcool excessive.
Pour la variable co-infection par le VIH, lEtape 1 montre que la probabilit davoir des
observations pour cette variable dpend de la variable expliquer (complications hpatiques
graves). LEtape 2 permet didentifier une tendue de valeurs pour
de la Figure 3.5). Selon les rsultats de lEtape 1, et sachant que, dans un contexte similaire, la
probabilit dobserver une co-infection par le VIH est plus leve pour les individus positifs pour
le VIH, nous retenons = 0.7 . Linterprtation de cette valeur est que, aprs ajustement sur les
autres covariables, la probabilit dobserver une srologie VIH est augmente dun facteur
2.0 = exp(0.7 ) pour les individus positifs pour le VIH.
Pour ces trois variables, on peut considrer le diagnostic expos en Etape 4 comme acceptable.
Les odds ratios ajusts sont prsents dans le Tableau 3.7. Notons que le mme modle
multivari incluant les variables sexe, ge, dure de linfection par le VHC, consommation
excessive dalcool, gnotype du VHC et co-infection par le VIH a t appliqu pour chaque
analyse (cas-complet, imputation multiple sous MAR, analyse de sensibilit). Lanalyse de
sensibilit a t ralise pour chacune des 3 variables tour tour.
Deux critres ont t retenus pour interprter les odds ratios ajusts dans chacune des trois
analyses :
(1) Le coefficient de variation (CV) de lodds ratio qui donne sa mesure de dispersion
normalise. Pour les trois variables, il est nettement rduit aprs imputation et reste stable aprs
pondration.
154
(2) Le taux de variation (TV) permet destimer la variation relative entre l OR MNAR et l OR MAR , et
est dfini par TVAS = 100 (OR MNAR OR MAR ) / OR MAR . De la mme faon, nous avons dfini un
taux de variation ( TVIM ) qui rend compte de la variation relative des odds ratios ajusts obtenus
lors des analyses cas-complet et imputation multiple sous lhypothse MAR. Le TVIM varie de
9.7% pour le genotype 3 15.5% pour la co-infection par le VIH et 22% pour la consommation
dalcool. Le TV AS est calcul pour la valeur de
relativement faible pour la consommation dalcool (1.3%) et pour le gnotype 3 (3.5%) mais
augmente pour la co-infection par le VIH (6.6%). La Figure 3.6 montre que le TV AS est
relativement stable pour des valeurs de
dalcool et gnotype 3, mais augmente pour la co-infection par le VIH pour des valeurs de
suprieures celle retenue.
Figure 3.6 -
Taux de variation selon aprs analyse de sensibilit (TVSA) pour les variables
gnotype 3, consommation dalcool et co-infection par le VIH
HIV
Genotype 3
Alcohol
HIV
Genotype 3
-5
VRSA (%)
Alcohol
-1.0
-0.5
0.0
0.5
1.0
Les points noirs correspondent au TVSA calcul pour la valeur de retenue pour chaque variable
(gnotype 3 : =0.15 ; alcool : =-0.4 ; VIH : =0.7)
155
Tableau 3.7 -
Variables
ORa
Manquantes
(IC 95%)
11.1
26.3
2.32
0.39
17
1.51
16.3
1.56
(0.92 - 2.62)
CV*
2.82
0.37
TVIM
ORa
(IC 95%)
(%)
(%)
13
21.86
-0.40
(2.18 - 3.66)
0.24
16
(1.10 - 2.07)
Co-infection
par le VIH
SE
(%)
(1.66 - 3.23)
Gnotype 3
ORa
(IC 95%)
(%)
Consommation
d'alcool
CV*
1.66
27
1.80
CV*
TVAS
(%)
0.37
13
1.29
0.21
13
3.56
0.36
19
6.12
(2.21 - 3.70)
0.23
14
9.70
0.15
1.60
(1.23 - 2.06)
(1.27 - 2.16)
0.41
2.86
SE
0.34
19
15.52
0.70
1.91
(1.32 - 2.76)
(1.24 - 2.61)
156
2.6.
Discussion
gnotype. Le Tableau 3.7 et la Figure 3.6 montrent que les estimations ne sont pas sensibles
cette dpendance. Ainsi, on peut en dduire que cette dpendance MNAR ne modifie pas la
relation entre la probabilit dobserver cette variable gnotype 3 et la variable expliquer.
En ce qui concerne la variable consommation dalcool, nous avons pos lhypothse que les
patients pouvaient tre rticents dclarer une consommation excessive passe car cette question
pouvait tre ressentie comme sensible socialement. Cependant, le mode de dclaration de la
consommation dalcool et sa relation avec la consommation relle observe nest pas si claire
dans la littrature. Ainsi, Pernanen [119] a rapport des taux de non-rponse plus levs dans des
populations incluant une forte proportion de gros consommateurs dalcool. Van Oers [120] a
observ une sous-dclaration de la consommation dalcool plus importante chez les femmes que
chez les hommes, mais pas spcifiquement parmi les gros consommateurs. Un pourcentage plus
lev de non-consommateurs et de consommateurs excessifs parmi des non-rpondants a t
rapport par Knibbe [121], tandis que Lemmens [122] na pas mis en vidence une
consommation plus importante parmi les non-rpondants que parmi les rpondants. Finalement,
Lahaut [123] a observ des proportions de non-rponse importantes parmi les non-buveurs, et
beaucoup moins leves parmi les buveurs excessifs.
Le fait de rapporter une consommation dalcool est fortement li aux caractristiques
sociodmographiques des individus, caractristiques qui peuvent tre incluses dans le modle
dimputation de faon rduire le biais de non-rponse. Nous avons seulement pu inclure lge et
le sexe dans le modle dimputation car les autres variables ntaient pas lies au mcanisme de
donnes manquantes. Notre Etape 1 montre que la probabilit dobserver la consommation
dalcool dpend de la variable expliquer, aprs avoir pris en compte les autres covariables.
Lanalyse de sensibilit permet cette probabilit de dpendre en plus de la valeur de la
consommation dalcool. Ainsi, on peut en dduire que cette dpendance MNAR ne modifie pas la
relation entre la probabilit dobserver cette variable consommation dalcool et la variable
expliquer.
Pour la variable co-infection avec le VIH, les hpatologues des ples de rfrence ont
probablement tendance considrer leurs patients comme tant mono-infects par le VHC car les
patients co-infects VHC-VIH sont habituellement rfrs dans les services hospitaliers de
maladies infectieuses en France. Par ailleurs, les patients infects par le VHC auraient d tre
tests plus frquemment pour le VIH depuis la confrence de consensus de 2002 qui spcifie un
158
traitement plus long pour les patients co-infects [124]. Etonnamment, aucun effet de la priode
sur le mcanisme de donnes manquantes na t dtect puisque la proportion de donnes
manquantes reste peu prs constante au cours du temps. De plus, lorsque le statut VIH a t
mieux rapport, la proportion de patients ngatifs pour le VIH a augment. Nous avons donc fait
lhypothse par dfaut que le statut VIH tait plus susceptible dtre observ si le statut
srologique tait positif, do notre choix dun signe positif pour . LEtape 1 montre que la
probabilit dobserver le statut VIH dpend de la variable expliquer, aprs ajustement sur les
autres covariables. Lanalyse de sensibilit permet cette probabilit de dpendre en plus du
statut VIH. Le Tableau 3.7 et la Figure 3.6 montrent que les rsultats sont sensibles cela. On
peut en dduire que, si le mcanisme de donnes manquantes est MNAR, avec une probabilit
plus leve que le statut VIH soit renseign pour les patients positifs pour le VIH, alors
lassociation entre cette variable et la variable expliquer est en ralit plus forte que ce qui est
observ dans lanalyse ralise sous lhypothse MAR.
Conclusion
On peut conclure de lanalyse de ces donnes que lanalyse de type cas-complet est
potentiellement biaise puisque les donnes suggrent une dpendance entre la probabilit
dobserver les valeurs et la variable expliquer, aprs prise en compte des covariables. Une
analyse ralise par imputation multiple sous lhypothse MAR est donc prfrable. Notre
analyse de sensibilit montre que, pour des dviations locales de lhypothse MAR, les
estimations pour les variables gnotype 3 et consommation dalcool sont peu affectes, alors que
limpact sur lodds ratio associ la variable co-infection par le VIH est sous-estim si la
probabilit dobserver le statut VIH est plus importante lorsque ce statut srologique est positif.
159
160
CHAPITRE 4
PROCESSUS DIMPUTATION MULTIPLE PERENNE :
APPLICATION AU SYSTEME DE SURVEILLANCE DU VIH
Le traitement des donnes manquantes dans les bases de donnes de surveillance de sant
publique est peu abord dans la littrature rcente [82;125;126]. Dans le domaine des maladies
infectieuses dclaration obligatoire et plus spcifiquement du VIH, peu de systmes de
surveillance font lobjet dun traitement raisonn des donnes manquantes. Le systme de
surveillance du VIH mis en place aux Etats-Unis rcolte des donnes qui sont incompltes. Les
donnes manquantes, traites en routine par une mthode dimputation simple [127], font lobjet
dun processus dimputation multiple dans le cadre de lestimation de lincidence du VIH
[128;129]. Il a t galement propos dappliquer systmatiquement une mthode dimputation
multiple aux donnes du VIH et du SIDA comme mthode alternative limputation simple (risk
factor redistribution) [130].
En Europe, des systmes de surveillance du VIH ont t mis en place depuis les annes 2000
avec la prise de conscience par les autorits de sant publique des limites des systmes nationaux.
Il a donc t propos dtendre la surveillance aux nouveaux diagnostics de linfection au VIH (et
plus seulement aux cas au stade sida), de surveiller les comportements risque et de diversifier
les systmes de surveillance sentinelles. Au niveau europen, la surveillance du VIH se fait par le
biais de systmes htrognes, avec des variations importantes dans la qualit des donnes
collectes. LEuropean Center for Disease Prevention and Control (ECDC) assure la
centralisation de ces donnes. La France a mis en place un systme de surveillance du VIH avec
demble un grand nombre de variables recueillies, ce qui explique la proportion non-ngligeable
de donnes manquantes. Au fil du temps, il est apparu prfrable destimer ces donnes
manquantes par une mthode adapte. Nous prsentons dans ce chapitre lapplication de
limputation multiple au systme de dclaration obligatoire du VIH en France, c'
est--dire les
tapes de sa mise en uvre ainsi que les phases de diagnostic et de validation.
161
1.
Les objectifs de la dclaration obligatoire (DO) de linfection VIH sont de connatre le nombre
et les caractristiques des personnes dcouvrant leur sropositivit au VIH, den suivre
lvolution au cours du temps [131], et de fournir des donnes permettant destimer le nombre de
nouvelles contaminations, c'
est--dire lincidence du VIH [71].
Mise en place en 2003 [132], cette notification est initie par les biologistes qui doivent dclarer
toute personne dont la srologie VIH est confirme positive, et cela pour la premire fois dans le
cadre de leur laboratoire. Un code danonymat unique est cr pour chaque individu partir de la
date de naissance, du prnom, de linitiale du nom et du sexe. La fiche de notification complte
dabord par le biologiste comporte cinq feuillets : le biologiste en conserve un et envoie les autres
respectivement au mdecin de lAgence Rgionale de Sant (ARS) (feuillet 1), au mdecin
prescripteur (feuillets 2 et 3), et au Centre National de Rfrence du VIH (feuillet 4) (Figure 4.1).
Le feuillet mdical est complt par le mdecin prescripteur du test qui renseigne les
informations sociodmographiques et pidmiologiques telles que le pays de naissance, le mode
de contamination ainsi que les raisons ayant motiv le test VIH. Le mdecin doit galement
consigner lhistorique des tests VIH antrieurs la notification, quils aient t positifs ou
ngatifs. Cet historique se dcompose en deux questions sur le fait davoir eu ou non un test VIH
antrieur, positif ou ngatif. En cas de srologie antrieure, la dure en mois entre cette srologie
antrieure et celle donnant lieu la notification doit tre prcise. Le mdecin complte
galement la fiche par des informations cliniques telles que le stade clinique et, depuis 2008, le
taux de lymphocytes T4 (CD4).
Les feuillets de dclaration (feuillets biologiques et mdicaux) sont ensuite adresss aux
mdecins inspecteurs des Agences Rgionales de Sant (ARS) qui doivent les coupler et les
transmettre lInVS. Les doublons, dfinis comme plusieurs dclarations pour une mme
personne, sont alors dtects grce au code danonymat et permettent le plus souvent de
complter la notification initiale.
162
Biologistes
Anonymisation
Sexe, ge,
rgion de
rsidence
Mdecins
1.2.
Pays de naissance
Mode de contamination
26%
29%
Motivation du test
Historique de tests antrieurs
Dlai avec un test antrieur
28%
35%
38%
Stade clinique
Taux de Cd4 (depuis 2008)
26%
47%
Surveillance virologique
1.3.
164
2.
Parmi les variables construites partir des donnes issues de la notification obligatoire et de la
surveillance virologique du VIH, 13 variables sont retenues pour limputation.
2.1.
Examen quantitatif
165
Tableau 4.1
Variables
Type
Codage
Donnes
manquantes
(%)
Donnes socio-dmographiques
Pays de naissance
Catgorielle
Mode de contamination
Catgorielle
26.20
29.01
Historique de dpistage
Motif de dpistage
Catgorielle
Binaire
Non, Oui
26.20
Dure en mois
44.90
Binaire
Non, Oui
35.81
Continue
Dure en mois
33.93
Stade clinique
Catgorielle
25.73
Taux de lymphocytes T4
Continue
43.36
Catgorielle
1.50
27.25
Donnes cliniques
Surveillance virologique
Type viral
Srotype viral
Binaire
33.93
Biomarqueurs V3 et Tm
Continue
34.14
166
Tableau 4.2
Variables
Donnes manquantes
(Effectifs)
1 - Pays de naissance
2 - Mode de contamination
3 - Stade clinique
4 - Motif de dpistage
10740
11907
10560
11187
Donnes manquantes
(%)
26.2
29.0
25.7
27.3
% cumul
1234
123_
12_4
12__
1_34
1_3_
1__4
1___
_234
_23_
_2_4
_2__
__34
__3_
___4
____
Variables
7117
348
229
616
210
292
524
1404
194
395
357
2651
869
1135
1687
23021
17.34
0.85
0.56
1.5
0.51
0.71
1.28
3.42
0.47
0.96
0.87
6.46
2.12
2.76
4.11
56.08
17.34
18.19
18.74
20.24
20.76
21.47
22.74
26.16
26.64
27.6
28.47
34.93
37.04
39.81
43.92
100
Total
41049
100
2.2.
Frquence
% cumul
23021
6877
3053
981
7117
41049
56.08
16.75
7.44
2.39
17.34
100.00
56.08
72.83
80.27
82.66
100.00
Examen qualitatif
Afin de raliser cet examen qualitatif, on gnre des indicatrices binaires de donnes manquantes
pour chaque variable incomplte. Ces indicatrices permettent didentifier le mcanisme de
donnes manquantes pour chaque variable, par une rgression multivarie expliquant lindicatrice
de donnes manquantes de chaque variable incomplte en fonction des covariables identifies
dans la base de DO.
167
Notons que, dans ce cas particulier dimputation de donnes de surveillance, les analyses
ralises aprs imputation sont essentiellement descriptives. Il nest donc pas ncessaire de
distinguer une variable expliquer et des variables explicatives. Lexamen du mcanisme de
donnes manquantes de chaque variable incomplte fournit des informations utiles pour
linterprtation des rsultats des comparaisons entre donnes observes et imputes lors de
ltape de diagnostic. Par exemple, le mcanisme de donnes manquantes de la variable mode de
contamination dpend de la variable pays de naissance. On peut donc sattendre une distribution
diffrentielle des donnes imputes de la variable mode de contamination selon les diffrentes
modalits de la variable pays de naissance.
Les hypothses sur les mcanismes causant des donnes manquantes varient selon les variables
recueillies. Ainsi, les donnes issues de la surveillance virologique sont essentiellement
manquantes si le biologiste ne souhaite pas participer cette surveillance (40% des donnes
manquantes), ou bien pour des raisons techniques, si lchantillon est inexploitable ou que
linfection est un stade trop rcent pour que le srotype soit identifiable. Le mdecin
prescripteur renseigne un volet clinique partir de lexamen clinique et dexamens
complmentaires (stade clinique, nombre de CD4), mais rapporte galement des informations
impliquant un entretien avec le patient, au cours duquel le patient peut dcider de rpondre ou
non. Alors que les questions concernant lhistorique de tests srologiques peuvent tre
considres comme anodines, dautres questions portant sur les raisons ayant motiv le test VIH
ou sur le mode probable de contamination sont plus sensibles et le patient peut faire le choix de
ne pas y rpondre.
On peut donc proposer les hypothses pidmiologiques suivantes pour le mcanisme de donnes
manquantes des variables cites : (i) les donnes des variables de la surveillance virologique sont
de type MAR ou MCAR, (ii) les donnes des variables cliniques et dclaratives sont de type
MAR et (iii) les donnes dclaratives sensibles sont risque dtre MNAR. Lexamen des
mcanismes de donnes manquantes partir des variables indicatrices de donnes manquantes
permet dexclure un mcanisme MCAR, puisque des liens existent entre indicatrices et
covariables pour toutes les variables incompltes examines. Des mcanismes MAR dpendant
de certaines variables sont identifis, mais cet examen ne permet pas dexclure un mcanisme
MNAR puisque le mcanisme de donnes manquantes de toutes les variables dpend de variables
incompltes, et donc potentiellement des valeurs non-observes de ces variables.
168
3.
Cet historique se dcompose en deux questions binaires sur lexistence ou non dun test VIH
antrieur, positif ou ngatif, partir desquelles sont cres deux variables binaires, srologie
antrieure positive et srologie antrieure ngative. En cas de srologie antrieure connue,
positive ou ngative, une dure entre cette srologie et celle dont dcoule la notification peut tre
dduite des informations contenues dans le dossier mdical ou dclares par le patient. Une
terminologie simplifie sera adopte dans la suite de ce travail pour faire rfrence aux deux
variables binaires sur une srologie antrieure, serpo (srologie antrieure positive) et serneg
(srologie antrieure ngative) ainsi que pour les variables quantitatives indiquant les dures en
mois entre une srologie antrieure positive ou ngative et la srologie de la notification, dlais
positifs et dlais ngatifs.
Ces 4 variables sont incompltes et sont dterminantes pour les analyses des donnes de la DO du
VIH pour les raisons suivantes :
Les analyses descriptives de la DO ont pour but dtablir le nombre annuel de nouveaux
diagnostics pour le VIH, ainsi que de dcrire les caractristiques de cette population. On
parle de nouveau diagnostic ou de dcouverte de sropositivit pour un individu
lorsquaucune srologie positive antrieure na t rapporte ou bien quelle date de plus
de 11 mois.
Lestimation de lincidence du VIH prend en compte la proportion de patients ayant eu
une srologie antrieure ngative ainsi que le dlai associ.
3.2.
Imputation conditionnelle
Du fait du lien entre les variables binaires rapportant une srologie antrieure, positive ou
ngative, et les dlais correspondants, il est ncessaire destimer les donnes manquantes des
variables binaires avant destimer celles des dlais positifs ou ngatifs. De ce fait, comme illustr
par la Figure 4.2, limputation doit tre ralise en deux temps.
169
oui
Premire phase
non
manquante
oui
Dlai
notifi
Dlai
manquant
Dlai
manquant
Dlai
imput
Dlai
imput
non
Deuxime phase
En effet, les variables dlais positifs et ngatifs dpendent de deux variables filtres, serpo et
serneg, et ne peuvent donc tre renseignes que pour la modalit "oui" de ces variables.
Cependant ces variables filtres sont incompltes. Il est donc ncessaire destimer dabord les
donnes manquantes des variables serpo et serneg afin didentifier tous les individus avec une
rponse positive. Cette estimation doit donc avoir lieu lors dune premire phase dimputation.
Puis, les variables dlais positifs et ngatifs peuvent tre compltes conditionnellement aux
variables serpo et serneg, c'
est--dire seulement pour les rponses positives pour ces variables,
que celles-ci soient observes dans la base de dpart ou imputes au cours de la premire phase.
Les variables de dlais sont donc compltes au cours dune deuxime phase dimputation.
Nous verrons dans la suite de ce chapitre que cette particularit impacte tout le processus
destimation des donnes manquantes puisque deux modles dimputation doivent tre labors.
170
4.
Etapes prliminaires
4.1.
La base de donnes de dclaration obligatoire contient 44067 notifications depuis lanne 1982 et
116 variables issues de la saisie ou reconstruites. Tenant compte du dbut de la notification
obligatoire, la base de donnes retenue pour toutes les analyses de 2011 a t restreinte la
priode du 01 juin 2003 au 31 dcembre 2010 et inclut 41049 notifications. Nous navons pas
inclus le premier semestre 2003 car cette priode correspond au dbut de la dclaration
obligatoire et que les donnes ne nous ont pas sembl suffisamment fiables.
Les variables retenues pour le processus dimputation sont slectionnes en fonction des analyses
programmes par lquipe de surveillance. Du fait de la mthode dimputation retenue
(imputation multiple par quations chanes), les variables peuvent tre conserves sous leur
forme originelle (binaire, catgorielle ou continue). Un recodage des variables catgorielles est
cependant parfois ncessaire afin de limiter le nombre de modalits 5 et dquilibrer au mieux
les effectifs [56].
La base de donnes contient donc les variables dorigine incompltes, les variables recodes pour
limputation et leurs indicatrices de donnes manquantes. Compte tenu de la taille de la base de
donnes, nous avons cr une base restreinte, en cartant les variables contenant une proportion
de donnes manquantes trop leve (de 60 85%). Cette base finale est stabilise environ 100
variables.
4.2.
Les valeurs des biomarqueurs biologiques du test dinfection rcente sont dune interprtation
dlicate pour les patients au stade sida. En effet, en relation avec lhistoire naturelle de la
maladie, les valeurs de ces biomarqueurs peuvent tre artificiellement basses pour ces patients, ce
qui pourrait amener les classer tort en infects rcents. De ce fait, les valeurs observes des
171
biomarqueurs sont recodes en donnes manquantes pour les patients au stade sida et le processus
dimputation prend en compte cette singularit.
La deuxime tape consiste construire des modles prdictifs de la variable serneg en utilisant
laire sous la courbe ROC. Ces analyses sont effectues sur une sous-partie de la base de
notification correspondant la priode 2008-2010, c'
est--dire la priode au cours de laquelle les
nouvelles fiches ont t introduites. Ces nouvelles fiches sont identifiables par le recueil dune
nouvelle variable, le taux de CD4. La stratgie danalyse consiste tout dabord slectionner,
parmi les 8 modles bivaris prdictifs de serneg, le modle avec la meilleure aire sous la courbe
ROC. Puis, partir du meilleur modle, on construit 7 autres modles en incluant chacune des
covariables restantes. Laire sous la courbe ROC nest cependant pas amliore par lajout de ces
variables. Le modle final retenu inclut donc les variables catgorielles mode de contamination
et motivation pour le test, avec une aire sous la courbe ROC de 0,74.
On slectionne ensuite sur lensemble de la base de donnes un sous-chantillon de fiches de
notification pour lequel ces 2 variables sont entirement renseignes. Pour les fiches qui ne font
pas partie de ce sous-chantillon, les valeurs observes de serneg sont recodes en donnes
manquantes, quelles que soient ces modalits. La proportion de donnes manquantes de serneg
passe ainsi de 26% 61%, et la rpartition des rponses oui-non passe de 27%-73% 40%-60%
sur lensemble de la priode.
La variable srologie positive antrieure (serpo) est sujette au mme problme de remplissage,
mais le dsquilibre des rponses oui-non est moins sensible et il a t dcid de ne pas le traiter.
5.
5.1.
Les variables retenues pour le processus dimputation suivent des distributions diffrentes
(binaire, catgorielle et continue) et la mthode dimputation par quations chanes permet de
173
conserver la forme originelle de ces variables. Une fonction de lien est spcifie pour chaque
variable imputer. Lessentiel de la construction des quations de prdiction rside donc dans la
slection des variables prdictrices pour chacune des deux phases. Rappelons que les variables
retenues pour les analyses ultrieures de la base de donnes sont systmatiquement incluses dans
le modle dimputation (variables principales) et que des variables supplmentaires peuvent tre
identifies pour amliorer les capacits prdictrices du modle dimputation (variables
auxiliaires).
Chaque variable incomplte est modlise par dfaut dans la commande ICE partir de toutes les
covariables incluses dans le modle dimputation. Cependant, il est possible de slectionner un
jeu de prdicteurs diffrent pour chaque variable imputer. Cette slection repose en partie sur
lexamen des relations entre chaque indicatrice de donnes manquantes et toutes les covariables
disponibles. Il est recommand de raliser cet examen par rgression logistique multivarie de
chaque indicatrice de donnes manquantes sur lensemble des covariables. Une variable est dite
prdictrice si le test de Wald du coefficient de rgression associ cette variable est significatif
(p 0.05).
Comme dcrit dans le chapitre 1, certains auteurs proposent de slectionner les variables
prdictrices en se basant sur les donnes imputes de faon viter le biais de slection d la
perte deffectifs en analyse cas complet [28;82]. Nous avons appliqu cette stratgie pour valuer
les relations entre variables imputer et variables prdictrices.
174
Pays de naissance
Mode de
contamination
Stade clinique
Motivation pour le test
41 049
fiches
Biomarqueurs V3 - TM
Imputation de
5 bases de donnes
205 245
fiches
PREMIERE PHASE
Imputation de
3 bases de donnes
615 735
fiches
DEUXIEME PHASE
Le modle dimputation doit tre le plus gnral possible, et nous avons fait le choix dans un
premier temps dinclure chacune des 9 variables dans les quations de prdiction des autres
variables, en faisant lhypothse que leurs capacits prdictrices taient correctes. Dans un
deuxime temps, nous avons exclu deux variables de toutes les quations de prdiction. La
variable serneg a t recode et contient 61% de donnes manquantes. Il nous a donc paru
prfrable de lexclure des quations de prdiction. La variable type viral est presque complte
avec 1.4% de donnes manquantes mais contient 3 modalits trs dsquilibres avec 98% de
sous-type 1, 1.7% de sous-type 2 et 0.8% de sous-type 1 et 2. De ce fait, elle induit une instabilit
du modle dimputation et a t exclue des quations de prdictions.
Par ailleurs, les biomarqueurs TM et V3 sont imputs conditionnellement au stade clinique
observ de chaque patient. En effet, les valeurs de ces marqueurs ne doivent pas tre retenues
pour les individus au stade sida et les mesures disponibles sont donc recodes en donnes
manquantes. Une variable binaire spcifiant le statut sida est utilise pour limiter limputation des
biomarqueurs aux patients non-sida.
175
Variables auxiliaires
Du fait du mode de recueil des informations dans le domaine de la surveillance, la proportion de
donnes manquantes est souvent lev et il peut donc savrer difficile didentifier des variables
auxiliaires suffisamment bien renseignes. Dans le cas de la notification du VIH, nous avons
retenu comme variables auxiliaires potentielles 2 variables binaires, le sexe et le type de dclarant
(mdecin de ville, mdecin hospitalier), 2 variables catgorielles, lanne de diagnostic (20032010) et linter-rgion (6 catgories), et 1 variable continue, lge. Ces 5 variables auxiliaires sont
compltes.
Une premire imputation a donc t ralise en incluant les variables principales et ces 5
variables auxiliaires ; 5 bases ont t gnres. Lexamen des relations entre les variables
indicatrices de donnes manquantes de 8 des 9 variables principales (on ne retient pas la variable
type viral) et des 13 covariables (variables principales et variables auxiliaires potentielles) a t
ralis en appliquant un modle de rgression multivarie lensemble des donnes imputes, par
les commandes spcifiques de limputation. Les rsultats, prsents dans le Tableau 4.3, montrent
que les variables anne de diagnostic, inter-rgion et type de dclarant sont prdictrices de toutes
les variables incompltes. Les variables sexe et ge sont respectivement lies 4 et 2 indicatrices
de donnes manquantes. Cependant, ces variables peuvent tre utilises lors danalyses sur les
donnes imputes et elles ont t retenues dans les quations de prdiction de toutes les variables.
Le Tableau 4.3 montre galement que les 4 variables catgorielles (pays de naissance, mode de
contamination, stade clinique et motif de dpistage), la variable srologie positive antrieure et le
biomarqueur TM ont des capacits prdictrices correctes (3 5 liens significatifs avec les 8
variables indicatrices). Le biomarqueur V3 nest li aucune indicatrice, mais a t maintenu
dans le modle pour conserver son niveau de lien avec le biomarqueur TM. Aprs imputation des
donnes manquantes, la variable srologie ngative antrieure nest effectivement prdictrice
daucune variable incomplte, ce qui justifie son retrait des quations de prdictions.
Le modle de la premire phase se compose donc de 14 variables, 9 variables principales et 5
variables auxiliaires.
176
Tableau 4.3
Rmcont
<10
Pays de naissance
Mode de contamination
Stade clinique
Motif de dpistage
Srologie ngative
Srologie positive
Biomarqueur V3
Biomarqueur TM
<10
0.39
-3
<10
0.04
0.16
0.35
0.04
Anne de diagnostic
<10
Inter-rgion
Sexe
Age
Type de dclarant
<10
0.03
0.09
-3
<10
-3
-3
0.01
-3
<10
0.39
0.12
0.38
0.02
-3
<10
-3
<10
0.04
-3
<10
-3
<10
Rstclin
-3
<10
0.05
0.02
0.18
0.13
0.26
0.09
-3
<10
-3
<10
0.01
0.04
-3
<10
Rmotif
-3
<10
0.02
-3
<10
0.91
-3
<10
0.84
-3
<10
Rserneg
-3
<10
-3
<10
0.02
0.01
-3
<10
0.42
-3
<10
Rserpo
0.26
0.01
0.18
-3
<10
0.03
0.79
0.02
-3
<10
-3
<10
-3
<10
-3
<10
-3
<10
-3
<10
0.02
0.65
-3
<10
0.19
0.17
-3
<10
0.30
0.65
-3
<10
RV3
RTM
-3
<10
-3
<10
0.14
0.40
0.09
0.01
0.52
<10
-3
<10
0.14
0.40
0.08
0.01
-3
0.52
-3
<10
-3
<10
-3
-3
<10
-3
<10
-3
0.30
0.07
-3
<10
0.30
0.07
-3
<10
Les variables indicatrices de donnes manquantes sont les variables expliquer de chaque modle. Ces variables sont
abrvies comme suit : Rpnais (pays de naissance), Rmcont (mode de contamination), Rstclin (stade clinique),
Rmotif (motif de dpistage), Rserneg (srologie ngative), Rserpo (srologie positive), RV3 (biomarqeur V3), RTM
(biomarqueur TM). Les p-valeurs associes chacune des variables explicatives sont prsentes, avec en caractres
gras les p-valeurs 0.05. Les zones grises reprsentent les intersections entre chaque variable et son indicatrice de
donnes manquantes.
177
De la mme faon, la variable srotype viral (srotype) est impute au cours de cette phase
conditionnellement la variable type viral imput la premire phase. La variable srotype est
reconstruite en deux modalits, srotype B versus non-B, et impute seulement lorsque le virus
est de type 1.
Le taux de lymphocytes T4 (CD4), qui est une variable continue, a t ajoute au modle
dimputation de la deuxime phase partir de 2009. Elle est recueillie par les nouvelles fiches de
notification depuis 2008 seulement et elle est donc impute conditionnellement la priode 20082010. Du fait de sa forte proportion de donnes manquantes (>50% en 2009 et 43% en 2010),
nous avons fait le choix de linclure dans le modle dimputation de la deuxime phase car celuici est plus stable. Ce modle ne contient en effet pas de variable catgorielle et bnficie de
lapport dinformations issues des 9 variables renseignes lors de la premire phase (et 15 bases
de donnes sont imputes au total).
Ces 4 variables contiennent une proportion leve de donnes manquantes (de 33 43%), et il est
donc prfrable de ne pas les retenir comme variables prdictrices. Chacune dentre elles est donc
exclue de lquation de prdiction des autres variables.
Variables auxiliaires
Les variables auxiliaires potentielles peuvent tre identifies parmi des variables originellement
compltes ou compltes lors de la premire phase dimputation. De ce fait, il parait cohrent de
les slectionner partir de la base impute issue de la premire phase. Le Tableau 4.4 montre les
rsultats des rgressions multivaries expliquant les indicatrices de donnes manquantes des 4
variables principales par les 11 covariables retenues.
Les rsultats des rgressions montrent que, en dehors de lge et des biomarqueurs, les variables
retenues partir de la premire phase ont de bonnes capacits prdictrices. La variable ge est
maintenue dans les quations de prdiction car elle est utilise lors des analyses. Les
biomarqueurs sont prdicteurs pour au moins la moiti des variables imputes et sont donc
retenus.
178
Tableau 4.4
Rdelneg
Rserotype
Rcd4
Pays de naissance
0.01
<10
-3
Mode de contamination
<10
-3
<10
-3
<10
Stade clinique
<10
-3
<10
-3
<10
Motif de dpistage
<10
-3
<10
-3
<10
V3
0.02
<10
-3
<10
0.84
<10
-3
0.27
<10
-3
0.30
TM
-3
<10
-3
-3
<10
-3
-3
<10
-3
-3
<10
-3
-3
<10
-3
<10
-3
<10
-3
Inter-rgion
<10
-3
<10
-3
<10
<10
Sexe
0.01
<10
-3
0.05
0.01
Age
0.13
<10
-3
0.51
0.18
<10
-3
-3
Anne de diagnostic
Type de dclarant
<10
-3
<10
-3
<10
<10
-3
-3
Les variables indicatrices de donnes manquantes sont les variables expliquer de chaque modle. Ces variables sont
abrvies comme suit : Rdelpos (dlais positifs), Rdelneg (dlais ngatifs), Rserotype (srotype), Rcd4 (taux de
CD4). Sont prsentes les p-valeurs associes chacune des variables explicatives, avec en caractres gras les
valeurs >0.05.
Bien que les 4 variables imputes au cours de la deuxime phase contiennent de fortes
proportions de donnes manquantes, le modle dimputation est trs complet du fait de
linclusion de 11 variables auxiliaires fortes capacits prdictrices.
Notons que dans le cas dun modle dimputation complexe, le processus de slection des
variables nest pas linaire mais quil fait appel des informations recueillies au cours du
processus de validation postrieur limputation. Nous prsentons donc la slection finale des
variables mais plusieurs modles qui ne seront pas dtaills ont t construits et tests.
5.2.
Les variables catgorielles sont bien prises en compte par la mthode dquations chanes. Pour
chaque variable catgorielle incomplte, nominale dans le cas de cette imputation, une rgression
multinomiale est donc spcifie. Il est souhaitable de ne pas dpasser 5 catgories pour des
raisons de stabilit du modle et dquilibrer les effectifs des diffrentes modalits [56;125].
179
5.2.2.
Limputation des variables continues repose sur lhypothse dune distribution normale. Il a t
dmontr que les rsultats de limputation taient sensibles au non-respect de la normalit, aussi
bien pour lapproche multivarie normale que pour lapproche par quations chanes [45]. Il est
donc essentiel de transformer chaque variable dont la distribution est nettement asymtrique afin
de sassurer de la validit de limputation de cette variable et ainsi dviter dintroduire des biais
dans les estimations des coefficients des autres variables du modle dimputation.
180
Les graphes de la Figure 4.4 reprsentent les distributions des valeurs observes des variables
continues. Les distributions des biomarqueurs V3 et TM sont nettement asymtriques avec une
distribution en U et des valeurs censures droite. Les variables dlais ngatifs, dlais positifs et
CD4 ont une distribution plus classique mme si la forte proportion de 0 est problmatique pour
les variables dlais positifs et CD4.
Figure 4.4 Reprsentation graphique des distributions observes des biomarqueurs,
des dlais positifs et ngatifs, et des CD4
Biomarqueur TM
1000
2000
3000
4000
1200
Biomarqueur V3
20
40
60
80
20
100
150
200
250
300
80
1200
4000
3000
200
1000
0
50
60
Nombre de CD4
2000
40
Dlais positifs
1200
Dlais ngatifs
50
100
150
200
250
300
1000
2000
3000
4000
5000
Dans le cas des biomarqueurs, des essais dimputation ont t raliss avec des transformations
classiques (logarithme, racine carre) ou plus labores en utilisant des fonctions ddies
(commandes boxcox, lnskew sous STATA) mais ladquation entre les distributions des donnes
imputes et observes sest rvle trs insuffisante. Au vu de ces rsultats, une transformation
propose par Nevalainen et al. [63] a t applique : la transformation par scores de quantiles.
181
i sont lgrement transformes en les remplaant par une valeur comprise entre i
et i partir de tirages alatoires dans une distribution uniforme ( i , i ) . Nous avons
choisi arbitrairement = 0.04 .
Les nouvelles valeurs sont rordonnes et une variable de rang note Ri est gnre pour
chaque valeur i, (i = 1,..., n ).
Des valeurs zi sont calcules partir des Ri en utilisant la relation suivante :
zi = 1
Ri
,
n +1
182
De plus, limputation de ces variables continues a t ralise en utilisant une rgression par
intervalle. Pour chaque variable, des bornes infrieures et suprieures ont t spcifies afin de
contraindre les valeurs imputes se situer dans lintervalle des valeurs observes. Les variables
et leurs bornes ont t incluses dans les modles dimputation. La rgression par intervalle est
implmente sous le programme additionnel ICE [139] et permet dobtenir aprs
retransformation des valeurs strictement positives.
5.3.
Nombre de bases
Les critres de choix du nombre de bases ont t dvelopps dans le chapitre 1. En se basant
uniquement sur le critre defficacit statistique relative, il faudrait gnrer M = 5 bases pour
une fraction dinformation manquante (FMI) de lordre de 25%, ce qui revient tolrer une perte
defficacit statistique de 5% par rapport un nombre infini dimputations. Si lon approxime la
FMI par la fraction de cas incomplets, il est alors recommand dimputer plutt M = 10 bases si
la proportion de cas incomplets varie de 30 50%, pour une mme perte defficacit statistique
de 5%. En prenant en compte des critres supplmentaires tels que la perte potentielle de
puissance statistique et la rptabilit des analyses, il faut alors, comme propos par Bodner [57],
approximer la valeur de M par la fraction de cas incomplets, soit M = 30 bases de donnes pour
une proportion de donnes manquantes de 30%.
Dans notre application, des contraintes pratiques doivent tre prises en compte dans le choix de
M : (i) le fichier de dpart est volumineux (41049 observations, 100 variables), (ii) limputation
est ralise en deux phases et (iii) le fichier final est utilis pour des analyses rptes au fil du
temps.
Soit M 1 le nombre de bases gnres pendant la premire phase, M 2 le nombre de rplications
de chacune des M 1 bases au cours de la deuxime phase et M = M 1 M 2 le nombre total de
bases imputes pour lensemble du processus. Il aurait t indiqu dimputer au moins M 1 = 10
bases puisque la proportion moyenne de donnes manquantes est denviron 30%. Cependant,
pour M 1 = 10 et M 2 = 3 , la taille de la base finale aurait atteint les limites du logiciel utilis.
183
Nous avons donc dcid de tolrer une perte defficacit statistique de plus de 5% pour la
premire phase et dimputer M 1 = 5 bases puis M 2 = 3 bases.
Du fait de ce processus en deux phases, limputation pour les variables de la deuxime phase
revient gnrer 15 bases de donnes. Les variables imputes lors de la deuxime phase
contiennent des informations identiques dans les M 1 = 5 bases. A partir de chacune de ces 5
bases seront gnres 3 bases diffrentes, soit au final 15 bases potentiellement diffrentes pour
les variables imputes au cours de la deuxime phase. Ces variables contiennent en moyenne
40% de donnes manquantes et le choix de M = 15 permet de tolrer une perte de moins de 5%
defficacit statistique par rapport un nombre infini dimputations.
Lors de la phase de validation interne du processus dimputation prsente dans le paragraphe 7,
des critres tels que la FMI, lefficacit statistique et lerreur de Monte Carlo, calculs pour
chacune des 14 variables, permettent de discuter les avantages et les limites du processus retenu.
5.3.2.
Nombre de cycles
184
6.
Imputation et analyse
Le fichier final dlivr aprs imputation contient les 15 bases compltes et la base originelle
incomplte. Chaque variable impute est accompagne dune indicatrice permettant didentifier
les donnes dorigine. Des variables sont construites partir des variables imputes, et sont
gnres automatiquement dans chacune des 15 bases. La base de donnes est transmise
annuellement depuis 2008 lquipe de surveillance.
Les analyses sont ralises sur chaque base de donnes puis les rsultats sont combins selon les
rgles de Rubin. Deux implmentations sont disponibles pour lanalyse de donnes imputes sous
STATA : le programme additionnel MIM de Carlin et Royston [64;140] et le package MI
ESTIMATE de la version STATA 11 [65], plus rcent et plus complet. Cependant, les analyses
de routine sont ralises partir de MIM en raison dune particularit de la base de notification.
En effet, les analyses descriptives concernent seulement les dcouvertes de sropositivit et cette
notion de dcouverte dpend de deux variables imputes, serpo et dlais positifs. Les analyses
restreintes aux dcouvertes de sropositivit portent donc sur des effectifs qui varient selon les
bases imputes et il est plus ais de grer cette particularit avec le programme MIM.
Lquipe de surveillance est donc autonome pour les analyses de la base impute. Ces analyses
prennent galement en compte lexhaustivit de la notification obligatoire ainsi que les dlais de
notification. Cette tape intervient aprs limputation multiple et ses rsultats doivent tre
combins avec ceux de limputation pour produire les rsultats finaux (valeur centrale, variance).
185
7.
Validation interne
Afin dobtenir des estimations valides aprs imputation multiple, deux conditions sont requises :
(i) le modle dimputation doit tre correctement spcifi en termes de slection et de type de
variables, (ii) lhypothse que les donnes sont MAR doit tre vrifie.
Ltape de validation interne permet de vrifier la premire condition, c'
est--dire la validit du
modle, sachant que, si des donnes sont manquantes selon un mcanisme MNAR, les rsultats
de limputation seront biaiss mme si le modle est correctement spcifi. Cette validation
interne a t effectue deux niveaux : des approches simples de diagnostics graphiques et
numriques, puis une tude par simulation permettant dvaluer les capacits prdictrices du
modle de la premire phase.
7.1.
Diagnostic de limputation
7.1.1. Problmatique
Cette tape de diagnostic consiste rechercher des incohrences marques dans les rsultats de
limputation. A un stade initial o le modle dimputation nest pas encore stabilis, diffrentes
quations de prdictions ainsi que diffrents codages et/ou transformations peuvent tre tests.
Comme suggr par Abayomi et al. et Raghunatan et al. [61;62], un critre de validit interne
rside dans la comparaison des donnes imputes et observes via les variables indicatrices de
donnes manquantes. En effet, sous lhypothse que les donnes sont manquantes alatoirement,
des diffrences peuvent tre dtectes entre donnes observes et imputes, mais elles doivent
rester modres et explicables par des mcanismes identifis.
Abayomi et al. proposent deffectuer des comparaisons numriques et graphiques, appliques
conscutivement plusieurs bases de donnes imputes. Dans notre tude, les comparaisons
numriques ne sont pas facilement interprtables en raison (i) de la diffrence deffectifs entre
valeurs imputes et observes et (ii) de la taille de la base de donnes de dpart. Ainsi, des tests
statistiques raliss sur une seule base impute (41049 observations) sont dans cette tude
186
artificiellement significatifs. Une comparaison directe des proportions, complte par des
analyses graphiques, permettent cependant deffectuer une premire tape de validation.
Variables binaires
Sont prsentes dans le Tableau 4.5 les proportions observes et estimes pour les 3 variables
binaires serneg, serpo et srotype.
187
Tableau 4.5
Anne de diagnostic
2003
2004
2005
2006
2007
2008
2009
2010
2003-2010
Donnes observes
24.37
28.79
31.07
34.01
38.09
54.86
58.97
64.92
40.90
Donnes imputes
(IC 95%)
17.77
(14.3-21.2)
21.2
(18.6-23.8)
28.09
(25.0-31.1)
34.08
(30.8-37.3)
40.19
(37.7-42.7)
43.39
(41.4-45.4)
50.27
(47.8-52.7)
55.09
(52.0-58.1)
38.09
(37.2-38.9)
Stade clinique
Donnes observes
Donnes imputes
(IC 95%)
PIV*
ASY*
SNS*
SID*
62.78
62.80
(59.2-66.4)
40.62
40.28
(39.0-41.5)
24.41
26.42
(24.3-28.5)
22.12
23.72
(18.3-29.0)
2003
2004
2005
2006
2007
2008
2009
2010
2003-2010
Donnes observes
36.14
33.43
36.02
36.55
37.48
42.68
43.87
45.22
38.31
32.76
31.19
30.48
32.26
32.76
32.52
33.39
34.24
32.53
IC 95%
Donnes imputes
(28.9-36.6)
(28.2-34.2)
(27.1-33.9)
(29.4-35.1)
(30.2-35.3)
(29.2-35.8)
(31.4-35.4)
(31.7-36.8)
(31.3-33.8)
Mode de contamination
HOMO/BI
2008
58.54
65.89
(62.7;69.1)
2009
57.26
66.62
(63.2;70.0)
2010
55.72
69.6
(66.0;73.2)
2003-2010
58.05
66.65
(65.2;68.1)
Donnes observes
Donnes imputes
(IC 95%)
33.10
UDI
HETERO
8.23
56.66
AUTRES
2.01
30.22
6.85
60.07
2.86
(28.2-32.4)
(6.0-7.7)
(57.8-62.3)
(2.3-3.4)
Motif de dpistage
SCB
Donnes observes
Donnes imputes
IC 95%
26.33
27.19
(25.2-29.2)
14.83
14.32
(12.5-16.1)
27.96
25.54
(22.3-28.8)
Anne de diagnostic
Donnes observes
Donnes imputes
(IC 95%)
Pays de naissance
2003
51.61
65.32
(61.3;69.4)
France
78.30
81.28
(80.0;82.5)
2004
56.08
64.81
(61.9;67.7)
AFSS
2005
60.48
67.52
(63.9;71.2)
EUROPE
2006
59.44
66.46
(62.9;70.1)
AME/HAITI
2007
61.22
67.28
(64.0;70.6)
AUTRES
28.40
31.16
(28.2;34.1)
67.53
71.91
(66.7;77.2)
85.76
87.50
(84.7;90.4)
62.48
64.51
(58.6;70.4)
EXP
BIL/GROS
DOR
20.70
19.92
(15.2-24.7)
PEC/AUT
79.88
76.76
(73.2-80.3)
SEROTYPE B
Donnes observes
Donnes imputes
(IC 95%)
Une proportion observe est note en caractres gras si elle nappartient pas lIC 95% de la proportion estime.
* PIV : primo-infection virale ; ASY : asymptomatique ; SNS : symptomatique non sida ; SID : sida.
HOMO/BI : mode homosexuel/bisexuel ; UDI : usage de drogue intraveineuse ; HETERO : mode htrosexuel. SCB : symptmes cliniques et biologiques ; EXP :
exposition ; BIL/GROS : bilan/grossesse ; DOR : dpistage orient ; PEC/AUT : prise en charge/autre. AFSS : Afrique sub-Saharienne ; AME/HAITI : Amrique/Hati
188
Notons que, selon le Tableau 4.3, le modle de prdiction de la variable serneg est riche puisque
les 4 variables catgorielles sont prdictrices de serneg, c'
est--dire quelles sont
significativement lies lindicatrice de donnes manquantes de cette variable. On observe
dailleurs que les diffrences entre les proportions observes et estimes sont plus faibles aprs
ajustement sur les variables pays de naissance et mode de contamination. Aprs ajustement sur la
variable stade clinique, les diffrences entre proportions observes et estimes ne sont plus
significatives. On peut donc conclure que le mcanisme de donnes manquantes de la variable
serneg est complexe, mais que le modle de prdiction inclut sans doute les principaux
prdicteurs. Une variabilit rsiduelle est attendue du fait de la proportion leve de donnes
manquantes.
ajustement sur ces deux variables, mode de contamination et motif de dpistage, lcart entre
proportions observes et estimes est rduit, et devient mme non-significatif aprs ajustement
sur la variable motif de dpistage.
La variable serpo est une variable cl car elle permet de dterminer, en association avec la valeur
des dlais positifs, la proportion de nouveaux diagnostics. Rappelons quun nouveau diagnostic
est pos quand aucune srologie positive antrieure nest rapporte ou quelle date de plus de 11
mois. Limputation a pour effet de diminuer la proportion de rponses positives pour serpo, et
donc daugmenter la proportion de nouveaux diagnostics, sans tenir compte de limputation des
dlais positifs. Ainsi, la proportion de nouveaux diagnostics passe pour la priode 2003-2010 de
79.7% partir des donnes observes 81.4% partir des donnes globales aprs imputation, et
pour lanne 2010 de 77.1% 80.8%.
Srotype viral B versus non-B pour les souches virales de type 1 : variable srotype
Sont prsentes dans le Tableau 4.5 les proportions de souches virales de type 1 et de sous-type
B, les autres types et sous-types tant regroups dans la catgorie non-B. Les proportions
observes de srotype B, par anne de diagnostic et sur toute la priode, ne sont pas incluses dans
les IC 95% des proportions estimes. Les proportions estimes de srotype B sont
systmatiquement plus leves que les proportions observes, avec un cart global de 9% sur
60%, et des carts par anne variant de 6% en milieu de priode pour atteindre 14% sur 69% en
2010. Limpact des donnes imputes sur les donnes globales nest cependant que de 2.8% pour
lensemble de la priode et atteint 5% en 2010.
Limputation de la variable srotype est ralise au cours de la deuxime phase,
conditionnellement la variable type viral impute lors de la premire phase. Lquation de
prdiction de la variable srotype contient 8 variables prdictrices et 15 bases sont imputes. Un
problme de spcification du modle parait donc peu probable. De plus, les variations observes
aprs imputation peuvent tre expliques, au moins en partie, par le lien entre les variables
srotype et pays de naissance. Ainsi, le srotype est un des indicateurs de lvolution de
lpidmie en France en matire de flux migratoires, en particulier en provenance dAfrique subSaharienne (AFSS). Historiquement, le srotype B est majoritaire en France et les srotypes nonB prdominent en AFSS. Ainsi, aprs ajustement sur la variable pays de naissance, la proportion
190
de souches virales B reste plus leve pour les valeurs imputes, mais cette diffrence nest plus
significative quen France.
Afin dinterprter cette diffrence en France, nous avons gnr une variable indicatrice
permettant didentifier aprs imputation des catgories de donnes manquantes dorigine
diffrente. Les 3 catgories de donnes manquantes correspondent (1) aux buvards non-raliss
ou inexploitables, (2) aux souches virales de type M (recodes en donnes manquantes pour
obtenir le sous-type) et (3) aux souches virales dfinies comme non-typables, trs
majoritairement parce que linfection est trop rcente. On observe que la proportion de srotype
B estime passe de 62.1% pour (1) 75.0% pour (2) et 78.0% pour (3). Par ailleurs la proportion
de nouveaux diagnostics passe de 81.4% pour (1), 89.7% pour (2) et 93.6% pour (3). La
proportion de srotype viral B est donc plus leve parmi les infections rcentes. Ce constat peut
tre li aux pratiques de dpistage selon le mode de contamination, puisque les individus ayant
des pratiques homosexuelles se testent plus frquemment que les htrosexuels (do un taux
dinfection rcente plus lev) et sont majoritairement ns en France, o le srotype B
prdomine. Ce mcanisme peut expliquer la proportion plus leve de srotype B parmi les
infections rcentes.
En rgle gnrale, limputation de variables binaires par la mthode dquations chanes donne
des rsultats fiables, si les conditions dapplication de la mthode sont remplies. Dans cette
application, les variables serneg et serpo contiennent une forte proportion de donnes manquantes
et le mcanisme lorigine de ces donnes manquantes varie selon les individus et avec le temps.
Cet effet semble paradoxalement moins marqu pour serneg, variable pour laquelle une partie des
donnes manquantes a t gnre a posteriori et selon un mcanisme dfini. Dans le cas du
srotype viral, cette variable binaire est en fait de structure initiale complexe, avec des donnes
manquantes dcoulant de mcanismes trs diffrents.
La conclusion de cette tape de diagnostic est que les variations observes sont contrles pour
les variables serneg et srotype, mais que limputation de la variable serpo gagnerait tre
amliore, ventuellement par lapplication dun filtre comme dans le cas de serneg.
191
Variables catgorielles
Le tableau 4.6 prsente les proportions des variables pays de naissance et mode de contamination,
et le Tableau 4.7 dtaille les variables stade clinique, motif de dpistage et type viral.
Tableau 4.6 -
PAYS DE NAISSANCE
France
AFSS*
EUROPE
AME/HAITI*
AUTRES
Donnes observes
Donnes imputes
IC 95%
48.08
46.46
(45.4-47.5)
36.27
36.46
(35.2-37.7)
3.56
3.89
(3.3-4.5)
7.22
8.21
(7.4-9.0)
4.87
4.98
(4.3-5.9)
MODE DE CONTAMINATION
HOMO/BI
UDI
HETERO
AUTRES
2.78
2.35
(1.6-3.1)
94.81
95.73
(94.8-96.6)
2.42
1.92
1.4-2.4
4.76
4.52
(3.9-5.2)
41.48
47.30
(45.5-49.1)
1.35
1.43
(1.1-1.8)
HETERO
AUTRES
Femmes
Donnes observes
Donnes imputes
IC 95%
Hommes
Donnes observes
Donnes imputes
IC 95%
Selon le pays de naissance
(Hommes)
FRANCE
Donnes observes
Donnes imputes
IC 95%
AFSS*
Donnes observes
Donnes imputes
IC 95%
EUROPE
Donnes observes
Donnes imputes
IC 95%
AME/HAITI*
Donnes observes
Donnes imputes
IC 95%
AUTRES
Donnes observes
Donnes imputes
IC 95%
52.41
46.75
(44.9-48.6)
HOMO/BI
UDI
69.39
66.80
(65.1-68.5)
4.65
4.88
(4.0-5.7)
24.79
27.36
(25.6-29.2)
1.17
0.96
(0.5-1.5)
5.72
5.35
(3.7-7.0)
0.86
0.71
(0.1-1.4)
91.42
91.56
(89.5-93.6)
1.99
2.39
(1.6-3.1)
49.75
48.44
(42.9-54.0)
23.94
19.90
(13.4-26.4)
24.82
30.33
(23.3-37.4)
1.50
1.33
(0-3.8)
44.67
40.46
(36.2-44.7)
0.84
0.84
(0-2.0)
53.39
57.18
(52.6-61.8)
1.11
1.51
(0-3.3)
41.67
38.69
(30.7-46.6)
9.95
9.34
(5.2-13.4)
47.19
50.27
(40.8-59.9)
1.20
1.70
(0-3.4)
Une proportion observe est note en caractres gras si elle nappartient pas lIC 95% de la proportion estime.
* AFSS : Afrique sub-Saharienne ; AME/HAITI : Amrique/Hati ;
HOMO/BI : mode homosexuel/bisexuel ; UDI : usage de drogue intraveineuse ; HETERO : mode htrosexuel.
192
ne pas divulguer cette information). Cependant, lexamen des proportions avant et aprs
imputation montre des rsultats proches, particulirement aprs ajustement sur le pays de
naissance. Le modle dimputation de la variable mode de contamination est riche (10 variables
prdictrices) et inclut probablement les variables les plus importantes, permettant ainsi de rduire
leffet sur les estimations dun ventuel mcanisme MNAR.
Tableau 4.7 -
STADE CLINIQUE
PIV*
ASY*
SNS*
SID*
Donnes observes
Donnes imputes
IC 95%
8.12
6.80
(5.9-7.7)
58.71
62.40
(61.3-63.5)
13.50
13.91
(12.9-14.9)
19.67
16.88
(15.9-17.9)
SCB
Donnes observes
Donnes imputes
IC 95%
15.82
14.06
(12.0-16.1)
16.01
17.84
(15.8-19.8)
24.58
27.46
(25.3-29.6)
43.59
40.64
(38.1-43.2)
EXP
Donnes observes
Donnes imputes
IC 95%
7.75
6.47
(4.5-8.5)
85.31
86.46
(83.8-89.1)
4.81
5.11
(3.9-6.4)
2.13
1.97
(0.9-3.0)
BIL/GROS
Donnes observes
Donnes imputes
IC 95%
1.38
1.14
(0.4-1.9)
89.25
89.95
(87.8-92.1)
4.77
4.91
(3.5-6.3)
4.60
4.00
(2.5-5.5)
DOR
Donnes observes
Donnes imputes
IC 95%
4.15
4.11
(1.3-7.0)
79.60
78.99
(69.5-88.3)
13.25
14.14
(7.5-20.9)
3.00
2.76
(0-7.2)
PEC/AUTRES
Donnes observes
Donnes imputes
IC 95%
2.53
2.44
(1.7-3.2)
74.15
75.58
(73.2-78.0)
11.14
11.30
(9.6-13.0)
12.18
10.67
(7.8-13.5)
MOTIF DE DEPISTAGE
EXP
33.84
36.82
(35.6-38.1)
20.78
19.15
(18.4-19.9)
19.40
19.31
(18.4-20.2)
TYPE VIRAL
Type 1
Type 2
Type 1 et 2
Donnes observes
Donnes imputes
98.23
98.59
1.70
1.34
0.08
0.07
Donnes observes
Donnes imputes
IC 95%
BIL/GROS
SCB
DOR
2.57
2.31
(2.0-2.6)
PEC/AUT
23.41
22.41
(21.0-23.8)
Une proportion observe est note en caractres gras si elle nappartient pas lIC 95% de la proportion estime.
* PIV : primo-infection virale ; ASY : asymptomatique ; SNS : symptomatique non sida ; SID : sida.
SCB : symptmes cliniques et biologiques ; EXP : exposition ; BIL/GROS : bilan/grossesse ; DOR : dpistage
orient ; PEC/AUT : prise en charge/autres.
194
fonction de lien multinomiale limite les risques de biais. La dcomposition des variables
catgorielles en variables binaires incluses dans les quations de prdiction des autres variables a
permis damliorer nettement les qualits prdictrices des modles dimputation si lon compare
les rsultats au cours du temps (depuis 2008).
Par ailleurs, linclusion de plusieurs variables catgorielles incompltes dans un mme modle
dimputation peut induire une instabilit de ce modle. Nous avons pu observer ce problme avec
la variable type viral, mais les 4 autres variables catgorielles, globalement trs lies les unes aux
autres, ont pu tre maintenues dans toutes les quations de prdiction, ce qui a permis damliorer
les qualits prdictrices du modle dimputation de la phase 1. Enfin, la variable mode de
contamination, considre a priori comme tant risque de contenir des donnes manquantes de
type MNAR, ne prsente pas de dcalage majeur et inexpliqu entre les rsultats de limputation
et les donnes dorigine. Nous en concluons que le modle dimputation pour cette variable est
suffisamment riche en prdicteurs pour rendre peu perceptible leffet dun mcanisme MNAR
potentiel.
Cette tape de diagnostic montre donc que, pour les variables catgorielles, les diffrences entre
valeurs observes et imputes sont faibles, ou/et peuvent tre explique par un lien avec une ou
plusieurs autres variables, ce qui dfinit un mcanisme MAR plus ou moins complexe selon les
variables.
196
Cependant, limportance des effectifs (>40000) peut donner tort des rsultats significatifs du
fait de la puissance du test [62].
De ce fait, nous avons complt cette approche par une reprsentation graphique. Pour cette
analyse graphique, nous avons retenu des graphes quantiles-quantiles et des histogrammes
reprsentant les valeurs observes versus les valeurs imputes. Les Figures 4.5, 4.6 et 4.7
montrent que, pour les 5 variables considres, les distributions des donnes observes et
imputes sont proches.
197
Figure 4.5 Comparaison graphique des donnes observes et imputes des dlais positifs et ngatifs
Dlais positifs
200
100
150
Valeurs imputes
150
100
50
50
Valeurs imputes
200
250
250
300
300
Dlais ngatifs
50
100
150
200
250
300
Valeurs observes
50
100
150
200
Valeurs observes
198
250
300
Figure 4.6 Comparaison graphique des donnes observes et imputes des biomarqueurs V3 et TM
Biomarqueur TM
40
20
30
Valeurs imputes
40
30
10
20
10
0
Valeurs imputes
50
50
60
60
70
70
Biomarqueur V3
10
20
30
40
50
60
70
Valeurs observes
10
20
30
40
Valeurs observes
199
50
60
70
Figure 4.7 Comparaison graphique des donnes observes et imputes du taux de CD4
500
Valeurs imputes
1000
1500
Nombre de CD4
500
1000
Valeurs observes
200
1500
Afin de complter cette approche graphique simple, nous avons compar les distributions
observes et imputes selon leurs quantiles, leurs moyennes et leurs variances. Nous avons
appliqu un diagnostic propos par Stuart et al. [82] et qui dfinit deux indicateurs de discordance
entre les distributions : (i) une diffrence en valeur absolue entre les moyennes des donnes
observes et imputes suprieure 2 carts types (imputs), (ii) un ratio des variances observes
et estimes infrieur 0.5 (variance estime/variance observe) ou suprieur 2 (variance
observe/variance impute).
Tableau 4.8
1%
moy*
| moy|
SE
| moy|
var
2SE
varobs
varimp
varimp
varobs
FMI
(%)
25%
50%
75%
99%
BIOMARQUEUR V3
Observ 0.4 20.5
Imput
0.4 19.0
39.8
39.7
55.3
55.7
70.0
70.0
38.10
37.78
0.32
0.17
0.17
0.9
0.03
0.03
1.0
1.0
42.6
BIOMARQUEUR TM
Observ 0.3 12.9
Imput
0.3 11.6
30.0
29.5
40.0
39.8
70.0
70.0
28.51
28.00
0.51
0.10
0.11
2.3
0.01
0.01
0.9
1.1
33.2
DELAIS POSITIFS
Observ 0.0 1.0
Imput
0.0 1.0
12.0
13.0
90.0
91.0
266.0
268.0
54.04
54.64
0.60
0.75
0.80
0.4
0.56
0.64
0.9
1.1
23.9
DELAIS NEGATIFS
Observ 0.0 9.0
Imput
0.0 9.0
21.0
21.0
47.0
45.0
196.0
180.0
35.79
33.71
2.08
0.46
0.47
2.2
0.21
0.22
1.0
1.0
47.7
8.60
3.14
3.56
1.2
9.86
12.67
0.8
1.3
20.8
TAUX DE CD4
Observ 3.0 143.0 333.0 524.0 1226.0 366.84
Imput
4.0 160.0 350.0 534.0 1163.0 375.44
* Moyenne
Valeur absolue de la diffrence entre moyenne des valeurs observes et imputes
Rapport de la variance de la moyenne des valeurs observes sur celle des valeurs imputes
Rapport de la variance de la moyenne des valeurs imputes sur celle des valeurs observes
Les rsultats sont prsents dans le Tableau 4.8. La comparaison des valeurs par quantiles montre
des valeurs trs proches entre les valeurs observes et imputes pour les biomarqueurs et les
dlais, mais dnote plus de variabilit pour le taux de CD4. Lindicateur dfini comme la
diffrence des moyennes divise par 2 carts types est suprieur 1 pour le biomarqueur TM, les
dlais ngatifs et les CD4. Notons cependant que, pour ces variables, la diffrence entre les
moyennes des proportions observes et imputes est faible, mais que lcart type est galement
201
petit, ce qui affecte la valeur du ratio. Cela est confirm par les indicateurs dfinis partir des
rapports de variances (proportions observes et estimes) qui sont trs proches de 1 pour 4
variables sur 5, et incluses dans lintervalle prdfini (0.5 ;2.0) pour les CD4.
Les distributions des donnes observes et imputes sont donc proches pour les variables
considres. Les quations de prdiction varient selon les variables, avec 6 variables prdictrices
pour les biomarqueurs, 8 pour les Cd4, et respectivement 9 et 11 pour les dlais positifs et
ngatifs. Le modle dimputation apparait donc efficace pour les variables continues, avec une
variabilit supplmentaire pour la variable taux de CD4, impute seulement sur une priode de 2
ans.
Posons quelques hypothses sur les mcanismes gnrant des donnes manquantes pour ces
variables. Les valeurs des biomarqueurs sont manquantes lorsque lchantillon nest pas transmis
au laboratoire, quil nest pas utilisable techniquement ou que le patient refuse le test. Ce
mcanisme ne dpend donc pas des valeurs non-observes des biomarqueurs. Un mcanisme
similaire peut tre envisag pour le taux de CD4, mesur galement partir dun prlvement
sanguin. Pour la valeur des dlais, son recueil est dclaratif ou bas sur le dossier mdical du
patient. Cette valeur pourrait tre volontairement omise, mais sans rapport identifiable avec la
valeur du dlai.
Cette tape de diagnostic des variables imputes continues est donc satisfaisante puisquelle
permet de conclure que (i) le modle dimputation apparat correctement spcifi, en termes de
slection de prdicteurs mais aussi de normalisation des variables continues et (ii) quun
mcanisme de type MNAR est peu probable.
202
Tableau 4.9
Donnes
manquantes
(%)
FMI
(%)
Efficacit
Statistique
(%)
SE
Mcerror*
Mcerror/SE
(%)
9.36
24.43
38.82
33.11
98.16
95.34
92.80
93.79
2.58E-03
2.70E-03
1.15E-03
1.55E-03
3.16E-04
5.23E-04
2.78E-04
3.48E-04
12.23
19.39
24.20
22.41
32.37
93.92
1.27E-03
2.81E-04
22.15
PREMIERE PHASE
Pays de naissance
FRANCE
AFSS
EUROPE
AME/HAITI
47.66%
36.32%
3.64%
7.48%
AUTRES
4.90%
Mode de contamination*
HOMO/BI
UDI
HETERO
AUTRES
Stade clinique
32.10%
3.94%
62.26%
1.70%
29.01
32.09
29.56
28.65
23.82
93.97
94.42
94.58
95.45
2.74E-03
1.12E-03
2.79E-03
7.23E-04
6.05E-04
2.39E-04
5.83E-04
1.38E-04
22.09
21.27
20.93
19.09
7.78%
59.66%
13.61%
18.95%
25.73
43.40
13.80
29.74
21.71
92.01
97.31
94.39
95.84
1.70E-03
2.60E-03
1.98E-03
2.16E-03
4.34E-04
3.83E-04
4.22E-04
3.97E-04
25.59
14.75
21.28
18.34
SCB
EXP
BIL/GROS
DOR
PEC/AUTRES
34.65%
20.34%
19.38%
2.50%
23.14%
27.25
25.94
1.90
14.73
13.52
44.74
95.07
99.62
97.14
97.37
91.79
2.69E-03
2.01E-03
2.10E-03
8.25E-04
2.70E-03
5.37E-04
1.12E-04
3.20E-04
1.20E-04
7.00E-04
19.95
5.58
15.22
14.55
25.96
Srologie positive
36.24%
35.81
44.18
91.88
3.06E-03
7.89E-04
25.78
Srologie ngative
27.35%
60.96
12.54
97.55
2.93E-03
4.14E-04
14.11
Biomarqueur V3
37.78
34.14
42.55
92.16
1.54E-01
3.90E-02
25.32
Biomarqueur TM
28.00
34.14
33.24
93.77
1.18E-01
2.64E-02
22.45
60.82%
33.45
37.51
97.56
3.05E-03
4.59E-04
15.06%
Dlais positifs
54.64
33.93
23.86
98.43
6.93E-01
8.36E-02
12.06%
Dlais ngatifs
33.71
44.90
47.67
96.92
4.46E-01
7.58E-02
16.98%
Taux de CD4
375.44
43.36
20.79
98.63
2.56E+00
2.89E-01
11.27%
PIV
ASY
SNS
SID
Motif de dpistage
26.16
DEUXIEME PHASE
Srotype B
Sont notes en caractres gras les valeurs de FMI suprieures la proportion de donnes manquantes, defficacit
statistique infrieures 95% et derreur de Monte Carlo suprieures 20%.
* Erreur de Monte Carlo
HOMO/BI : mode homosexuel/bisexuel ; UDI : usage de drogue intraveineuse ; HETERO : mode htrosexuel.
PIV : primo-infection virale ; ASY : asymptomatique ; SNS : symptomatique non sida ; SID : sida.
SCB : symptmes cliniques et biologiques ; EXP : exposition ; BIL/GROS : bilan/grossesse ; DOR : dpistage
orient ; PEC/AUT : prise en charge/autres
203
biomarqueur V3, trs loigne de la normalit et avec une proportion leve de donnes
censures droite.
205
White et al. proposent une rgle empirique partir de linterprtation de ce ratio qui implique
dimputer environ M = 100 FMI . Or nos analyses montrent quavec seulement 15 bases et une
FMI de 48%, le ratio obtenu est 1.5 plus lev que la valeur recherche. En toute rigueur, il aurait
donc fallu imputer 10 bases la premire phase et atteindre 30 bases globalement. Ce rsultat
tait attendu, sachant que le choix du nombre de bases a d tre restreint pour des raisons
pratiques.
7.1.5. Conclusion
Les examens diagnostiques proposs interviennent dans la phase finale de validation des donnes
imputes mais ils constituent galement une tape essentielle dans la construction du modle
dimputation puisquaucun test dadquation du modle dimputation nest ce jour applicable
en routine. Il est ainsi recommand de tester plusieurs modles dimputation [34] et dvaluer
limpact du choix du modle sur la cohrence des rsultats obtenus, ce qui peut constituer une
forme simple danalyse de sensibilit. Au vu de la complexit des modles dimputation labors
ainsi que du type de variables, la mthode dimputation multivarie normale apparat moins
adapte et na pas t teste.
Plusieurs modles ont t labors au cours du temps pour chacune des deux phases, et les tapes
diagnostiques ont permis didentifier des diffrences plus marques entre valeurs observes et
imputes pour certains dentre eux. Pour la phase 1, une dizaine de modles ont t construits.
Les rsultats obtenus pour les variables binaires sont rests stables selon les modles.
Limputation des variables catgorielles a t nettement amliore par la dcomposition des
variables imputer ainsi que des variables prdictrices en variables indicatrices. Concernant les
variables continues, la normalisation de la distribution des biomarqueurs sest rvle
problmatique et la transformation par scores de quantile a permis dobtenir des distributions de
donnes observes et imputes nettement plus proches. Pour la phase 2, plusieurs modles ont t
labors, faisant varier la composition des quations de prdiction ainsi que la fonction de lien
pour les variables dlais positifs et taux de CD4, initialement imputes sous une forme discrte.
De plus, lexamen des critres lis au nombre de bases imputes aurait pu mener une
modification du choix initial si le contexte dimputation et danalyse lavait permis.
Cette tape de diagnostic permet de slectionner les modles dimputation, de proposer des
critres de validit interne du modle dimputation retenu ainsi que dvaluer la robustesse des
206
rsultats linfluence dun ventuel mcanisme MNAR. Cette tape permet ainsi de rechercher
conjointement des incohrences dues la spcification du modle dimputation et/ou des biais
dans les estimations lies des donnes manquantes selon un mcanisme MNAR. Donc, si la
prise en compte des valeurs observes permet de supprimer des diffrences systmatiques entre
valeurs observes et imputes [23], limpact de donnes manquantes de type MNAR sur les
rsultats de limputation apparat ngligeable, ce qui est le cas dans notre application.
Nous pensons quil est cependant indiqu dappliquer des mesures de validation plus labores,
internes par des tudes par simulation, et externes par comparaison avec des donnes extrieures.
7.2.
Validation croise
Nous avons effectu une tude de simulation afin dvaluer les capacits prdictrices du modle
dimputation de la premire phase en termes de construction du modle et de nombre de bases
imputes.
207
On ralise une simulation de Monte Carlo en rpliquant 500 fois lalgorithme suivant :
On tire un chantillon avec remise de 5000 individus
On calcule la proportion observe (homosexuel/bisexuel)
On gnre des donnes manquantes (30%)
On impute les donnes manquantes en utilisant le modle construit pour la premire
phase, et 20 bases sont gnres
On compare la vraie proportion observe et la proportion estime aprs imputation
208
BR = 100
moy (P ) Pobs
.
Pobs
209
Figure 4.8 Probabilit de couverture de lIC, biais relatif et efficacit statistique relative
pour des mcanismes MCAR et MAR, pour les 500 chantillons, et pour 5 ou 20
bases imputes
Sont reprsents en rouge les intervalles de confiance 95% ne contenant pas la vraie valeur de P.
Mcanisme MCAR 20 bases
Probabilit de couverture = 93.6% - Biais relatif = -0.03%
Efficacit statistique = 99.1%
0.34
IC95%
0.30
0.32
0.32
0.30
IC95%
0.34
0.36
0.36
100
200
300
400
500
100
200
300
400
Echantillons
Echantillons
500
0.33
IC95%
0.30
0.30
0.31
0.32
0.32
IC95%
0.34
0.34
0.35
0.36
0.36
100
200
300
400
500
Echantillons
100
200
300
400
Echantillons
MCAR
5 bases
20 bases
MAR
5 bases
20 bases
Probabilit de couverture de
l'IC (%)
-0.15
-0.03
94.6
96.6
96.2
99.1
-0.23
-0.11
95.4
95.4
96.1
99.1
210
500
Les rsultats montrent que le biais relatif reste trs modr pour les 4 cas de figures. Cependant,
on observe que ce biais relatif est plus limit respectivement pour un mcanisme MCAR et pour
20 bases. La probabilit de couverture reste proche de 95%, sans effet vident du mcanisme de
donnes manquantes ou du nombre de bases. Par ailleurs, dans cet exemple, lefficacit
statistique est logiquement amliore lorsque 20 bases sont gnres, mais nest pas sensible au
mcanisme de donnes manquantes. Notons cependant que les mcanismes prsents restent de
type alatoire et que les estimations par imputation multiple doivent tre non-biaises, si le
modle dimputation est correct.
0.9
0.6
0.7
0.8
Efficacit statistique
0.8
0.6
0.7
Efficacit statistique
0.9
1.0
Mcanisme MAR
1.0
Mcanisme MCAR
10
15
20
10
15
20
Pour chacun des 500 chantillons, lefficacit statistique est calcule successivement pour un
nombre global k de bases imputes, avec k = 2,...20. De mme, est reprsente en ligne pointille
rouge la moyenne des efficacits statistiques des 500 chantillons, et ce pour chaque valeur de k.
Les graphes prsents en Figure 4.9 montrent que la variabilit de lefficacit statistique par
chantillon, importante pour k = 2 avec des valeurs variant entre 70 et 100%, est nettement
rduite partir de k = 10 et ne semble pas samliorer au-del de k = 15 . La moyenne de
211
8.
Une tape de validation par des donnes externes avait t initialement prvue. Lobjectif tait de
raliser ce type de validation partir des donnes dune enqute spcifique pour laquelle un
recueil diffrentiel aurait t effectu pour un sous-chantillon alatoire de patients [141]. Une
enqute hospitalire sur ltude des co-infections VIH/hpatites avait t retenue pour cette tude
de validation.
Celle-ci ayant t reporte, nous avons recherch des donnes denqutes ou de cohortes
recueillant des informations proches de celles de la dclaration obligatoire et avec un taux de
compltude lev. Nous avons finalement ralis des comparaisons avec les donnes dune des
enqutes Odysse ainsi que de la cohorte ANRS Copana que nous allons maintenant dcrire.
212
8.1.
Sources de donnes
8.1.1. Enqute Odysse
Lobjectif de cette enqute nationale tait destimer la prvalence de la rsistance primaire aux
antirtroviraux chez des patients chroniquement infects et nafs de traitement antirtroviral.
Cette enqute, dj ralise en 2002, a inclus des patients entre novembre 2006 et mars 2007 (20
patients conscutifs par centre taient slectionns). Au final 530 patients recruts dans 31
centres ont t inclus, et 466 patients ont t retenus pour lanalyse [142].
Ces patients, infects chroniques pour le VIH, avaient une dure entre le diagnostic de
sropositivit et linclusion distribue comme suit :
> 6 mois : 26.2%
6 mois 2 ans : 16.1%
2 5 ans : 19.7%
> 5 ans : 8%
La population dtude tait donc a priori caractrise par un recrutement plus tardif que pour la
dclaration obligatoire.
213
Les informations collectes ont t (i) des donnes cliniques et biologiques prvues dans le suivi
des patients VIH, (ii) des donnes immuno-virologiques dont le taux de lymphocytes T4 et (iii)
des donnes rcoltes par des auto-questionnaires annuels portant sur les anomalies
morphologiques, la consommation de tabac et dalcool, lalimentation et lactivit physique. Les
donnes utilises dans la comparaison avec les donnes de la DO sont issues du questionnaire
administr linclusion des patients, et ne tiennent pas compte des donnes recueillies
annuellement.
8.2.
Lobjectif initial de cette comparaison des donnes de la DO avec celles de deux autres sources
de donnes tait dappliquer des tests statistiques certaines estimations (proportions, moyennes,
odds ratios). Cependant, deux problmes mthodologiques se sont poss : (i) les chantillons
compars ne sont pas indpendants puisque la DO inclut en thorie tous les nouveaux diagnostics
de VIH et donc les individus inclus dans Odysse et Copana, et (ii) la taille des chantillons est
trs disproportionne (DO : N=41049, Copana : N=795 et Odysse : N=466). Des tests
statistiques adapts permettent de comparer des quantits calcules partir dchantillons qui ne
sont pas indpendants, mais la taille de lchantillon de la DO rend tout test statistique
ininterprtable puisque systmatiquement significatif.
Nous avons par ailleurs constitu une base de donnes unique partir des trois bases de donnes
(DO, Copana et Odysse), restreinte aux variables communes aux trois bases et incluant une
variable permettant didentifier la base dorigine. Nous avons cherch comparer les bases de
donnes en construisant une rgression logistique (2 bases) ou multinomiale (3 bases) expliquant
la variable indicatrice de base de donnes par les covariables dintrt. Pour chaque covariable,
un test de Wald ou de Fisher significatif mettrait en vidence une diffrence significative de la
distribution en fonction des bases de donnes considres. Les rsultats obtenus nont pas t
exploitables puisque les tests de Wald ou de Fisher taient tous significatifs quand la rgression
multivarie impliquait la source DO, toujours en raison des effectifs.
Nous avons donc appliqu au final une mthode simple, consistant comparer les proportions ou
les moyennes des variables communes aux trois bases de donnes, en utilisant les intervalles de
214
confiance obtenus partir des donnes imputes. On peut conclure une diffrence nonsignificative pour une variable donne lorsque le paramtre observ (Odysse, Copana)
appartient lintervalle de confiance du paramtre estim (DO).
Notons que la proportion de donnes manquantes dans la base Odysse est trs faible, de lordre
de 1% pour les variables dintrt, ainsi que pour Copana lexception de la variable mode de
contamination qui contient 7% de donnes manquantes. Les rsultats prsents ne tiennent pas
compte des donnes manquantes.
8.2.2. Rsultats
Nouveaux diagnostics
Les patients inclus dans la cohorte Copana sont rcemment diagnostiqus, avec un dlai
dinclusion variable et non-document, alors que pour lenqute Odysse, les patients inclus sont
dfinis comme des malades chroniques du VIH, avec un diagnostic a priori plus ancien. Parmi les
individus de la base de DO, certains ont dj eu un test VIH positif, mais les analyses sont
effectues en restreignant la base de donnes aux individus correspondant des dcouvertes de
sropositivit, c'
est--dire nayant pas eu de test antrieur positif ou un test antrieur positif
datant de plus de 11 mois, soit environ 80% des effectifs.
Dans le cas dOdysse, si lon reprend la dfinition de nouveau diagnostic applique aux patients
de la DO, les donnes sur les dlais entre test VIH et inclusion permettent destimer une
proportion de "nouveaux diagnostics" variant de 60 74%, soit infrieure celle de la DO. Pour
la cohorte Copana, linformation de dlai avec un ventuel test antrieur positif nest pas
disponible, mais seuls des patients rcemment diagnostiqus sont inclus. Par ailleurs, on dispose
pour Copana de linformation sur un ventuel test antrieur ngatif et 60% des patients sont dans
ce cas. Les dlais en mois entre le test VIH de linclusion et un test antrieur ont une distribution
proche de celle observe parmi les nouveaux diagnostics de la DO (dlai moyen de 36 mois pour
Copana et 33 mois pour la DO). Il est donc probable que linclusion dans Copana soit un peu plus
tardive que pour la DO.
Ainsi, le dlai entre diagnostic VIH et inclusion serait plus court pour la DO que pour Copana, et
plus court pour Copana que pour Odysse. Les analyses suivantes portent sur les nouveaux
diagnostics de la DO, et sur les bases compltes pour Copana et Odysse.
215
Distribution dge
Les distributions dge sont proches pour les trois sources de donnes lorsque lon compare des
critres quantitatifs (quantiles, moyenne, mdiane), avec cependant un ge moyen plus bas pour
Copana (Tableau 4.11). En effectuant une comparaison plus fine par classe dge, on constate que
la classe dge 0-24 est sous-reprsente dans Copana et de faon encore plus marque dans
Odysse par rapport la DO. Cela est d une non-inclusion des enfants de moins de 15 ans.
Tableau 4.11
AGE
Forme continue
1%
25%
50%
75%
99%
Moyenne
Odysse
(N=466)
Quantiles
Observs
Imputs
Observs
Observs
17
29
36
45
69
16
29
37
45
70
20
29
34
43
69
21
31
37
44
65
37.64
38.04
36.84
37.85
Observes
Imputes
Proportions (%)
IC 95%*
Observes
Observes
13.55
34.33
29.25
14.54
6.53
1.81
13.28
34.18
29.60
14.77
6.32
1.84
12.9-13.7
33.7-34.7
29.1-30.1
14.4-15.2
6.1-6.6
1.7-2.0
9.31
42.26
27.67
13.46
5.91
1.38
5.58
32.62
37.34
18.03
5.36
1.07
19.63
40.74
22.65
10.64
4.95
1.39
18.82
40.46
23.67
10.84
4.76
1.45
18.1-19.5
39.6-41.4
22.9-24.4
10.3-11.4
4.4-5.2
1.2-1.7
11.06
45.96
24.26
9.79
7.66
1.28
9.09
41.32
26.45
16.53
6.61
0.00
10.17
30.76
32.91
16.70
7.40
2.05
10.09
30.56
33.03
17.04
7.22
2.06
9.7-10.5
29.9-31.2
32.4-33.7
16.5-17.6
6.9-7.6
1.9-2.3
8.57
40.71
29.11
15.00
5.18
1.43
4.35
29.57
41.16
18.55
4.93
1.45
Forme catgorielle
0-24 ans
25-34 ans
35-44 ans
45-54 ans
55-64 ans
65-90 ans
Copana
(N=795)
Selon le sexe
Femmes
0-24 ans
25-34 ans
35-44 ans
45-54 ans
55-64 ans
65-90 ans
Hommes
0-24 ans
25-34 ans
35-44 ans
45-54 ans
55-64 ans
65-90 ans
216
Par ailleurs, la classe dge 25-34 ans est surreprsente dans Copana par rapport la DO et
Odysse, plus particulirement chez les hommes. Pour Odysse, cest la classe 35-44 qui est
surreprsente par rapport aux deux autres sources, l aussi trs nettement chez les hommes. Une
hypothse possible serait que ces diffrences soient dues un biais de recrutement chez les
hommes, avec une proportion plus leve de patients homosexuels inclus dans Copana et
Odysse que dans la DO. Cependant, cette hypothse nest pas confirme par les donnes de la
DO qui montrent que, globalement, la proportion de patients contamins par voie homosexuelle
est plus leve en consultation de ville quen structure hospitalire.
Pays de naissance
Si lon compare les donnes observes et imputes de la DO celles des autres sources, on
observe que le recrutement des patients diffre selon les sources pour le pays de naissance
(Tableau 4.12). Ainsi, la proportion de patients ns en France est plus leve dans Copana que
dans la DO, et elle saccroit dans Odysse par rapport Copana. On observe un classement
inverse entre les sources pour la proportion des patients ns en Afrique sub-Saharienne (AFSS).
En dtaillant par sexe, les diffrences entre les proportions sont similaires pour Odysse, alors
que pour Copana des variations marques apparaissent selon le sexe. Ainsi, la proportion de
femmes nes en France est proche entre Copana et la DO (diffrence non significative), alors que
la proportion dhommes ns en France est plus leve dans Copana que dans la DO. La
proportion de femmes nes en AFSS est plus leve dans Copana que dans la DO (68% versus
61%), alors quune relation inverse est observe pour les hommes ns en AFSS (19% versus
22%). Il est donc probable que Copana recrute bien des femmes originaires dAFSS, sans doute
en relation avec les mesures de dpistages dans le cadre de la transmission mre enfant (TME),
alors quun biais de slection est observ pour les hommes.
La rpartition diffrentielle des patients de Copana et dOdysse selon le pays de naissance,
visible partir des donnes imputes mais aussi des donnes observes de la DO, permet de
conclure que les deux sources de donnes retenues ne permettent pas de proposer une validation
externe pour limputation. Il est cependant informatif de comparer les distributions des autres
variables dintrt, tenant compte de cette diffrence tablie entre les sources de donnes.
217
Tableau 4.12
PAYS DE NAISSANCE
France
AFSS
Europe
Amrique/Hati
Autres
Selon le sexe
Femmes
France
AFSS
Europe
Amrique/Hati
Autres
Hommes
France
AFSS
Europe
Amrique/Hati
Autres
Proportions (%)
IC 95%*
Copana
Odysse
(N=795)
(N=466)
Observes
Observes
Observes
Imputes
49.58
35.82
3.1
6.94
4.56
47.84
36.81
3.25
7.32
4.78
47.3-48.4
36.3-37.4
3.0-3.5
7.0-7.7
4.5-5.0
54.30
33.50
3.59
3.85
4.75
61.82
27.98
4.34
1.52
4.34
23.66
61.90
1.72
8.84
3.88
23.11
62.16
1.82
8.90
4.02
22.2-24.0
61.3-63.0
1.5-2.1
8.2-9.6
3.6-4.4
22.94
68.40
2.16
2.60
3.90
33.88
58.68
4.13
0.00
3.31
63.92
21.40
3.86
5.89
4.93
62.13
22.17
4.07
6.41
5.22
61.3-62.9
21.5-22.8
3.7-4.4
6.1-6.8
4.9-5.5
67.52
18.80
4.20
4.38
5.11
71.76
17.06
4.41
2.06
4.71
Mode de contamination
La proportion de mode de contamination par voir homo/bisexuelle est beaucoup plus leve dans
les deux sources extrieures, et plus particulirement dans la source Copana (Tableau 4.13).
Inversement, la modalit transmission par voie htrosexuelle est sous-reprsente dans Odysse
et surtout dans Copana. Ces relations sont retrouves et mme amplifies aprs ajustement sur le
sexe pour ces deux principaux modes de transmission.
Cette diffrence marque entre Copana et la DO peut tre partiellement explique par la
rpartition diffrentielle du pays de naissance, puisque le mode de contamination homosexuel est
plus frquent pour les patients ns en France que pour ceux ns en AFSS. Cependant, cet
argument ne permet pas dexpliquer les diffrences de transmission par voie homo/bisexuelle (et
paralllement par voie htrosexuelle) entre Copana et Odysse puisquOdysse inclut plus de
patients ns en France que Copana et nettement moins de patients homo/bisexuels. Lajustement
218
sur le pays de naissance ne permet donc pas dexpliquer entirement les variations observes.
Notons que la variable mode de contamination contient 7% de donnes manquantes dans la
source Copana, ce qui peut impacter les diffrences entre les proportions.
Lexamen selon les sources de la variable mode de contamination, variable considre comme
traitant dun sujet sensible socialement, montre bien la difficult dobtenir des donnes de
validation issues de sources extrieures. La diffrence pour cette variable entre proportions
observes et estimes dans la DO est en effet bien moindre que la diffrence entre ces proportions
et celles observes dans les autres sources.
Stade clinique
Il existe deux classifications pour dcrire la progression de linfection VIH, bases sur les
manifestations cliniques et les anomalies biologiques : la classification en 3 stades cliniques des
Centers for Disease Control and Prevention (CDC) dAtlanta et la classification en 4 stades
cliniques propose par l'
Organisation Mondiale de la Sant (OMS) [85].
Le codage en 4 catgories ntait disponible que pour les sources DO et Copana. Une
comparaison de proportions de ces deux sources selon ce codage montre que Copana inclut plus
de patients un stade de primo-infection virale ou asymptomatique que la DO, et donc nettement
moins de patients un stade symptomatique non-sida ou sida (Tableau 4.13).
Les proportions ont t recalcules partir des stades cliniques dfinis par le CDC (A : primoinfection asymptomatique ou symptomatique, B : infection symptomatique non-sida, C :
infection au stade sida). Les modalits "primo-infection virale" et "asymptomatique" ont t
regroupes pour reformer la modalit A. Notons que celle-ci est largement majoritaire en effectifs
pour les trois sources de donnes. On retrouve avec ce nouveau codage une proportion de patients
au stade A plus leve pour Odysse et surtout pour Copana que pour la DO. Ainsi, bien que les
patients dOdysse soient considrs comme des malades chroniques, ils sont globalement un
stade clinique moins avanc que les patients de la DO.
Notons que la dfinition de dcouverte de sropositivit utilise pour discriminer les nouveaux et
anciens diagnostics ne tient compte que de lhistorique des tests positifs et non de lanciennet
relle de linfection. Ainsi, les sous-chantillons de la DO constitus par lenqute Odysse et la
cohorte Copana slectionnent certainement, par leur mode de recrutement, des patients un stade
219
clinique moins avanc que dans lensemble de la DO. Cela peut tre partiellement d au fait que
les enqutes hospitalires nont pas accs des populations marginalises (par exemple des
populations de migrants en situation irrgulire, ou des personnes non-bnficiaires de la CMU).
Linclusion dans les enqutes hospitalires ncessite en effet dobtenir le consentement du
patient, et les personnes socialement fragiles peuvent ne pas souhaiter tre incluses.
Tableau 4.13
Oserves
DO
Copana
Odysse
(N=15x41049)
(N=795)
(N=466)
Observes
Observes
45.06
Proportions (%)
IC 95%*
Imputes
MODE DE CONTAMINATION
Homo/BI
35.17
33.14
32.6-33.7
49.53
UDI
1.72
1.80
1.6-2.0
0.41
1.93
Htro
Autres
Selon le sexe
Femmes
UDI
62.09
1.02
63.72
1.34
63.1-64.3
1.2-1.5
47.09
2.98
46.35
6.65
1.05
1.06
0.8-1.3
0.47
0.83
Htro
Autres
Hommes
Homo/BI
97.51
1.44
97.10
1.85
96.7-97.5
1.6-2.1
94.37
5.16
90.91
8.26
54.86
52.27
51.5-53.1
69.58
60.87
UDI
2.10
2.23
2.0-2.5
0.38
2.32
42.27
0.78
44.44
1.05
43.7-45.2
0.9-1.2
27.95
2.09
30.72
6.09
Htro
Autres
STADE CLINIQUE
10.16
9.46
9.1-9.9
13.08
61.85
61.25
60.7-61.8
75.09
SNS
13.61
13.24
12.8-13.7
4.15
SID
Stade CDC
A
B
C
14.38
16.06
15.6-16.5
7.67
72.01
13.61
14.38
70.71
13.24
16.06
7.01-71.3
12.8-13.7
15.6-16.5
88.18
4.15
7.67
PIV
ASY
81.47
7.11
11.42
220
Taux de CD4
La comparaison des valeurs du taux de CD4 en continu montre que les distributions ont des
valeurs globalement plus leves pour Copana et Odysse, et proches pour ces deux sources
(Tableau 4.14). Les distributions par quantiles montrent que le taux de CD4 est plus lev en
dbut de distribution pour Copana et Odysse, puis que les valeurs sont proches pour les trois
sources au-del de la mdiane.
La valeur du taux de lymphocytes T4 est troitement lie lhistoire naturelle de la maladie, et
donc trs corrle au stade clinique, ce qui explique les diffrences entre la DO et les autres
sources en dbut de distribution, lies la proportion plus leve de stade clinique A. Aprs
ajustement sur le stade clinique du taux de CD4 selon un codage catgoriel, les proportions
observes pour Copana et Odysse sont relativement proches de celles de la DO, mme si elles
nappartiennent pas aux intervalles de confiance des proportions estimes. Notons que cette
comparaison na de sens que pour la catgorie A qui contient des effectifs suffisants pour Copana
et Odysse.
221
Tableau 4.14 -
TAUX DE CD4
(N=15x41049)
Forme continue
1%
25%
50%
75%
99%
moyenne
Odysse
(N=795)
(N=466)
Quantiles
Observs
Imputs
Observs
Observs
4
170
357
542
1242
384.92
4
170
359
541
1172
383.71
6
238
383
546
1177
410.75
6
260
380
520
1016
398.18
Forme catgorielle
0-199
200-349
350-499
500 et +
Copana
Proportions (%)
Observes
Imputes
IC 95%*
Observes
Observes
28.65
20.50
20.84
30.00
28.61
20.31
21.01
30.08
27.7-29.5
19.5-21.1
20.1-21.9
29.1-31.0
19.37
23.9
26.29
30.44
19.52
26.03
25.81
28.63
12.67
23.03
25.69
38.62
14.52
21.80
25.24
38.43
13.1-15.4
20.9-22.7
24.1-26.3
37.2-39.6
12.55
24.82
29.1
33.52
12.03
27.81
28.34
31.82
49.25
21.44
14.57
14.74
1.53
23.30
16.21
13.82
49.7-30.5
20.6-26.0
13.9-18.5
11.7-15.9
45.45
21.21
15.15
18.18
18.18
27.27
27.27
27.27
87.89
7.67
2.56
1.88
83.84
10.22
3.82
2.12
81.6-86.0
8.5-11.9
2.7-4.9
1.3-3.0
83.61
14.75
0
1.64
75.00
11.54
7.69
5.77
222
8.2.3. Discussion
La phase de diagnostic et de validation interne permet de conclure que les rsultats obtenus
partir des modles dimputation retenus pour chacune des deux phases sont stables puisque les
variations entre donnes observes et imputes peuvent tre en grande partie expliques par des
mcanismes de donnes manquantes de type MAR plus ou moins complexes.
Une limite de ce travail est que lobjectif initial de validation des rsultats de limputation par des
donnes externes na pu tre atteint. Des exemples dtudes transversales ou longitudinales
montrent que, dans des circonstances particulires, il est parfois possible de recueillir des donnes
complmentaires alors que limputation a t ralise et dobtenir ainsi un chantillon de
validation. Par exemple, pour une enqute multicentrique europenne sur lefficacit vaccinale du
vaccin contre la grippe, un recueil complmentaire a pu tre men pour les donnes franaises
[143]. Pour le systme de surveillance du VIH, un retour au clinicien a lieu pour 40% des
notifications mais il permet de complter les fiches de notification et est ralis avant
limputation. En rgle gnrale, ce type de validation nest possible pour des donnes denqutes
que lorsquun recueil de donnes intensifi est programm ds le protocole pour un souschantillon dindividus.
Il est possible de proposer deux axes damlioration de ce processus dimputation des donnes de
surveillance du VIH. Tout dabord, nous avons d, pour des raisons pratiques, imputer un nombre
de bases insuffisant au vu des examens pr et post-imputation, puisquil aurait t prfrable de
gnrer au moins 30 bases de donnes. Sagissant dun processus dimputation prenne, il est
envisageable daccrotre le nombre de bases imputes au cours du temps. Par ailleurs, les
variables binaires rapportant lhistorique des tests srologiques, serpo et serneg, ont fait lobjet
dun problme de codage notable au stade du remplissage des fiches papier. Les rsultats du
diagnostic montrent que la prise en compte de ce problme pour la variable serneg, en gnrant
des donnes manquantes pour des fiches identifies par des modle prdictifs, amliore la qualit
de limputation. Un traitement similaire de la variable serpo pourrait tre envisag. Ces
problmes de codages sont cependant limits dans le temps car corrigs depuis 2007. Une
imputation conditionnelle tenant compte de la priode devrait permettre terme de mieux prendre
en compte cette particularit pour les variables serpo et serneg.
223
Si lon tient compte des limites de ce processus dimputation appliqu une importante base de
donnes de surveillance, la question de la lgitimit du choix danalyser une base de donnes
impute versus une base de donnes incomplte mrite discussion. En effet, bien que des critres
diagnostiques montrent la fiabilit globale de ce processus dimputation multiple, ils en
soulignent galement les limites. Ainsi, lestimation des donnes manquantes de la base de
surveillance du VIH permet deffectuer des analyses partir dune base de donnes complte
pour les variables cls, ce qui est essentiel pour le calcul de lincidence, mais impacte forcment
les estimations par rapport aux analyses effectue partir de la base de donnes incomplte.
Lobjectif est dobtenir des variations entre les donnes initiales et les donnes compltes qui
intgrent le plus dinformations possible, ce qui constitue une amlioration par rapport un
processus de raffectation proportionnelle. Cependant, ce processus dimputation reste complexe,
bien quil ait t mis en place progressivement et amlior au fil du temps, et limputation de
certaines variables peut et doit tre amliore. Au final, le choix dutiliser une base impute pour
lanalyse des donnes de surveillance du VIH nous apparat justifi puisque, malgr ses limites,
la mthode dimputation multiple permet dintgrer dans les estimations toutes les informations
de la base de donnes, ce qui reprsente un atout indniable par rapport lanalyse de la base
incomplte.
Conclusion
La mise en place dun processus dimputation multiple prenne tel que celui-ci ncessite un
investissement en temps important, pour raliser limputation dabord mais aussi pour lanalyse
des donnes de surveillance. Ce projet sest inscrit dans un travail de recherche et la question de
son devenir peut donc se poser puisquun soutien statistique trs spcifique sera ncessaire pour
adapter les modles dimputation lvolution naturelle du systme de surveillance du VIH.
Lexigence mthodologique de lquipe de surveillance ainsi que sa forte implication dans ce
projet constitueront donc des atouts essentiels pour la poursuite de ce projet.
224
CHAPITRE 5
SYNTHESE ET PERSPECTIVES
Nous prsentons dans ce chapitre une synthse de notre travail de recherche, en proposant pour
chaque thme abord des perspectives de recherches potentielles.
Limpact des donnes manquantes sur les rsultats denqutes pidmiologiques est encore
largement sous-valu. Ainsi, lapproche la plus commune consiste dcrire les particularits des
individus prsentant des variables incompltes afin dtablir sils diffrent du reste de
lchantillon, puis restreindre lanalyse aux individus pour lesquels toutes les variables sont
renseignes. Cette mthode danalyse dite analyse cas-complet est applique automatiquement
par les logiciels danalyse statistique standards et, si limpact des donnes manquantes sur les
effectifs est modr, ce choix est la plupart du temps considr comme raisonnable. Cependant,
lexamen des caractristiques des non-rpondants ne permet pas dtablir si lanalyse cas-complet
risque ou non dintroduire des biais. En effet, si des diffrences sont mises en vidence entre les
rpondants et les non-rpondants, cela signifie simplement que le mcanisme de donnes
manquantes global est de type MAR, sans prciser sil dpend de la variable expliquer dans le
cas dune tude tiologique.
Il nous a donc paru important, sachant que ce sujet est peu abord dans la littrature, de prsenter
les mcanismes pour lesquels une analyse cas-complet donne des estimations valides. Pour cela,
nous avons propos dans le chapitre 1 une procdure standardise permettant de raliser lexamen
dune base de donnes incomplte. Cet examen permet de prciser le schma de donnes
manquantes pour lensemble de la base de donnes, ainsi que le mcanisme de donnes
manquantes pour chaque variable incomplte. De cet examen peuvent tre dduit la perte de
puissance attendue en analyse cas-complet et limpact sur la slection des variables lors dune
analyse multivarie. Ainsi, dans le cas dune analyse tiologique, il est possible que certains
facteurs de risques et/ou de confusion soient omis du modle final du fait de la perte deffectifs
due aux donnes manquantes. Il faut dailleurs noter que ce processus de slection des variables
225
peut galement impacter des variables originellement compltes, du fait de leffet cumul sur les
effectifs des donnes manquantes des variables incompltes. Dautre part, il est possible de
dduire de lexamen de la base de donnes incomplte le risque de biais des estimations en
analyse multivarie. Ainsi, seul un mcanisme MAR ou MNAR dpendant conjointement dune
variable dexposition et de la variable expliquer peut induire des biais en analyse cas-complet,
alors quun mcanisme de type MNAR indpendant de la variale expliquer permet dobtenir
des estimations non biaises. Une analyse par simulation reprenant un schma dtude
tiologique simple avec trois variables (maladie, exposition, confusion) nous a permis de montrer
que les situations thoriques prsentes donnaient les rsultats attendus partir de donnes
simules. Nous avons galement prsent la mthode dimputation multiple retenue pour
lensemble de ce travail et prcis les raisons de ce choix. La mthode dimputation multiple par
quations chanes se rvle tre une mthode fiable tout en tant dune utilisation abordable,
mme si ses bases thoriques peuvent tre discutes. Par ailleurs, il est ncessaire dappliquer
avec prudence ce type de mthode destimation des donnes manquantes, sous peine dobtenir
des rsultats biaiss ou imprcis. Ainsi, nous avons dtaill les tapes dlaboration dun modle
dimputation, aussi bien en termes de slection des variables prdictrices que de choix du nombre
de bases imputer. Nous avons galement prsent des critres diagnostiques simples permettant
de juger de la validit du modle dimputation. De plus, lexamen du mcanisme de donnes
manquantes est informatif puisque limputation multiple produit des estimations biaises si les
donnes sont de type MNAR, sachant que, pour des analyses tiologiques, lamplitude des biais
peut tre plus marque si le mcanisme dpend de la variable expliquer.
Dans le chapitre 2, nous avons dclin les rgles dapplication de limputation multiple
prsentes dans le chapitre 1 partir de donnes denqutes et de surveillance. Nous avons trait
les donnes manquantes dans trois tudes de schma diffrent : une tude valuant le risque de
transmission du VIH par don de sang, une tude cas-tmoins sur linfection Campylobacter et
une tude capture-recapture estimant le nombre de nouveaux diagnostics VIH chez les enfants.
Pour chacune de ces trois tudes, une proportion de donnes manquantes non-ngligeable tait
considre (30%).
Dans ltude estimant le risque de transmission du VIH par don de sang ainsi que dans ltude
capture-recapture valuant le nombre de nouveaux diagnostics VIH chez les enfants, une seule
variable tait incomplte, et une mthode de raffectation proportionnelle avait t applique
226
dans un premier temps. Cependant, cette mthode ne prenait pas en compte toute linformation de
la base de donnes, et fournissait une variance sous-estime pour les estimations. Pour ces deux
tudes, llaboration dun modle dimputation a permis dinclure toutes les variables prdictrices
identifies de la variable incomplte. Puisque les variables incluses dans les modles danalyse
sont utilises pour estimer les variables incompltes, cela permet de contrler, au moins en partie,
les biais attendus avec une mthode de remplacement simple. De plus, alors que le mcanisme de
donnes manquantes identifi tait de type MAR pour la variable pays de naissance dans ltude
capture-recapture, un mcanisme de type MNAR a d tre envisag pour la variable mode de
contamination dans ltude danalyse de risque de transmission du VIH par transfusion. Il nous a
donc paru important de modliser cette variable mode de contamination en incluant le plus de
variables prdictrices possible afin de rendre lhypothse MAR plus plausible. Pour ces deux
tudes, les rsultats de limputation peuvent impacter les rsultats finaux des analyses. Ainsi, la
variable pays de naissance est une variable dhtrognit de capture potentielle. Elle est incluse
dans les modles log-linaires permettant de slectionner les interactions pertinentes entre les
sources et les variables dhtrognit de capture, et les estimations finales sont stratifies selon
les modalits de cette variable. De mme, la proportion de HSH estime lors de limputation de la
variable mode de contamination est applique lestimation de lincidence parmi les HSH ainsi
qu lestimation du risque rsiduel de transmission du VIH attribuable cette population
risque. Dun point de vue mthodologique, llaboration du modle dimputation sest rvle
simple dans les deux tudes. Pour ltude danalyse de risque de transmission du VIH par don de
sang, ltape de diagnostic tait dterminante puisquun mcanisme de type MNAR tait
suspect. Des comparaisons simples des donnes observes et imputes ont permis de valider les
estimations.
Pour ltude capture-recapture, lintrt mthodologique a rsid dans lanalyse combine des
bases imputes par des modles log-linaires. Une restructuration des bases de donnes imputes
a t ncessaire pour obtenir les tables de contingence (c'
est--dire les effectifs communs selon
les sources et les variables dhtrognit), puis des modles log-linaires ont t ajusts
lensemble des bases imputes. Les estimations finales et leurs variances ont t obtenues
directement par des commandes spcifiques limputation. Cependant, la slection du modle
final a soulev un problme mthodologique puisque celle-ci repose habituellement sur des
statistiques calcules partir de la vraisemblance de chaque modle. Dans une tude capturerecapture, le test dadquation aux donnes habituellement ralis est le test de la dviance, qui
227
examiner en analyse univarie les liens entre les indicatrices de donnes manquantes des
variables principales et les variables disponibles dans la base de donnes.
Cet examen gagnerait tre effectu en analyse multivarie puisque, lors du processus
dimputation, chaque variable est modlise partir de toutes les autres variables du modle
dimputation. Il faudrait donc construire pour chaque variable incomplte une rgression
logistique expliquant son indicatrice de donnes manquantes par toutes les covariables retenues.
Cette stratgie nest pas applicable dans cette tude du fait de la proportion leve de donnes
manquantes. Dans la littrature rcente, il a t propos dajuster ces rgressions logistiques
multivaries partir de donnes imputes. Cette stratgie consiste identifier des variables
prdictrices partir de donnes qui ont t imputes partir de ces mmes prdicteurs et peut de
ce fait paratre circulaire, mais elle repose sur le postulat quune imputation multiple valide
prserve les relations entre les variables telles quelles existent dans la base de dpart incomplte.
Une perspective de recherche dans ce domaine pourrait consister identifier une procdure de
slection des variables prdictrices partir de donnes imputes. Cette procdure inclurait le
mode de construction du modle pour limputation de dpart, le choix du nombre de bases
utiliser et les critres statistiques retenus pour la slection des variables prdictrices. Il faudrait
donc imputer sous un modle le plus gnral possible une base ou un ensemble de bases de
donnes permettant deffectuer cette slection. La stratgie la plus approprie reste donc dfinir.
Nous avons abord dans le chapitre 3 le traitement des donnes manquantes dans un systme de
surveillance, le rseau des ples de rfrence de lhpatite C. Le processus dimputation prsent
ne concernait pas lensemble des donnes du systme de surveillance, mais seulement un
chantillon dusagers de drogues positifs pour le VHC. Lobjectif de ltude tait didentifier les
facteurs de risque de complications hpatiques graves pour la priode 2001-2007. Les systmes
de surveillance des maladies infectieuses se caractrisent par le grand nombre de variables
recueillies et, en relation avec le mode de recueil de donnes, par une proportion importante de
donnes manquantes. Dans le cas de cette tude tiologique, lchantillon a t rduit aux patients
pour lesquels la variable expliquer (complications hpatiques graves) tait entirement
renseigne. Par ailleurs, les variables retenues pour lanalyse taient majoritairement incompltes,
avec une proportion de donnes manquantes leve. Malgr la perte deffectifs, une analyse cascomplet avait pu tre ralise. Lors de la construction du modle dimputation, seules des
229
variables principales ont pu t incluses, puisquil na pas t possible didentifier des variables
auxiliaires permettant denrichir le modle dimputation.
Ce cas de figure est problmatique lorsque lhypothse dun mcanisme de donnes manquantes
de type MNAR doit tre envisage. Or, cest le cas dans cette tude puisque, pour les variables
"historique de consommation excessive dalcool" et "co-infection par le VIH", il est possible que
la non-rponse dpende des valeurs non-observes de ces variables. Nous avons ainsi pos
lhypothse que la probabilit davoir des donnes observes est moindre pour la variable
consommation excessive dalcool chez les gros consommateurs dalcool, et pour la variable coinfection par le VIH chez les patients ngatifs pour le VIH. Nous avons donc fait le choix
dappliquer une analyse de sensibilit par pondration propose par Carpenter et al. Cette
mthode consiste pondrer les estimations obtenues par imputation multiple (OR et sa variance)
de faon simuler limpact dun mcanisme MNAR modr et mesurer ltendue du biais
induit par ce mcanisme MNAR sur les estimations. Les poids utiliss sont calculs en intgrant
un paramtre de sensibilit la somme des valeurs imputes de chaque base de donnes. Notre
objectif tait dappliquer cette analyse de sensibilit aux variables consommation excessive
dalcool et co-infection par le VIH en lien avec les hypothses pidmiologiques poses, ainsi
qu la variable infection par un virus de lhpatite C de gnotype 3 en raison de sa proportion
leve de donnes manquantes.
Lintrt mthodologique de cette tude a rsid dans le processus de slection du paramtre de
sensibilit delta. Nous avons donc propos de dcomposer ce processus de slection en 4 tapes
de dtermination graphique et de diagnostic de ce paramtre de sensibilit, et identifi une valeur
de delta pour chacune des trois variables. Ce processus de slection inclut le choix du signe de
delta selon la relation suppose entre la probabilit davoir des donnes manquantes pour une
variable et les valeurs de cette variable. Puis, lestimation de lOR sous un mcanisme MNAR a
t obtenue et compare avec lestimation MAR pour chacune des variables testes.
Linterprtation des rsultats est conditionne par le mcanisme de donnes manquantes identifi
par rgression logistique de chaque variable indicatrice de rponse partir des autres covariables.
En effet, sous un mcanisme de donnes manquantes de type MNAR, on sattend observer un
biais plus important lorsque ce mcanisme dpend de la variable expliquer. Cest le cas pour les
variables consommation dalcool et co-infection par le VIH. Les rsultats montrent quun
mcanisme MNAR impacte probablement les rsultats de lanalyse ralise sous lhypothse
230
MAR pour la variable co-infection par le VIH, et que lassociation entre cette variable et la
variable expliquer est en ralit plus forte que ce qui est observ dans lanalyse sous
lhypothse MAR. Cette mthode danalyse de sensibilit permet donc de tester partir de
donnes imputes leffet dun mcanisme MNAR potentiel sur les estimations obtenues sous
lhypothse MAR.
Des perspectives de dveloppement de ce travail peuvent tre proposes. Lanalyse de sensibilit
propose par Carpenter et al. est applique une seule variable binaire. Nous avons test dans ce
travail trois variables binaires, en dterminant alternativement pour chacune de ces variables le
paramtre de sensibilit delta et lestimateur MNAR. Une perspective intressante consisterait
tester plusieurs variables simultanment, sachant que cela ncessiterait une adaptation de la
mthode. Par ailleurs, cette mthode danalyse de sensibilit a t applique lensemble de
lchantillon, ce qui revient poser une hypothse dindpendance entre les variables, en
particulier entre chacune des variables et la variable expliquer. En effet, pour modliser le
mcanisme de donnes manquantes, nous supposons un modle paramtrique (une rgression
logistique) liant la probabilit dobserver une variable incomplte la valeur de cette variable,
ajuste sur un vecteur de covariables. Il serait donc justifi dappliquer cette analyse de sensibilit
aux deux sous-chantillons correspondant aux deux modalits de la variable expliquer
(complications hpatiques graves), et de calculer ainsi deux estimateurs MNAR.
Le chapitre 4 prsente une application de limputation multiple des donnes de surveillance du
VIH, mais avec cette fois une approche beaucoup plus globale. Jusquen 2008, les donnes
manquantes des variables incompltes taient prsentes comme un catgorie spcifique, et une
raffectation proportionnelle avait t applique pour des analyses ponctuelles. La
communication globale sur le VIH tait en pratique ralise partir de donnes brutes
incompltes. Les objectifs de notre travail de recherche dans ce domaine taient de proposer et
dvaluer un processus dimputation multiple permettant de produire les estimations annuelles
ncessaires la surveillance du VIH, c'
est--dire les analyses descriptives des personnes
nouvellement diagnostiques pour le VIH. De plus, un travail avait t initi afin destimer
lincidence du VIH, indicateur majeur de la surveillance du VIH, partir des donnes de la
dclaration obligatoire. Ce travail a t men bien par Stphane Le Vu dans le cadre de sa thse
de doctorat [71]. La mthode retenue pour cette estimation tait celle applique par les CDC
amricains, reposant sur la caractrisation, par un test biologique, dindividus rcemment infects
231
parmi une population de personnes sropositives. Notre objectif a donc t de complter les
variables utilises dans les analyses descriptives, mais aussi destimer les valeurs manquantes des
variables supplmentaires lies lestimation de lincidence du VIH, tels que les biomarqueurs
du test dinfection rcente.
Un objectif mthodologique a t dlaborer un processus dimputation en deux phases, tenant
compte de la prsence de variables filtres pour la description de lhistorique des srologies
positives et ngatives. Nous avons donc construit deux modles dimputation, et un processus de
slection des variables principales et auxiliaires a t ralis pour chacun des modles partir de
donnes imputes. De ce fait, un modle trs gnral est spcifi pour le processus dimputation
de la premire phase, et les rsultats de cette imputation sont exploits pour la slection des
variables. Pour la construction du modle de la deuxime phase, le processus de slection des
variables principales et auxiliaires est plus direct puisque les rsultats de limputation de la
premire phase ont t utiliss. Par ailleurs, lors de ltape de validation interne, un retour aux
donnes observes est recommand afin de vrifier la cohrence des donnes imputes.
Il est important de noter que lobjectif de limputation nest pas de produire des donnes calques
sur les donnes observes, mais quelle vise prendre en compte toute linformation contenue
dans les variables prdictrices retenues. Ainsi, une diffrence entre donnes observes et
imputes est attendue, mais elle doit tre explicable par le biais des mcanismes de donnes
manquantes identifis lors de lexamen pralable de la base de donnes incomplte. Nous avons
cherch comparer, par des tests statistiques, les proportions observes et estimes pour les
variables discrtes, ainsi que les distributions de donnes observes et imputes pour les variables
continues. Cependant, et ce problme mthodologique a dj t soulev dans ce type dtude,
limportance des effectifs fausse les rsultats de ces tests puisquils sont systmatiquement
significatifs, et ce mme si les valeurs observes et imputes sont trs proches. Le diagnostic a
donc t ralis par des comparaisons simples tenant compte des valeurs centrales des estimations
(proportion, moyenne) et de leur variance. Notons que cette phase essentielle de diagnostic nest
que rarement prsente dans la littrature sur limputation multiple, quelle constitue un domaine
de recherche actuelle, et quelle nest ce jour pas implmente dans les logiciels statistiques.
Cette tape de diagnostic a t complte par une tape de validation croise explorant, pour une
modalit dune variable catgorielle, la validit du modle dimputation. La modalit retenue est
le mode de contamination par voie homosexuelle, car nous avions fait lhypothse que le
232
mcanisme de donnes manquantes pour cette modalit pouvait tre de type MNAR. Cette tude
de simulation permet de valider le modle dimputation pour la variable retenue, mais pas
dvaluer la pertinence de lhypothse MAR. Afin destimer limpact dun mcanisme MNAR
pour la variable mode de contamination, nous avions prvu deffectuer un recueil de donnes
complmentaire fournissant un chantillon de validation. Nous avions envisag de slectionner,
lors dune enqute hospitalire, un sous-chantillon alatoire de patients pour lequel le recueil de
donnes aurait t intensifi afin dobtenir des donnes compltes. Cet chantillon aurait permis
de valider limputation effectue sur lensemble de la base de donnes. Cette enqute a t
reporte et nous avons fait le choix de comparer les donnes imputes du systme de dclaration
obligatoire du VIH dautres sources de donnes, slectionnant des patients ayant des
caractristiques proches de ceux de la DO : une enqute Odysse et la cohorte COPANA.
Cependant, la comparaison des donnes observes de la DO et de ces deux sources de donnes
extrieures a montr que les caractristiques des patients diffraient nettement, et que ces sources
de donnes ne pouvaient tre considres pour valider le processus dimputation des donnes de
la DO. Les comparaisons entre les donnes de la DO et celles dOdysse et COPANA nous ont
cependant paru intressantes pour explorer la reprsentativit des deux tudes plutt que pour
valider le processus dimputation de la DO. Nous avons donc retenu comme perspective de
recherche lapplication dune analyse de sensibilit abordable aux variables pour lesquelles un
mcanisme MNAR est suspect. Lanalyse de sensibilit dtaille dans le chapitre 3 ne peut tre
applique aux variables de la DO sans adaptation de la mthode car (i) elle ncessite un grand
nombre de rplications de la base de donnes initiale (500 1000) et (ii) elle est adapte des
donnes dtude de type tiologique et non descriptive. Notre objectif initial tait de lappliquer
la modalit homosexuel/bisexuel de la variable mode de contamination. Nous retenons donc
comme perspective de recherche lapplication dune analyse de sensibilit aprs imputation aux
donnes de surveillance, tenant compte des questions mthodologiques souleves.
Ltape de diagnostic montre que le processus dimputation multiple pourrait tre
significativement amlior. Les variables srologie antrieure ngative et positive sont impactes
par un problme de codage ancien. La stratgie de recodage a concern seulement la variable
srologie ngative antrieure, car cest une variable cl dans lestimation de lincidence du VIH,
et quelle a t plus affecte par les problmes de codage que la variable srologie positive
antrieure. Cependant, cette variable srologie positive antrieure est essentielle pour identifier
les personnes nouvellement diagnostiques pour le VIH, sachant que les analyses descriptives
233
portent uniquement sur cette population. Il parait donc important damliorer la qualit de
limputation de cette variable, en envisageant une stratgie de recodage similaire celle
applique la variable srologie antrieure ngative. Une autre perspective damlioration de
limputation consisterait accroitre le nombre de bases de donnes imputes, surtout pour la
premire phase dimputation, afin damliorer les estimations en termes de prcision (diminution
de la variance inter-bases) et de puissance statistique (amlioration de la couverture des
intervalles de confiance). Il apparait ainsi pertinent dimputer 10 bases au cours de la premire
phase, tout en gnrant 3 bases au cours de la deuxime phase. Cependant, la faisabilit en terme
de taille de fichier finale doit tre explore.
Mme si lapport mthodologique de cette tape destimation des donnes manquantes est
incontestable, et que le processus apparat globalement valide, cette tape dimputation multiple
impacte les rsultats de toutes les analyses ralises sur les donnes de surveillance du VIH. La
complexit de la mise en uvre de cette mthode, aussi bien en termes dimplmentation que
danalyse pour lquipe de surveillance, soulve la question de la lgitimit mais aussi de la
viabilit dun tel processus. Dans un scnario o, tel que lenvisageait Rubin aux dbuts de
limputation multiple, les quipes dimputation et danalyse reprsentent des entits distinctes,
une troite collaboration apparat ncessaire pour garantir la qualit des donnes produites et la
prennisation du processus dimputation.
Conclusion
Ce travail de thse a permis daborder un sujet qui suscite un vif intrt et de nombreuses
interrogations, le traitement des donnes manquantes, tout en ntant pas ou mal pris en compte
dans la grande majorit des enqutes et des systmes de surveillance en pidmiologie. Si la mise
en application dune mthode performante destimation des donnes manquantes, limputation
multiple, est devenue accessible des utilisateurs non-experts grce une volution rapide des
logiciels statistiques dans ce domaine, cette simplicit apparente ne doit pas faire oublier toutes
les questions mthodologiques qui restent encore en suspens.
Les tudes prsentes nous ont permis de balayer le champ des applications pratiques de
limputation multiple des donnes de type transversal et de synthtiser une stratgie globale de
traitement des donnes manquantes. Ce processus de traitement des donnes manquantes
schelonne des tapes dexamen de la base de donnes la construction du modle dimputation
puis aux ncessaires tapes de validation des modles et de vrification des hypothses. De
234
nombreuses questions mthodologiques se sont poses au fil de ces tudes et nous avons cherch
proposer des solutions abordables et valides pour les traiter. Certaines problmatiques mritent
certainement dtre approfondies, tout particulirement dans le domaine de la post-estimation et
de la validation des rsultats.
235
236
BIBLIOGRAPHIE
1. Vach W, Blettner M. Missing data in epidemiological studies. In: Armitrage P, Colton T.
Encyclopedia of Biostatistics.Chichester: Wiley, 1998. p. 2641-54.
2. Van Buuren S. Multiple imputation of discrete and continuous data by fully conditional
specification. Stat Methods Med Res 2007;16(3):219-42.
3. Little RJA, Rubin DB. Statistical analysis with missing data. Wiley series in Probability
and Statistics. 2nd ed. New York: Wiley, 2002.
4. Vach W, Blettner M. Biased estimation of the odds ratio in case-control studies due to the
use of ad hoc methods of correcting for missing values for confounding variables. Am J
Epidemiol 1991;134(8):895-907.
5. White JE. A two stage design for the study of the relationship between a rare exposure
and a rare disease. Am J Epidemiol 1982;115(1):119-28.
6. Janssen KJ, Donders AR, Harrell FE, Jr., Vergouwe Y, Chen Q, Grobbee DE, et al.
Missing covariate data in medical research: to impute is better than to ignore. J Clin
Epidemiol 2010;63(7):721-7.
7. Miettinen OS. Theoritical epidemiology. New York: Wiley, 1995.
8. Molenberghs G, Kenward M. Missing data in clinical studies. Wiley series in Probability
ans Statistics. Chichester: 2007.
9. Vergouw D, Heymans MW, Peat GM, Kuijpers T, Croft PR, de Vet HC, et al. The search
for stable prognostic models in multiple imputed data sets. BMC Med Res Methodol
2010;10:81.
10. Raghunathan TE. What do we do with missing data? Some options for analysis of
incomplete data. Annu Rev Public Health 2004;25:99-117.
11. Greenland S, Finkle WD. A critical look at methods for handling missing covariates in
epidemiologic regression analyses. Am J Epidemiol 1995 ;142(12):1255-64.
12. Allison PD. Missing data. Iowa City: Sage Publication, 2002.
13. Commenges D, Gagnon M, Letenneur L, Dartigues JF, Barberger-Gateau P, Salamon R.
Improving screening for dementia in the elderly using, Mini-Mental State Examination
subscores, Benton'
s Visual Retention Test, and Isaacs'Set Test. Epidemiology
1992;3(2):185-8.
14. Collins LM, Schafer JL, Kam CM. A comparison of inclusive and restrictive strategies in
modern missing data procedures. Psychol Methods 2001;6(4):330-51.
237
31. Graham JW. Missing data analysis: making it work in the real world. Annu Rev Psychol
2009;60:549-76.
32. Wayman JC. Multiple imputation for missing data: what is it and how can I use it ?
Annual Meeting of the American Educational Research. Chicago 2003.
33. Schafer JL. Multiple imputation: a primer. Stat Methods Med Res 1999 Mar;8(1):3-15.
34. Taylor JM, Cooper KL, Wei JT, Sarma AV, Raghunathan TE, Heeringa SG. Use of
multiple imputation to correct for nonresponse bias in a survey of urologic symptoms
among African-American men. Am J Epidemiol 2002;156(8):774-82.
35. Faris PD, Ghali WA, Brant R, Norris CM, Galbraith PD, Knudtson ML. Multiple
imputation versus data enhancement for dealing with missing data in observational health
care outcome analyses. J Clin Epidemiol 2002;55(2):184-91.
36. van der Heijden GJ, Donders AR, Stijnen T, Moons KG. Imputation of missing values is
superior to complete case analysis and the missing-indicator method in multivariable
diagnostic research: a clinical example. J Clin Epidemiol 2006;59(10):1102-9.
37. Nur U, Longford NT, Cade JE, Greenwood DC. The impact of handling missing data on
alcohol consumption estimates in the UK women cohort study. Eur J Epidemiol
2009;24(10):589-95.
38. Horton NJ, Lipsitz SR. Multiple imputation in practice: comparison of software packages
for regression models with missing variables. American Statistician 2001;55(3):244-54.
39. Horton NJ, Kleinman KP. Much ado about nothing: A comparison of missing data
methods and software to fit incomplete data regression models. Am Stat 2007;61(1):7990.
40. Royston P. Multiple imputation of missing values. Stata J 2004;4(3):227-41.
41. Cottrell G, Cot M, Mary JY. [Multiple imputation of missing at random data: General
points and presentation of a Monte-Carlo method]. Rev Epidemiol Sante Publique
2009;57(5):361-72.
42. Van Buuren S., Boshuizen HC, Knook DL. Multiple imputation of missing blood pressure
covariates in survival analysis. Stat Med 1999;18(6):681-94.
43. Van Buuren S, Groothuis-Oudshoorn K, Rubin DB. Fully conditional specification in
multivariate imputation. J Stat Comput Simul 2006;76:1049-64.
44. Yu LM, Burton A, Rivero-Arias O. Evaluation of software for multiple imputation of
semi-continuous data. Stat Methods Med Res 2007;16(3):243-58.
45. Lee KJ, Carlin JB. Multiple imputation for missing data: fully conditional specification
versus multivariate normal imputation. Am J Epidemiol 2010;171(5):624-32.
46. Gelman AE, Smith AFM. Sampling-based approaches to calculating marginal densities. J
Am Stat Assoc 1990;85:398-409.
239
240
63. Nevalainen J, Kenward MG, Virtanen SM. Missing values in longitudinal dietary data: a
multiple imputation approach based on a fully conditional specification. Stat Med
2009;28(29):3657-69.
64. Royston P, Carlin JB, White IR. Multiple imputation of missing values: New features for
mim. Stata J 2009;9(2):252-64.
65. Stata multiple-imputation reference manual - release 11.College Station, Texas:2011.
66. Meng X, Rubin D. Performing likelihood ratio tests with multiply-imputed data sets.
Biometrika 1992;79(1):103-11.
67. Steyerberg EW, van VM. Imputation is beneficial for handling missing data in predictive
models. J Clin Epidemiol 2007;60(9):979.
68. Carpenter J, Rucker G, Schwarzer G. Assessing the Sensitivity of Meta-analysis to
Selection Bias: A Multiple Imputation Approach. Biometrics 2011;67(3):1066-72.
69. Wang C, Hall CB. Correction of bias from non-random missing longitudinal data using
auxiliary information. Stat Med 2010;29(6):671-9.
70. Chavance M, Manfredi R. [Modeling incomplete observations]. Rev Epidemiol Sante
Publique 2000;48(4):389-400.
71. Le Vu S, Le Strat Y, Barin F, Pillonel J, Cazein F, Bousquet V, et al. Population-based
HIV-1 incidence in France, 2003-08: a modelling analysis. Lancet Infect Dis
2010;10(10):682-7.
72. Semaille C, Cazein F, Lot F, Pillonel J, Le VS, Le SY, et al. Recently acquired HIV
infection in men who have sex with men (MSM) in France, 2003-2008. Euro Surveill
2009;14(48).
73. Pillonel J, Le MN, Girault A, David D, Laperche S. [Epidemiological surveillance of
blood donors and residual risk of blood-borne infections in France, 2001 to 2003].
Transfus Clin Biol 2005;12(3):239-46.
74. Schreiber GB, Busch MP, Kleinman SH, Korelitz JJ. The risk of transfusion-transmitted
viral infections. The Retrovirus Epidemiology Donor Study. N Engl J Med
1996;334(26):1685-90.
75. Pillonel J, Laperche S, Saura C, Desenclos JC, Courouce AM. Trends in residual risk of
transfusion-transmitted viral infections in France between 1992 and 2000. Transfusion
(Paris) 2002;42(8):980-8.
76. Enqute sur la sexualit en France: Pratiques, genre et sant. Editions La dcouverte.
Paris.2008.
77. Pillonel J, Heraud-Bousquet V, Pelletier B, Semaille C, Velter A, Saura C, et al. Deferral
from donating blood of men who have sex with men: impact on the risk of HIV
transmission by transfusion in France. Vox Sang 2011; In Press.
241
78. Friedman CR, Hoekstra RM, Samuel M, Marcus R, Bender J, Shiferaw B, et al. Risk
factors for sporadic Campylobacter infection in the United States: A case-control study in
FoodNet sites. Clin Infect Dis 2004;38 Suppl 3:S285-S296.
79. Neimann J, Engberg J, Molbak K, Wegener HC. A case-control study of risk factors for
sporadic campylobacter infections in Denmark. Epidemiol Infect 2003;130(3):353-66.
80. Studahl A, Andersson Y. Risk factors for indigenous campylobacter infection: a Swedish
case-control study. Epidemiol Infect 2000;125(2):269-75.
81. Gallay A. Contribution l'
pidmiologie des infections Campylobacter en France.
Thse en Epidmiologie. Universit Paris XI. 2006.
82. Stuart EA, Azur M, Frangakis C, Leaf P. Multiple imputation with large data sets: a case
study of the Children'
s Mental Health Initiative. Am J Epidemiol 2009;169(9):1133-9.
83. UNAIDS, WHO. AIDS epidemic update. 2009.[Ressource lectronique]. Disponible sur:
http://www.unaids.org/globalreport/Global_report.htm [consult le 28 mars 2010].
84. Warszawski J, Tubiana R, Le Chenadec J, Blanche S, Teglas JP, Dollfus C, et al. Motherto-child HIV transmission despite antiretroviral therapy in the ANRS French Perinatal
Cohort. AIDS 2008;22(2):289-99.
85. Yeni P. Prise en charge mdicale des personnes infectes par le VIH. Mdecine-Sciences
Flammarion, 2010.
86. Hook EB, Regal RR. Capture-recapture methods in epidemiology: methods and
limitations. Epidemiol Rev 1995;17(2):243-64.
87. Lot F, Semaille C, Cazein F, Barin F, Pinget R, Pillonel J, et al. Preliminary results from
the new HIV surveillance system in France. Euro Surveill 2004;9(10):34-7.
88. Cazein F, Le Vu S, Pillonel J, Le Strat Y, Couturier S, Basselier B, et al. Dpistage de
l'
infection par le VIH en France, 2003-2009. Bulletin Epidemiologique Hebdomadaire
2010;45-46:451-4.
89. Cazein F. Surveillance du VIH: notification obligatoire et surveillance virologique, Lutte
contre le VIH/sida et les infections sexuellement transmissibles en France - 10 ans de
surveillance, 1996-2005. 2007. [Ressource lectonique]. Disponible sur :
http://www.invs.sante.fr/pmb/invs/(id)/PMB_4047 [consult le 3 mai 2011].
90. Stata module to perform capture-recapture analysis for three sources with goodness of fit
based confidence intervals [computer program]. 2007.
91. Regal RR, Hook EB. Goodness-of-fit based confidence intervals for estimates of the size
of a closed population. Stat Med 1984 Jul;3(3):287-91.
92. Draper D. Assessment and propagation of model uncertainty. J R Stat Soc [B]
1995;57:45-70.
242
93. Hook EB, Regal RR. Validity of methods for model selection, weighting for model
uncertainty, and small sample adjustment in capture-recapture estimation. Am J
Epidemiol 1997;145(12):1138-44.
94. Marshall A, Altman DG, Holder RL, Royston P. Combining estimates of interest in
prognostic modelling studies after multiple imputation: current practice and guidelines.
BMC Med Res Methodol 2009;9:57.
95. National Institute of Statistics and Economic Studies. National population
census.2011.[Ressource lectronique]. Disponible sur :
http://www.insee.fr/fr/themes/detail.asp?reg_id=0&ref_id=irsd2008&page=irweb/sd2008/dd/sd2008_population.htm [consult le 10 mai 2011].
96. Zwane EN, van der Heijden PG. Analysing capture-recapture data when some variables
of heterogeneous catchability are not collected or asked in all registrations. Stat Med
2007;26(5):1069-89.
97. Robb ML, Bohning D. Imputing unobserved values with the EM algorithm under left and
right-truncation, and interval censoring for estimating the size of hidden populations.
Biom J 2011;53(1):75-87.
98. van der Heijden PG, Zwane E, Hessen E. Structurally missing data problems in multiple
list capture-recapture data. AStA Adv Stat Anal 2009;93:5-21.
99. Zwane E, van der Heijden PG. Capture-recapture studies with incomplete mixed
categorical and continuous covariates. J Data Sci 2008;6:557-72.
100. White IR, Royston P, Wood AM. Multiple imputation using chained equations: Issues
and guidance for practice. Stat Med 2011;30(4):377-99.
101. Dubois F, Desenclos JC, Mariotte N, Goudeau A. Hepatitis C in a French populationbased survey, 1994: seroprevalence, frequency of viremia, genotype distribution, and risk
factors. The Collaborative Study Group. Hepatology 1997;25(6):1490-6.
102. Meffre C, LeStrat Y, Delarocque-Astagneau E, Dubois F, Antona D, Lemasson JM, et al.
Prevalence of hepatitis B and hepatitis C virus infections in France in 2004: social factors
are important predictors after adjusting for known risk factors. J Med Virol
2010;82(4):546-55.
103. Delarocque-Astagneau E, Roudot-Thoraval F, Campese C, Desenclos JC, The Hepatitis
CSSS. Past excessive alcohol consumption: a major determinant of severe liver disease
among newly referred hepatitis C virus infected patients in hepatology reference centers,
France, 2001. Ann Epidemiol 2005 ;15(8):551-7.
104. Delarocque-Astagneau E, Campese C. Surveillance de l'
hpatite C l'
chelon national
partir des ples de rfrence volontaires, 2001-2001. Bull Epidemiol Hebd 2003;1617:90-3.
243
120. Van Oers JA, Bongers IM, van de Goor LA, Garretsen HF. Alcohol consumption,
alcohol-related problems, problem drinking, and socioeconomic status. Alcohol Alcohol
1999;34(1):78-88.
121. Knibbe R. Measuring drinking context. Alcohol Clin Exp Res 1998;22(2 Suppl):15S-20S.
122. Lemmens PH, Tan ES, Knibbe RA. Bias due to non-response in a Dutch survey on
alcohol consumption. Br J Addict 1988;83(9):1069-77.
123. Lahaut VM, Jansen HA, van de MD, Garretsen HF. Non-response bias in a sample survey
on alcohol consumption. Alcohol Alcohol 2002;37(3):256-60.
124. Dhumeaux D, Marcellin P, Lerebours E. Treatment of hepatitis C. The 2002 French
consensus. Gut 2003;52(12):1784-7.
125. He Y, Zaslavsky A, Landrum M, Harrington D, Catalano P. Multiple imputation in a
large-scale complex survey: a practical guide. Stat Methods Med Res 2009;In Press.
126. Marston L, Carpenter JR, Walters KR, Morris RW, Nazareth I, Petersen I. Issues in
multiple imputation of missing data for large general practice clinical databases.
Pharmacoepidemiol Drug Saf 2010;19(6):618-26.
127. Green TA. Using surveillance data to monitor trends in the AIDS epidemic. Stat Med
1998;17(2):143-54.
128. Hall HI, Song R, Rhodes P, Prejean J, An Q, Lee LM, et al. Estimation of HIV incidence
in the United States. JAMA 2008;300(5):520-9.
129. Prejean J, Song R, Hernandez A, Ziebell R, Green T, Walker F, et al. Estimated HIV
incidence in the United States, 2006-2009. PLoS One 2011;6(8):e17502.
130. Harrison KM, Kajese T, Hall HI, Song R. Risk factor redistribution of the national
HIV/AIDS surveillance data: an alternative approach. Public Health Rep
2008;123(5):618-27.
131. Cazein F, Lot F, Pillonel J, Pinget R, Bousquet V, Le Strat Y, et al. Surveillance de
l'
infection VIH-sida en France, 2009. Bull Epidemiol Hebd 2010;45-46:467-72.
132. Lot F, Semaille C, Cazein F, Barin F, Pinget R, Pillonel J, et al. Preliminary results from
the new HIV surveillance system in France. Eurosurveillance 2004;9(10-12):34-7.
133. Semaille C, Barin F, Cazein F, Pillonel J, Lot F, Brand D, et al. Monitoring the dynamics
of the HIV epidemic using assays for recent infection and serotyping among new HIV
diagnoses: experience after 2 years in France. J Infect Dis 2007;196(3):377-83.
134. Barin F, Meyer L, Lancar R, Deveau C, Gharib M, Laporte A, et al. Development and
validation of an immunoassay for identification of recent human immunodeficiency virus
type 1 infections and its use on dried serum spots. J Clin Microbiol 2005;43(9):4441-7.
245
135. Barin F, Plantier JC, Brand D, Brunet S, Moreau A, Liandier B, et al. Human
immunodeficiency virus serotyping on dried serum spots as a screening tool for the
surveillance of the AIDS epidemic. J Med Virol 2006;78 Suppl 1:13-8.
136. ANRS CO9 COPANA. Cohorte de patients non traits par antirtroviraux
l'
inclusion.[Ressource lectronique]. Disponible sur :
http://www.anrs.fr/index.php/content/download/783/5243/file/ANRSCO9 COPANA.pdf
[consult le 05 fvrier 2011].
137. White IR, Daniel R, Royston P. Avoiding bias due to perfect prediction in multiple
imputation of incomplete categorical variables. Comput Stat Data Anal 2010;54:2267-75.
138. Van Buuren S, Groothuis-Oudshoorn K. MICE: Multivariate Imputation by Chained
Equations in R. Journal of Statistical Software 2010;In press.
139. Royston P. Multiple imputation of missing values: further update of ice, with an emphasis
on interval censoring. Stata J 2007;7(4):445-64.
140. Carlin JB, Galati JC, Royston P. A new framework for managing and analyzing multiply
imputed data in Stata. Stata J 2008;8(1):49-67.
141. Fraser G, Yan R. Guided multiple imputation of missing data: using a subsample to
strengthen the missing-at-random assumption. Epidemiology 2007;18(2):246-52.
142. Costagliola D, Descamps D, Assoumou L, Morand-Joubert L, Marcelin AG, Brodard V,
et al. Prevalence of HIV-1 drug resistance in treated patients: a French nationwide study. J
Acquir Immune Defic Syndr 2007;46(1):12-8.
143. Valenciano M, Kissling E, Cohen JM, Oroszi B, Barret AS, Rizzo C, et al. Estimates of
Pandemic Influenza Vaccine Effectiveness in Europe, 2009-2010: Results of Influenza
Monitoring Vaccine Effectiveness in Europe (I-MOVE) Multicentre Case-Control Study.
PLoS Med 2011;8(1):e1000388.
246
Annexe 1
Deferral from donating blood of men who have sex with men: Impact on the
risk of HIV transmission by transfusion in France.
ORIGINAL PAPER
Background In France, men who have sex with men (MSM) are permanently
excluded from blood donation. This policy is felt to be discriminatory by MSM
activists. Furthermore, the policy is not fully respected because some MSM do not
report their sexual behaviour before donating.
Methods We estimated the fraction of the current risk of HIV attributed to MSM.
We then constructed a model based on data obtained from behavioural and epidemiological surveys to assess the impact of a new strategy in which MSM would only
be deferred if they report more than one sexual partner in the last 12 months.
Results Thirty-one HIV seroconversions occurred among repeat donors between
2006 and 2008, giving a risk of one in 2 440 000 donations. Fifteen of these seroconversions (48%) were MSM. If all MSM had abstained from donating blood, the
risk would have been 1 in 4 700 000 donations, half the current risk. The new strategy would result in an overall HIV risk of between 1 in 3 000 000 (close to the
current risk) to 1 in 650 000 donations (37 times higher than the current risk).
Conclusions Changing the current MSM deferral policy may increase the risk of
transfusiontransmission of HIV. However, this does not take into account a possible better compliance with MSM with a less stringent policy that would be perceived as more equitable. Conversely, relaxing the policy could encourage some
MSM to seek an HIV test in blood centres. Thus, further qualitative study is needed
to assess possible changes in compliance linked to a new policy.
Key words: blood donor selection, HIV residual risk, men who have sex with men.
Introduction
In France, men who have sex with men (MSM) are permanently excluded from blood donation, mainly because they
are at higher risk of human immunodeficiency virus (HIV)
[1, 2] but also at increased risk of other transfusion-
*See appendix.
Correspondence: Josiane Pillonel, Institut de Veille Sanitaire, Dpartement
des Maladies Infectieuses, 12 rue du Val dOsne, 94415 Saint-Maurice
Cedex, France
E-mail: j.pillonel@invs.sante.fr
2 J. Pillonel et al.
Despite these measures, there is still a residual risk of transmitting HIV by transfusion of blood components. In France,
this risk was estimated to be 1 in 2 950 000 donations in
20052007, equivalent to fewer than one potentially
infected donation per year on the basis of 27 million collected donations [6]. This residual risk is mainly linked to
the window period, which occurs shortly after the donor is
infected and before the markers of infection can be detected.
Consequently, donor selection remains an important element in ensuring the viral safety of the blood supply.
The permanent deferral policy for MSM has been the
subject of debate, mainly because this stringent criterion is
felt by MSM activists to be discriminatory and outdated.
They request a change to deferral based, as for heterosexual
donors, on sexual behaviour during months preceding
donation. They would prefer to be asked more specific sexual behaviour questions such as having had multiple sexual
partners or unprotected sex with a new partner, rather than
be asked whether they had sex with another man or
whether they are homosexual. In addition, the permanent
deferral policy is not fully effective because some MSM do
not report their sexual behaviour before donating. This
seems to be increasing over time and raises the question of
changing the permanent deferral policy because of its lack
of efficiency. In this study, we chose to assess a new strategy involving a deferral policy close to that applied to heterosexuals in France. With this new strategy, MSM would
donate blood and be only deferred if they report more than
one male sexual partner in the last year. The only difference
with heterosexuals is the duration of 12 months instead of
4 months after the end of the risky behaviour. Furthermore,
this proposal seems to be more acceptable by the MSM
community than those assessed in previous studies which
are based on different periods of sexual abstinence before
donation (1, 5 or 10 years) [710].
In the first part of this study, we estimated the risk of
HIV transmission by transfusion associated with the lack of
compliance with MSM with the current policy. We then
assessed the impact on this risk of the proposed strategy.
Methods
Study population
Since 1992, all blood centres in France report quarterly the
total numbers of donors and donations according to donor
status (first time and repeat) and epidemiological characteristics (sex, age, probable mode of transmission, HIV-1 subtype, geographic origin and donor status) of donors
confirmed HIV-positive to the national surveillance system
for blood donors [11]. More than three-quarters of donors
found to be HIV positive return for a post-donation medical
interview during which information on the probable mode
DYMSM
DYothers
IMSM
Iothers ;
DYMSM DYothers
DYMSM DYothers
SMSM
105
DY 0:502 0:015
and
Iothers:1
Sothers
105 ;
DY 1 0:502 0:015
IMSM:2
SMSM
105
DY 0:502 0:041
Iothers:2
and
Sothers
105 :
DY 1 0:502 0:041
4 J. Pillonel et al.
Results
HIV residual risk in 20062008 in France
During the 3-year period 20062008, 31 HIV seroconversions were observed among blood donors who had made at
least two donations, such that the incidence was 13 per
100 000 Donor-Years (Table 1). On the basis of this incidence, the current HIV residual risk was estimated to be
041 per million donations or 1 in 2 440 000 donations
(95% CI: 01 in 700 000).
Incidence per
No. of HIV
100 000
incident
No. of
donor
cases
donor- years years (CI 95%)
31
2 467 560
Length of
window
period
in days
(range)
Residual risk
per million
donations
(CI 95%)
041 (00139)
Other donors
Sothers = 16
2 448 970
2 416 747
Iothers.1 = 065
Iothers.2 = 066
RRothers.1 = 021
RRothers.2 = 022
(Table 2), which is about 125 times higher than that linked
to other donors (1 in 4 700 000 donations).
With hypothesis 2, where 41% of male donors would be
MSM, the HIV residual risk linked to MSM was estimated to
be 97 per million donations or 1 in 100 000 donations or
about 45 times higher than that linked to other donors (1 in
4 600 000 donations). If all MSM had abstained from
donating blood between 2006 and 2008, the HIV residual
risk would have been around 1 in 4 600 0001 in
4 700 000 donations, which is half the current risk (1 in
2 440 000 donations).
Incidence among MSM and other blood donors by 3-year
period since 1994 is shown in Fig. 1: between the 1997
1999 period and the 20062008 period, the incidence
increased significantly (P = 002) among MSM, although
the global HIV incidence was stable.
1000
100
10
Other donors
01
19 676 810
008%
3
100%
44
25%
(11)
99
15%
295 152
473%
139 607
155 545
28%
4355
Worst case
Discussion
This study is the first to assess the excess of risk of transmitting HIV by transfusion associated with the lack of compliance with MSM with the current policy for blood donor
selection. Despite the permanent deferral of MSM from
donating blood, we estimated that nearly half of the current
risk of HIV transmission by transfusion in France can be
attributed to MSM who do not comply with the policy.
Although HIV incidence has been estimated to be much
lower among MSM blood donors (008%) than among the
MSM of the general population (1%) [1], the proportion of
donors infected by male-to-male sex among donors newly
infected with HIV was as high as the estimated proportion
of MSM among people newly infected with HIV in the general population (48%): in 2008, an estimated 6940 persons
became infected with HIV in France of whom 3320 were
MSM [1]. The similarity of the proportion of MSM for blood
donors and the general population would have been
expected if the criteria for the donor selection were the
same for all potential donors. However, the policy for heterosexuals is only temporary deferral based on risky behaviour (4 months after the end of the high-risk situation).
Therefore, the percentage of blood donors who are MSM
infected with HIV should be much lower than that of the
general population. This result reveals the failure of a deferral policy based on a stringent criterion for MSM. There are
at least two factors that may contribute to this: some MSM
currently consider lifetime deferral discriminatory while
others may use blood transfusion centres as HIV screening
centres. Both these groups may give blood and not reveal
their sexual behaviour. Data from the Retrovirus Epidemiology Donor Study (REDS) showed that in a sample of
6 J. Pillonel et al.
Table 4 Estimate of HIV residual risk (RR) if the current MSM deferral policy was replaced with a strategy in which MSM would only be deferred if they
have had more than one sexual partner in the last 12 months France, 20062008
Estimates
No of HIV
incident cases
No. of
Donor-Years
(D-Y)
Incidence
per 100 000
D-Y (CI 95%)
Residual risk
per million
donations (CI 95%)
% of current
RR estimate
Current
Other donors only (current less 15 MSM)
Best-case scenario (adding 9 MSM)
Worst-case scenario (adding 99 MSM)
31
16
25 (16 + 9)
115 (16 + 99)
2
2
2
2
126 (087181)
065 (039109)
101 (067152)
466 (375562)
041 (00139)
021a (00083)
033 (00117)
153 (00431)
100
51
81
371
467 560
448 970
467 560
467 560
This is the estimated HIV residual risk if the current deferral policy was effective, under the hypothesis 1 (see Table 2: RRothers-1).
MSM, men who have sex with men.
Conclusion
Despite the lifetime deferral policy of MSM, nearly half of
HIV transmission by transfusion in France was attributed to
MSM blood donors. Furthermore, the proportion of MSM
among blood donors was as high as among people newly
infected with HIV in the general population. These findings
raise the question of modifying the lifetime deferral policy.
A strategy in which MSM would be only deferred if they
have had more than one sexual partner in the last
12 months may increase the risk of transfusiontransmission of HIV. However, this does not take into account a possible change in compliance with MSM linked to a
modification of the deferral policy. As some MSM currently
consider lifetime deferral discriminatory, they give blood
while hiding their sexual behaviour. A less stringent policy
may be perceived to be more equitable and should enhance
responsibility. Conversely, relaxing the policy could be perceived as indicating that the policy is less important and
encourage some MSM at risk to seek an HIV test in the
blood centres. Further qualitative study is thus needed in
addition to our quantitative analysis to assess possible
8 J. Pillonel et al.
Conflicts of interest
None.
Acknowledgements
We thank all colleagues from the Etablissement Francais du
Sang and the Centre de Transfusion des Armees who participated in the national blood donor surveillance. We thank
Marle`ne Leclerc for her technical assistance.
References
1 Le Vu S, Le Strat Y, Barin F, et al.:
Population-based HIV-1 incidence in
France, 200308: a modelling analysis.
Lancet Infect Dis 2010; 10:682687
2 Semaille C, Cazein F, Lot F, et al.:
Recently acquired HIV infection in men
who have sex with men (MSM) in France,
20032008. Euro Surveill 2009; 14:
14
3 Bouyssou-Michel A, Gallay A, Janier M,
et al.: Surveillance de la syphilis en
France, 20002006 : recrudescence des
diagnostics en 2006. Bull Epidemiol Heb
2008; 6:3942
4 Meffre C, Le Strat Y, Delarocque-Astagneau E, et al.: Prevalence of hepatitis B
and hepatitis C virus infections in
France in 2004: social factors are
important predictors after adjusting for
known risk factors. J Med Virol 2010;
82:546555
5 Leads from the MMWR. Prevention of
acquired immune deficiency syndrome
(AIDS): Report of inter-agency recommendations. JAMA 1983; 249:1544
1545
6 Pillonel J, Brouard C, Laperche S, et al.:
Quantitative estimate of the risk of
blood donation contamination by infectious agents. Transfus Clin Biol 2009;
16:138145
7 Germain M, Remis RS, Delage G: The
risks and benefits of accepting men who
have had sex with men as blood donors.
Transfusion 2003; 43:2533
8 Soldan K, Sinka K: Evaluation of the deselection of men who have had sex with
men from blood donation in England.
Vox Sang 2003; 84:265273
9 Anderson SA, Yang H, Gallagher LM, et
al.: Quantitative estimate of the risks
and benefits of possible alternative
blood donor deferral strategies for men
who have had sex with men. Transfusion 2009; 49:11021114
Funding
No external funding.
21
22
23
24
25
26
27
Appendix
The workgroup The blood donor epidemiological surveillance study group consists of (in alphabetic order):
Agence Francaise de Securite Sanitaire des Produits de
Sante: C. Caldani, JF. Legras, E. Pouchol, MP. Vo-Mai.
Agence Regionale de Sante Languedoc Roussillon (Coordonateur Regional dHemovigilance): G. Daurat.
Centre de Transfusion Sanguine des Armees: A. Kerleguer.
Annexe 2
Risk factors for acquiring sporadic Campylobacter infection in France: Results
from a national case-control study.
MAJOR ARTICLE
Background. To better document the risk factors for sporadic Campylobacter infection in France, we conducted
a national case-control study from September 2002 to June 2004.
Methods. Cases with confirmed Campylobacter infection were sampled through the national surveillance laboratory network. Cases and controls who were matched for age, as well as attending physicians, were interviewed about
foods consumed, food preparation practices, travel history, contact with cases and animals during the 8 days before
the onset of infection, and any antibiotic use occurring during the 30 days before onset. Matched odds ratios [ORs]
were calculated using conditional logistic regression and multiple imputation methods.
Results. A total of 285 pairs of cases and matched controls were enrolled. Ate undercooked beef (OR, 2.86; 95%
confidence interval [CI], 1.65 4.95), ate at restaurant (OR, 2.20; 95% CI, 1.233.93), and poor utensils hygiene in
the kitchen (OR, 2.12; 95% CI, 1.333.37) were the main independent risk factors for infection. Cases infected with
a ciprofloxacin-resistant Campylobacter jejuni strain were more likely than controls to have used antibiotics in the
month before onset.
Conclusion. Good hygiene practices in the kitchen remain a strong recommendation to avoid crosscontamination. However, studies are needed to explore the mechanism of contamination throughout the food chain.
The use of antibiotics in humans may favor the development of a resistant infection.
In most industrialized countries, Campylobacter organisms are, along with Salmonella organisms, the most
common cause of foodborne bacterial gastroenteritis [1,
2]. Previous studies have shown that Campylobacter infection is frequently acquired through consuming undercooked poultry and other meats, drinking untreated
water, having contact with pets or farm animals, and
traveling abroad [310]. Even if there is evidence that
cross-contamination between raw meat and other foods
during meal preparation is responsible for a consequent
Received 26 October 2007; accepted 12 December 2007; electronically published 1 April 2008.
Potential conflicts of interest: none reported.
Presented in part: 11th European Program for Intervention in Epidemiology
Training Scientific Seminar, Mahon, Menorca, Spain, 1214 October 2006 (abstract 20060090).
Reprints or correspondence: Dr. Anne Gallay, Institut de Veille Sanitaire,
Dpartement des Maladies Infectieuses, 12, rue du Val dOsne, 94 415 SaintMaurice, France (a.gallay@invs.sante.fr).
The Journal of Infectious Diseases 2008; 197:1477 84
2008 by the Infectious Diseases Society of America. All rights reserved.
0022-1899/2008/19710-0018$15.00
DOI: 10.1086/587644
1477
Gallay et al.
Interviews and questionnaires. Cases and matched controls were contacted and interviewed by telephone by the same
interviewer, who was not blinded to the case/control status. For
children 12 years of age, a parent or a person who was familiar
with the usual environment and food habits of the children was
interviewed. A structured questionnaire was used to collect information on demographic characteristics; medical history, including use of any antibiotic within the month before onset of
infection in the matched case; clinical symptoms; occupational
activity; and specific exposures. Information on food consumption, the level of cooking of meat, food handling practices, travel
history, animal and water (i.e., drinking or swimming) exposures, and contact with a person with diarrhea was recorded for
cases and controls during the 8 days before onset in the matched
case.
Susceptibility testing of Campylobacter isolates. Campylobacter isolates were tested at the NRC for susceptibility to ciprofloxacin, erythromycin, amoxicillin, gentamicin, and tetracycline,
by use of the agar diffusion method, on Mueller-Hinton agar enriched with 5% sheep blood, with use of antibiotic disks according
to the Antibiogram Committee of the French Society for Microbiology [25].
Analysis. The level of cooking was classified as undercooked when the meat or poultry consumed was raw, rare, or
pink in color and as cooked when the meat or poultry consumed was well done or overcooked. Food handling hygiene
practices were classified as poor utensils hygiene in the kitchen
when hands or utensils used in the kitchen were not cleaned or
were dried only with a dish towel in between the handling of
meat or poultry and other foods and as good utensils hygiene in
the kitchen when hands or utensils were cleaned with water
only or a detergent or when utensils changed.
Variables that were associated with the outcome and for
which P .2 in matched univariate analysis were considered for
multiple conditional logistic regression analysis. Matched odds
ratios (ORs) for which P .05 were considered to be significant
in the multivariate analysis. We repeated the analysis after imputing for missing responses [26, 27]. All analyses were performed using Stata software (version 9; Stata Corporation).
The risk associated with the use of antibiotics within the
month before onset of illness was analyzed by comparing cases
with an antibiotic-resistant strain with (1) their matched controls and (2) cases with an antibiotic-susceptible strain.
RESULTS
Study population. During the 21-month study, 2743 patients
with culture-confirmed Campylobacter infection were notified.
Of the 954 cases (34.8%) sampled, 285 (29.9%) were included in
the study. Cases that were excluded (n 669) included 15 cases
with an undetermined date of onset, 285 with a notification delay of 10 days from the date of onset, 174 who could not be
Symptom
Age 15 years
(N 169)
Age 15 years,
(N 116)
Diarrhea
Abdominal pain
Fevera
Bloody diarrhea
Vomiting
Weight loss
161/168 (95.8)
134/149 (89.9)
116/163 (71.2)
91/166 (54.8)b
66/168 (39.3)c
81/139 (58.3)c
113/116 (97.4)
104/116 (89.7)
76/105 (72.4)
39/111 (35.1)
28/116 (24.1)
78/104 (75.0)
NOTE. Data are the proportion (%) of cases; in each fraction, the numerator denotes the no. of cases who reported
having the symptom, and the denominator denotes the no. of
cases who answered the question.
a
b
c
Temperature, 38C.
P .001.
P .007.
1479
Cases
Controls
Matched OR
(95% CI)
105/191
14/106
71/169
106/177
8/110
90/173
0.6 (0.41.1)
1.0 (0.33.4)
0.6 (0.31.0)
.1
1.0
.05
32/187
22/134
143/201
49/202
20/164
135/185
0.6 (0.31.0)
0.8 (0.41.9)
0.7 (0.41.3)
.06
.7
.2
123/228
13/260
135/233
12/260
0.8 (0.51.2)
1.0 (0.42.4)
58/257
102/211
67/214
74/234
75/251
117/217
90/222
46/243
0.6 (0.41.0)
0.7 (0.51.1)
0.6 (0.40.9)
2.0 (1.23.4)
.02
.1
.02
.007
97/250
66/257
2.1 (1.23.5)
.007
58/260
31/263
159/237
161/252
77/234
223/255
185/263
102/260
34/247
25/263
178/230
184/244
104/243
228/255
199/263
100/261
1.9 (1.13.3)
1.3 (0.72.5)
0.6 (0.30.9)
0.4 (0.30.9)
0.5 (0.40.8)
0.7 (0.41.4)
0.7 (0.51.1)
1.1 (0.71.6)
.01
.3
.01
.01
.004
.3
.1
.7
50/258
13/268
48/253
10/277
0.9 (0.51.7)
1.8 (0.74.9)
.7
.2
75/246
94/248
54/244
52/252
67/254
41/249
1.6 (1.02.3)
1.7 (1.12.6)
1.3 (0.82.0)
.03
.007
.3
51/249
26/254
2.5 (1.44.4)
.001
201/255
60/263
178/247
49/263
1.5 (1.02.4)
1.3 (0.82.0)
.06
.2
Poultry-related exposureb
Ate chicken
Any
Outside
Bought raw
Bought at retail vs. packed
or frozen
That was undercooked
Ate any poultry
Beef-related exposureb
Ate beef
Any
Outside
Bought from a butcher shop,
farm, or market
Bought raw
Bought at retail
That was undercooked
That was undercooked or
minced
Other food exposureb
Ate at a restaurant
Ate any meat at a barbecue
Ate fish or seafood
Ate raw vegetables
Ate fruits or berries
Ate any milk product
Ate cheese
Drank tap water
Behavior in the kitchenc
Prepared meat or poultry
Tasted meat or poultry
Practiced poor hygiene
Of hands
Of utensils
Of kitchen cutting boards
Contact with a person with
diarrheab
Animal exposureb
Contact with any pet or
farm animal
Occupational
.2
1.0
NOTE. A total of 269 cases and controls were included in the analysis. CI, confidence interval;
OR, odds ratio.
a
For specific exposures assessed during the 8 days before onset in the matched case, all
cases and controls could not always remember precisely and were therefore considered to be
nonrespondents.
b
During the 8 days before onset in the matched case.
c
Not during the 8 days before onset in the matched case but as a general habit.
Table 3. Multivariate analysis (conditional logistical regression) of risk factors for sporadic indigenous campylobacteriosis, by use of complete-case (CC) and multiple imputation (MI) analyses in France,
September 2002June 2004.
CC analysis (n 372)a
MI analysis (n 526)a
OR (95% CI)
OR (95% CI)
...
2.26 (1.204.24)
2.46 (1.264.79)
...
...
3.32 (1.726.40)
...
.01
.01
...
...
.001
0.56 (0.350.91)
2.86 (1.654.95)
2.20 (1.233.93)
0.42 (0.230.74)
2.12 (1.333.37)
2.27 (1.244.14)
.02
.001
.01
.003
.002
.01
Variable
Ate beef
Bought from a butcher shop, farm, or market
That was undercooked
Ate at a restaurant
Ate raw vegetables
Poor utensils hygiene in the kitchen
Contact with a person with diarrhea
NOTE.
a
The n value denotes the no. of cases or controls in the final model.
Nine (40.9%) of the 22 indigenous cases who reported receiving any antibiotic treatment in the month before onset were
infected with a ciprofloxacin-resistant C. jejuni strain, compared
with 27 (17.9%) of the 151 indigenous cases who did not report
receiving antibiotic treatment during that time (OR, 3.2; 95%
CI, 1.2 8.3). None of the 6 cases with travel-associated
ciprofloxacin-resistant infection due to a C. jejuni strain had received any antibiotics.
DISCUSSION
In the present study, we found that eating undercooked beef,
using poor utensil hygiene practices in the kitchen, eating at a
restaurant, and having contact with a person who had diarrhea
were independent risk factors for the acquisition of Campy-
Table 4. Association between use of antibiotics in the month before disease onset and ciprofloxacin-resistant Campylobacter
infection in a case-control study of Campylobacter infection in France, September 2002June 2004.
Controls
matched with
cases with
susceptible
strains,
n/N (%)
Infection
Cases with
resistant
strains,
n/N (%)
Controls
matched
with cases
with resistant
strains,
n/N (%)
Cases with
susceptible
strains,
n/N (%)
All Campylobacter
All species
C. jejuni
10/60 (16.7)
9/42 (21.4)
1/60 (1.7)
0/42
10.0 (1.278.1)
UDd
19/164 (11.6)
1.5 (0.73.5)
24/164 (14.6)
0.75 (0.41.5)
15/142 (10.6)
2.3 (0.95.8)
19/142 (13.4)
0.75 (0.41.6)
Indigenous
Campylobacter
All species
C. jejuni
9/53 (17.0)
8/35 (22.9)
1/53 (1.9)
0/35
9 (1.5 199)
UDe
17/159 (10.7)
13/137 (9.5 )
1.9 (0.84.6)
3.2 (1.28.4)
25/159 (15.7)
3/137 (2.2 )
0.65 (0.31.3)
0.62 (0.31.4)
ORc (95%) CI
NOTE. CI, confidence interval; n, no. of cases (with either resistant or susceptible strains) or matched control subjects who received antibiotics during the
month before onset of disease in the case; N, no. of cases (with either resistant or susceptible strains) or matched control subjects who answered the question.
OR, odds ratio; UD, undefined.
a
b
c
d
e
OR for the comparison of cases with ciprofloxacin-resistant strains with their matched controls.
OR for the comparison of cases with ciprofloxacin-resistant strains with cases with ciprofloxacin-susceptible strains (unmatched analysis).
OR for the comparison of cases with ciprofloxacin-susceptible strains with their matched controls.
P .003.
P .004.
1481
Gallay et al.
results, because cases enrolled in the case group were not completely representative of those identified by the surveillance system (i.e., they were younger and represented a smaller proportion of cases that occur in summer). Cases were also recruited
from laboratories and could, therefore, differ from cases with
Campylobacter infection not diagnosed microbiologically.
Despite these limitations, the present study identifies important risk factors that are modifiable through changes in behavior,
particularly when they relates to cooking habits and hygiene
practices that favor cross-contamination during the preparation
of food in the kitchen. However, prevention of transmission of
Campylobacter organisms should be considered at each stage of
the food chain transformation, from animal feed to food that is
ready to eat. Efforts are needed to decrease contamination; in
particular, poultry and meat (including beef) have to be considered as a potential source of contamination. The present study
also strongly suggests that antibiotics used in humans have an
influence on the risk of Campylobacter infection and may contribute to select infection with antibiotic-resistant strains.
Acknowledgments
We thank the private community and the public hospital laboratories that
participated in the national surveillance of Campylobacter infections in human by sending their isolates to the National Reference Center for Campylobacter and Helicobacter and by notifying cases to the French Institute for
Public Health Surveillance. We also thank the general practitioners who
agreed to contact cases and controls.
References
1. Frost JA. Current epidemiological issues in human campylobacteriosis.
Symp Ser Soc Appl Microbiol 2001; 90:85S95S.
2. Allos BM, Blaser MJ. Campylobacter jejuni and the expanding spectrum
of related infections. Clin Infect Dis 1995; 20:10929.
3. Saeed AM, Harris NV, DiGiacomo RF. The role of exposure to animals
in the etiology of Campylobacter jejuni/coli enteritis. Am J Epidemiol
1993; 137:108 14.
4. Ikram R, Chambers S, Mitchell P, Brieseman MA, Ikam OH. A case
control study to determine risk factors for campylobacter infection in
Christchurch in the summer of 19923. N Z Med J 1994; 107:430 2.
5. Eberhart-Phillips J, Walker N, Garrett N, et al. Campylobacteriosis in
New Zealand: results of a case-control study. J Epidemiol Community
Health 1997; 51:686 91.
6. Studahl A, Andersson Y. Risk factors for indigenous Campylobacter infection: a Swedish case-control study. Epidemiol Infect 2000; 125:269
75.
7. Neimann J, Engberg J, Mlbak K, Wegener HC. A case-control study of
risk factors for sporadic Campylobacter infections in Denmark. Epidemiol Infect 2003; 130:353 66.
8. Schnberg-Norio D, Takkinen J, Hnninen ML, et al. Swimming and
Campylobacter infections. Emerg Infect Dis 2004; 10:1474 7.
9. Friedman CR, Hoekstra RM, Samuel M, et al. Risk factors for sporadic
Campylobacter infection in the United States: a case-control study in
FoodNet sites. Clin Infect Dis 2004; 38(Suppl 3):S28596.
10. Michaud S, Mnard S, Arbeit RD. Campylobacteriosis, Eastern Townships, Quebec. Emerg Infect Dis 2004; 10:1844 7.
11. Kapperud G, Skjerve E, Bean NH, Ostroff SM, Lassen J. Risk factors for
sporadic Campylobacter infections: results of a case-control study in
southeastern Norway. J Clin Microbiol 1992; 30:311721.
1483
12. Rodrigues LC, Cowden JM, Wheeler JG, et al. The study of infectious
intestinal disease in England: risk factors for cases of infectious intestinal
disease with Campylobacter jejuni infection. Epidemiol Infect 2001; 127:
18593.
13. Tenkate TD, Stafford RJ. Risk factors for campylobacter infection in
infants and young children: a matched case-control study. Epidemiol
Infect 2001; 127:399 404.
14. Adak GK, Cowden JM, Nicholas S, Evans HS. The Public Health Laboratory Service national case-control study of primary indigenous sporadic cases of campylobacter infection. Epidemiol Infect 1995; 115:15
22.
15. Scott DA, Tribble DR. Protection against Campylobacter infection and
vaccine development. In: Nachamkin I, Blaser MJ, eds. Campylobacter.
2nd ed. ASM Press, 2000:303 48.
16. Frost JA, Gillespie IA, OBrien SJ. Public health implications of Campylobacter outbreaks in England and Wales, 19959: epidemiological and
microbiological investigations. Epidemiol Infect 2002; 128:111 8.
17. Kirk M, Waddell R, Dalton C, Creaser A, Rose N. A prolonged outbreak
of Campylobacter infection at a training facility. Commun Dis Intell
1997; 21:57 61.
18. Mazick A, Ethelberg S, Nielsen EM, Mlbak K, Lisby M. An outbreak of
Campylobacter jejuni associated with consumption of chicken, Copenhagen, 2005. Euro Surveill 2006; 11:1379.
19. Gallay A, de Valk H, Cournot M, Ladeuil B, et al. A large multi-pathogen
waterborne community outbreak linked to faecal contamination of a
groundwater system, France, 2000. Clin Microbiol Infect 2006; 12:561
70.
20. Engberg J, Aarestrup FM, Taylor DE, Gerner-Smidt P, Nachamkin I.
Quinolone and macrolide resistance in Campylobacter jejuni and C. coli:
resistance mechanisms and trends in human isolates. Emerg Infect Dis
2001; 7:24 34.
21. Luber P, Wagner J, Hahn H, Bartelt E. Antimicrobial resistance in
Campylobacter jejuni and Campylobacter coli strains isolated in 1991 and
20012002 from poultry and humans in Berlin, Germany. Antimicrob
Agents Chemother 2003; 47:382530.
22. Gupta A, Nelson JM, Barrett TJ, et al. Antimicrobial resistance among
Campylobacter strains, United States, 19972001. Emerg Infect Dis
2004; 10:11029.
23. Vaillant V, de Valk H, Baron E, et al. Foodborne infections in France.
Foodborne Pathog Dis 2005; 2:22132.
24. Gallay A, Simon F, Mgraud F. Surveillance of human Campylobacter
infections in Francepart 2implementation of national surveillance.
Euro Surveill 2003; 8:218.
25. Socit Franaise de Microbiologie (SFMG). Recommendations du Comite de lAntibiogramme de la Socit Franaise de Microbiologie.
Available at: http://www.sfm.asso.fr/nouv/general.php?pa2. Accessed
January 2005.
26. Rubin DB. Multiple imputation after 18 years. Am Stat Assoc 1996;
91:473 89.
27. Royston P. Multiple imputation of missing values: update. Stata Journal
2005; 5:188 201.
28. Fullerton KE, Ingram LA, Jones TF, et al. Sporadic campylobacter infection in infants a population-based surveillance case-control study. Pediatr Infect Dis J 2007; 26:19 24.
29. Office National Interprofessionnel des Viandes. Consommation des
produits carns en 2003. Available at: http://www.office-elevage.fr/
publications/cahier/conso03/conso03.htm. Accessed 14 March 2008.
1484
Gallay et al.
Annexe 3
A three-source capture-recapture estimate of the number of new HIV diagnoses
in children in France during 2003-2006 with multiple imputation of a variable
of heterogeneous catchability.
Corresponding author:
Vanina Hraud-Bousquet
email: v.bousquet@invs.sante.fr
Tel: 00 33 1 41 79 66 76
Fax: 00 33 1 41 79 68 02
Authors:
Vanina Hraud-Bousquet : Institut de Veille Sanitaire, Dpartement des maladies infectieuses,
St Maurice.
Florence Lot : Institut de Veille Sanitaire, Dpartement des Maladies Infectieuses, St Maurice.
Maxime Esvan : Institut de Veille Sanitaire, Rennes.
Franoise Cazein : Institut de Veille Sanitaire, Dpartement des Maladies Infectieuses, St
Maurice.
Josiane Warszawski : Inserm CESP U1018, Le Kremlin-Bictre. Universit Paris-Sud, Le
Kremlin Bictre. AP-HP, Public Health Department.
Corinne Laurent : Inserm CESP U1018, Le Kremlin-Bictre. AP-HP, Public Health Department.
Pascale Bernillon : Institut de Veille Sanitaire, Dpartement des Maladies Infectieuses, St
Maurice.
Anne Gallay : Institut de Veille Sanitaire, Dpartement de Coordinations des Alertes et des
Rgions, St Maurice.
ABSTRACT
Background: Nearly all HIV infections in children worldwide are acquired through mother-tochild transmission (MTCT) during pregnancy, labour, delivery or breastfeeding. The objective of
our study was to estimate the number of new HIV diagnoses in children under 13 years of age
in mainland France during 2003-2006.
Methods: We performed a capture-recapture analysis based on three sources of information:
the mandatory HIV case reporting (DOVIH), the French Perinatal Cohort (ANRS-EPF) and a
laboratory based surveillance of HIV (LaboVIH). Missing values of a variable of heterogenous
catchability were estimated through multiple imputation. Log-linear modelling provided
estimates of the number of new HIV infections in children, taking into account dependencies
between sources and variables of heterogeneous catchability.
Results: The three sources reported 216 new HIV diagnoses. The number of new HIV
diagnoses in children was estimated at 387 (95%CI 271-503) during 2003-2006, among whom
60% were born abroad. The estimated rate of new HIV diagnoses in children in mainland
France was 9.1 per million in 2006 and was 38 times higher in children born abroad than those
born in France. The estimated completeness of the three sources combined was 55.8% (CI
95% [42.9 79.7]) and varied according to the source : completeness of DOVIH (28.4%) and
EPF (26.1%) were lower than LaboVIH (33.3%).
Conclusion: Our study provided for the first time an estimated annual rate of new HIV
diagnoses in children under 13 years old in mainland France. A more systematic HIV screening
of pregnant women, repeated during pregnancy among women likely to engage in risky
behavior, is needed to optimize prevention of MTCT. The high prevalence of HIV infection in
some regions of the world justifies the proposal of a screening test to children who migrate to
France. Thus, children diagnosed as HIV infected would benefit from an early and appropriate
treatment.
INTRODUCTION
Nearly all HIV infections in children worldwide are acquired through mother-to-child
transmission (MTCT) during pregnancy, labour, delivery or breastfeeding. Worldwide, it has
been estimated that there were 430 000 new pediatric infections in 2008 [1]. Nearly all such
infections can be avoided by MTCT prevention programmes.
In France, the risk of HIV transmission from mother to child has been dramatically reduced
since the end of the eighties by the prophylactic use of antiretroviral therapy (ART) during
pregnancy and the administration of these drugs to the baby during the first weeks of life and is
now only around 1% [2]. Early diagnosis of HIV infection during pregnancy and early treatment
of the mother allow an effective prevention of mother-to-child HIV transmission. In France, the
national policy since 1993 is to offer universal voluntary HIV testing in the first trimester of
pregnancy.
It is estimated that about 1,500 children are living with HIV in France among a total of 150,000
people HIV positive and that 10 to 15 new HIV infections are diagnosed in newborns each year
[3]. In addition, new cases of HIV-infection are regularly diagnosed in children born abroad (in
high endemic HIV countries), after arrival in France, for whom no estimates are currently
available.
In this paper we estimate the total number of new HIV diagnoses in children under 13 years old
in mainland France during the 2003-2006 period using capture-recapture methods. We used
three data sources: the mandatory HIV case reporting (DOVIH), the French perinatal cohort
(ANRS-EPF) and the HIV laboratory surveillance system (LaboVIH). We also assessed the
completeness of the mandatory reporting of HIV in children and the French perinatal cohort.
METHODS
The capture-recapture method allows to estimate the total number of cases of a disease by
matching cases reported in at least two sources [4].
Case definition
Cases were defined as new HIV diagnoses in children under 13 years old, according to
biological criteria [3], in mainland France during the 2003-2006 period.
years for infected children and to 24 months for non infected children. Duplicates are deleted.
The objectives of this cohort are to identify factors associated with HIV MTCT, to evaluate
tolerance to ART prophylaxis among pregnant women and their babies, and to assess the
prognosis of pediatric HIV infection. Cases meeting the inclusion criteria were selected in the
database updated in April 2008.
The identification of common cases between sources was performed with the SQL
procedure in SAS 9.1 version and was completed by a manual verification of matched
records.
The MI method applied was multiple imputation by chained equations using Stata's user written
program ice (STATA 11.0, Stata Corporation, College Station, Texas, USA) {Royston, 2009
169 /id;Van Buuren S., 1999 20 /id}. The variables age (continuous), region of diagnosis
(categorical) and year of diagnosis (categorical) were completely observed and used as
predictors in the imputation model. As the variable place of birth contained 30% of missing
values, we chose to generate 100 imputed data sets.
Capture-recapture estimates
The reliability of the estimates depends on the respect of conditions including (1) the absence of
false positive cases, (2) a closed population, (3) identification of all and only true common
6
cases, (4) independence between sources and (5) capture homogeneity [4]. Two sources are
independent when the probability for a case to be reported in a source does not depend on the
probability to be reported in the other source. For three or more sources analyses, the
independence assumption is not any more required as interaction terms can be incorporated
into regression models to adjust for source dependencies. Homogeneity of capture is fulfilled
when the probability for a case to be reported in a source is the same for all cases, that is to say
the probability of notification does not depend on its characteristics (i.e., age, sex, place of birth
etc.). This probability may vary from one source to another or be constant overall [4].
Dependence between sources was first assessed by comparing the estimates provided by each
pair of sources [10, 11] and by calculating the odds ratio between two sources among cases
notified to the other one (and its 95 %CI) as proposed by Wittes [4].
A preliminary three-source analysis was performed by fitting 8 log-linear models to the data
arranged in a 23 contingency table according to case presence or absence in each source. The
dependent variable for each model is the logarithm of the number of cases in each of the 7 nonempty cells of the contingency table. These preliminary analyses assumed homogeneity of
capture within each source and were performed using the Statas user written program recap
[12]. The latter is a STATA module providing standard three-source capture-recapture analyses
without covariates. Confidence interval estimates for the population size are computed
according to a goodness-of-fit based method proposed by Regal et Hook [13].
Then, three variables of potential heterogeneous catchability were considered: place of birth
(born in France; born abroad), region of diagnosis (Paris area; other regions), and year of
diagnosis (2003 to 2006). Data were then arranged in a 23x2x2x4 contingency table. Log-linear
models were fitted via the STATA glm command specifying a logarithmic link and a Poisson
distribution. A manual backward stepwise variable selection procedure was performed starting
with the model including all two-way interactions between sources, between sources and
7
variables of catchability, and between variables of catchability. Log-linear modelling was jointly
performed for the 100 imputed data sets using the Stata 11.0 analysis module mi estimate
applying Rubins rules.
Classically, in capture-recapture studies, the choice of the final model is based on the likelihood
ratio test statistic (G2), the Akaike Information Criterion (AIC) and the Bayesian Information
Criterion adapted by Draper (DIC) which are functions of the likelihood ratio statistic [14, 15].
AIC and DIC criteria were derived for each imputed data set according to the following formulas:
AIC = G 2 2(df ) and DIC = G 2 (ln ( N obs 2 )) (df ) where df is the number of degrees of
freedom associated with any model.
The nave approach averaging the likelihood ratio statistic over the imputed data sets does not
provide accurate p-values [16]. The pooled likelihood ratio test statistic and its corresponding pvalue were calculated using the Meng and Rubin approach [17], recently illustrated by Marshall
et al. [18]. Each log-linear model was constrained to the regression coefficients obtained from
the joint analysis (i.e. the average over the 100 imputed data sets according to Rubins rules).
The AIC and DIC estimates were the average of the 100 AICs and DICs. We selected the most
parcimonious model among models with a goodness-of-fit p-value >0.05, and with the lowest
AIC and DIC values.
This method, by selecting a single model, ignores the issue of model uncertainty [15]. We
calculated a composite estimate derived from all the K models involved in the stepwise
procedure as suggested by Draper [14]. We retained the DIC weighted estimate (Weighted
K
e (
DICi / 2 )
i =1
associated with the model i, and DICi is the DIC associated with the model i (i=1,,K).
Source completenesses were estimated by dividing the number of new HIV diagnoses reported
in each source by the total number estimated by the final log-linear model. The completeness
was also calculated for each stratum of place of birth, year of diagnosis and region of
diagnosis.
The annual rate of new HIV diagnoses was the estimated number of new HIV diagnoses divided
by the size of the population of children under 13 years old living in mainland France up to
December 2007 [19]. The rate was also calculated according to the place of birth, knowing the
number of children less than 13 born in France or abroad.
RESULTS
Cross-matches
The three sources reported 216 new HIV diagnoses in children under 13 years old, in mainland
France, between January the 1st, 2003 and December the 31st, 2006 (Figure 1). After
imputation of the variable place of birth, 60% of the children newly diagnosed were born
abroad (Table 1). The distribution of new HIV diagnoses according to the place of birth and the
age group varied between sources. The proportion of children born abroad in children aged
over 1 year was greater in the source DOVIH and in EPF cohort than in LaboVIH.
Capture-recapture estimates
When performing two-source capture-recapture analysis, the estimate of the number of new
HIV diagnoses provided by matching sources DOVIH and EPF (Nest = 188; 95%CI [171 206])
was lower than the estimate provided by matching LaboVIH and EPF (Nest = 261; 95%CI [224297]) and LaboVIH and DOVIH (Nest = 330; 95%CI 272-389), suggesting a positive dependence
between the sources DOVIH and EPF. The Wittes odds ratio confirmed the dependence
between the sources DOVIH and EPF (OR = 5,4 ; 95%CI [2,5-12,1]) and suggested a positive
dependence between LaboVIH and EPF (OR = 2,2 ; 95%CI [1.0-4,8]).
Preliminary log-linear modelling using the three sources and including the dependencies
between sources provided an estimate of 369 (95%CI [294-521] new HIV diagnoses during the
2003-2006 period (Table 2). This model took into account two dependencies between sources
(DOVIH*EPF and EPF*LaboVIH).
When considering the dependencies with variables of catchability, the model with the lowest
AIC and a likelihood ratio test with p>0.05 provided an estimate of 387 (95%CI [271-503]) new
HIV diagnoses during the same period (Table 3). This model (model 8) included two interactions
between sources, interactions between sources and variable of catchability (DO*place of birth,
EPF*place of birth, DO*region of diagnosis, EPF*region of diagnosis, LaboVIH* region of
diagnosis, and EPF*year of diagnosis). The corresponding weighted estimate was 384 new HIV
diagnoses. The estimated annual number of new HIV diagnoses decreased over time from 108
in 2003 to 89 in 2006 (Table 4).
The estimated completeness of the three sources combined was 55.8% (CI 95% [42.9 79.7])
but varied according to the source (Table 4). Completeness of DOVIH (28.4%) and EPF(26.1%)
were lower than LaboVIH (33.3%). Completeness slightly decreased in both DOVIH and EPF
since 2004, and particularly during the last year (2006). Completeness was greater in the Paris
10
area than in other regions in the three sources, and was greater for children born in France
rather than abroad in the sources EPF and LaboVIH.
Based on the estimated number of new diagnosis obtained in table 4, the rate of new HIV
diagnoses in children under 13 years old in mainland France was 9.1 per million (CI 95% [5.7
12.5]) in 2006. This annual rate was 38 times higher in children born abroad (161.1 per million)
than in children born in France (4.2 per million).
DISCUSSION
Our study provided for the first time an estimate of the total number of new HIV diagnoses in
children under 13 years old in mainland France, during the 2003-2006 period (n = 387). The
three sources combined reported more than two-thirds of cases. Nonetheless, the
completeness of the mandatory notification system (DOVIH) and the French perinatal cohort
(EPF) were low (<30%).
11
22]. In our study, the variable place of birth was missing by design in the source LaboVIH. As
a result, the missingness provides no information about the underlying process, implying that
the MAR assumption is met.
12
An advantage of MI is that standard errors and CI of the estimates are directly available as part
of the model estimation. A parametric bootstrap approach has been recommended to calculate
CI for the final estimate [26, 27]. This method yields asymetrical CI, and allows one to take
model uncertainty into account. Future research should adress the possibility to combine this
approach with multiple imputation.
The study period and the geographic area were the same for all the sources. However, it was
estimated that the EPF cohort covered 70% of the HIV-positive pregnant women which could
have introduced a bias in the estimation. However, if such a bias did exist, it would be difficult to
surmise its direction (towards an over or under-estimation).
13
The positive dependence between the sources DOVIH and EPF may be explained by the
heightened paediatricians awareness that participate in the EPF cohort for several years, to
report to the mandatory notification implemented in 2003. Two large laboratories participated to
both the EPF cohort and the laboratory survey which could result in a positive dependence
between the sources EPF and LaboVIH.
Our capture-recapture findings allowed us to estimate the rate of new HIV diagnoses in children
in mainland France at 9.1 per million in 2006. This rate was 38 times greater for children born
abroad than those born in France. This ratio is higher than that observed in adults (6,0 per
million in adults born abroad versus 0,6 in those born in France) [6] and could be explained by
lower access to HIV screening and to prevention of MTCT during pregnancy in HIV-endemic
countries.
14
Our results can be compared to data of the United Kingdom as both countries have similar
sized populations (around 60 millions of whom 10 millions of children), similar concentrated HIV
epidemics and similar sized foreign born populations (around 8% of the total population and
around 0.5 million from sub-Saharan Africa). The rate of new HIV diagnoses in children under
15 in UK in 2006 was close but greater (10.1 per million) than our estimate in France. This is
likely to be due to different HIV prevalence rates within countries of origin (Eastern or Southern
Africa versus Western or Central African countries where HIV prevalence is lower). The number
of new diagnoses has decreased in UK from 2003 to 2006 (from 148 to 117) as in France and
has continued to decline since [30]. As in France, two-thirds of children diagnosed as HIVinfected in the UK were born abroad [31].
Completenesses
The completeness of the mandatory notification of new HIV diagnoses in children was low
(28%) compared to the estimated completeness of the overall system (62% in 2004) [6]. This
difference might be due to the participation of biologists to the mandatory notification of HIV
diagnoses adults only, allowing the recall of clinicians who have not reported the cases. The
notification system of HIV infection in children was modified in 2007: biologists have also to
report new HIV diagnoses in children. However, low completeness and modification of the
surveillance system make it difficult to assess trends in new HIV diagnoses since 2007.
Several hypotheses may explain the low completeness for HIV diagnoses in children in EPF
(26%) as well as the capture heterogeneity according to the place of birth (children born abroad
less reported than children born in France). As mentioned above, around 70% of HIV pregnant
women are included in the EPF cohort. The EPF cohort has prospectively collected data on
HIV-infected children until 2004 only if they were born from mothers known as HIV-infected at
delivery in EPF sites. Data on infected children born from mothers not included in EPF, that is
who delivered abroad or who have not been diagnosed as HIV-infected during pregnancy, have
15
been collected retrospectively for 2003 and 2004, and prospectively since 2005. Thus, cases
may have been missed. Moreover, obtaining parental consent after HIV diagnosis in children
requires more time and motivation from paediatricians than asking consent to pregnant women.
CONCLUSION
Our study provided for the first time an estimated annual rate of new HIV diagnoses in children
under 13 years old in mainland France. A more systematic HIV screening of pregnant women,
repeated during pregnancy among women likely to engage in risky behavior, is needed to
optimize prevention of MTCT. The high prevalence of HIV infection in some regions of the
world, especially in sub-Saharan Africa, justifies the proposal of a screening test to children who
migrate to France. Thus, children diagnosed as HIV infected would benefit from an early and
appropriate treatment. Notification of new HIV diagnoses in children should also be improved in
order to better describe the evolving epidemiology of HIV infection in children.
16
Competing interests
The authors declare that they have no competing interests.
Authors contributions
VHB contributed to study conception, carried out the statistical analysis and prepared the final
draft of the manuscript. AG conceived and supervised the study, and helped to draft the
manuscript. FL participated in the design of the study and coordination, and helped to draft the
manuscript. FC, JW, and CL participated to the data gathering and contributed to interpretation
of the study. ME participated in the design of the study, contributed to the acquisition of data,
and helped performing the statistical analysis. PB supervised the statistical analysis and helped
to draft the manuscript. All authors critically revised and approved the final manuscript.
Acknowledgements
We thank all the laboratories which participate in LaboVIH surveillance, all the paediatricians
who report notifications of HIV diagnoses in children, and all the investigators and participating
centers of the ANRS French Perinatal Cohort.
The French Institute for Public Health Surveillance conducted this study as part of his
surveillance activities and is funded by the French Ministry of Health. The French perinatal
cohort is funded by the French National Agency for AIDS Research (ANRS). Vanina HraudBousquet is funded by a doctoral grant by the French National Agency for AIDS Research [n
NM/DF/1754 ].
17
Reference List
1. UNAIDS, WHO. AIDS epidemic update. December 2009.
2. Warszawski J, Tubiana R, Le Chenadec J, Blanche S, Teglas JP, Dollfus C, Faye A,
Burgard M, Rouzioux C, Mandelbrot L: Mother-to-child HIV transmission despite
antiretroviral therapy in the ANRS French Perinatal Cohort. AIDS 2008, 22:289-299.
3. Yeni P: Prise en charge mdicale des personnes infectes par le VIH: MdecineSciences Flammarion; 2010.
4. Hook EB, Regal RR: Capture-recapture methods in epidemiology: methods and
limitations. Epidemiol Rev 1995, 17:243-264.
5. Lot F, Semaille C, Cazein F, Barin F, Pinget R, Pillonel J, Desenclos JC: Preliminary
results from the new HIV surveillance system in France. Euro Surveill 2004, 9:34-37.
6. Cazein F, Le Vu S, Pillonel J, Le Strat Y, Couturier S, Basselier B, Lot F, Semaille C:
Dpistage de l'infection par le VIH en France, 2003-2009. Bulletin Epidemiologique
Hebdomadaire 2010, 45-46:451-454.
7. Little RJA, Rubin DB: Statistical analysis with missing data. 2nd ed. New York: Wiley;
2002.
8. Royston P: Multiple imputation of missing values: further update of ice, with an
emphasis on categorical variables. Stata J 2009, 9:466-477.
9. Van Buuren S., Boshuizen HC, Knook DL: Multiple imputation of missing blood
pressure covariates in survival analysis. Stat Med 1999, 18:681-694.
10. Chapman DG: Some properties of the hypergeometric distribution. University of
California 1951, 1:131-160.
11. Seber GA: The effects of trap response on tag recapture estimates. Biometrics
1970:13-22.
12. van der Heiden M: Stata module to perform capture-recapture analysis for three
sources with goodness-of-fit based confidence intervals. Available from
http://ideas.repec.org/c/boc/bocode/s456859.html.; 2007.
13. Regal RR, Hook EB: Goodness-of-fit based confidence intervals for estimates of the
size of a closed population. Stat Med 1984, 3:287-291.
14. Draper D: Assessment and propagation of model uncertainty. J R Stat Soc [B] 1995,
57:45-70.
15. Hook EB, Regal RR: Validity of methods for model selection, weighting for model
uncertainty, and small sample adjustment in capture-recapture estimation. Am J
Epidemiol 1997, 145:1138-1144.
16. White IR, Royston P, Wood AM: Multiple imputation using chained equations: Issues
and guidance for practice. Stat Med 2011, 30:377-399.
18
17. Meng X, Rubin D: Performing likelihood ratio tests with multiply-imputed data sets.
Biometrika 1992, 79:103-111.
18. Marshall A, Altman DG, Holder RL, Royston P: Combining estimates of interest in
prognostic modelling studies after multiple imputation: current practice and guidelines.
BMC Med Res Methodol 2009, 9:57.
19. National Institute of Statistics and Economic Studies. National population census.
http://www.insee.fr/fr/themes/detail.asp?reg_id=0&ref_id=irsd2008&page=irweb/sd2008/dd/sd2008_population.htm (accessed Mai 10, 2011).; 2011.
20. Zwane EN, van der Heijden PG: Analysing capture--recapture data when some
variables of heterogeneous catchability are not collected or asked in all registrations.
Stat Med 2007, 26:1069-1089.
21. Allison PD: Missing data. Iowa City: Sage Publication; 2002.
22. Schafer JL, Graham JW: Missing data: our view of the state of the art. Psychol
Methods 2002, 7:147-177.
23. Robb ML, Bohning D: Imputing unobserved values with the EM algorithm under left
and right-truncation, and interval censoring for estimating the size of hidden
populations. Biom J 2011, 53:75-87.
24. van der Heijden PG, Zwane E, Hessen E: Structurally missing data problems in
multiple list capture-recapture data. A StA Adv Stat Anal 2009, 93:5-21.
25. Zwane E, van der Heijden PG: Capture-recapture studies with incomplete mixed
categorical and continuous covariates. J Data Sci 2008, 6:557-572.
26. Buckland ST, Burnham KP, Augustin NH: Model selection: an integral part of inference.
Biometrics 2009, 53:603-618.
27. Sutherland JM, Schwarz CJ, Rivest LP: Multilist population estimation with incomplete
and partial stratification. Biometrics 2007, 63:910-916.
28. Mayaux MJ, Blanche S, Rouzioux C, Le CJ, Chambrin V, Firtion G, Allemon MC, Vilmer E,
Vigneron NC, Tricoire J, .: Maternal factors associated with perinatal HIV-1 transmission:
the French Cohort Study: 7 years of follow-up observation. The French Pediatric HIV
Infection Study Group. J Acquir Immune Defic Syndr Hum Retrovirol 1995, 8:188-194.
29. Macassa E, Burgard M, Veber F, Picard C, Neven B, Malhaoui N, Rouzioux C, Blanche S:
Characteristics of HIV-infected children recently diagnosed in Paris, France. Eur J Pediatr
2006, 165:684-687.
30. Health Public Agency. United Kingdom. New HIV diagnoses data to end December
2010. Tables N2; 2010.
31. Health Public Agency. HIV in the United Kingdom:2010. Health protection report. 4(47)
edition; 2010.
19
Figures legend
Figure 1. Distribution of new HIV diagnoses in children identified by the three sources (N=216).
20
Table 1. Distribution of new HIV diagnoses after multiple imputation according to place of birth
and age.
Total
Born abroad
Born in France
DOVIH
EPF
LaboVIH
< 1 year
1 year
< 1 year
1 year
< 1 year
1 year
130
(60.2%)
86
(39.8%)
1
(12.5%)
7
(87.5%)
24
(85.8%)
4
(14.3%)
1
(12.5%)
7
(87.5%)
9
(75%)
3
(25%)
4
(33.3%)
8
(66.7%)
37
(71.2%)
15
(28.8%)
216
28
12
12
52
DOVIH : Mandatory notification system for HIV; EPF: French peri-natal survey; LaboVIH : Survey evaluating the
screening activity for HIV in laboratories
21
Table 2. Preliminary log-linear analyses assuming homogeneity of capture within each source.
Log-linear models
Dependencies between
sources
LaboVIH*DOVIH,
LaboVIH*EPF, DOVIH*EPF
LaboVIH*DOVIH,
LaboVIH*EPF
LaboVIH*DOVIH, DOVIH*EPF
LaboVIH*EPF, DOVIH*EPF
LaboVIH*DOVIH, EPF
LaboVIH*EPF, DOVIH
DOVIH*EPF, LaboVIH
LaboVIH, DOVIH, EPF
95% CI
df
G2
AIC
DIC
126
342
259,573
23
239
225,263
18.83
<10-4
16.83
16.89
58
153
29
51
85
49
274
369
249
267
301
265
243,331
294,521
234,272
245,300
268,349
246,292
1
1
2
2
2
3
3.78
0.24
18.49
30.12
5.96
30.2
0.05
0.63
<10-4
<10-4
0.05
<10-4
1.78
-1.76
14.49
26.12
1.96
24.20
1.84
-1.71
14.6
26.23
2.07
24.36
DOVIH : Mandatory HIV case reporting; EPF: French perinatal cohort; LaboVIH : Survey evaluating the screening
activity for HIV in laboratories
n : Estimate of the number of diagnoses not reported to any source; N : Estimate of the number of diagnoses;
95% CI : 95% confidence interval for N ; df: number of degrees of freedom; G : deviance statistic; p: p-value of
the deviance goodness-of-fit test; AIC : Akaike Information Criterion; DIC : Draper Information Criterion
22
)
95% CI ( N
df
AIC
DIC
108.3
324.3
210.9,437.6
78
93.84
0.07
-62.16
-130.85
106.9
322.9
211.2,434.5
79
93.95
0.08
-64.05
-133.62
108.6
324.6
211.7,437.5
82
96.17
0.10
-67.83
-140.05
148.0
364.0
257.9,470.1
83
96.82
0.10
-69.18
-142.27
152.3
368.3
259.9,476.7
84
98.31
0.10
-69.69
-143.66
143.3
359.3
259.1,459.6
87
102.28
0.09
-71.72
-148.34
140.8
356.8
258.0,455.6
90
105.54
0.09
-72.46
-153.71
171.0
387.0
271.0,502.9
93
112.72
0.07
-73.28
-155.17
171.0
387.0
271.0,502.9
96
118.48
0.05
-73.52
-158.06
Log-linear models
Weighted DIC
384.26
DOVIH : Mandatory HIV case reporting; EPF: French perinatal cohort; LaboVIH : Survey evaluating the screening activity for
HIV in laboratories
df: number of degrees of freedom; G : deviance statistic; p: p-value of the deviance goodness-of-fit
confidence interval for N
;
test; AIC : Akaike Information Criterion; DIC : Draper Information Criterion
) provided by each model (p>0.05)
Weighted DIC estimate: weighted average of all estimates ( N
23
188.9
387
other regions
Total
(271;503)
(101.0;276.8)
216
77
55.8
40.8
70.2
55.5
130
139
56.4
49.7
57.8
59.5
55.8
Compl(%)
86
44
53
59
60
N obs
Total
(42.9;79.7)
(27.8;76.2)
(57.6;89.9)
(42.0;81.8)
(42.0;85.7)
(36.1;79.4)
(43.8;85.0)
(45.6;85.7)
(42.0:82.9)
(95% CI)
110
31
79
73
37
18
27
35
30
N obs
28.4
16.4
39.9
31.1
24.2
20.3
29.5
35.3
27.9
Compl(%)
DOVIH
(21.9;40.1)
(11.2;30.7)
(32.7;51.1)
(23.6;45.9)
(18.1;36.9)
(14.8;32.5)
(22.3;43.3)
(27.0;50.8)
(21.0;41.4)
(95% CI)
101
22
79
54
47
14
27
32
28
N obs
26.1
11.6
39.9
23.0
30.8
15.8
29.5
32.3
26.0
Compl(%)
EPF
(20.1;37.3)
(7.9;21.8)
(32.7;51.1)
(17.4;34.0)
(22.9;46.8)
(11.5;25.3)
(22.3;43.3)
(24.7;46.5)
(19.6:38.7)
(95% CI)
129
47
82
74
55
30
34
35
30
N obs
33.3
24.9
41.4
31.6
36.0
33.9
37.1
35.3
27.9
Compl(%)
LaboVIH
24
N obs
(25.6;47.6)
(17.0;46.5)
(34.0;53.0)
(23.9;46.6)
(26.8;54.8)
(24.6;54.2)
(28.1;54.5)
(27.0;50.8)
(21.0;41.4)
(95% CI)
: Number of diagnoses observed; Compl : Completeness; 95% CI : 95% confidence interval for completeness
DOVIH : Mandatory notification system for HIV; EPF: French peri-natal survey; LaboVIH : Survey evaluating the screening activity for HIV in laboratories
198.1
Paris area
(154.7;241.4)
(158.9;309.9)
Region of diagnosis
France
foreign
country
(55.4;121.8)
234.4
88.6
2006
(62.4;120.9)
(100.3;204.9)
91.7
2005
(68.9;129.4)
(72.4;142.7)
(95% CI)
152.6
99.1
Place of birth
107.6
2004
2003
Year of diagnosis
Strata
Figure 1
EPF
101
DOVIH
110
20
31
36
28
22
15
64
LaboVIH
129
Figure 1
Annexe 4
Hepatitis C virus genotype 3 and the risk of severe liver disease in a large
population of drug users in France.
INTRODUCTION
In France, the prevalence of anti-hepatitis C virus
(HCV) in injecting drug users ranges from 55% to 60%
[Jauffret-Roustide et al., 2009; Meffre et al., 2010]. In
addition, injecting drug users accounted for more than
two-thirds of the patients co-infected with HIV and HCV
[Larsen et al., 2008].
Factors associated with progression of liver fibrosis
have been well established, and are related to host
factors (age at contamination, male sex), comorbidities
(co-infection with HIV, heavy alcohol consumption),
metabolic conditions (obesity, steatosis, and diabetes
mellitus), and duration of infection [Massard et al.,
1648
Larsen et al.
Data Collection
A standardized notification form was used in all
centers to collect data routinely, including risk factors
J. Med. Virol. DOI 10.1002/jmv
Factors associated with severe liver disease. Univariate analysis was carried out to assess the characteristics associated with severe liver disease at clinical
1649
1650
Larsen et al.
TABLE I. Main Characteristics of HCV RNA Positive Drug Users at First Referral to Hepatology Reference Centers in France,
20012007
Characteristics
Sex ratio (female/male)
Age, years
Duration of HCV infectiona, years
ALT levelb, xULN
History of excessive alcohol intakec
Missing
No
Yes
HIV serostatus
Missing
Negative
Positive
HBsAg serostatus
Missing
Negative
Positive
HCV genotype
Missing
1 non a, b
1a
1b
2
3 non a
3a
4
5
Clinical stage at 1st referral
Missing
Normal ALT values
Chronic hepatitis
Cirrhosisd
Hepatocellular carcinoma
Acute hepatitis
Liver biopsy at 1st referral
Fibrosis Metavir score at liver biopsy
[Bedossa and Poynard, 1996]
F0
F1
F2
F3
F4
All patients
(n 4,236)
HCV genotype 3
(n 1,077)
1/3
39 (10)
18 (12)
1.5 (1.5)
1/3
39 (11)
18 (12)
2.0 (1.9)
1/3
40 (10)
19 (12)
1.5 (1.2)
467 (11.0)
1,952 (46.1)
1,817 (42.9)
119 (11.1)
499 (46.3)
459 (46.3)
212 (10.7)
908 (45.7)
866 (43.6)
702 (16.6)
3,284 (77.5)
250 (5.9)
162 (15.0)
868 (80.6)
47 (4.4)
289 (14.6)
1,557 (78.4)
140 (7.0)
685 (16.2)
3,466 (81.8)
85 (2.0)
150 (13.9)
906 (84.1)
21 (2.0)
285 (14.3)
1,660 (83.6)
41 (2.1)
171 (4.1)
713 (16.8)
3,000 (70.8)
301 (7.1)
10 (0.2)
41 (1.0)
1,765 (41.7)
1,725
31 (2.9)
116 (10.8)
815 (75.6)
97 (9.0)
3 (0.3)
15 (1.4)
405 (37.6)
396
58 (2.9)
356 (17.9)
1,419 (71.4)
132 (6.7)
4 (0.2)
17 (0.9)
992 (49.9)
976
138 (8.0)
735 (42.6)
480 (27.8)
195 (11.3)
177 (10.3)
25 (6.3)
136 (34.3)
112 (28.3)
62 (15.7)
61 (15.4)
1,173 (27.7)
407 (9.6)
694 (16.4)
439 (10.3)
117 (2.8)
317 (7.5)
760 (17.9)
325 (7.7)
4 (0.1)
81
455
264
94
82
(8.3)
(46.6)
(27.1)
(9.6)
(8.4)
HCV, hepatitis C virus; IQR, interquartile range; SD, standard deviation; ALT, alanine aminotransferase; ULN, upper limit of normal; HIV,
human immunodeficiency virus; HBsAg, hepatitis B surface antigen.
Data are no. (%) of patients or median values (interquartile range), unless otherwise indicated.
a
Available for 3,626 (85.6%) HCV RNA drug users, for 932 (86.5%) infected with genotype 3, for 1,673 (84.2%) infected with other genotypes.
b
Available for 3,938 (93.0%) HCV RNA drug users, for 1,023 (95.0%) infected with genotype 3, for 1,906 (96.0%) infected with other genotypes.
c
>210 g/week for women and >280 g/week for men (g, gram of ethanol).
d
Including decompensated cirrhosis.
1651
TABLE II. Factors Associated With Severe Liver Disease at Clinical Evaluation in HCV RNA Positive Drug Users at First
Referral to Hepatology Reference Centers in France, 20012007
Univariate analysis
Factors
Period of inclusion
20012003
20042007
Sex
Female
Male
Age
40 years
>40 years
Time between 1st HCV test and referral
<1 year
1 year
Missing
Duration of HCV infection at referrala
<18 years
18 years
Missing
History of excessive alcohol intakeb
No
Yes
Missing
HBsAg
Negative
Positive
Missing
HIV
Negative
Positive
Missing
HCV genotype 3
No
Yes
Missing
Patients (n 4,065)
% SLD
OR (95% CI)
2,211
1,854
6.8
8.7
1
1.3 (1.01.6)
0.02
929
3,136
4.0
8.7
1
2.3 (1.63.3)
<0.001
2,302
1,763
3.7
12.8
1
3.8 (2.94.9)
<0.001
1,683
1,987
395
6.8
7.7
10.6
1
1.1 (0.91.5)
0.3
1,636
1,843
586
3.0
12.5
7.7
1
4.7 (3.46.5)
<0.001
1,881
1,740
444
4.1
12.5
3.6
1
3.3 (2.54.3)
<0.001
3,366
83
616
7.8
13.2
6.0
1
1.8 (0.93.4)
0.07
3,180
240
645
7.7
12.9
5.6
1
1.8 (1.22.7)
0.004
1,928
1,046
1,091
7.0
9.6
6.9
1
1.4 (1.11.8)
0.02
SLD, severe liver disease (cirrhosis, hepatocellular carcinoma); aOR, odds ratio; CI, confidence interval; HCV, hepatitis C virus; HBsAg, hepatitis
B surface antigen; HIV, human immunodeficiency virus.
a
Time from suspected year of infection to year of referral to the reference center. Suspected year of HCV infection is defined as year of the last HCV
negative test performed during the drug-use period or year of first drug injection.
b
>210 g/week for women and >280 g/week for men (g, gram of ethanol).
1652
Larsen et al.
TABLE III. Factors Independently Associated With Severe Liver Disease at Clinical Evaluation in HCV RNA Positive Drug
Users at First Referral to Hepatology Reference Centers in France, 20012007
Multivariate analysis
Complete case (n 2,294)
Factors
Sex
Female
Male
Age
40 years
>40 years
Duration of HCV infection at referrala
<18 years
18 years
History of excessive alcohol intakeb
No
Yes
HCV genotype 3
No
Yes
HIV serostatusc
Negative
Positive
1
2.0 (1.23.1)
0.005
1
2.0 (1.42.8)
<0.001
1
2.4 (1.63.6)
<0.001
1
2.1 (1.62.9)
<0.001
1
2.9 (1.84.6)
<0.001
1
2.9 (2.04.3)
<0.001
1
2.6 (1.83.6)
<0.001
1
2.8 (2.13.7)
<0.001
1
1.4 (1.01.9)
0.05
1
1.6 (1.22.1)
0.003
1
1.8 (1.22.8)
0.005
aOR, adjusted odds ratio; CI, confidence interval; HCV, hepatitis C virus; HBsAg, hepatitis B surface antigen; HIV, human immunodeficiency
virus.
Severe liver disease (cirrhosis, hepatocellular carcinoma).
a
Time from suspected year of infection to year of referral to the reference center. Suspected year of HCV infection is defined as year of the last HCV
negative test performed during the drug-use period or year of first drug injection.
b
>210 g/week for women and >280 g/week for men (g, gram of ethanol).
c
HIV serostatus did not remain significant in the complete case analysis.
ACKNOWLEDGMENTS
We thank the clinicians and patients from all
the participating hepatology reference centers and
Dr. Elisabeth Couturier for her critical reviews of the
manuscript.
REFERENCES
Adinolfi LE, Utili R, Andreana A, Tripodi MF, Marracino M,
Gambardella M, Giordano M, Ruggiero G. 2001. Serum HCV RNA
levels correlate with histological liver damage and concur with
steatosis in progression of chronic hepatitis C. Dig Dis Sci 46:1677
1683.
Asselah T, Boyer N, Guimont MC, Cazals-Hatem D, Tubach F, Nahon
K, Daikha H, Vidaud D, Martinot M, Vidaud M, Degott C, Valla D,
Marcellin P. 2003. Liver fibrosis is not associated with steatosis but
with necroinflammation in French patients with chronic hepatitis
C. Gut 52:16381643.
Barreiro P, Martin-Carbonero L, Nunez M, Rivas P, Morente A,
Simarro N, Labarga P, Gonzalez-Lahoz J, Soriano V. 2006.
Predictors of liver fibrosis in HIV-infected patients with chronic
hepatitis C virus (HCV) infection: Assessment using transient
elastometry and the role of HCV genotype 3. Clin Infect Dis 42:
10321039.
Bedossa P, Poynard T. 1996. An algorithm for the grading of activity in
chronic hepatitis C. The METAVIR Cooperative Study Group.
Hepatology 24:289293.
Bochud PY, Cai T, Overbeck K, Bochud M, Dufour JF, Mullhaupt B,
Borovicka J, Heim M, Moradpour D, Cerny A, Malinverni R,
Francioli P, Negro F. 2009. Genotype 3 is associated with
accelerated fibrosis progression in chronic hepatitis C. J Hepatol
51:655666.
Bruix J, Sherman M, Llovet JM, Beaugrand M, Lencioni R, Burroughs
AK, Christensen E, Pagliaro L, Colombo M, Rodes J. 2001. Clinical
management of hepatocellular carcinoma. Conclusions of the
Barcelona-2000 EASL conference. European Association for the
Study of the Liver. J Hepatol 35:421430.
Bugianesi E, Marchesini G, Gentilcore E, Cua IH, Vanni E, Rizzetto M,
George J. 2006. Fibrosis in genotype 3 chronic hepatitis C and
nonalcoholic fatty liver disease: Role of insulin resistance and
hepatic steatosis. Hepatology 44:16481655.
Campbell JV, Hagan H, Latka MH, Garfein RS, Golub ET, Coady MH,
Thomas DL, Strathdee SA. 2006. High prevalence of alcohol use
among hepatitis C virus antibody positive injection drug users in
three US cities. Drug Alcohol Depend 81:259265.
Carpenter JR, Kenward MG, White IR. 2007. Sensitivity analysis after
multiple imputation under missing at random: A weighting
approach. Stat Methods Med Res 16:259275.
Castera L, Hezode C, Roudot-Thoraval F, Bastie A, Zafrani ES,
Pawlotsky JM, Dhumeaux D. 2003. Worsening of steatosis is an
independent factor of fibrosis progression in untreated patients
with chronic hepatitis C and paired liver biopsies. Gut 52:288292.
Castera L, Hezode C, Roudot-Thoraval F, Lonjon I, Zafrani ES,
Pawlotsky JM, Dhumeaux D. 2004. Effect of antiviral treatment
on evolution of liver steatosis in patients with chronic hepatitis C:
Indirect evidence of a role of hepatitis C virus genotype 3 in
steatosis. Gut 53:420424.
Cross TJ, Quaglia A, Hughes S, Joshi D, Harrison PM. 2009. The
impact of hepatic steatosis on the natural history of chronic
hepatitis C infection. J Viral Hepat 16:492499.
Cua IH, Hui JM, Kench JG, George J. 2008. Genotype-specific
interactions of insulin resistance, steatosis, and fibrosis in chronic
hepatitis C. Hepatology 48:723731.
Delarocque-Astagneau E, Roudot-Thoraval F, Campese C, Desenclos
JC, The Hepatitis CSSS. 2005. Past excessive alcohol consumption:
A major determinant of severe liver disease among newly referred
hepatitis C virus infected patients in hepatology reference centers,
France, 2001. Ann Epidemiol 15:551557.
Delarocque-Astagneau E, Meffre C, Dubois C, Pioche C, Le Strat Y,
Roudot-Thoraval F, Hillon P, Silvain C, Dhumeaux D, Desenclos
JC. 2010. The impact of the prevention programme of hepatitis C
over more than a decade: The French experience. J Viral Hepat 17:
435443.
Dhumeaux D, Marcellin P, Lerebours E. 2003. Treatment of hepatitis
C. The 2002 French consensus. Gut 52:17841787.
1653
Fartoux L, Chazouilleres O, Wendum D, Poupon R, Serfaty L. 2005.
Impact of steatosis on progression of fibrosis in patients with mild
hepatitis C. Hepatology 41:8287.
Hezode C, Roudot-Thoraval F, Nguyen S, Grenard P, Julien B, Zafrani
ES, Pawlotsky JM, Dhumeaux D, Lotersztajn S, Mallat A. 2005.
Daily cannabis smoking as a risk factor for progression of fibrosis in
chronic hepatitis C. Hepatology 42:6371.
Hu KQ, Kyulo NL, Esrailian E, Thompson K, Chase R, Hillebrand DJ,
Runyon BA. 2004. Overweight and obesity, hepatic steatosis,
and progression of chronic hepatitis C: A retrospective study on a
large cohort of patients in the United States. J Hepatol 40:147
154.
Hui JM, Kench J, Farrell GC, Lin R, Samarasinghe D, Liddle C, Byth K,
George J. 2002. Genotype-specific mechanisms for hepatic steatosis
in chronic hepatitis C infection. J Gastroenterol Hepatol 17:873
881.
Hui JM, Sud A, Farrell GC, Bandara P, Byth K, Kench JG, McCaughan
GW, George J. 2003. Insulin resistance is associated with chronic
hepatitis C virus infection and fibrosis progression [corrected].
Gastroenterology 125:16951704.
Jauffret-Roustide M, Le SY, Couturier E, Thierry D, Rondy M, Quaglia
M, Razafandratsima N, Emmanuelli J, Guibert G, Barin F,
Desenclos JC. 2009. A national cross-sectional study among drugusers in France: Epidemiology of HCV and highlight on practical
and statistical aspects of the design. BMC Infect Dis 9:113.
Larsen C, Pialoux G, Salmon D, Antona D, Le SY, Piroth L, Pol S,
Rosenthal E, Neau D, Semaille C, Delarocque-Astagneau E. 2008.
Prevalence of hepatitis C and hepatitis B infection in the HIVinfected population of France, 2004. Euro Surveill 13.
Lefrere JJ, Roudot-Thoraval F, Lunel F, Alain S, Chaix ML, Dussaix E,
Gassin M, Izopet J, Pawlotsky JM, Payan C, Stoll-Keller F, Thibault
V, Trabaud MA, Bettinger D, Bogard M, Branger M, BuffetJanvresse C, Charrois A, Defer C, Laffont C, Lerable J, Levayer T,
Martinot-Peignoux M, Mercier B, Rosenberg AR. 2004. Expertise of
French laboratories in detection, genotyping, and quantification of
hepatitis C virus RNA in serum. J Clin Microbiol 42:20272030.
Little RJ, Rubin DB. 2002. Statistical analysis with missing data.
2nd edition. Hoboken, NJ: John Wiley & Sons, Inc.
Mallat A, Hezode C, Lotersztajn S. 2008. Environmental factors as
disease accelerators during chronic hepatitis C. J Hepatol 48:657
665.
Marcellin P, Pequignot F, Delarocque-Astagneau E, Zarski JP, Ganne
N, Hillon P, Antona D, Bovet M, Mechain M, Asselah T, Desenclos
JC, Jougla E. 2008. Mortality related to chronic hepatitis B and
chronic hepatitis C in France: Evidence for the role of HIV
coinfection and alcohol consumption. J Hepatol 48:200207.
Massard J, Ratziu V, Thabut D, Moussalli J, Lebray P, Benhamou Y,
Poynard T. 2006. Natural history and predictors of disease severity
in chronic hepatitis C. J Hepatol 44:S19S24.
Meffre C, Le Strat Y, Delarocque-Astagneau E, Dubois F, Antona D,
Lemasson JM, Warszawski J, Steinmetz J, Coste D, Meyer JF,
Leiser S, Giordanella JP, Gueguen R, Desenclos JC. 2010.
Prevalence of hepatitis B and hepatitis C virus infections in France
in 2004: Social factors are important predictors after adjusting for
known risk factors. J Med Virol 82:546555.
Moucari R, Asselah T, Cazals-Hatem D, Voitot H, Boyer N, Ripault MP,
Sobesky R, Martinot-Peignoux M, Maylin S, Nicolas-Chanoine MH,
Paradis V, Vidaud M, Valla D, Bedossa P, Marcellin P. 2008. Insulin
resistance in chronic hepatitis C: Association with genotypes 1 and
4, serum HCV RNA level, and liver fibrosis. Gastroenterology 134:
416423.
Payan C, Roudot-Thoraval F, Marcellin P, Bled N, Duverlie G,
Fouchard-Hubert I, Trimoulet P, Couzigou P, Cointe D, Chaput
C, Henquell C, Abergel A, Pawlotsky JM, Hezode C, Coude M,
Blanchi A, Alain S, Loustaud-Ratti V, Chevallier P, Trepo C,
Gerolami V, Portal I, Halfon P, Bourliere M, Bogard M, Plouvier E,
Laffont C, Agius G, Silvain C, Brodard V, Thiefin G, BuffetJanvresse C, Riachi G, Grattard F, Bourlet T, Stoll-Keller F, Doffoel
M, Izopet J, Barange K, Martinot-Peignoux M, Branger M,
Rosenberg A, Sogni P, Chaix ML, Pol S, Thibault V, Opolon P,
Charrois A, Serfaty L, Fouqueray B, Grange JD, Lefrere JJ, LunelFabiani F. 2005. Changing of hepatitis C virus genotype patterns in
France at the beginning of the third millenium: The GEMHEP
GenoCII Study. J Viral Hepat 12:405413.
Perumalswami P, Kleiner DE, Lutchman G, Heller T, Borg B, Park Y,
Liang TJ, Hoofnagle JH, Ghany MG. 2006. Steatosis and progression of fibrosis in untreated patients with chronic hepatitis C
infection. Hepatology 43:780787.
1654
Petta S, Camma C, Di M V, Alessi N, Cabibi D, Caldarella R, Licata A,
Massenti F, Tarantino G, Marchesini G, Craxi A. 2008. Insulin
resistance and diabetes increase fibrosis in the liver of patients with
genotype 1 HCV infection. Am J Gastroenterol 103:11361144.
Poynard T, Mathurin P, Lai CL, Guyader D, Poupon R, Tainturier MH,
Myers RP, Muntenau M, Ratziu V, Manns M, Vogel A, Capron F,
Chedid A, Bedossa P. 2003. A comparison of fibrosis progression in
chronic liver diseases. J Hepatol 38:257265.
Prasad L, Spicher VM, Negro F, Rickenbach M, Zwahlen M. 2009. Little
evidence that hepatitis C virus leads to a higher risk of mortality in
the absence of cirrhosis and excess alcohol intake: The Swiss
Hepatitis C Cohort Study. J Viral Hepat 16:644649.
Rothman K, Greenland S. 1998. Types of epidemiologic studies. In:
Modern epidemiology. Philadelphia: Lippincott Raven. pp. 6778.
Royston P. 2007. Multiple imputation of missing values: Further
update of ice, with an emphasis on interval censoring. Stata Journal
7:445464.
Rubbia-Brandt L, Fabris P, Paganin S, Leandro G, Male PJ, Giostra E,
Carlotto A, Bozzola L, Smedile A, Negro F. 2004. Steatosis affects
Larsen et al.
chronic hepatitis C progression in a genotype specific way. Gut 53:
406412.
Ryder SD, Irving WL, Jones DA, Neal KR, Underwood JC. 2004.
Progression of hepatic fibrosis in patients with hepatitis C: A
prospective repeat liver biopsy study. Gut 53:451455.
Schuppan D, Afdhal NH. 2008. Liver cirrhosis. Lancet 371:838
851.
Thein HH, Yi Q, Dore GJ, Krahn MD. 2008. Natural history of hepatitis
C virus infection in HIV-infected individuals and the impact of HIV
in the era of highly active antiretroviral therapy: A meta-analysis.
AIDS 22:19791991.
Tolstrup JS, Gronbaek M, Tybjaerg-Hansen A, Nordestgaard BG.
2009. Alcohol intake, alcohol dehydrogenase genotypes, and liver
damage and disease in the Danish general population. Am
J Gastroenterol 104:21822188.
Westin J, Lagging LM, Spak F, Aires N, Svensson E, Lindh M, Dhillon
AP, Norkrans G, Wejstal R. 2002. Moderate alcohol intake increases
fibrosis progression in untreated patients with hepatitis C virus
infection. J Viral Hepat 9:235241.
Annexe 5
Practical considerations for sensitivity analysis after multiple imputation
applied to epidemiological studies with incomplete data.
Authors:
Christine Larsen, Institut de Veille Sanitaire, Dpartement des Maladies Infectieuses.
James Carpenter, London School of Hygiene & Tropical Medicine, Medical Statistics Unit.
Jean-Claude Desenclos, Institut de Veille Sanitaire, Direction Scientifique.
Yann Le Strat, Institut de Veille Sanitaire, Dpartement des Maladies Infectieuses.
Corresponding author:
Dr. Vanina Heraud-Bousquet
Mail: Institut de Veille Sanitaire, Dpartement des maladies infectieuses,12 rue du Val
dOsne, 94415 St Maurice, France.
Email: v.bousquet@invs.sante.fr
Telephone: 00 33 1 41 79 69 76
Fax: 00 33 1 41 79 68 02
ABSTRACT
Background
Multiple Imputation as usually implemented assumes that data are Missing At Random
(MAR), meaning that the underlying missing data mechanism, given the observed data, is
independent of the unobserved data. To explore the sensitivity of the inferences to departures
from the MAR assumption, we applied the method proposed by Carpenter et al. (2007).
This approach aims to approximate inferences under a Missing Not At random (MNAR)
mechanism by reweighting estimates obtained after multiple imputation where the weights
depend on the assumed degree of departure from the MAR assumption.
Methods
The method is illustrated with epidemiological data from a surveillance system of hepatitis C
virus (HCV) infection in France during the 2001-2007 period. The subpopulation studied
included 4343 HCV infected patients who reported drug use. Risk factors for severe liver
disease were assessed. After performing complete-case and multiple imputation analyses, we
applied the sensitivity analysis to 3 risk factors of severe liver disease: past excessive alcohol
consumption, HIV co-infection and infection with HCV genotype 3.
Results
In these data, the association between severe liver disease and HIV was underestimated, if
given the observed data the chance of observing HIV status is high when this is positive.
Inference for two other risk factors were robust to plausible local departures from the MAR
assumption.
Conclusions
We have demonstrated the practical utility of, and advocate, a pragmatic widely applicable
approach to exploring plausible departures from the MAR assumption post multiple
imputation. We have developed guidelines for applying this approach to epidemiological
studies.
BACKGROUND
Missing data are ubiquitous in epidemiological and clinical research, and in consequence
there is increasing interest in appropriate statistical methods, principally multiple imputation
(MI) [1, 2]. Multiple imputation techniques available in standard statistical software [3, 4]
enable parameter estimation under the assumption that missing data are missing at random
(MAR), meaning that the missingness mechanism depends on observed data only, and given
these no longer on the missing data [5].
Incomplete datasets are usually addressed by a complete-case (CC) analysis restricted to
individuals that have no missing data in any of the variables required for the analysis. For
etiologic analyses, a complete-case approach leads to a loss in power, but gives valid results if
the probability of being a complete-case is independent of the outcome, given the covariates
in the model [5, 6]. However, if the missingness mechanism depends on the outcome, given
the covariates, a complete-case analysis will be systematically biased, even under the MAR
assumption [7, 8]. Conversely, MI allows individuals with incomplete data to be included in
the analysis. It yields valid and efficient inferences under the MAR assumption, even if the
missingness mechanism is related to the outcome, provided the imputation model is
appropriate [5].
Missing data may also be due to a Missing Not At Random (MNAR) mechanism, also
termed non-ignorable, meaning that, given the observed data (including the outcome), the
missingness mechanism depends on unobserved data. In practice, it is impossible to
distinguish between MAR and MNAR data [9]. When performing multiple imputation under
MAR, the estimate of the regression coefficient of a covariate with missing values can be
subject to bias when the missingness mechanism of the covariate is MNAR, whether this
MNAR mechanism depends on the outcome variable or not [6, 7]. The extend of this bias is
often greater the stronger the dependence of the missingness mechanism on the outcome [10].
Sensitivity analysis is useful in such cases.
Specifically, where the missingness mechanism for one or more of the covariates depends
on the response in the model of interest, a MI analysis assuming MAR is preferable to a CC
analysis, especially if additional variables, not in the model of interest, can be included in the
imputation model to increase the plausibility of the MAR assumption [11-14]. Nevertheless,
the missingness mechanism may additionally depend on unseen values of a covariate, and the
estimates of the coefficient of this covariate may be sensitive to this.
Knowledge of the direction and extent of this sensitivity is important when drawing
conclusions from an analysis. The method we present here allows such sensitivity analysis to
be performed rapidly after MI under MAR.
In the statistical literature, both selection models [15] and pattern-mixture models [16]
have been proposed for the analysis of data under MNAR assumptions [17, 18]. Here, our
focus is on selection models, which describe assumptions about the mechanisms causing the
missing data and then work through the consequences for inference from the model of
interest. Unfortunately, methods for such sensitivity analysis are not implemented in standard
statistical software and in their full generality are computationally complex. Thus they are
little used in practice [1].
However, a computationally much more straightforward approach to local sensitivity
analysis, following MI under MAR, has been proposed by Carpenter et al. [19, 20].This
selection-based approach explores the robustness of inference under local departures from
the MAR assumption, meaning that the sensitivity to departure from the MAR assumption can
be calculated from the observed data without estimating a full non-ignorable model [21].
Parameter estimates obtained from the imputed datasets assuming MAR are reweighted to
represent the distribution of imputations under a MNAR mechanism. Consequently,
inferences obtained under the MAR and MNAR assumptions can be compared to assess the
robustness of inferences to local departures from the MAR hypothesis.
This method is attractive as it is easy to implement after performing MI, and it has not
been reported for observational data to our knowledge. We have therefore applied this method
to surveillance data for hepatitis C viral infection collected in France [22]. As a result of this,
we further propose guidelines on the use of the method for observational data.
METHODS
The hepatitis C virus (HCV) surveillance system is based on 26 participating hepatology
reference centers out of the 31 located in university hospitals throughout France [23]. Since
2000, it has enrolled patients at first referral with HCV chronic infection to monitor changes
in characteristics of HCV infection. A standardized questionnaire is used to collect
epidemiological (date of first referral and last HCV negative test, circumstance of HCV
antibody testing, and risk factors), clinical, biological (HCV RNA serum status, HIV and
HBV co-infection), and history of excessive alcohol consumption data.
Among the 4,343 cases that reported having injected or snorted drugs at least once in their
whole life, we assessed risk factors associated with severe liver disease (SLD) at first referral
by multivariate logistic regression. The outcome of interest (SLD) was defined as cirrhosis or
hepatocellular carcinoma at first referral, as assessed by biochemical tests and morphological
evaluation [24].
PRELIMINARY ANALYSES
Details of the study design and the initial analyses have already been described [22, 23].
Six out of the 9 variables retained for the multivariate analysis were incomplete, with a range
of missing values from 10 to 26% (Table 1). In the CC analysis, multivariate logistic analysis
was reduced to 1,858 individuals (43% of total cases) having no missing data in any of the 9
variables of the analysis. Consequently, we estimated missing values through multiple
imputation by chained equations using Stata'
s user written program ice [4] (STATA 9.2,
Stata Corporation, College Station, Texas, USA). This computationally convenient method is
being increasingly used in epidemiology, and does not require any direct assumption on the
joint distribution of the variables [25, 26]. The imputation algorithm is based on a set of
univariate imputation models which, in turn, regress one variable on all the other covariates
and the outcome [27].
The variables in the imputation model were limited to the 9 variables retained after the
univariate analysis. No additional (auxiliary) variables were included because they had either
too many missing values or were insufficiently related to the missingness mechanism. A total
of 30 imputed datasets were generated. The initial study exploring the risk factors of SLD was
performed using a joint analysis of these 30 imputed datasets [22]. Further imputations were
performed subsequently for the sensitivity analysis.
Y to the underlying (but potentially unseen) value of Y itself, adjusted for a vector X of
covariates:
logit Pr( Ri = 1) = + X i + Yi .
(1)
Under this parametric form assumption, if = 0 , given the fully observed data, the
mechanism causing the missing data of Y does not depend on Y, so that the missing data are
MAR. On the contrary, if 0 , the missingness mechanism depends on the potentially
missing Y, even taking into account the information in the observed data. Thus the data are
MNAR.
In practice, the above logistic regression cannot be performed since, by definition, we do
not observe Yi when Ri =0. This implies that a value for must be chosen, and its effect on
6
inferences from the model of interest explored. With the method we investigate, this can be
done using weights which are a simple function of and the imputed data. We next give an
intuitive explanation of the approach.
Suppose M datasets are created by a MI method assuming MAR. For each dataset, we
denote by m the estimate of the parameter of interest (e.g. a regression coefficient). Multiple
imputation assuming MAR results in several point estimates which, under Rubins rules, are
simply averaged for final inference. Thus, the usual MI estimate of is expressed by:
MAR =
1
M
M
m =1
value of Y for the individual i in the dataset m, and IY is the set of individuals with Y
unobserved. The exponential form of the weights comes from the logistic link in equation (1).
Normalized weights calculated for each imputed dataset are expressed by wm ( ) =
~ ( )
w
m
M
k =1
M
m =1
~ ( )
w
k
estimated variance).
Note that if data are MAR, then = 0 , and all imputations are equally weighted as in
Rubins original rules.
To gain an intuition for these weights, if is positive the chance of observing Y is greater
for more positive Y. Thus in the data after imputation under MAR, imputations with small Y
will be under-represented. The weights correct this by up-weighting (relative to the other
imputed data sets) estimates from imputed data sets where the sum of the imputed values of Y
is small.
Below, we present MAR estimates for the HCV dataset and explore their robustness to
MNAR as moves away from zero. We further propose practical guidelines for selecting a
HIV infection: HIV serostatus could be assessed either by a previous HIV test, where
available, or by a test at first referral. Since the prevalence of HCV-HIV co-infection in
hepatology reference centers is ~8% and HIV testing is quite systematic, the physician may
consider that patients are mainly HCV mono-infected when no positive HIV test is available.
We hypothesized that HIV testing is less often reported when patients are HIV negative.
HCV genotype 3: HCV genotypes are tested by the referral laboratories of the
participating centers. Genotyping might depend on the physicians attitudes, but probably not
on the unobserved values of the genotype. We nevertheless explored the MNAR assumption.
model to explain the genotype 3 missing indicator; in this model we include the outcome
(SLD) and all the covariates included in the initial analysis model, genotype 3 excepted.
The results, shown in Table 2, suggest the missingness mechanism for genotype 3
depends on age and disease duration, but given these is independent of SLD, the outcome in
the analysis model.
although an objective criteria could be set down a-priori if desired) corresponds to departures
from MAR for which the weights are still approximately equal, so that MAR and MNAR
inferences are essentially the same.
11
accruing to estimates at the end of the range of m , this is consistent with the mean of the
MNAR distribution lying outside the range of MAR estimates, i.e. a non-local departure
from MAR.
For the HCV genotype variable the results are shown in Figure 3. The left-hand panel plots
the normalized weights versus m for each imputed data, using =0.15 (recall m is the
regression coefficient estimate obtained under the MAR assumption for each imputed
dataset). The right panel plots the MNAR estimate calculated using n imputations against the
number of imputed datasets noted n (n=10,,M) and defined by:
n
MNAR ( , n ) =
m =1
wm ( ) m
n
m =1
wm ( )
In this case we see that (i) the MNAR estimate appears to settle down as the number of
imputations increases and (ii) the MNAR estimates distribution seems to be well supported by
the MAR distribution (indicated by the rug on the right side of the plot).
RESULTS
The complete-case and MI (assuming MAR) analysis are shown in Table 3. Here we also
give the results of sensitivity analysis for the following three variables: HCV genotype 3, HIV
serostatus and history of excessive alcohol consumption.
For HCV genotype 3, we derived the value of the sensitivity parameter above, to
illustrate our four step approach. We applied the same approach to HIV serostatus and alcohol
consumption.
For alcohol consumption, step 1 showed the probability of observing this depends on the
outcome (SLD status). Step 2 identified the range for of [-0.4;0.4] (left panel of Figure 4).
Consistent with step 1 and experience, the odds of observing alcohol intake is higher if it is
not excessive, we chose = -0.4. The interpretation is that, after adjustment for other
12
variables, the odds of observing alcohol history is reduced among those with a history of
excessive intake by 0.7=exp(-0.4).
For HIV serostatus, step 1 showed the probability of observing this depends on the
outcome (SLD status). Step 2 identified a range of [-0.4;0.7] (right panel of Figure 4). Taking
the results from step 1, and given that in similar contexts the chance of observing HIV
infection is higher for HIV positive individuals, we chose = 0.7. The interpretation is that,
after adjustment for other variables, the odds of observing HIV serostatus is 2.0=exp(0.7)
times higher if HIV serostatus is positive.
For these three variables, the diagnostic in step 4 was acceptable. Adjusted odds ratios
(OR) are shown in Table 3. Note the same multivariate model including sex, age, duration of
HCV infection, alcohol consumption, genotype 3, and HIV serostatus, was applied for each
analysis. The sensitivity analysis was applied to each of the 3 variables in turn.
Two criteria are useful to interpret the adjusted odds ratios in the 3 analyses:
(1) The coefficient of variation (CV) of the OR gives its normalized measure of dispersion.
For the 3 variables, it is clearly reduced after MI and remains stable after reweighting.
(2) The variation rate (VR) assesses the relative change between the OR MNAR and the OR MAR ,
and is defined by VRSA = 100 (OR MNAR OR MAR ) / OR MAR . Similarly, we define a variation
rate named VRMI that displays the relative variation of the OR obtained after CC and MI
analyses. VRMI varies from 9.7% for genotype 3 to 15.5% for HIV and 22% for alcohol. VRSA
is given for the value of selected for each variable. Its value is relatively small for alcohol
(1.3%) and genotype 3 (3.5%) but larger for HIV at 6.6%. The VRSA is relatively stable as
varies in [-1;1] for alcohol and genotype 3, but continues to increase for HIV (Figure 5).
13
DISCUSSION
With missing data, all analyses and corresponding inferences rest on inherently untestable
assumptions about the missingness mechanism. Therefore, sensitivity analyses, where we
explore the robustness of inferences as assumptions change, are important.
The method presented here enables rapid local sensitivity analysis to inferences obtained
via MI under MAR. It works by upweighting imputations which are more plausible under
MNAR; under a logistic model for the missingness mechanism, these weights take a
particularly simple form.
While the sensitivity analysis is local, it nevertheless provides important information on
the duration and impact of departures from MAR on inference, while avoiding the
computational complexity of full joint modeling. Its accuracy for local sensitivity analysis has
been confirmed elsewhere [20, 30].
Here, we have developed and illustrated the practical utility of the approach, proposing a
4-step process for choosing a value for the sensitivity parameter. We now discuss the results.
Note that all three variables are binary, so the scale for delta is the same.
For genotype 3, step 1 of our process shows that among individual with complete records
on variables apart from genotype 3, the probability of observing this variable does not appear
to be related to the outcome in the model of interest (severe liver disease) (Table 2). The
sensitivity analysis allows this probability additionally to depend on the underlying value of
genotype 3 (present or absent). Table 3 and Figure 5 show inference is insensitive to this,
indeed for plausible delta the estimate moves back towards the complete case estimate,
consistent with what would be expected if the additional MNAR dependence does not
materially change the lack of dependence of the chance of observing genotype 3 on severe
liver disease.
Regarding alcohol consumption, our hypothesis was that patients will be less willing to
report past excessive alcohol consumption because of the associated social stigma. However,
14
the literature is not unanimous on this [31-34]. Reporting alcohol consumption is strongly
related to the sociodemographic characteristics [35] that can be included in the imputation
model in order to reduce non-response bias. We only included age and sex in the imputation
model because other sociodemographic variables were not related to the missingness
mechanism. Our step 1 showed that the probability of observing alcohol does depend on the
outcome, after taking into account other covariates. This is consistent with the relatively large
change in the alcohol covariate under MAR (Table 3). The sensitivity analysis allows this
probability additionally to depend on the alcohol value. Table 3 and Figure 5 show inference
is relatively insensitive to this, which is consistent with what would be expected if the
additional MNAR dependence does not materially change the dependence of the chance of
observing alcohol consumption on severe liver disease.
For HIV co-infection, hepatologists in reference centers tend to consider their patients as
being HCV mono-infected because HCV-HIV co-infected patients are usually referred to
infectious diseases departments in France. Under the default assumption of mono-infection,
there would thus usually be less impetus to test for or record HIV status. Thus we felt it was
more likely to be observed if it was present, i.e. serostatus was positive, hence our positive
value for . Step 1 showed that the probability of observing HIV status does depend on
outcome, after taking into account other covariates. This is consistent with the relatively large
change in the coefficient under MAR. The sensitivity analysis allows this probability
additionally to depend on the HIV status. Table 3 and Figure 5 show inference is sensitive to
this, suggesting that if the mechanism is MNAR with increased chance of observing HIV
status for those who are positive, the association in the model of interest is stronger and more
significant than analysis under MAR would suggest.
In summary, for these data collected from a French surveillance system for hepatitis C
infection, CC analysis is plausibly biased, as the data suggest dependence of the chance of
observing values on the outcome, even given the covariates. Thus analysis under MAR, via
15
MI, is preferable. Our sensitivity analysis shows that for local departures from MAR,
inference for the genotype 3 and alcohol consumption is little changed, while the effect of
HIV status is underestimated if, given the observed data, the chance of observing HIV status
is higher when this is positive.
The approach we have described here can also be applied to explore the situation when
there is an interaction between, say, the response (disease status) and the chance of a risk
factor being observed. In this case we may have two sensitivity parameters, one for each
group, or possibly a single parameter representing the difference between these. Since
evidence for this has been found [36] this is a natural area for future work.
CONCLUSION
This sensitivity analysis provides a fast, albeit approximate, way to assess the robustness
of inferences to the MAR assumption, avoiding the need for further imputation and model
fitting to the imputed datasets. In this paper we have proposed a 4-step process for using this
method in practice. We have demonstrated the application of this method and the
interpretation of the results. Faced with non-trivial proportions of missing data, we encourage
readers to apply the method in their own analyses.
16
Appendix
Let M the number of imputed datasets, m the estimated parameter of interest in the imputed
dataset m, m=1,,M, and m2 its associated variance estimate. The estimated MAR variance
of MAR is:
( )
( )
( )
( )
1
1
VMAR MAR = VW MAR + 1 +
VB MAR , where VW MAR =
M
M
( )
VB MAR =
M
m =1
m2 and
).
1 M
m MAR
M 1 m =1
M
1
VMNAR MNAR ( ) VW MNAR ( ) + (1 + ) VB MNAR ( ) , where VW MNAR ( ) = wm ( ) m2
M
m=1
and VB MNAR ( ) =
M
m =1
2
wm ( ) m MNAR ( ) .
17
Reference List
1. Sterne JA, White IR, Carlin JB, Spratt M, Royston P, Kenward MG, Wood AM, Carpenter JR: Multiple
imputation for missing data in epidemiological and clinical research: potential and pitfalls.
BMJ 2009, 338:b2393.
2. Kenward MG, Carpenter J: Multiple imputation: current perspectives. Stat Methods Med Res 2007,
16:199-218.
3. Horton NJ, Kleinman KP: Much ado about nothing: A comparison of missing data methods and
software to fit incomplete data regression models. Am Stat 2007, 61:79-90.
4. Royston P: Multiple imputation of missing values: furter update of ice, with an emphasis on categorical
variables. Stata J 2009, 9:466-477.
5. Little RJA, Rubin DB: Statistical analysis with missing data. 2nd ed. New York: Wiley; 2002.
6. Spratt M, Carpenter J, Sterne JA, Carlin JB, Heron J, Henderson J, Tilling K: Strategies for multiple
imputation in longitudinal studies. Am J Epidemiol 2010, 172:478-487.
7. Allison PD: Missing data. Iowa City: Sage Publication; 2002.
8. Vach W, Blettner M: Biased estimation of the odds ratio in case-control studies due to the use of ad hoc
methods of correcting for missing values for confounding variables. Am J Epidemiol 1991,
134:895-907.
9. Potthoff RF, Tudor GE, Pieper KS, Hasselblad V: Can one assess whether missing data are missing at
random in medical studies? Stat Methods Med Res 2006, 15:213-234.
10. White IR, Carlin JB: Bias and efficiency of multiple imputation compared with complete-case analysis
for missing covariate values. Stat Med 2010, 29:2920-2931.
11. Collins LM, Schafer JL, Kam CM: A comparison of inclusive and restrictive strategies in modern
missing data procedures. Psychol Methods 2001, 6:330-351.
12. Raghunathan TE: What do we do with missing data? Some options for analysis of incomplete data. Annu
Rev Public Health 2004, 25:99-117.
13. Schafer JL: Multiple imputation in multivariate problems when the imputation and analysis model
differ. Stat Neer 2003, 57:19-35.
14. Wood AM, White IR, Royston P: How should variable selection be performed with multiply imputed
data? Stat Med 2008, 27:3227-3246.
15. Diggle MG, Kenward MG: Informative drop-out in longitudinal data analysis. Appl Statist 1994, 43:4993.
16. Hogan JW, Laird NM: Mixture models for the joint distribution of repeated measures and event times.
Stat Med 1997, 16:239-257.
17. Curran D, Molenberghs G, Thijs H, Verbeke G: Sensitivity analysis for pattern mixture models. J
Biopharm Stat 2004, 14:125-143.
18. Molenberghs G, Verbeke G: Models for discrete longitudinal data. New York: Springer; 2005.
18
19. Carpenter J, Rucker G, Schwarzer G: Assessing the Sensitivity of Meta-analysis to Selection Bias: A
Multiple Imputation Approach. Biometrics 2011, 67:1066-1072.
20. Carpenter JR, Kenward MG, White IR: Sensitivity analysis after multiple imputation under missing at
random: a weighting approach. Stat Methods Med Res 2007, 16:259-275.
21. Troxel AB, Ma G, Heitjan DF: An index of local sensitivity to nonignorability. Stat Sin 2004, 14:12211237.
22. Larsen C, Bousquet V, Delarocque-Astagneau E, Pioche C, Roudot-Thoraval F, Desenclos JC: Hepatitis C
virus genotype 3 and the risk of severe liver disease in a large population of drug users in
France. J Med Virol 2010, 82:1647-1654.
23. Delarocque-Astagneau E, Roudot-Thoraval F, Campese C, Desenclos JC, The Hepatitis CSSS: Past
excessive alcohol consumption: a major determinant of severe liver disease among newly
referred hepatitis C virus infected patients in hepatology reference centers, France, 2001. Ann
Epidemiol 2005, 15:551-557.
24. Schuppan D, Afdhal NH: Liver cirrhosis. Lancet 2008, 371:838-851.
25. Lee KJ, Carlin JB: Multiple imputation for missing data: fully conditional specification versus
multivariate normal imputation. Am J Epidemiol 2010, 171:624-632.
26. Van Buuren S., Boshuizen HC, Knook DL: Multiple imputation of missing blood pressure covariates in
survival analysis. Stat Med 1999, 18:681-694.
27. Van Buuren S: Multiple imputation of discrete and continuous data by fully conditional specification.
Stat Methods Med Res 2007, 16:219-242.
28. White IR, Carpenter J, Evans S, Schroter S: Eliciting and using expert opinions about dropout bias in
randomized controlled trials. Clin Trials 2007, 4:125-139.
29. Rubin DB: The calculation of posterior distributions by data augmentation (in discussion of Tanner
MA, Wong WH). J Am Stat Assoc 1987, 82:543-546.
30. Carpenter JR, Kenward MG: Missing data in randomised clinical trials-a practical guide. Methodology
Portfolio, Public Health, Epidemiology & Biostatistics, University of Birmingham, Edgbaston,
Birmingham, UK.; 2007.
31. Pernanen K: Validity of survey data on alcohol use. New York: Wiley; 1974.
32. Knibbe R: Measuring drinking context. Alcohol Clin Exp Res 1998, 22:15S-20S.
33. Lemmens PH, Tan ES, Knibbe RA: Bias due to non-response in a Dutch survey on alcohol consumption.
Br J Addict 1988, 83:1069-1077.
34. Lahaut VM, Jansen HA, van de MD, Garretsen HF: Non-response bias in a sample survey on alcohol
consumption. Alcohol Alcohol 2002, 37:256-260.
35. Van Oers JA, Bongers IM, van de Goor LA, Garretsen HF: Alcohol consumption, alcohol-related
problems, problem drinking, and socioeconomic status. Alcohol Alcohol 1999, 34:78-88.
36. Lewden C, Jacqmin-Gadda H, Vilde JL, Bricaire F, Waldner-Combernoux A, May T, Cuzin L, Lang JM,
Leport C, Chene G: An example of nonrandom missing data for hepatitis C virus status in a
prognostic study among HIV-infected patients. HIV Clin Trials 2004, 5:224-231.
19
Table 1: Multivariate logistic regression of factors associated with severe liver disease.
Complete case and multiple imputation analyses were applied to a population of HCV-RNA positive drug users
newly referred in hepatology reference centres in France, 2001-2007.
Multivariate analysis
Patients
(n = 4 343)
%
SLD
2330
2013
7.0
9.5
993
3350
%
missing
data
4.2
9.3
1.0
1.8 [1.1,3.0]
1.0
2.0 [1.4,2.9]
2435
1908
3.9
13.6
1.0
2.2 [1.5,3.3]
1.0
2.3 [1.7,3.1]
1728
2163
452
6.7
8.7
11.5
1709
2002
632
3.0
12.5
8.2
1.0
3.1 [2.0,5.1]
1.0
2.6 [1.8,3.7]
2015
1847
481
4.5
13.2
4.4
1.0
2.6 [1.8,3.7]
1.0
2.8 [2.2,3.7]
3570
89
684
8.3
13.5
6.7
3342
294
707
8.2
14.0
5.7
Factors
Period of inclusion
2001-2003
2004-2007
Sex
Female
Male
Age
40 years
> 40 years
Time between 1st HCV+ test and
referral
< 1 year
1 year
Missing
Duration of HCV infection at
referral
< 18 years
18 years
Missing
History of excessive alcohol intake
No
Yes
Missing
HbsAg status
Negative
Positive
Missing
HIV serostatus
Negative
Positive
Missing
HCV genotype 3
No
Yes
Missing
2083
7.2
1117
10.3
1143
7.8
10.4
14.6
11.1
1.0
2.4 [1.0,5.9]
15.7
1.0
1.8 [1.2,2.6]
16.3
1.0
1.0
1.5 [1.1,2.0]
1.6 [1.3,2.1]
26.3
20
Table 2: Multivariate regression to explain the missing indicator of genotype 3 using covariates.
Genotype 3 missing indicator
Severe liver disease
Age
Sex
Disease duration
Delay of referral 4
Alcohol consumption 5
HIV serostatus
HbsAg status
Regression coefficients
-0.05
0.16
0.04
0.19
0.05
-0.005
0.02
-0.14
SE*
0.13
0.09
0.08
0.08
0.08
0.07
0.14
0.23
P*
0.72
0.06
0.63
0.04
0.53
0.94
0.90
0.52
Table 3: Multivariate analysis for the complete case, multiple imputation and sensitivity analysis, with
M=1000 imputed data sets.
Covariates included in the model were: sex, age, duration of HCV infection, alcohol consumption, genotype 3 and
HIV serostatus. Sensitivity analysis: the weighting process was applied to alcohol consumption, genotype 3 and
HIV serostatus indepedently.
Complete Case (CC)
Alcohol
consumption
Genotype3
Missing
values
%
aOR
95% CI
SE
CV
(%)
SE
CV
(%)
VRMI
(MI vs CC)
(%)
SE
CV
(%)
VRSA
(SA vs MI)
(%)
2.32
2.82
2.86
0.39
17
0.37
13
21.86
-0.40
0.37
13
1.29
[1.66,3.23]
[2.18,3.66]
[2.21,3.70]
1.51
1.66
1.60
26.3
0.24
16
0.23
14
9.70
0.15
0.21
13
3.56
[1.10,2.07]
[1.27,2.16]
[1.23,2.06]
HIV
1.56
1.80
1.91
16.3
0.41
27
0.34
19
15.52
0.70
0.36
19
6.12
[0.92,2.62]
[1.24,2.61]
[1.32,2.76]
serostatus
*
Note. aOR, odds ratio adjusted on sex, age, duration of HCV infection, alcohol consumption and HIV serostatus; aOR , odds ratio obtained from the MI
adjusted odds ratio estimates
CI, confidence interval; CV, coefficient of variation of the aOR; VRMI , variation rate of the aOR for CC and MI analyses; VRSA , variation rate of the aOR for
MI and senstitivity analyses.
11.1
21
Figure 1:
1.0
Imputed
data set
n921
Imputed
data set
n771
Imputed
data set
n921
0.0
0.2
10
0.4
15
wm
0.6
20
25
0.8
30
Imputed
data set
n771
340
360
380
400
420
440
460
480
-1.0
-0.5
0.0
22
0.5
1.0
Figure 2:
0.0
0.1
0.2
wm
0.3
0.4
0.5
Normalized weights (wm) for each imputed dataset according to for the variable genotype 3.
The hatched zone delineates values of corresponding to maximum normalized weights equal to 0.5.
-0.4
-0.3
-0.2
-0.1
23
0.0
0.1
0.2
Figure 3:
Analysis of the variable genotype 3 with = 0.15.
Left panel: normalized weights (wm) versus m (estimated logistic regression coefficient of genotype 3
in the imputed dataset m), for each imputed data set. The dash line represents MAR (mean of m over
the 1000 imputed datasets).
Right panel: running estimate, calculated as the moving average of the MNAR according to the number
of imputed datasets. On the right axis is plotted the rug of the 1000 estimates m for each imputed
0.0
0.5
0.3
0.2
0.4
0.4
wm
^MNAR(, n )
0.6
0.6
0.8
0.7
1.0
dataset. The dash line represents MAR (mean of m over the 1000 imputed datasets).
0.3
0.4
0.5
0.6
0.7
^
m
200
400
600
800
24
1000
Figure 4:
Normalized weights (wm) for each imputed dataset according to for the variables alcohol
consumption and HIV serostatus.
Left panel: the interval for is restrained to [-0.4;0.4].
Right panel: the interval for is [-0.4;0.7].
HIV
0.8
0.6
0.0
0.2
0.4
wm
0.0
0.2
0.4
wm
0.6
0.8
1.0
Alcohol
1.0
-1.0
-0.5
0.0
0.5
1.0
-1.0
-0.5
0.0
25
0.5
1.0
Figure 5:
Variation rate according to
after sensitivity analysis (VRSA) for genotype 3, alcohol
consumption and HIV serostatus.
The black points correspond to the VRSA calculated for the value of retained for each variable
(genotype 3 =0.15, alcohol =-0.4 and HIV =0.7).
HIV
Alcohol
0
Alcohol
HIV
Genotype 3
-5
VRSA (%)
Genotype 3
-1.0
-0.5
0.0
26
0.5
1.0