Vous êtes sur la page 1sur 339

Traitement des donn

ees manquantes en
epid
emiologie :
application de limputation multiple `
a des donn
ees de
surveillance et denqu
etes
Vanina Heraud Bousquet

To cite this version:


Vanina Heraud Bousquet. Traitement des donnees manquantes en epidemiologie : application de limputation multiple `a des donnees de surveillance et denquetes. Sante publique et
epidemiologie. Universite Paris Sud - Paris XI, 2012. French. <NNT : 2012PA11T017>.
<tel-00713926v2>

HAL Id: tel-00713926


https://tel.archives-ouvertes.fr/tel-00713926v2
Submitted on 18 Nov 2014

HAL is a multi-disciplinary open access


archive for the deposit and dissemination of scientific research documents, whether they are published or not. The documents may come from
teaching and research institutions in France or
abroad, or from public or private research centers.

Larchive ouverte pluridisciplinaire HAL, est


destinee au depot et `a la diffusion de documents
scientifiques de niveau recherche, publies ou non,
emanant des etablissements denseignement et de
recherche francais ou etrangers, des laboratoires
publics ou prives.

UNIVERSITE PARIS XI
FACULTE DE MEDECINE PARIS SUD
Ecole Doctorale de Sant Publique - ED420
Anne 2011/2012

N attribu par la bibliothque


|__|__|__|__|__|__|__|__|__|__|__|__|

THSE
Pour obtenir le grade de

DOCTEUR DE LUNIVERSIT PARIS XI


Champ disciplinaire : Epidmiologie et intervention en sant publique
Prsente et soutenue publiquement par
Vanina HRAUD-BOUSQUET
Le 06 avril 2012

Traitement des donnes manquantes en pidmiologie :


Application de limputation multiple des donnes de surveillance
et denqutes.
Thse dirige par : Jean-Claude DESENCLOS

Composition du jury :
Pr Jean-Christophe THALABARD
Dr Rodolphe THIBAUT
Pr Philippe VANHEMS
Pr Arnaud FONTANET
Dr Jean-Claude DESENCLOS

Prsident
Rapporteur
Rappporteur
Examinateur
Directeur de thse

Lieu de prparation de cette thse :

Institut de Veille Sanitaire


Dpartement des Maladies Infectieuses
12 rue du Val dOsne
94415 Saint Maurice

Financement de cette thse assure par :

LAgence Nationale de Recherche sur le Sida


et les hpatites virales
101 rue de Tolbiac
75013 Paris

REMERCIEMENTS

Mes remerciements sadressent en premier lieu mon directeur de thse, Jean-Claude Desenclos,
pour mavoir permis deffectuer ce travail de recherche lInstitut de Veille Sanitaire. Merci
davoir eu lide audacieuse de me proposer un tel sujet, tout dabord en master puis en thse,
davoir pris le risque de mencadrer pour ce projet, et de mavoir laisse choisir en toute libert
mes sujets de recherche. Ta rigueur scientifique, tes critiques pertinentes et ta prsence attentive
tout au long de ce parcours ont t essentiels la ralisation de ce travail. Jespre que ce travail
de thse est digne de ton attente et de ton investissement personnel.
Je remercie aussi tout particulirement Yann Le Strat pour avoir accept de co-encadrer cette
thse, en assurant le soutien statistique de cette recherche. Tu as pris le temps dacqurir une
expertise dans le traitement des donnes manquantes, de menseigner avec patience les
ncessaires bases statistiques et de dvelopper avec moi des projets de recherche. Ta forte
implication dans ce travail de thse et ton soutien amical mont t prcieux.

Je remercie trs sincrement les membres de mon jury de thse :


Jean-Christophe Thalabard me fait lhonneur de prsider ce jury de thse. Sa double comptence
en statisques et en pidmiologie, ainsi que lintert quil a dj port la thmatique du
traitement des donnes manquantes, mapparaissent trs intressantes pour apporter un regard
critique ce travail.
Rodolphe Thibaut a accept de rapporter ce travail. Sa connaissance approfondie des techniques
statistiques dans le champ des maladies infectieuses constitue un atout indniable pour juger ce
travail. Ses remarques permettront certainement dalimenter une discussion sur ce travail de
thse.
Philippe Vanhems a accept de rapporter ce travail. Je connais ltendue de ses travaux touchant
des sujets trs varis en sant publique, et je suis honore de lintrt quil a bien voulu porter
cette thse, avec une approche certainement originale. Je tiendrai compte de ses remarques afin
damliorer ce travail.
Arnaud Fontanet a accept dexaminer ce travail. Lors de son enseignement de master, il ma
permis dacqurir les bases mthodologiques ncessaires la ralisation de ce travail, et
japprcie particulirement quil puisse prendre part au dbat sur cette thmatique qui lui est
familire.

Je remercie aussi tout particulirement :


LAgence Nationale de Recherche sur le Sida et les hpatites pour avoir assur le financement de
cette thse, et tout particulirement Vronique Dor qui ma guide dans la procdure dobtention
de ce financement.
Laurence Meyer pour le prt des donnes de la cohorte COPANA et lintrt quelle a port ce
projet, ainsi que Remonie Seng pour la prparation de ces donnes.
Dominique Costagliola pour mavoir fourni les donnes de la deuxime enqute Odysse.
James Carpenter pour son prcieux soutien mthodologique lors de la mise en application de sa
mthode danalyse de sensibilit.
Jean Bouyer pour son accompagnement efficace et bienveillant lors de la finalisation de ce travail
de thse.

Sans oublier que :


Ce travail naurait p voir le jour sans laccueil que jai reu au sein du dpartement des maladies
infectieuses de lInVS au cours de ces quatre annes. Je remercie donc vivement Christine Saura
de mavoir permis de mener bien mon travail de recherche en toute srnit au sein du ple
biostatistique.
Ce travail doit beaucoup limplication de lunit VIC.
Merci tout dabord toute lquipe DO pour sa participation active au projet dimputation des
donnes du systme de surveillance du VIH, et particulirement Franoise Cazein, Josiane
Pillonel, Stphane Le Vu et Florence Lot. Je vous dois la chaleureuse ambiance de nos runions
de travail et les ides et critiques pertinentes qui mont permis de faire voluer ce projet au cours
du temps. Je remercie plus particulirement Josiane de mavoir galement associe son travail
sur les donneurs de sang, et Florence pour son active collaboration dans le cadre du projet
capture-recapture chez les enfants.
Un grand merci Caroline Semaille de mavoir permis dappliquer cette nouvelle mthode au
systme de surveillance du VIH, et ce malgr limpact pour toute lquipe en termes de
manipulation de la nouvelle base de donnes, et de mavoir accord sa confiance pour traiter ces
donnes sensibles. Je ne peux quesprer que ce projet se poursuivra.
Je remercie aussi chaleureusement Christine Larsen davoir cru ds le dpart en mon projet de
recherche, et de mavoir propos de traiter les donnes des ples de rfrence de lhpatite C.
Merci galement Elisabeth Delarocque-Astagneau pour sa participation ce travail sur le VHC.
Un merci tout particulier Anne Gallay pour la qualit de notre entente professionnelle sur les
deux projets auxquels elle ma associe au fil de mon parcours, mais aussi et surtout pour son
soutien amical durant ces annes.

Je remercie aussi :
Les membres du ple biostatistique pour la richesse de nos changes sur nos projets communs, en
souhaitant pouvoir les prolonger lavenir.
Virginie Bufkens qui, depuis mon arrive comme stagiaire, sest charge avec efficacit de mes
multiples dplacements au sein du DMI pendant ces 5 annes. Merci aussi pour notre colocation
finale !
Christine Aranda pour sa participation active et tout fait indispensable la finalisation de ce
travail.

Et pour finir :
Je remercie ma famille et mes amis, qui avez su comprendre et accepter cette bien tardive lubie.
Jai un peu tout fait dans le dsordre, mais je marrterai l, peut tre Merci davoir tenu bon.
A mon petit Octave enfin, qui a grandi en mme temps que cette thse. Tu sais lire maintenant
Bibou, et je sais que tu seras content de voir enfin mon livre.

SOMMAIRE

! "#$ % &' ()$


+, '-!( , + ( % & ."/0

*
1

-"." % $ %
+ $ , ' /0' $
78 & ." % $ %
+ $ , ' /0' $

6
6

'" $
*

1
6

+(
*
*

**
+(
+(
6
6

6*

+!'

-0! 0- % $ %
+ $ , ' /0' $
+!' "$, $ % %
+ $ , ' /0' $
*
-, " & ."
*
78 & ." .+ +-'&
**
&&0$ -' "
+8"%+, " & ."
% $ $", 8& $ % -'" ,
% $%
+ $ , ' /0' $
'&7$ !'$9! , 8&
'&7$ %
0$ & $ !'$ %"$8 " & $
*
-+' " %;0 !' +. -" '%%" "
&&
*
%"!' 0-% %
+ , ' /0'
, 80 ' " $", 8&
% 8'-, ' ", "$' " % &' <-'"$ , &' !
% $ 8'-", 80 ' " , 0& "8&
5"$ -"/0
'$ $ (+ -"/0 $
6
-" !"8
6
('$ %;", 80 ' "
6 *
('$ %;' '&7$
'8 $ 8-' "/0 $ % &' , "$
'88&"!' "
6*
'8 4 ',
' '&7$ % &' '$ % %
+ $ " ! , 8&)
6*
'8 4
$ -0! " %0 , %)& %;", 80 ' "
6**
'8 * 4 '&7$ % $ %
+ $ ", 80 + $ 8-+$ ' " % $ -+$0& ' $
"$, $ % %
+ $ , ' /0' $
"'"$ 4 0% % $", 0&' "

*
*
*
*
*6
*6
*:
*:
*
*
*
*
1
1
1
1*
66
6
6
:
:

:
:
:
:
:

0% % $", 0&' "


' +-" & , + ( % $
+$0& ' $
* "$!0$$"

= =>

*
:

>

; 2 @

0% %0 -"$/0 % -' $, "$$" %0 5 8'-& $ % $ % $' .


+( % $
!0 "&% %
+ $
',
% $%
+ $ , ' /0' $
$ -0! " %0 , %)& %;", 80 ' "
$ -0! " % $ +/0' " $ % 8-+%"! "
( " %0 , - % '$ $ % !7!& $
*
"'. $ "! % &;", 80 ' "
1
'&!0&%0 -"$/0 -+$"%0 &
1
"$/0 -+$"%0 & 5 8 0-&' 8+-" %
:9
1
<'&0' " % &' 8'- %0 -"$/0 -+$"%0 &' -" 0' & '0 5 5
*
6
+$0& ' $
1
6
"$/0 -+$"%0 & 5 8 0-&' 8+-" %
:9
1
6
'- % -"$/0 -+$"%0 &' -" 0' & '0 5 5
6
6*
< &0 " % &;" !"% ! %0 5 $0-&; $ , & % &' 8+-" % % $0-< "&&' !
:
:
"$!0$$"
/0A !'$9 +, " $ $0-&;" # ! " B !', 87& '! 80&' " %;+ 0%
!-" )- $ %;" !&0$"
!0 "&% %
+ $
+ $ ! && ! + $
',
% $%
+ $ , ' /0' $
*
$ -0! "
<'&"%' " %0 , %)& %;", 80 ' "
*
*
'&7$ !'$9! , 8&
*
*
$ -0! " %0 , %)& %;", 80 ' "
:
**
'&7$
%"'. $ "! % $ %
+ $ ", 80 + $
1
+$0& ' $
6
'&7$ % $ $" "&" + $ & & , %)& %;", 80 ' "
:
"$!0$$"
1
:
-8-+ ' " % $ -+$0& ' $
1
:
+-A , + ( % & ."/0 % &;+ 0%
:
$ ", ' " 8'-0 , + ( % !'8 0- 9- !'8 0- B - "$ $ 0-! $ %0 , - %
0< '0 %"'. $ "!$ 5 !( C & $
#' $ 4 ", 80 ' " %;0 <'-"' & % $ -' "#"!' "
*
*
! "#
**
$!-"8 " % $ - "$ $ 0-! $ % %
+ $
**
' %+!&'-' "
&".' "- %0 5 D
5E
**
; /0A 8+-" ' '& #-' F'"$ D E
***
; /0A '
5
*1
+( % $
*1
% "#"!' " % $ !'$ ! , , 0 $
*1
% "#"!' " % <'-"' & $ %;(+ +- .+ +" + % !'8 0*1*
, 80 ' " % &' <'-"' & 8'7$ % '"$$' !
*
* 6 $ ", ' " $ "$$0 $ % &' , + ( % !'8 0- 9- !'8 01
*6
%" " $ %;'88&"!' "
1
*6
'&7$ $ 8-+&", " '"- $
6
*6*
'&7$ $ " !&0' & $ <'-"' & $ %;(+ +- .+ +" +
6
*:
+$0& ' $
*:
'$ ! , , 0 $ '0 $ 0-! $
*:
, 80 ' " % &' <'-"' & 8'7$ % '"$$' !
*:*
$ ", ' " %0 , '&% %"'. $ "!$ +<'&0' " % &' %+8 %' !
*
"$!0$$"
*

2 =>

;5=

? G

'&7$ + " & ."/0 % $ #'! 0-$ % -"$/0 % ! , 8&"!' " $ (+8' "/0 $ .-'< $
80&' " %;+ 0%
!-" )- $ %;" !&0$"
!0 "&% %
+ $
+ $ ! && ! + $
',
% $%
+ $ , ' /0' $
*
$ -0! "
<'&"%' " %0 , %)& %;", 80 ' "
*
$ -0! " % $ +/0' " $ % 8-+%"! "
*
( " %0 , - % '$ $ % !7!& $
**
'&7$ % $ '$ $ % %
+ $ ", 80 + $
*1
"'. $ "! % &;", 80 ' "
1
+$0& ' $ %"$!0$$"
'&7$ % $ $" "&" + 8'-8 %+-' "

*
1

6
:

-.0,
$ +8"%+, " & ."/0 $ 8 0-& !( " % $ <'-"' & $
+ ( % %;' '&7$ % $ $" "&" + 8'-8 %+-' "
88&"!' " 8-' "/0 % &;' '&7$ % $ $" "&" + 8'-8 %+-' "
1
- &+, ' "/0
1
- ! $$0$ % $+& ! " %0 8'-', ) - % $ $" "&" + % & '
+$0& ' $
"$!0$$"

? G

7$ ),

*
**
**
*1
*1
*6
*:
1
1
1
11
1:
1:
1
6*
6

% $0-< "&&' ! %0 5
+!&'-' "
&".' "- % $ %"'. $ "!$ %;" # ! " B 5
0-< "&&' ! <"- & ."/0
*
! "#$ %0 8- ! $$0$ %;", 80 ' " , 0& "8&
',
% &' '$ % %
+ $
',
/0' " ' "#
',
/0'&" ' "#
- ! $$0$ %;", 80 ' "
% 0 8('$ $
*
5"$ -"/0 % $+- & ." $ 5
*
, 80 ' " ! %" "
&&
'8 $ 8-+&", " '"- $
1
'$ % %
+ $ % %+8'1
! %'. $ &"+$ B % $ 8- &+, ' "/0 $ $8+!"#"/0 $
1
" , '-/0 0-$ *
1
+- & ." ' +-" 0- +.' "<
$ -0! " % $ , %)& $ %;", 80 ' "
6
$ -0! " $ % $ +/0' " $ % 8-+%"! "
6
, + ( % & ."/0
6
- , ")- 8('$
6 *
0 "), 8('$
6
-'" ,
% $ <'-"' & $ !' +. -" && $ ! " 0 $
6
-'" ,
% $ <'-"' & $ !' +. -" && $
6
-'" ,
% $ <'-"' & $ ! " 0 $
6*
( " %0 , - % '$ $ % !7!& $
6*
, - % '$ $
6*
, - % !7!& $
, 80 ' "
' '&7$
'&"%' " " "'. $ "! % &;", 80 ' "
- &+, ' "/0
'-"' & $ %"$!-) $
*
'-"' & $ ! " 0 $
1
-" )- $ %"'. $ "/0 $ %0 , - % '$ $
6
!&0$"
'&"%' " !- "$+

:
:
:
:*
:1
:6
:6
:
:
:
:

*
*
*
1

*
*
1
6
:
:
:
:
:

0% % $", 0&' "


+$0& ' $ ! !&0$" $
+$0& ' $ ! , 8'-+$ '< ! % $ %
+ $
- $ 4 $$'"% <'&"%' "
0-! $ % %
+ $
/0A
%7$$+
( 8' '
, 8'-'"$ % $ $ 0-! $ % %
+ $
+( % $
+$0& ' $
*
"$!0$$"

*
*
*
1
1
6
*

5G

10

TABLES DES FIGURES


Figure 1.1

Reprsentation des structures de donnes manquantes................................................. 29

Figure 1.2
Figure 1.3
Figure 1.4
Figure 1.5
Figure 1.6
Figure 1.7

Reprsentation graphique des tapes de limputation multiple ..................................... 43


Densits de probabilits de distributions normales....................................................... 47
Fonctions de rpartition de distributions normales....................................................... 47
Distributions marginales et jointes de X1 et X2 ............................................................ 48
Exemples de distributions conditionnelles................................................................... 49
Reprsentation graphique du processus didentification du mcanisme
de donnes manquantes............................................................................................... 59

Figure 2.1

Tendances dincidence du VIH parmi les donneurs HSH et les autres donneurs pour la
priode 1994-2008...................................................................................................... 86
Evolution des effectifs en fonction des variables incluses
successivement dans le modle danalyse multivarie cas-complet............................. 95
Distribution du nombre de diagnostics dinfection VIH selon la source .................. 118
Inclusion des patients du systme de surveillance dans ltude .................................. 129
Dtermination graphique dune valeur de pour la variable gnotype 3 .................... 149
Poids normaliss selon pour chaque base de donnes impute ................................ 150
Analyse de la variable genotype 3 pour =0.15 ......................................................... 152
Poids normaliss selon pour chaque base de donnes impute, pour les variables
consommation dalcool et statut srologique VIH ..................................................... 153
Taux de variation selon aprs analyse de sensibilit pour les variables gnotype 3,
consommation dalcool et co-infection par le VIH .................................................... 155
Reprsentation schmatique du systme de dclaration obligatoire du VIH ............... 163
Imputation en deux phases ........................................................................................ 170
Description du processus dimputation en deux phases.............................................. 175
Reprsentation graphique des distributions observes des biomarqueurs,
des dlais positifs et ngatifs, et des CD4 .................................................................. 181
Comparaison graphique des donnes observes et imputes des dlais positifs et ngatifs
par des graphes quantiles-quantiles et des histogrammes ........................................... 198
Comparaison graphique des donnes observes et imputes des biomarqueurs V3 et TM
par des graphes quantiles-quantiles et des histogrammes ........................................... 199
Comparaison graphique des donnes observes et imputes des taux de CD4 par des
graphes quantiles-quantiles et des histogrammes ...................................................... 200
Probabilit de couverture de lIC, biais relatif et efficacit statistique relative pour des
mcanismes MCAR et MAR, pour les 500 chantillons, et pour 5 ou 20 bases
imputes ................................................................................................................... 210
Reprsentation graphique de lvolution de lefficacit statistique relative selon le
nombre de bases imputes, pour les 500 chantillons et pour les mcanismes MCAR et
MAR ........................................................................................................................ 211

Figure 2.2
Figure 2.3
Figure 3.1
Figure 3.2
Figure 3.3
Figure 3.4
Figure 3.5
Figure 3.6
Figure 4.1
Figure 4.2
Figure 4.3
Figure 4.4
Figure 4.5
Figure 4.6
Figure 4.7
Figure 4.8

Figure 4.9

11

LISTE DES TABLEAUX


Tableau 1.1

Exemples de mcanismes de donnes manquantes avec une variable expliquer (M) et


4 variables dexpositions (Ei) ................................................................................... 59

Tableau 1.2

Efficacit statistique relative en % selon la FMI et le nombre de bases imputes M.....


................................................................................................................................ 64

Tableau 1.3

Statistiques courantes pouvant tre combines ou non selon les rgles de Rubin ...... 69

Tableau 1.4

Rpartition des effectifs de lenqute cas-complet simule et odds ratios associs, en


global et selon les deux strates du facteur de confusion............................................ 73

Tableau 1.5

Effectifs et odds-ratios ajusts selon les diffrents mcanismes de donnes manquantes


................................................................................................................................ 74

Tableau 1.6

Rsultats des analyses bivaries en analyse cas-complet et aprs imputation multiple .


................................................................................................................................ 76

Tableau 2.1

Comparaison des proportions observes et estimes de la variable mode de


contamination selon la priode ................................................................................. 82

Tableau 2.2

Risque rsiduel de transmission de linfection par le VIH par transfusion selon la


priode fentre, 2006-2008....................................................................................... 84

Tableau 2.3

Incidence du VIH et risque rsiduel de transmission de linfection par le VIH par


transfusion parmi les donneurs HSH et les autres donneurs..................................... 85

Tableau 2.4

Examen de la base de donnes incomplte................................................................ 92

Tableau 2.5

Slection des variables incluses dans les modles danalyse et dimputation ............. 94

Tableau 2.6

Rsultats compars de lanalyse univarie en analyse cas-complet et aprs imputation


multiple.................................................................................................................... 98

Tableau 2.7

Evolution des ORa en analyse multivarie en fonction du nombre de bases imputes...


................................................................................................................................ 99

Tableau 2.8

Analyse multivarie des facteurs associs une augmentation ou une diminution du


risque dinfection Campylobacter, analyse cas-complet et imputation multiple.... 100

Tableau 2.9

Rsultats compars de lanalyse multivarie, analyse cas-complet et imputation


multiple.................................................................................................................. 101

Tableau 2.10

Rsultats compars du modle danalyse multivarie final selon le modle


dimputation........................................................................................................... 103

Tableau 2.11

Distribution des nouveaux diagnostics dinfection VIH identifis par chacune des
trois sources selon lge et le pays de naissance, aprs imputation multiple............. 118

Tableau 2.12

Estimations du nombre de nouveaux diagnostics VIH par les modles log-linaires,


analyses prliminaires ............................................................................................ 119

Tableau 2.13

Estimation du nombre de nouveau diagnostics par les modles log- linaires incluant
les variables dhtrognit, analyse pas pas descendante .................................. 121

Tableau 2.14

Estimation de lexhaustivit pour chaque source selon lanne de diagnostic, le pays de


naissance et la rgion de diagnostic ........................................................................ 122

Tableau 3.1

Description des variables retenues pour lanalyse univarie .................................... 131

12

Tableau 3.2

Analyse multivarie des variables indicatrices de donnes manquantes partir des


variables retenues pour lanalyse multivarie.......................................................... 132

Tableau 3.3

Comparaison des proportions observes et imputes............................................... 135

Tableau 3.4

Analyse par rgression logistique multivarie en cas-complet et par imputation


multiple des facteurs de risques associs des complications hpatiques
graves .................................................................................................................... 137

Tableau 3.5

Rsultats compars de lanalyse multivarie, analyse cas-complet et imputation


multiple.................................................................................................................. 138

Tableau 3.6

Rgression multivarie expliquant lindicatrice de donnes manquantes de gnotype 3


partir des covariables ........................................................................................... 148

Tableau 3.7

Analyse multivarie de type cas complet, imputation multiple et analyse de .sensibilit,


pour M = 1000 bases de donnes imputes ............................................................. 156

Tableau 4.1

Description des 13 variables incompltes traites par imputation ............................ 166

Tableau 4.2

Examen du motif de rpartition des donnes manquantes........................................ 167

Tableau 4.3

Analyses multivaries des indicatrices de donnes manquantes partir des donnes


imputes au cours de la premire phase (M=5) ....................................................... 177

Tableau 4.4

Analyses multivaries des indicatrices de donnes manquantes partir des donnes


imputes au cours de la premire phase (M=3) ....................................................... 179

Tableau 4.5

Proportions observes et estimes des variables binaires......................................... 188

Tableau 4.6

Proportions observes et estimes des variables catgorielles pays de naissance et


mode de contamination........................................................................................... 192

Tableau 4.7

Proportions observes et estimes des variables catgorielles stade clinique,


motif de dpistage et type viral .............................................................................. 194

Tableau 4.8

Comparaisons numriques des donnes observes et imputes des variables


quantitatives........................................................................................................... 201

Tableau 4.9

Critres diagnostiques du nombre de bases imputes .............................................. 203

Tableau 4.10

Synthse des rsultats de la Figure 4.8.................................................................... 210

Tableau 4.11

Distribution dge pour les nouveaux diagnostics de la DO et les sources Copana et


Odysse ................................................................................................................. 216

Tableau 4.12

Distribution de la variable pays de naissance pour les nouveaux diagnostics de la DO et


les sources Copana et Odysse ............................................................................... 218

Tableau 4.13

Distribution des variables mode de contamination et stade clinique pour les nouveaux
diagnostics de la DO et les sources Copana et Odysse........................................... 220

Tableau 4.14

Distribution du taux de CD4 pour les nouveaux diagnostics de la DO et les sources


Odysse et Copana ................................................................................................. 222

13

GLOSSAIRE
AIC :

Critre dinformation dAkake (Akake Information Criterion).

ANRS :

Agence nationale de recherche sur le sida et les hpatites virales.

ARS :

Agence rgionale de sant.

B:

Variance inter-imputation (between-imputation variability).

BIC :

Critre dinformation baysien (Bayesian Information Criterion).

CNR :

Centre national de rfrence.

COPANA :

Cohorte ANRS CO9 COPANA coordonne par lInserm, dmarre en 2004 et incluant
des patients non traits par antirtroviraux pour ltude du pronostic court, moyen et
long terme des patients infects par le VIH rcemment diagnostiqus.

DOVIH :

Dclaration obligatoire de linfection VIH.

CSF :

Enqute sur le contexte de la sexualit en France, ralise en 2006 par lInserm et lIned.

DIC :

Critre dinformation baysien adapt par Draper (Draper Information Criterion).

DOVIH :

Dclaration obligatoire du VIH.

EPF :

Enqute Prinatale
CO1/CO10/CO11).

ECDC :

Centre europen pour la prvention et le contrle des maladies (European Center for
Disease Prevention and Control).

EIA-RI :

Test dinfection rcente dvelopp par le centre national de rfrence du VIH (Enzyme
Immuno Assay for Recent Infection).

FMI :

Fraction dinformation manquante (Fraction of Missing Information).

HSH :

Homme ayant des relations sexuelles avec des hommes.

InVS :

Institut de veille sanitaire.

LaboVIH :

Enqute valuant lactivit de dpistage du VIH en France auprs de lensemble des


laboratoires danalyses biologiques et mdicales.

MAR :

Manquant au hasard (Missing At Random).

MCAR :

Manquant compltement au hasard (Missing Completely At Random).

MCMC :

Algorithme de type Monte Carlo par chane de Markov (Markov chain Monte Carlo).

MNAR :

Manquant non au hasard (Missing non At Random).

Franaise,

cohorte

14

finance

par

lANRS

(ANRS-EPF

Odysse :

Enqute nationale ralise en 2006-2007, coordonne par lINSERM, avec comme


objectif destimer la prvalence de la rsistance primaire aux antirtroviraux chez des
patients chroniquement infects et nafs de traitement antirtroviral.

OMS :

Organisation mondiale de la Sant, World Health Organisation (WHO).

p:

Degr de signification (p-valeur).

PCR :

Raction en chane par polymrase (Polymerase Chain Reaction), mthode de biologie


molculaire damplification dADN in vitro.

RE :

Efficacit statistique relative (Relative Efficiency).

TME :

Transmission mre enfant.

UDI :

Usagers de drogues par voie intraveineuse.

VHB :

Virus de lHpatite B.

VHC :

Virus de lHpatite C.

VIH :

Virus de lImmunodficience Humaine.

W:

Variance intra-imputation (within-imputation variability).

15

RESUME
Le traitement des donnes manquantes est un sujet en pleine expansion en
pidmiologie. La mthode la plus souvent utilise restreint les analyses aux sujets
ayant des donnes compltes pour les variables dintrt, ce qui peut rduire la
puissance et la prcision et induire des biais dans les estimations.
Lobjectif de ce travail a t dinvestiguer et dappliquer une mthode
dimputation multiple des donnes transversales denqutes pidmiologiques et
de systmes de surveillance de maladies infectieuses. Nous avons prsent
lapplication dune mthode dimputation multiple des tudes de schmas
diffrents : une analyse de risque de transmission du VIH par transfusion, une
tude cas-tmoins sur les facteurs de risque de linfection Campylobacter et une
tude capture-recapture estimant le nombre de nouveaux diagnostics VIH chez les
enfants. A partir dune base de donnes de surveillance de lhpatite C chronique
(VHC), nous avons ralis une imputation des donnes manquantes afin
didentifier les facteurs de risque de complications hpatiques graves chez des
usagers de drogue. A partir des mmes donnes, nous avons propos des critres
dapplication dune analyse de sensibilit aux hypothses sous-jacentes
limputation multiple. Enfin, nous avons dcrit llaboration dun processus
dimputation prenne appliqu aux donnes du systme de surveillance du VIH et
son volution au cours du temps, ainsi que les procdures dvaluation et de
validation.
Les applications pratiques prsentes nous ont permis dlaborer une stratgie de
traitement des donnes manquantes, incluant lexamen approfondi de la base de
donnes incomplte, la construction du modle dimputation multiple, ainsi que
les tapes de validation des modles et de vrification des hypothses.
Mots cls :

donnes manquantes, imputation multiple, analyse de sensibilit, enqutes,


systmes de surveillance, VIH, hpatite C chronique.

16

ABSTRACT
Missing data management in epidemiology: Application of multiple imputation to
data from surveillance systems and surveys.
The management of missing values is a common and widespread problem in
epidemiology. The most common technique used restricts the data analysis to
subjects with complete information on variables of interest, which can reduce
substantially statistical power and precision and may also result in biased
estimates.
This thesis investigates the application of multiple imputation methods to manage
missing values in epidemiological studies and surveillance systems for infectious
diseases. Study designs to which multiple imputation was applied were diverse: a
risk analysis of HIV transmission through blood transfusion, a case-control study
on risk factors for Campylobacter infection, and a capture-recapture study to
estimate the number of new HIV diagnoses among children. We then performed
multiple imputation analysis on data of a surveillance system for chronic hepatitis
C (HCV) to assess risk factors of severe liver disease among HCV infected
patients who reported drug use. Within this study on HCV, we proposed
guidelines to apply a sensitivity analysis in order to test the multiple imputation
underlying hypotheses. Finally, we describe how we elaborated and applied an
ongoing multiple imputation process of the French national HIV surveillance data
base, evaluated and attempted to validate multiple imputation procedures.
Based on these practical applications, we worked out a strategy to handle missing
data in surveillance data base, including the thorough examination of the
incomplete database, the building of the imputation model, and the procedure to
validate imputation models and examine underlying multiple imputation
hypotheses.
Keywords :

missing data, multiple imputation, sensitivity analysis, surveillance systems,


surveys, HIV, chronic hepatitis C.

Lieu de prparation de cette thse :


Institut de Veille Sanitaire
Dpartement des Maladies Infectieuses
12 rue du Val dOsne - 94415 Saint Maurice

17

PRODUCTION SCIENTIFIQUE
PUBLICATIONS DANS DES REVUES INTERNATIONALES
AVEC COMITE DE LECTURE
Articles scientifiques issus du travail de thse
Articles publis
Pillonel J, Bousquet V, Pelletier B, Semaille C, Velter A, Saura C, Desenclos JC,
Danic B. Deferral from donating blood of men who have sex with men: impact on
the risk of HIV transmission by transfusion in France. Vox Sang. 2012 ;102 :1321.
Larsen C*, Bousquet V*, Delarocque-Astagneau E*, Pioche C, Roudot-Thoraval F,
Desenclos JC. Hepatitis C virus genotype 3 and the risk of severe liver disease in a
large population of drug users in France. J Med Virol. 2010;82(10):1647-54.
Gallay A, Bousquet V, Siret V, Prouzet-Maulon V, Valk H, Vaillant V, Simon F,
Le Strat Y, Mgraud F, Desenclos JC. Risk factors for acquiring sporadic
Campylobacter infection in France: results from a national case-control study. J
Infect Dis. 2008 ;15;197(10):1477-84.
Article accept sous rserve de modification mineure
Bousquet V, Lot F, Esvan M, Cazein F, Warszawski J, Laurent C, Bernillon P,
Gallay A. A three-source capture-recapture estimate of the number of new HIV
diagnoses in children in France during 2003-2006 with multiple imputation of a
variable of heterogeneous catchability. BMC Infect Dis.
Article en rvision
Bousquet V, Larsen C, Carpenter J, Desenclos JC, Le Strat Y. Practical
considerations for sensitivity analysis after multiple imputation applied to
epidemiological studies with incomplete data. BMC Med Res Methodol.
Article en prparation
Bousquet V, Le Strat Y, Cazein F, Le Vu S, Pillonel J, Semaille C, Desenclos J-C.
A two-stage multiple imputation process applied to the National HIV surveillance
in France.
* Contribution gale des 3 premiers auteurs
18

Articles scientifiques en lien avec le travail de thse


Crmieux AC, Wilson dAlmeida K, de Truchis P, Simon F, Le Strat Y, Bousquet
V, Semaille C, Le Vu S, Lert F. Undiagnosed HIV prevalence in France based on
non-targeted screening in emergency departments. Soumis.
Le Strat Y, Pillonel J, Le Vu S, Bousquet V, Semaille C, Lavalle P, Cazein F
(2011). Assessing the completeness of reporting of a notifiable disease by a
survey-based approach: illustration for the Human Immunodeficiency Virus
diagnoses in France. Soumis.
Wilson dAlmeida K, Kierzek G, de Truchis P, Le Vu S, Pateron D, Renaud B,
Semaille C, Bousquet V, Simon F, Guillemot D, Lert F, Crmieux AC.
Widespread routine HIV testing in emergency departments: is it time to shift back
to targeted screening ? Arch Intern Med. 2012;172:12-20.
Le Vu S, Le Strat Y, Barin F, Pillonel J, Cazein F, Bousquet V, Brunet S, Thierry
D, Semaille C, Meyer L, Desenclos JC. Population-based HIV-1 incidence in
France, 2003-08: a modelling analysis. Lancet Infect Dis. 2010;10(10):682-7.
Semaille C, Cazein F, Lot F, Pillonel J, Le Vu S, Le Strat Y, Bousquet V, Velter
A, Barin F. Recently acquired HIV infection in men who have sex with men
(MSM) in France, 2003-2008. Euro Surveill. 2009;14(48).

PUBLICATIONS DANS DES REVUES NATIONALES


AVEC COMITE DE LECTURE
Cazein F, Lot F, Pillonel J, Pinget R, Bousquet V, Le Strat Y, Le Vu S, Leclerc M,
Benyelles L, Haguy H, Brunet C, Thierry D, Barin F, Semaille C (2010)
Surveillance de linfection VIH-sida en France, 2009. Bulletin Epidmiologique
Hebdomadaire, n 45-46 : 467-472.
Le Vu S, Le Strat Y, Barin F, Pillonel J, Cazein F, Bousquet V, Brunet C, Thierry
D, Semaille C, Meyer L, Desenclos JC (2010) Incidence de linfection par le VIH
en France, 20032008. Bulletin Epidmiologique Hebdomadaire, n 45-46 : 473475.
Cazein F, Pillonel J, Imounga L, Le Strat Y, Bousquet V, Lot F, Leclerc M,
Benyelles L, Haguy H, Brunet S, Thierry D, Barin F, Semaille C. (2009)
Caractristiques des personnes diagnostiques avec une infection VIH ou un
sida, France, 2008. Bulletin Epidmiologique Hebdomadaire Web.
Cazein F, Pillonel J, Imounga L, Le Strat Y, Bousquet V, Lot F, Leclerc M,
Couturier S, Benyelles L, Haguy H, Semaille C. (2009) Dpistage et diagnostic
de linfection VIH et du sida, France, 2008. Bulletin Epidmiologique
Hebdomadaire Web.

19

COMMUNICATIONS ORALES DANS DES CONFERENCES


NATIONALES ET INTERNATIONALES
Bousquet V, Le Strat Y, Cazein F, Le Vu S, Pillonel J, Semaille C, Desenclos J-C.
A two-stage multiple imputation process applied to the National HIV surveillance
in France. 31th Annual Conference of the International Society for Clinical
Biostatistics, Montpellier 2010.
Bousquet V, Le Strat Y, Larsen C, Desenclos J-C. Sensitivity Analysis after
multiple imputation : application of a weighting approach to epidemiological data.
30th Annual Conference of the International Society for Clinical Biostatistics,
Prague 2009.
Bousquet V, Gallay A, Le Strat Y, Desenclos JC. Prise en compte des donnes
manquantes dans une enqute pidmiologique: Intrt de l'
imputation multiple et
application une enqute Cas-Tmoins nationale. Communication aux Journes
Scientifiques de l'
InVS, 29-30 nov 2007.

20

INTRODUCTION
1.

Contexte

Le mode de prise en compte des donnes manquantes constitue un problme rcurrent en


pidmiologie, dans le cadre des diffrents types denqutes, mais aussi, et cest un sujet plus
rarement abord, des systmes de surveillance, notamment des maladies infectieuses. Pour ces
diffrents cas de figure, le mcanisme lorigine des donnes manquantes peut varier, ce qui
conditionne la fois limpact et le mode de prise en compte de ces donnes manquantes ainsi que
la nature des biais qui peuvent en dcouler.
Si, en amont, la matrise du processus de collecte des donnes est essentielle pour limiter au
maximum limpact des donnes manquantes, des variables collectes sont parfois incompltes et
leur mode de gestion le plus courant consiste restreindre les analyses aux sujets pour lesquels
lensemble des variables est entirement renseign (analyse dite cas-complet). Cette mthode,
gnralement applique par dfaut en pidmiologie, a deux effets majeurs selon le type de
donnes considres. Lors danalyses descriptives de donnes issues denqutes ou de donnes de
surveillance, les rsultats obtenus sans tenir compte des donnes manquantes peuvent ne pas
reprsenter la situation relle. Mais limpact des donnes manquantes est plus marqu lors
danalyses tiologiques ou d'
estimations dindicateurs pidmiologiques (prvalence, incidence).
En effet, une analyse tiologique de type cas-complet, ne retenant que les individus pour lesquels
les informations sont compltes, induit (i) une perte systmatique de puissance statistique, (ii) un
risque potentiel de biais des estimations (odds ratios, risques relatifs, rapports de prvalences,
etc), et (iii) un processus de slection des variables fauss dans une analyse multivarie, au
profit des variables les mieux renseignes. De mme, l'
estimation d'
une prvalence ou dune
incidence peut tre biaise si elle est ralise partir de variables incompltes sans prise en
compte des donnes manquantes.
De nombreuses mthodes alternatives de traitement des donnes manquantes ont t proposes et
appliques en pidmiologie, et les mthodes de maximisation de la vraisemblance et
21

dimputation multiple sont les plus performantes. Pour notre travail de recherche, nous avons fait
le choix dappliquer une mthode dimputation multiple selon des critres thoriques et pratiques.
Cette mthode permet destimer les valeurs manquantes dune base de donnes partir des
valeurs observes, et de redresser les biais potentiels dus aux donnes manquantes. Issue des
travaux de Rubin et base sur les statistiques baysiennes, limputation multiple consiste
remplacer chaque donne manquante par un jeu de donnes estimes partir des donnes
observes, ce qui permet de prendre en compte lincertitude associe chaque tape du processus
dimputation. Chacune des bases compltes ainsi gnres fournit alors une estimation du
paramtre dintrt, puis un estimateur unique est obtenu en calculant la moyenne de ces
estimations.

22

2.

Objectifs de la thse

Lobjectif de ce travail est dinvestiguer et dappliquer une mthode dimputation multiple des
donnes denqutes et de surveillance dans le domaine des maladies infectieuses.
Cet objectif gnral se dcompose en objectifs plus spcifiques :
Modliser les mcanismes de donnes manquantes des variables dintrt dans le cadre
denqutes et de systmes de surveillance. Estimer les donnes manquantes par une
mthode dimputation multiple avec comme objectif un gain de puissance lors des
analyses descriptives et/ou tiologiques et lobtention destimations non-biaises.
Aborder

partir

dapplications

pratiques

varies

les

diffrentes

questions

mthodologiques souleves lors de lestimation des donnes manquantes par imputation


multiple, selon le type de donnes traites et lobjectif de ltude. Elaborer une procdure
standardise pour la mise en uvre de cette mthode dimputation multiple dans le
traitement de donnes de type transversal.
Proposer des mthodes de validation des rsultats obtenus par imputation multiple :
laborer un processus de validation interne (diagnostic interne, validation croise),
appliquer une analyse de sensibilit aprs imputation, et proposer une validation par des
donnes externes.

23

3.

Dmarche mthodologique

Limpact des donnes manquantes dans le traitement de donnes denqutes ou de surveillance


est souvent ignor, au mieux discut. Cependant, lutilisation doutils performants permettant de
grer ces donnes manquantes devient plus frquente en pidmiologie, avec une volution nette
ces dernires annes en termes de publications et de programmes ddis.
Le contexte mthodologique du traitement des donnes manquantes est expos dans le chapitre 1.
Nous prsentons tout dabord limpact des mthodes de traitement standards des bases de
donnes incompltes sur les estimations en considrant un schma dtude de type tiologique.
Puis nous dcrivons la mthode dimputation multiple retenue, en abordant ses fondements
thoriques puis le processus de mise en application pour des donnes transversales.
Le chapitre 2 reprend, pour trois tudes avec des schmas diffrents, le cheminement
mthodologique dcrit dans le chapitre 1, tout en soulevant des points spcifiques chacune des
applications de limputation multiple. Les illustrations abordent successivement une analyse de
risque de transmission du VIH par les dons de sang, une tude cas-tmoins exploratoire sur les
facteurs de risque de linfection Campylobacter, et une tude de type capture-recapture pour
lestimation du nombre de nouveaux diagnostics de linfection par le VIH chez les enfants, pour
laquelle une variable de stratification incomplte a t impute.
Dans le chapitre 3, nous prsentons une tude ralise partir dun systme de surveillance de
lhpatite C chronique. Dans un premier temps, une tude tiologique visant identifier les
facteurs de risque de complications hpatiques graves est ralise pour un sous-chantillon
dusagers de drogue, aprs imputation des donnes manquantes. Puis, dans un deuxime temps,
nous dtaillons la mise en application dune analyse de sensibilit par pondration trois facteurs
de risque identifis lors de lanalyse tiologique initiale.
Dans le chapitre 4, nous abordons une application prenne dimputation multiple lensemble du
systme de surveillance du VIH. Nous dcrivons llaboration dun modle dimputation
complexe et son volution au cours du temps, la mise en place de procdures de validation
interne ainsi quun essai de validation partir de deux sources de donnes externes.
Nous prsentons dans le chapitre 5 une synthse de ce travail et nous proposons des perspectives
de recherche.
24

CHAPITRE 1
TRAITEMENT DES DONNEES MANQUANTES EN
EPIDEMIOLOGIE : REVUE DES METHODES

1.

Origine des donnes manquantes

Malgr des collectes de donnes qui se veulent aussi performantes que possible et pour des
raisons souvent hors de tout contrle, les donnes manquantes sont frquemment rencontres en
pidmiologie. Cest le cas pour tous les types denqutes pidmiologiques : enqutes de
cohorte avec des patients perdus de vue lorigine du phnomne dattrition, enqutes castmoins et enqutes transversales avec des problmes de non-rponse aux questionnaires. Ce
phnomne est galement prgnant dans le cadre des essais cliniques avec des sorties dtude ou
des problmes de non-compliance au traitement. On observe le mme phnomne dans des
systmes de surveillance li des dfauts de dclaration ou bien des dclarations incompltes.
Les donnes manquantes peuvent dcouler soit dune non-rponse relle, soit dune rponse
inexploitable.
Dans le cas dune non-rponse relle, la non-rponse est dite totale lorsque toutes les variables
dintrt sont manquantes ou lorsque la quantit dinformation utilisable est juge insuffisante.
Cest le cas lorsquune personne refuse de rpondre une enqute dans sa globalit, ou lorsque la
variable dintrt (par exemple un test biologique) est manquante alors que les autres variables
ont t recueillies. Face une non-rponse totale, il est important de rechercher si les rpondants
et les non-rpondants diffrent selon les variables recueillies. On dispose le plus souvent de
quelques informations concernant la personne qui ne souhaite pas rpondre lenqute, soit
recueillies lors du contact en mme temps que la raison du refus, par exemple partir de la feuille
contact ou de donnes sociodmographiques rcoltes au pralable, soit provenant de bases
mdico-administratives. Nous naborderons pas dans ce travail le traitement de la non-rponse
totale, habituellement effectu au moyen dune mthode dajustement des poids de sondage.
25

Ce travail concerne le traitement de la non-rponse partielle. Les causes de non-rponse partielles


sont varies et il est important de pouvoir apprhender le mcanisme sous-jacent cette nonrponse pour permettre une prise en compte adquate des donnes manquantes [1]. La nonrponse peut ainsi tre compltement involontaire lorsque la personne enqute omet une
question ou ne sait pas comment rpondre. Cest le cas galement lorsque les conditions
dentretien sont instables et que le recueil de donnes peut tre interrompu. Il peut dagir par
exemple denqutes tlphoniques ou bien denqutes ralises auprs de populations
marginalises telles que les sans domicile fixe, les usagers de drogues ou les populations
carcrales. Un autre cas particulier de non-rponse involontaire est celui des prlvements
biologiques. Ainsi, la personne enqute peut ne pas tre prleve pour des raisons mdicales, ou
bien lanalyse biologique peut se rvler impossible car lchantillon est inutilisable, par exemple
si lchantillon est de volume insuffisant ou de mauvaise qualit.
La non-rponse peut galement dcouler dune inconsistance des rponses dans un mme
questionnaire. Il est ainsi courant davoir des rponses plus convenues sur des sujets sensibles
socialement en dbut de questionnaire. Il vaut donc mieux prvoir de situer ces questions
sensibles dans le questionnaire aprs une premire srie de questions standards. Il est galement
classique dobserver dans un mme questionnaire des contradictions videntes entre deux
rponses, comme par exemple entre une vaccination dclarative et le nombre de doses vaccinales
indiqu dans le dossier mdical. Des inconsistances peuvent galement tre releves entre les
rponses aprs recoupement entre deux sources dinformation telles que le mdecin et son
patient, ou encore entre deux sources de fichiers. Un phnomne comparable est d des
problmes de lisibilit des questionnaires (criture illisible, mauvais tat des questionnaires), tout
particulirement quand il sagit dauto-questionnaires, ainsi qu des erreurs de saisie. Les
rponses pour lesquelles une inconsistance est releve doivent faire lobjet dun recodage en
donnes manquantes.
La non-rponse peut galement dpendre dun mcanisme non-contrl lorsquelle dcoule dune
mconnaissance de la rponse. Il sagit alors dun manque dinformation si la personne enqute
ne sait pas rpondre certaines questions, ou si le mdecin ne peut renseigner une variable
lorsque linformation est manquante dans le dossier mdical. Une cause frquente de manque
dinformation dcoule de problmes de mmorisation du fait de la nature de la question ou de
lanciennet des informations. Il peut sagir par exemple de questions sur des consommations
26

alimentaires plus ou moins rcentes, sur des expositions professionnelles prcises au fil du temps,
sur un pass mdical ou sur des antcdents mdicaux familiaux. Il est alors flagrant que les
expositions marquantes vont tre mmorises de faon diffrentielle, comme par exemple pour
une maladie hrditaire grave de type diabte dans un historique mdical familial, au dtriment
de pathologies moins connues ou plus bnignes.
Les mcanismes de non-rponse voqus ont en commun le fait quils sont dus des phnomnes
involontaires, c'
est--dire quil nexiste pas de lien entre la non-rponse et le mcanisme
lorigine de cette non-rponse. Par contre, cela nest pas le cas lorsque la non-rponse dpend de
la nature des questions abordes qui peuvent tre considres par le rpondant comme trop
sensibles comme pour certaines consommations telles que la consommation dalcool ou de tabac,
certains comportements lis lhygine ou la sexualit, ainsi que certains sujets dordre mdical
ou intime. La non-rponse sera alors lie un phnomne volontaire d au rpondant et
rpercute comme un refus direct ou comme une rponse de type "ne sait pas".
Dans lidal, il faudrait tenir compte du risque de non-rponse lors du recueil de donnes en
construisant des questionnaires adapts, c'
est--dire les plus courts possible, avec une dure de
passation suffisante avant daborder les questions sensibles, ou encore de fiches de dclaration
obligatoire synthtiques et claires. Une modalit "ne sait pas" devrait tre prvue pour chaque
question afin de discriminer les vraies non-rponses. Enfin, lorsque le recueil de donnes est
termin et quaucun retour lenqut nest possible, il est important de pouvoir identifier le
mcanisme lorigine de la non-rponse, dun point de vue pidmiologique mais aussi
statistique, car le traitement des donnes manquantes reposera en partie sur la connaissance a
priori de ce mcanisme.

27

2.

Typologie des donnes manquantes


2.1.

Notations

Pour chaque individu i = 1,

, n de l'
enqute, on note Yi obs l'
ensemble des valeurs renseignes et

Yi miss l'
ensemble des valeurs manquantes. Pour chaque individu i, on peut donc constituer

l'
ensemble Yi = (Yi obs , Yi miss ) auquel on associe un vecteur, not Ri = ( Rij ; j = 1,

, k ) , compos de

variables indicatrices gales 1 si la variable nest pas renseigne pour l'


individu i et 0 sinon.
Soit X = ( X 1 ,..., X l ) un vecteur de l covariables compltes pour les mmes individus.

2.2.

Structure des donnes manquantes

La structure des donnes manquantes doit tre explore avant le traitement dune base de donnes
incomplte, car le choix de la mthode destimation des donnes manquantes en dpend [2].

Structure univarie
La structure des donnes manquantes est dite univarie lorsquune seule variable contient des
donnes manquantes comme illustr en Figure 1.1. Cest le cas le plus simple et il est rarement
observ en pratique. Nous y ferons rfrence dans une illustration simple des mcanismes de
donnes manquantes (paragraphe 2.3.3).

Structure monotone
La structure des donnes manquantes est dite monotone lorsque les variables incompltes
peuvent tre ordonnes en fonction de la proportion de donnes manquantes quelles contiennent.
Ainsi, on peut dire que les variables Y1 ,..., Yk sont ordonnes selon une structure monotone si,
pour j = 1,..., k 1 , tous les cas contenant des donnes manquantes pour Y j prsentent galement
des donnes manquantes pour Y> j (Figure 1.1).
Une structure de type monotone est observe par exemple sur des donnes dtude longitudinale
lorsquun vnement cause la sortie dtude dun sujet. On parle alors de phnomne dattrition.

28

Lorsquun sujet ne se prsente pas une visite ou quun examen mdical ne peut tre effectu, on
parle alors de structure monotone intermittente.

Structure arbitraire
La structure des donnes manquantes est dite arbitraire lorsque les variables incompltes ne
peuvent pas tre ordonnes selon leur proportion de donnes manquantes. Les donnes
manquantes suivent alors une structure non-monotone puisquelles sont rparties uniformment
dans lensemble de la base de donnes (Figure 1.1). Une structure de type arbitraire est souvent
observe en pidmiologie pour les donnes de type transversal ainsi que pour les donnes
produites par les systmes de surveillance.

Figure 1.1 Reprsentation des structures de donnes manquantes (daprs [2])


Univarie
X1

1
2
3
4
5
6
7
8
9
10

X2

Monotone

X1

X2

Y1

Y2

1
2
3
4
5
6
7
8
9
10

Non Monotone = Arbitraire


Y3

Y4

X1

1
2
3
4
5
6
7
8
9
10

Les zones blanches reprsentent les donnes manquantes.

29

X2

Y1

Y2

Y3

Y4

2.3.

Mcanismes de donnes manquantes


2.3.1. Terminologie

Lorsque lon souhaite analyser un jeu de donnes prsentant des donnes manquantes, il est
ncessaire dapprhender la loi de probabilit lorigine de ces donnes manquantes. De
manire formelle, cette loi est souvent nomme mcanisme de donnes manquantes. Ce
mcanisme est dfini indpendamment de la structure de donnes manquantes prcdemment
dcrite.
En reprenant les notations prcdentes, un mcanisme peut tre formul comme la
distribution conditionnelle de R (vecteur dindicatrices de donnes manquantes) sachant Y
(vecteur de covariables incompltes) et X (vecteur de covariables compltes), soit

P(R = 1) = f (R Y , X , ) o dsigne les paramtres du modle.


Une terminologie propose par Little & Rubin [3] permet de distinguer trois catgories de
donnes manquantes en fonction du type de relation statistique entre les donnes et le
mcanisme de donnes manquantes. Nous prsentons cette typologie dans le cas gnral, puis
nous la dveloppons partir dun exemple simple permettant de prciser des sous-catgories
de ces mcanismes, correspondant des situations concrtes en pidmiologie.

2.3.2. Typologie gnrale


Les donnes sont dites manquantes compltement au hasard, ou MCAR pour "Missing
Completely At Random", si la probabilit quune donne soit manquante est une constante :

P(R = 1) = p . Dans ce cas, cette probabilit ne dpend pas des valeurs observes ou
manquantes des autres variables. Les donnes manquantes reprsentent alors un souschantillon alatoire de lensemble des donnes.
Les donnes sont dites manquantes au hasard, ou MAR pour "Missing At Random", si la
probabilit quune donne soit manquante ne dpend que des valeurs observes des variables

(Y )
obs

et des valeurs des variables compltes

(X ) :

P (R = 1) = f R Y obs , X , . Cette

probabilit ne dpend donc pas des valeurs non-observes des variables, conditionnellement
aux valeurs observes.

30

Les donnes sont dites manquantes non au hasard, ou MNAR pour "Missing Non At
Random", si la probabilit quune donne soit manquante dpend de valeurs non-observes
des

variables,

ou

bien

de

variables

qui

nauraient

pas

recueillies :

P (R = 1) = f R Y miss , Y obs , X , . Cette probabilit peut donc dpendre des valeurs observes

( )

des variables Y obs , des valeurs des variables compltes ( X ) , mais aussi des valeurs non-

( )

observes des variables Y mis .


Cette terminologie dj ancienne est conserve telle quelle dans la littrature mais il faut noter
quelle est ambige. En effet, dans le cas de donnes manquantes au hasard (MAR), le
mcanisme est dit alatoire alors quil dpend de certaines valeurs observes. Le terme
alatoire signifie alors quune analyse correcte peut tre ralise sans quune modlisation
pralable du mcanisme de donnes manquantes soit ncessaire. Nous verrons que, pour les
analyses standards, cela nest vrai que sous certaines conditions.

2.3.3. Illustration en pidmiologie


On propose de sintresser une situation fictive o, pour chaque individu, on dispose de trois
variables binaires [1;4]: une variable dintrt qui serait le statut de la maladie (M), une
variable dexposition (E) et une variable de confusion binaire incomplte (C). On construit
une variable indicatrice de donnes manquantes (R) qui vaut 1 si la variable C nest pas
renseigne et 0 sinon.

Mcanisme MCAR
La probabilit de donnes manquantes peut scrire : P(R = 1 M = m, E = e, C = c ) = p . Cest
lhypothse la plus stricte concernant les mcanismes de donnes manquantes et elle est
rarement rencontre en pratique. Outre les cas de figures o des donnes sont manquantes de
faon non-planifie, comme par exemple si un chantillon biologique est perdu ou
inutilisable, un mcanisme MCAR est plausible lorsque les donnes manquantes sont
planifies. Ainsi, un examen complmentaire coteux peut tre effectu seulement pour un
sous-chantillon alatoire de patients, comme par exemple le gnotypage du VIH dans un
systme de surveillance du VIH, ou certains dosages biologiques tels que le dosage de
plombmie ou des dioxines, dans une enqute de terrain en sant environnementale. Ces
donnes manquantes sont alors planifies ds llaboration du protocole et lanalyse se fait en
deux temps en tenant compte de ce mode de recueil diffrentiel [1;5].
31

Mcanisme MAR
Trois scnarios sont possibles :
(1) La probabilit de donnes manquantes du facteur de confusion C ne dpend que du
statut de la maladie M : P(R = 1 M = m, E = e, C = c ) = p(m) et nous noterons alors le
mcanisme de donnes manquantes MAR(M).

Illustration pour des donnes denqutes cas-tmoins ou transversales.


Dans les tudes cas-tmoins, les donnes manquantes dpendent souvent du statut de la
maladie car les cas et les tmoins diffrent dans leur comportement ainsi que dans leur
volont de participer linvestigation et de rpondre des questions spcifiques. On sattend
ainsi ce quun cas se souvienne mieux de certaines expositions parce quil a rflchi aux
causes possibles de sa maladie. Un effet inverse est attendu pour des maladies stigmatisantes
comme le VIH o le cas peut ne pas souhaiter rpondre un questionnaire complmentaire.
Par exemple, une enqute cas-tmoins est ralise pour identifier les facteurs de risque de
survenue dune tumeur crbrale [1]. Parmi dautres facteurs de risques, le groupe sanguin des
sujets est recueilli. Pour les tmoins, seules les donnes issues du questionnaire sont
disponibles alors que, pour les cas, des informations provenant des dossiers hospitaliers
peuvent galement tre utilises. Pour la variable groupe sanguin, la proportion de donnes
manquantes est de 9% pour les cas et de 46% pour les tmoins.
A linverse, si lon considre une enqute transversale visant construire un modle prdictif
dune pathologie, par exemple un score bas sur plusieurs variables, le recueil de donnes est
forcment indpendant de la pathologie c'
est--dire de la variable expliquer puisque celle-ci
est dfinie aprs le recueil de donnes [6].

Illustrations pour des donnes de cohortes


Il faut noter que, pour les donnes de cohortes, les donnes manquantes dcoulent de
mcanismes diffrents selon que les donnes sont collectes linclusion ou au cours du
suivi. En effet, dans ce type dtude, la problmatique des donnes manquantes se pose plus
particulirement au cours du suivi des patients inclus, souvent effectu au moyen
dautoquestionnaires. Par ailleurs, le lien entre la probabilit de donnes manquantes pour
certaines variables et le statut de la maladie est li au mode de recueil des donnes de la
cohorte. En effet, dans les tudes de cohortes prospectives, on peut a priori exclure une
32

dpendance entre la probabilit de donnes manquantes et le statut de la maladie puisque


toutes les donnes sont collectes linclusion. A linverse, le recueil de donnes est souvent
diffrentiel selon le statut de la maladie pour les cohortes rtrospectives.

(2) La probabilit de donnes manquantes du facteur de confusion C dpend de


lexposition E : P(R = 1 M = m, E = e, C = c ) = p(e) et le mcanisme de donnes manquantes
est not MAR(E).
Considrons par exemple une enqute auprs de sujets exposs des radiations dans le cadre
de leur travail, et pour lesquels cette exposition est suivie grce des dosimtres individuels.
Les sujets pour lesquels une exposition aux radiations est releve ont des donnes plus
compltes pour dautres facteurs de risques tels que la consommation de tabac, car ils sont
mieux suivis mdicalement et donc davantage questionns.

(3) La probabilit de donnes manquantes du facteur de confusion C dpend de la maladie


et de lexposition : P(R = 1 M = m, E = e, C = c ) = p(e, m) et le mcanisme de donnes
manquantes est not MAR(ME).
Prenons lexemple dune enqute cas-tmoins dont lobjectif est destimer lexcs de risque
de leucmie secondaire li une chimiothrapie chez des femmes traites pour un cancer du
sein. La variable thrapie hormonale de substitution sera mieux renseigne chez les malades
mais galement chez les exposes, c'
est--dire chez les femmes traites pour un cancer du
sein. En effet, lhistorique de lexposition diffrents traitements hormonaux sera plus
particulirement explor chez ces femmes atteintes dun cancer du sein.
Ces trois mcanismes de type MAR ne sont pas quivalents lors de lanalyse dune base de
donnes incomplte. Nous verrons que le cas MAR dpendant conjointement de la maladie et
de lexposition, dnot MAR(ME), est frquemment rencontr dans les enqutes
pidmiologiques. Il peut induire des biais dans les estimations lors danalyses par les
mthodes classiques.

33

Mcanisme MNAR
Un mcanisme MNAR signifie que la probabilit de donnes manquantes pour le facteur de
confusion C dpend des valeurs non-observes de C (et ventuellement dautres variables
non-recueillies). Le mcanisme de donnes manquantes est not selon les cas de figure
MNAR(C), MNAR(EC), MNAR(MC) ou MNAR(MEC).
Par exemple, dans une base de donnes de surveillance du VIH, le mode de contamination
suppos peut tre moins bien renseign si le sujet est homosexuel ou bisexuel car il sagit
dune question sensible. Le mcanisme est alors MNAR(C).
De mme, dans une enqute transversale sur les risques de complication dune hpatite C, les
personnes ayant une consommation dalcool importante peuvent donner moins frquemment
le niveau de celle-ci. Les donnes manquantes dpendent alors de la vraie valeur, non
renseigne pour cette variable, et suivent un mcanisme de type MNAR(C). Ce mcanisme
peut tre amplifi pour les patients souffrant de complications hpatiques graves. Il dpend
alors galement de la variable dintrt et il est donc de type MNAR(MC). Il est par ailleurs
possible que des patients, soumis une autre exposition telle que la co-infection par le VIH,
aient tendance moins bien renseigner la variable consommation dalcool. On est alors dans
le cas dun mcanisme de type MAR(EC), voire MAR(MEC) si une dpendance additionnelle
avec la prsence de complications hpatiques graves est observe.
Ces mcanismes de donnes manquantes, dfinis partir de trois variables seulement,
permettent dexplorer les principaux cas de figures que lon peut rencontrer en pratique.

34

3.

Mthodes simples de traitement des donnes


manquantes
3.1. Analyse cas-complet

La mthode danalyse de bases de donnes incompltes la plus rpandue consiste restreindre


lanalyse aux individus pour lesquels lensemble des variables est entirement renseign.
Cette mthode, dite analyse cas-complet et applique par dfaut par la plupart des logiciels
danalyse statistique, a longtemps t considre comme la manire la plus "propre" de grer
les donnes manquantes. Mittienen propose ainsi de supprimer de lanalyse tous les sujets
pour lesquels des informations sont manquantes, ajoutant que cette approche est la seule qui
garantisse quaucun biais nest introduit, et ce quels que soient les mcanismes induisant les
donnes manquantes [7].
Ce sujet a t largement repris dans la littrature et il est prsent tabli que lanalyse cascomplet, puisquelle nutilise pas toutes les informations disponibles dans la base de donnes,
induit une perte de puissance et donc de prcision. Dans le cas dune analyse multivarie, ce
type danalyse peut galement fausser le processus de slection des variables puisque celui-ci
se fera au profit des variables les mieux renseignes. Enfin, puisque lanalyse cas-complet
slectionne un sous-chantillon de la base de donnes initiale qui nest gnralement pas
alatoire, elle peut induire des biais dans les estimations en fonction du mcanisme de
donnes manquantes en cause [3].
Selon la proportion et la rpartition des donnes manquantes dans la base de donnes, il est
ais de prvoir ltendue de la perte de puissance attendue pour une analyse donne. Si la
rpartition des donnes manquantes est de type alatoire, et que les variables incluses dans
une analyse multivarie sont majoritairement incompltes avec une proportion denviron 5
10% chacune, la perte deffectifs dpasse couramment 50%, et peut mme empcher la
convergence statistique du modle souhait [8;9].
Pour ce qui est des biais attendus pour les estimations en analyse multivarie, la littrature
nest pas toujours claire. Alors quil est bien tabli quune analyse cas complet ne sera pas
biaise si le mcanisme de donnes manquantes est de type MCAR, il est parfois stipul que,
si les donnes manquantes sont dues un mcanisme de type MAR, une analyse cas complet
35

sera systmatiquement biaise [10]. Mme si dans un contexte pratique cette assertion sera
souvent vrifie, il est important de la modrer en spcifiant quune analyse cas-complet sera
non-biaise pour un mcanisme MCAR, ou MAR ne dpendant pas de la variable expliquer
[11]. Il faut aussi noter que, comme le souligne Allison [12], une analyse cas-complet peut
tre valide lorsque le mcanisme de donnes manquantes est de type MNAR, alors que des
analyses plus labores telles que limputation multiple seront biaises.
En pratique, une analyse cas-complet est justifie si la proportion de cas incomplets est faible,
induisant ainsi une perte de puissance et de prcision limite. En pratique, un seuil de 5% de
donnes manquantes est souvent cit dans la littrature. Il est cependant difficile de formuler
des recommandations puisquil faut galement tenir compte du mcanisme lorigine des
donnes manquantes et du nombre dindividus dans la base de donnes.

3.2.

Analyse de tous les cas disponibles


3.2.1. Cration dune catgorie additionnelle

Une approche alternative lanalyse cas complet, souvent utilise en pidmiologie lorsque
les variables incluses dans lanalyse sont binaires ou catgorielles, consiste crer une
catgorie additionnelle en remplaant toutes les donnes manquantes par une valeur fixe.
Cette approche prsente lavantage de conserver lintgralit des effectifs. Elle est peu
discute dans la littrature, mais Vach et Blettner [1;4] ont dmontr partir dun exemple
simple quelle produit toujours des estimations biaises, et ce quelle que soit la typologie des
donnes manquantes, c'
est--dire mme lorsque les donnes sont MCAR.
Par ailleurs, dun point de vue pidmiologique, les estimations produites sont difficilement
interprtables puisque la catgorie additionnelle peut regrouper des modalits trs diffrentes
de la variable ainsi recode. Cette mthode ne peut donc tre considre comme valide que
dans des cas de figures trs particuliers tels que lutilisation des scores de dmence en
psychiatrie: les rsultats dun test sont manquants car les patients ne le comprennent pas et la
catgorie donnes manquantes est alors trs prdictive du diagnostic [13]. Cette approche
reste donc proscrire en dehors de cas trs particuliers.

36

3.2.2. Indicateur de donne manquante


Une autre mthode consiste remplacer dans le modle danalyse chaque variable incomplte
X i par une paire de variables. Il sagit dassocier une variable indicatrice de rponse Ri ,
code 1 si la valeur est manquante et 0 sinon, une variable X i* gale X i si celle-ci est
connue, et gale 0 sinon. Pour une variable continue, X i peut prendre pour valeur la
moyenne des valeurs observes. Lanalyse peut alors porter sur lintgralit de la base de
donnes en remplaant X i par le couple X i* Ri . Notons que, dans le cas dune variable
catgorielle, la mthode est identique lajout dune catgorie supplmentaire. Au final,
mme si cette mthode prsente lavantage de conserver lintgralit de la base de donnes,
elle peut induire des biais pour les estimations quel que soit le mcanisme de donnes
manquantes [11].

3.3.

Imputation simple

Limputation simple consiste remplacer chaque donne manquante par une estimation (et
une seule) de sa valeur et analyser la base de donnes ainsi complte. Dun point de vue
statistique, cette procdure de remplacement peut tre stochastique ou dterministe, selon
quelle implique ou non le tirage dun nombre alatoire.
Pour les mthodes dterministes, sous lhypothse MCAR, les valeurs manquantes peuvent
tre remplaces par la valeur moyenne des valeurs observes auprs des sujets ayant des
donnes compltes. Sous lhypothse MAR, il est frquent de remplacer les donnes
manquantes par la moyenne des valeurs observes sur les sujets ayant les mmes
caractristiques ou par la valeur prdite en fonction des covariables laide dun modle de
rgression estim sur lchantillon complet [12].
Pour la mthode stochastique la plus simple, la valeur de remplacement est issue dun tirage
alatoire partir des rponses compltes. Le choix de cette valeur peut galement tre
effectu par tirage alatoire parmi les sujets ayant la mme probabilit de non-rponse pour la
variable estimer [14;15]. Les modalits de tirage alatoire peuvent tre plus ou moins
complexes. Ainsi, des chantillonnages de type bootstrap ou jacknife sont choisis pour des
mthodes destimation conditionnelle labores [16].

37

Les mthodes dterministes produisent des estimateurs biaiss si les donnes ne sont pas
MCAR. Si le modle dimputation est correct et que les donnes sont MAR, les paramtres
estims partir des donnes compltes sont non biaiss. Cependant, ces mthodes
dimputation simple induisent systmatiquement une sous estimation de la variance car
lincertitude lie la prsence de valeurs estimes nest pas prise en compte par les logiciels
standards [17].

4.

Mthode par maximisation de la vraisemblance

La mthode par maximisation de la vraisemblance est une mthode reconnue de traitement


des donnes manquantes, considre par certains auteurs comme la mthode de rfrence dans
ce domaine [10;17]. Elle permet de dterminer les valeurs des paramtres qui donnent la
densit de probabilit la plus leve possible en fonction des donnes observes, et ce pour
une famille de modles paramtriques.

La fonction de vraisemblance et sa maximisation


Reprenons les notations prsentes dans le paragraphe 2.1.
Notons f (Yi ) la distribution de Yi . L'
objectif est d'
estimer sans biais le vecteur des
paramtres , partir des seules donnes observes. En notant le vecteur des paramtres
dcrivant le processus d'
observation, la vraisemblance des donnes observes Y obs et R
s'
crit [10;12;14] :
n

i =1

i =1

L( , Y obs , R) = f (Yi obs , Ri , ) = f (Yi obs , Yi mis , Ri , ) dYi mis


n

= f (Yi obs , Yi mis ) f Ri Yi obs , Yi mis , dYi mis


i =1

Lorsque le mcanisme de donnes manquantes est MAR, le second terme dans l'
intgrale

f Ri Yi ,obs , Yi ,mis , devient f Ri Yi ,obs , et peut donc sortir de l'


intgrale.

38

La vraisemblance scrit alors :


n

L( , Y obs , R) = f Ri Yi obs ,
n

i =1

f (Yi obs , Yi mis ) dYi mis

= f Ri Yi obs , f (Yi obs )


i =1

En supposant que et sont distincts, seules les informations compltes contribuent la


vraisemblance de puisque la contribution d'
une observation incomplte s'
obtient en faisant
la somme sur toutes les modalits possibles de Y mis .
La maximisation de ce type de fonction de vraisemblance peut s'
avrer dlicate et des
mthodes numriques adaptes sont souvent ncessaires (par exemple l'
algorithme Estimation
Maximisation).
Cette mthode fait lhypothse que les donnes sont MAR, et le calcul de la variance tient
compte de la prsence de valeurs estimes dans la base de donnes. Des procdures sont
implmentes dans certains logiciels (SAS, S-PLUS, SPSS) mais restent complexes utiliser
[12;14].

5.

Mthodes par imputation multiple

Les mthodes destimations simples prsentes prcdemment se rvlent peu efficaces, et


peuvent produire des estimations biaises. Limputation multiple, par rapport limputation
simple, consiste remplacer chaque valeur manquante par plusieurs valeurs estimes. Ces
estimations sont bases sur un modle qui permet dutiliser toute linformation disponible
dans la base de donnes, et de prserver ainsi les relations entre les variables. De plus, le fait
destimer plusieurs valeurs pour chaque donne manquante permet de prendre en compte la
variabilit autour de chaque donne impute, et dobtenir une variance correcte pour les
estimations. Limputation multiple est base sur lhypothse que les donnes sont MAR, c'
est-dire que le mcanisme de donnes manquantes ne dpend pas de donnes non-observes des
variables.

39

La mthode de maximisation de la vraisemblance est souvent compare limputation


multiple puisquelle prsente des proprits proches. Ainsi, les estimations obtenues par la
mthode de maximisation de la vraisemblance sont en thorie plus prcises que pour
limputation multiple, qui introduit une composante alatoire due la simulation. Cependant,
ce bruit rsiduel en imputation multiple tend tre ngligeable si le nombre de bases imputes
est adapt la proportion de donnes manquantes. Limputation multiple est ainsi considre
comme une bonne approximation de la mthode de maximisation de la vraisemblance [10].
Par ailleurs, la mthode de maximisation de la vraisemblance repose comme limputation
multiple sur lhypothse que les donnes sont MAR. Si le mcanisme de donnes manquantes
est de type MNAR, la maximisation de la vraisemblance prsente les mmes limites que
limputation multiple, c'
est--dire quelle peut induire des biais dans les estimations.
Cependant, puisquun mme modle doit tre spcifi pour les phases destimation et
danalyse, il est plus difficile dinclure des variables supplmentaires dans le modle afin de
mieux capturer le mcanisme de non rponse et de rendre lhypothse MAR plus plausible.
Enfin, cette mthode est dun abord plus complexe et ses proprits sont plus particulirement
intressantes dans le traitement de donnes longitudinales ou structure hirarchique
(modles multi-niveaux)[12;14;17].
Du fait des proprits statistiques de limputation multiple, nous avons fait le choix de
lappliquer dans notre travail pour traiter des bases de donnes incompltes.

5.1.

Historique

La mthode dimputation multiple a t originellement propose en 1978 par Rubin dans le


domaine des sciences sociales [3]. Par la suite, la mise en application de la mthode a t
dveloppe par Rubin, dans le contexte de bases de donnes importantes issues denqutes
complexes et destines tre exploites par de nombreux utilisateurs et pour des analyses
varies [18]. Limputation multiple est alors applique lensemble de la base de donnes
incomplte, sans tenir compte des analyses ultrieures. A lpoque, les dveloppements de
limputation multiple sont encore obscurs et son utilisation est limite des experts [19]. Les
quipes assurant les tapes dimputation multiple et danalyse de ces bases de donnes sont
donc des entits distinctes. Lobjectif est alors que les quipes dutilisateurs puissent effectuer
toutes les analyses prvues en appliquant les commandes usuelles.

40

Au cours du temps, la mise en uvre de limputation multiple est devenue plus accessible du
fait de lapparition dordinateurs performants et de programmes ddis [20]. Le champ
dapplication de limputation sest tendu dans le domaine de la sant publique, avec des
applications dimportantes bases de sant publique [21-23], mais aussi des enqutes
observationnelles [24], et de faon prcoce et labore aux essais cliniques [25]. Cependant
son utilisation dans le domaine de lpidmiologie reste encore globalement limite [26],
mme si une littrature trs rcente dtaille les aspects thoriques ainsi que la mise en
application de la mthode [27;28], ce qui prfigure une utilisation plus frquente.
Lapproche de limputation multiple a volu au cours du temps vers un mode dimputation
dit "in house", puisque cest souvent la mme quipe qui excute les processus dimputation
et danalyse des donnes. Limputation est ralise conditionnellement aux analyses
ultrieures, et les rsultats des analyses peuvent tre pris en compte pour une amlioration
ventuelle du processus dimputation. Cest dans cette optique que nous avons choisi
dappliquer la mthode dimputation multiple des donnes de surveillance et denqutes, et
nous verrons que, dans certains cas, il est impratif de tenir compte des analyses programmes
par les utilisateurs.
Dans la littrature, les livres de Little et Rubin [3] et de Schafer [29] sont les ouvrages de
rfrence, complts par le livre de Molenberghs [8] dans le domaine clinique. Par ailleurs,
des articles synthtisent lessentiel de la thorie [10;17;19;30] alors que dautres articles
privilgient une approche plus pratique [31-33]. Des articles prsentent galement des
applications de limputation multiple des donnes denqutes ou de surveillance [21;22;3437], ou dans le cadre de la construction de modles prdictifs [6;9]. Les diverses
implmentations ddies limputation multiple sont dtailles par Horton et al. [38;39] et
des informations compltes et accessibles sont disponibles sur des sites internet
(www.missingdata.org.uk de Carpenter et Kenward ; www.multiple-imputation.com de Van
Buuren).

41

5.2.

Bases thoriques

Nous dtaillons dans cette partie les fondements statistiques des tapes dimputation et
danalyse, sachant que la mise en pratique du processus complet dimputation multiple sera
prsente dans le paragraphe 5.3.

5.2.1. Principe
Le principe gnral de limputation multiple consiste remplacer chaque valeur manquante
par un ensemble de M valeurs plausibles, de faon prendre en compte lincertitude lie au
processus destimation des valeurs manquantes [3].
Limputation multiple se dcompose en trois phases (Figure 1.2) :

Phase dimputation
Les donnes manquantes sont estimes M fois partir dun modle spcifique pour obtenir M
bases de donnes compltes et potentiellement diffrentes.

Phase danalyse spare


Lanalyse retenue est ralise sparment sur chacune des m = 1,..., M bases de donnes
imputes pour obtenir M estimations (valeur centrale et variance).

Phase danalyse combine


Les rsultats obtenus partir des M analyses sont combins selon des rgles tablies par
Rubin pour obtenir une seule estimation finale.

42

Figure 1.2 Reprsentation graphique des tapes de limputation multiple


base 1

1
1

base 2

2
2

base 3

3
3

base 4

4
4

base 5

5
5

Analyses spares
Phase dimputation

= moyenne( i)
= intrabase
+ interbase

Analyse conjointe

Phase danalyse

Alors que ltape danalyse de multiples bases de donnes est simple pour la plupart des
estimations, la phase dimputation constitue une tape complexe, dont dpend la validit des
estimations finales.

5.2.2. Phase dimputation


La construction du modle dimputation est une tape cruciale incluant la slection des
variables prdictrices, la spcification du type du modle et le choix du nombre M de bases
imputer.
A partir du cadre thorique gnral propos par Rubin, diffrentes mthodes ont t labores
et implmentes dans diffrents logiciels. Leurs particularits thoriques sont prsentes,
accompagnes dun exemple illustratif de la mthode retenue dans la suite de ce travail.

Cas gnral algorithme de Rubin


Si les donnes sont dsignes par une matrice Y, comprenant une partie observe Y obs et une
partie manquante Y miss , Y est distribue selon la fonction f (Y ) , o dsigne lensemble
des paramtres du modle.
43

Sous lhypothse que les donnes sont manquantes au hasard, la distribution prdictive

f Y miss Y obs sexprime comme :

f Y miss Y obs =
=

(
f (Y

)
, ) f ( Y ) d

f Y miss , Y obs d
miss

Y obs

obs

Les donnes manquantes sont imputes en deux tapes. (i) Une valeur est estime pour les

paramtres daprs leur distribution a posteriori observe sur les donnes f Y obs . Les
tirages dans les distributions de probabilit a posteriori sont raliss partir dun algorithme
de type Monte Carlo par chane de Markov (MCMC). Cette premire tape permet dobtenir
une variabilit dans les paramtres. (ii) Les donnes manquantes sont estimes daprs leur

distribution conditionnelle a posteriori f Y miss Y obs , en utilisant la valeur de gnre la


premire tape.

Modle multivari normal et modle par quations chaines


A partir de lalgorithme originel de Rubin, deux adaptations principales ont t labores
[20]. Il sagit de limputation multiple base sur une distribution multivarie normale
(Multivariate Normal Imputation, MVNI) originellement implmente par Schafer [17] et de
la mthode dimputation multiple par quations chanes (Multiple Imputation by Chained
Equations, MICE), dcrite par Van Buuren sous le terme de Regression Switching et plus
rcemment dnomme Fully Conditional Specification (FCS), et implmente de faon
indpendante par Van Buuren et al. [2], Raghunatan et al. [10], et Royston [40].
Le modle multivari normal est directement driv de lalgorithme de Rubin. Il est donc bas
sur lhypothse que toutes les variables incluses dans le modle dimputation suivent une
distribution multivarie jointe. Cette hypothse nest pas toujours vrifie, en particulier
lorsque le modle inclut des variables binaires et catgorielles. Cependant, Schafer [29]
suggre que les estimations obtenues partir dun modle multivari normal peuvent souvent
tre considres comme valides, mme si lhypothse de distribution multivarie normale
nest pas plausible. De ce fait, cette mthode a t largement utilise, et est implmente dans
un logiciel gratuit (NORM), ainsi que dans une procdure SAS (MI et MIANALYZE) et
STATA (version 11, MI IMPUTE) [39].

44

Limputation par quations chanes est une mthode plus flexible puisquelle ne fait pas
lhypothse dune distribution multivarie normale. En effet, une distribution est spcifie
pour chaque variable incomplte conditionnellement toutes les autres variables incluses
dans le modle dimputation. Concrtement, cette mthode permet de ramener un problme
multivari de dimension k en k problmes univaris successifs conditionnant chaque pas une
variable impute sur les valeurs observes et sur les valeurs les plus rcentes gnres des
autres variables [41].
Le tirage dans les distributions conditionnelles seffectue avec un algorithme spcifique
driv des chanes de Markov (lchantillonneur de Gibbs), dont le principe est dtaill dans
le paragraphe suivant. Le nombre ditrations ncessaire la convergence est faible, entre 5 et
20 dans la plupart des applications selon la taille du jeu de donnes et la proportion de cas
incomplets, puisque la convergence se fait vers une distribution estime et non une
distribution exacte [41].
Cette approche est particulirement flexible puisquune fonction de lien ainsi quun ensemble
de variables prdictrices peuvent tre spcifis pour chaque variable incomplte, par exemple
une rgression logistique pour une variable binaire ou une rgression multinomiale pour une
variable catgorielle. Lhypothse de normalit nest ainsi plus requise que pour les variables
continues.
Une limite thorique de cette mthode est due au fait que les distributions conditionnelles
pourraient ne pas tre compatibles avec la distribution jointe, ce qui causerait des problmes
de convergence du modle dimputation. Les rpercussions pratiques ne sont cependant pas
documentes dans la littrature [2;42], et quelques tudes de simulation de cas thoriques,
montrant des distributions conditionnelles non compatibles avec la distribution jointe, tendent
montrer que les estimations sont non-biaises [41;43].
Cette approche a dabord t implmente en tant que programme additionnel (ado) sous
STATA (ICE), mais elle est prsent disponible comme fonction de base dans la version 12
de STATA. Elle est galement disponible comme un ensemble de routines pouvant tre
appel partir de SAS (IVEware) et sous R (librairie MICE). Son utilisation est en
progression constante [39].
Les rsultats obtenus en appliquant ces deux mthodes sont variables selon les tudes. Ainsi,
Faris et al. [35], Yu et al. [44] et Van Buuren et al. [43] concluent partir dtudes par
45

simulation que la mthode par quations chanes donne des rsultats plus fiables que
lapproche multivarie normale en termes de biais et de couverture de lintervalle de
confiance. Dans une tude rcente, Lee et al. [45] comparent les performances des deux
mthodes partir de donnes simules de diffrents types, et montrent quelles constituent
toutes les deux une approche valide. Ils concluent que, mme si lapproche par quations
chanes se distingue par sa flexibilit et sa capacit grer les donnes discrtes, la mthode
multivarie normale produit galement des estimations valides quel que soit le type de
donnes.
Un avantage majeur de limputation par quations chanes rside cependant dans la gestion
adquate des variables discrtes, ainsi que dans la possibilit de spcifier un jeu de prdicteurs
pour chaque variable, permettant dinclure des liens complexes entre les variables. En relation
avec le type de donnes que nous avons t amens traiter, savoir des donnes
essentiellement discrtes, nous avons fait le choix dappliquer la mthode dimputation
multiple par quations chanes. Un exemple dimputation complexe prsent dans ce travail
et ralis partir de la base de donnes de surveillance du VIH illustre bien les avantages lis
la flexibilit de cette approche (chapitre 4).

Echantillonneur de Gibbs (daprs [3])


Rappel sur les distributions de probabilit
On note P( X ) la densit de probabilit de X qui est gale la probabilit que X prenne la
valeur x : P( X ) = P( X = x ).
Si

suit

une

loi

normale

de

moyenne

1
(x ) .
P( X ) = P( X = x ) =
exp
2 2
2
2

46

et

de

variance

alors

Figure 1.3 Densits de probabilit de distributions normales

On note F ( X ) la fonction de rpartition de X gale la densit de probabilit cumule :

F ( X ) = P( X x ) . Si X ~ N ( ; 2 ) , alors la fonction de rpartition peut tre reprsente


comme suit.

Figure 1.4 Fonctions de rpartition de distributions normales

On tire une valeur dans la distribution de X en utilisant sa fonction de rpartition. On tire un


nombre alatoire u entre 0 et 1 et on obtient la valeur x qui correspond ce nombre alatoire :
x = F 1 (u ).
On note P( X 1 , X 2 ) la densit de probabilit du couple ( X 1 , X 2 ) gale la probabilit que X 1
prenne la valeur x1 et que X 2 prenne la valeur x2 : P( X 1 , X 2 ) = P( X 1 = x1 , X 2 = x2 ).

Exemple : X 1 ~ N 1 ; 12 et X 2 ~ N 2 ; 22

)
47

Figure 1.5 Distributions marginales et jointes de X1 et X2


Distributions marginales

P( X 1 )

Distribution jointe

P( X 2 )

P( X 1 , X 2 )

X2

X1

X1

X2

La distribution de X 1 conditionnellement X 2 scrit P( X 1 X 2 ) et la distribution de X 2


conditionnellement X 1 scrit P( X 2 X 1 ) .
Ces deux distributions conditionnelles sexpriment en fonction de la distribution jointe et des
distributions marginales par la relation de Bayes :
P(X 1 X 2 ) =

P( X 1 , X 2 )
P( X 1 , X 2 )
et P ( X 2 X 1 ) =
.
P( X 2 )
P( X 1 )

La figure 1.6 illustre des distributions conditionnelles P( X 1 X 2 ) pour diffrentes valeurs de

X2.

48

Figure 1.6 Exemples de distributions conditionnelles

P( X 1 X 2 = 3.02 )

P( X 1 X 2 = 1.08)

P( X 1 X 2 = 0.21)

Tirages avec lchantillonneur de Gibbs


Soit un ensemble de p variables alatoires X 1 ,..., X p . On souhaite tirer alatoirement un
ensemble de valeurs dans la distribution jointe de ces p variables alatoires, note

P (X 1 ,..., X p ). Il est cependant trs difficile de tirer ces valeurs directement partir de la

distribution jointe. Une solution est dutiliser lchantillonneur de Gibbs. Celui-ci gnre des
valeurs issues de la distribution jointe, mais uniquement partir des distributions
conditionnelles :

P x j x1 ,..., x j 1 , x j +1 ,..., x p pour tout j = 1,..., p.

49

Lalgorithme de lchantillonneur de Gibbs se dcompose en trois tapes.


Etape 1 : Des valeurs initiales x1(0 ) ,..., x (p0 ) sont choisies dune certaine manire et on initialise
t = 0.

Etape 2 : On tire les valeurs selon les distributions conditionnelles de la manire suivante :

x1(t +1) ~ p x1 x2(t ) , x3(t ) ,...., x (pt )

(
)
~ p (x

x2(t +1) ~ p x2 x1(t +1) , x3(t ) ,...., x (pt )


x3(t +1
.

x1(t +1) , x2(t +1) , x4(t ) ,...., x (pt )

x (pt +1) ~ p x p x1(t +1) , x2(t +1) ,...., x (pt+11)

Etape 3 : On incrmente t et on retourne ltape 2.


Etape 1
x1(0 )
x2(0 )

Cycle 1

x1(1)
x2(1)

Cycle 2

Cycle k

x1(2 )
...
...
x2(2 )

x1(k )
x2(k )

.
(0 )

xp

.
(1)

xp

...
xp

(2 )

Le vecteur des valeurs tires au sort

x (pk )

(x ( ) , x( ) ,..., x ( ) ),
k

k
2

k
p

qui est issu de distributions

conditionnelles successives, sapparente, sous des conditions trs gnrales et pour un nombre
k de cycles suffisamment grand, un vecteur de valeurs qui aurait t tir de la distribution

jointe de (X 1 , X 2 ,... X p ) que lon na pas eu dterminer [46].

50

Illustration 1 :
On se place dans le cas o lon ne dispose que de deux variables X 1 et X 2 . La variable X 1 a
des donnes manquantes et la variable X 2 est complte.
X1
1
0
1
0
0
1
.
.
.

X2
18
24
33
67
49
43
26
61
45

Notons quil ny a pas ici de notion de variable explicative et de variable expliquer. Toutes
les variables du modle dimputation sont alternativement des variables explicatives et des
variables expliquer, au sens statistique.

( )

Etape 1 : On remplace les donnes manquantes de X 1 par des valeurs initiales x1(0 ) . Cellesci peuvent tre tires de la distribution des valeurs observes.

X1
1
0
1
0
0
1
.
.
.

X2
18
24
33
67
49
43
26
61
45

X1
1
0
1
0
0
1
0
1
0

51

X2
18
24
33
67
49
43
26
61
45

Etape 2 : On spcifie la distribution de X 1 conditionnellement X 2 . Dans notre cas, X 1 est


une variable binaire et on suppose que :

P xi1 xi 2,

exp( xi 2 )
=
1 + exp( xi 2 )

xi 1

1 exp( xi 2 )

1 + exp(xi 2 )

1 xi 1

Cette spcification entrane le choix dun modle dimputation, qui est un modle de
rgression incluant des variables explicatives, ainsi que de la fonction de lien entre la variable
qui prsente des donnes manquantes et ces variables explicatives. Puisque la variable est
binaire, le lien est une fonction logit.
Le paramtre et sa variance sont estims en maximisant une fonction de vraisemblance.

On obtient une estimation du coefficient

= 0 . 0138385 et de sa variance

()

V = 0.0428534 2 .
On tire une nouvelle valeur * partir de la distribution suppose normale de ,

()

N = 0.0138385, V = 0.0428534 2 .

52

On impute les valeurs manquantes. Pour chaque individu i pour lequel la variable X 1 est
manquante :

exp xi *
On calcule sa probabilit dtre X 1 = 1 : wi =
1 + exp xi *

On tire un nombre alatoire entre 0 et 1 : ui ~ unif (0.1) . Si ui > wi on impute X i1 = 0 ,


sinon on impute X i1 = 1 .

X1
1
0
1
0
0
1
0
1
0

X2
18
24
33
67
49
43
26
61
45

0.667 0.876
0.836 0.658
0.769 0.036

X1
1
0
1
0
0
1
0
1
1

X2
18
24
33
67
49
43
26
61
45

Variante (1) Bootstrap (non paramtrique)


Au lieu de tirer une valeur * dans la distribution de en faisant lhypothse que cette
distribution est normale, on peut introduire de lincertitude, non pas au niveau du paramtre
mais au niveau des donnes elles-mmes. Pour cela, on tire au sort avec remise un chantillon
dindividus (chantillon bootstrap) et on estime partir de ce jeu de donnes. Le principal
intrt est de ne pas avoir faire lhypothse dune distribution normale pour .

Variante (2) Prdiction matching


Au lieu de calculer les quantits wi et ui pour les individus ayant des donnes manquantes et
de les comparer ensuite pour imputer les valeurs, on calcule wi pour tous les individus. Pour
chaque individu ayant une donne manquante, on cherche lindividu nayant pas de donne
manquante avec un wi le plus proche du sien. On lui attribue alors la valeur correspondante.

53

Illustration 2 :
On se place dans le cas o lon ne dispose que de deux variables X 1 et X 2 , toutes deux
incompltes.

Etape 1 : On remplace les donnes manquantes de X 1 et X 2 par des valeurs initiales

(x ( ) , x ( ) ). Celles-ci peuvent tre tires dans chacune des distributions des donnes observes.
1

0
2

X1
1
0
1
0
0
1
.
.
.

X2
18
24
33
.
.
43
.
61
45

X1
1
0
1
0
0
1
0
1
0

X2
18
24
33
45
38
43
29
61
45

Etape 2 : On entre dans le cycle 1 de lchantillonneur de Gibbs. On impute les donnes

manquantes de X 1 comme prcis prcdemment : x1(1) ~ p x1 x2(0 ) . Puis on impute les


donnes manquantes de X 2 en utilisant les valeurs que lon vient dimputer X 1 :

x2(1) ~ p x2 x1(1) . Le cycle 1 est achev.

Cycle 1
X1
1
0
1
0
0
1
0
1
1

X2
18
24
33
45
38
43
29
61
45

X1
1
0
1
0
0
1
0
1
0

54

X2
18
24
33
43
36
43
25
61
45

On rentre ensuite dans le cycle 2 de lchantillonneur de Gibbs. On impute les donnes

manquantes de X 1 : x1(2 ) ~ p x1 x2(1) . Puis on impute les donnes manquantes de X 2 en

utilisant les valeurs que lon vient dimputer X 2 : x2(1) ~ p x2 x1(2 ) . Le cycle 2 est achev.

Cycle 1
X1
1
0
1
0
0
1
.
.
.

X2
18
24
33
67
49
43
26
61
45

X1
1
0
1
0
0
1
0
1
1

X2
18
24
33
45
38
43
29
61
45

Cycle2

X1
1
0
1
0
0
1
0
1
0

X2
18
24
33
43
36
43
25
61
45

X1
1
0
1
0
0
1
0
0
1

X2
18
24
33
43
36
43
25
61
45

X1
1
0
1
0
0
1
0
0
1

X2
18
24
33
42
35
43
26
61
45

On recommence ce processus jusqu ce que les valeurs imputes ne varient plus dun cycle
lautre. On a alors atteint la convergence de lchantillonneur.
On retient les valeurs obtenues au dernier cycle et lensemble de ces valeurs vont former une
base de donnes complte. En pratique, le nombre de cycles est fix par lutilisateur, en
gnral 10 cycles. Le processus complet est rpt M fois pour obtenir M bases de donnes
compltes.

5.2.3. Phase danalyse


La sparation de la phase dimputation et danalyse reprsente un des avantages majeurs de la
mthode dimputation multiple. En effet, une quipe peut ainsi raliser limputation et livrer
une base de donnes complte qui pourra ensuite tre analyse selon les procdures classiques
par des utilisateurs varis, portant sur lensemble de la base de donnes ou sur des sousparties. Cest dans cette optique que Rubin avait envisag lorigine le processus
dimputation multiple.
Les rsultats des analyses individuelles portant sur chacune des M bases de donnes sont
ensuite combins selon des rgles dictes par Rubin [3] et prsentes ici pour un seul
paramtre dintrt.

55

Soit Q le paramtre estimer (proportion, moyenne, coefficient de rgression) et U sa


variance. Limputation de M bases de donnes conduit M estimations de Q et U , notes

Q m et U m pour m = 1,..., M .
Lestimateur combin Q * est la moyenne des Q m pour les M imputations :
1
Q * =
M

M
m =1

Q m

La variance combine U * se dcompose en deux parties.


La variance intra-imputation U rend compte des variances de chacun des Q m . Elle est
estime par la moyenne des M variances :
U =

1
M

M
m =1

U m

La variance inter-imputation B rend compte de la variance de chacun des Q m par rapport


lestimateur combin. Elle correspond la variance des moyennes a posteriori des Q m :

1 M
B=
Qm Q *
M 1 m=1

La variance totale ou combine U * est la somme pondre de la variance intra-imputation et


de la variance inter-imputation :
1
U * = U + 1 +
B
M
Une approximation de Student est utilise pour les tests et le calcul des intervalles de
confiance :

(Q

U * ~ t ,

avec

le

nombre

U
= (M 1) 1 +
.
(1 + 1 M )B

56

de

degrs

de

libert

gal

Les phases dimputation et danalyse sont ralises par le biais de procdures ddies, et
seffectuent de faon automatise. Lors de la phase dimputation, il est seulement ncessaire
de choisir certains paramtres comme le nombre de cycles de lchantillonneur et le nombre
de bases imputer, ainsi que certaines options spcifiques de la mthode. La phase danalyse
est encore plus aise, puisque les rsultats combins sont obtenus directement avec les
commandes classiques prcdes de commandes propres limputation multiple, sachant que
les rsultats des analyses intermdiaires napparaissent pas.
Du fait de la simplification des procdures implmentes sous les diffrents logiciels,
limputation multiple apparat dune application abordable. Cependant, mme si certains cas
simples ne requirent pas dexpertise particulire, limputation multiple ncessite une mise en
uvre mthodique et rigoureuse, aussi bien pour la construction du modle dimputation que
pour linterprtation des rsultats et la vrification des hypothses. Cest ce processus que
nous allons maintenant dtailler.

5.3.

Etapes pratiques de la mise en application

En gnralisant le cas prsent prcdemment (paragraphe 2.3.3), on considre le cas dune


imputation ralise en vue dune analyse tiologique expliquant une variable complte
reprsentant la maladie et note M partir de plusieurs variables dexposition incompltes
Ei .

5.3.1. Etape 1 : Examen et analyse de la base


de donnes incomplte
Examen prliminaire de la base de donnes
Dans un premier temps, cet examen consiste quantifier le nombre de variables incompltes
ainsi que la proportion de donnes manquantes de chaque variable. Cette tape simple permet
de slectionner les variables qui peuvent tre retenues pour un processus dimputation, soit
parce quelles seront incluses dans les analyses ultrieures, soit parce quelles ont des
capacits prdictrices pour les variables incompltes.

57

Selon la taille de la base de donnes dorigine, il est parfois intressant de constituer une base
restreinte limite ces variables, en restreignant la proportion de donnes manquantes
maximale environ 30%. Ce chiffre est cit titre dexemple car il nexiste pas de limite
thorique la proportion de donnes manquantes que lon peut traiter par imputation multiple
[47;48]. Cette limite peut tre fixe de faon empirique en fonction du nombre de variables
incompltes mais aussi selon la proportion dinformation annexe disponible dans la base de
donnes. Des outils diagnostiques appliqus aprs imputation permettent de valider ce choix.
Il est informatif ce stade didentifier la typologie des donnes manquantes afin de dcrire le
motif et le mcanisme des donnes manquantes. Des commandes spcifiques permettent de
visualiser le motif de rpartition des donnes manquantes de toutes les variables ainsi que
dvaluer la perte deffectifs attendue lors dune analyse cas complet. Afin didentifier le
mcanisme de donnes manquantes, on associe chaque variable dexposition incomplte Ei
une indicatrice de donnes manquantes Ri binaire (code 1 si Ei nest pas renseigne et 0
sinon). On croise chaque indicatrice Ri avec, dune part la variable expliquer M , dautre
part chacune des variables dexposition Ei (Figure 1.7). Le lien statistique recherch est un
test du Chi2 significatif (p 0.05) pour des variables binaires ou catgorielles, ou bien un
coefficient de corrlation suprieur 0.15 pour des variables continues [42]. Cet examen
univari simple permet de proposer une premire synthse des mcanismes de donnes
manquantes observs. Un examen multivari peut galement tre ralis.
Cette analyse permet gnralement dexclure un mcanisme MCAR pour une variable donne
si au moins un des croisements avec la variable expliquer (maladie) ou une des variables
explicatives (expositions) est significatif. Le mcanisme de donnes manquantes nest alors
pas compltement alatoire car il dpend au moins dune autre variable de la base de donnes.
Par ailleurs, cet examen permet didentifier pour chaque variable un mcanisme de type
MAR(M), MAR(E) ou MAR(ME), c'
est--dire dpendant seulement de la maladie, seulement
dune ou plusieurs variables dexposition, ou conjointement des deux.

58

Figure 1.7 Reprsentation graphique du processus didentification du mcanisme


de donnes manquantes

Ri : indicatrices de donnes manquantes


M : maladie
Ei : exposition

Liens Ri M ?
(Chi2 p 0.05 ou cor>0.15)

Liens Ri Ei ?
(Chi2 p 0.05 ou cor>0.15)

Mcanisme dpend ou non de M

Mcanisme dpend ou non de Ei

Mcanisme MCAR, MAR(M),


MAR(E), MAR(ME) ou MNAR

A partir des rsultats de cet examen prsents dans le Tableau 1.1, il est possible de dgager
un mcanisme de donnes manquantes global, c'
est--dire danticiper le risque de biais en
analyse cas-complet si un mcanisme de type MAR(ME) est identifi. Il faut noter que lon ne
peut exclure un mcanisme de type MNAR si des liens existent entre des indicatrices de
donnes manquantes et des variables incompltes, car le mcanisme de donnes manquantes
peut aussi dpendre des valeurs non-observes de ces variables.
A la suite de cet examen statistique des mcanismes de donnes manquantes, il est important
de proposer des hypothses pidmiologiques pour ces mcanismes, tout particulirement
lorsquun mcanisme de type MNAR est envisag.

59

Tableau 1.1

Exemples de mcanismes de donnes manquantes avec une variable


expliquer (M) et 4 variables dexpositions (Ei)
R1

R2

R3

R4

E1

E2

E3
E4
Mcanisme

MCAR

MAR(E)

MAR(M)

MAR(ME)

R1 est la variable indicatrice de donnes manquantes de E1, R2 de E2 etc.


La zone en gris clair reprsente les croisements entre les indicatrices de donnes manquantes et la variable
expliquer, et les zones en gris fonc les intersections entre chaque variable dexposition et son indicatrice de
donnes manquantes.
X reprsente une liaison significative entre les variables dfinie comme (i) un coefficient de corrlation >0.15 ou
un test du Chi2 significatif (p 0.05) en analyse univarie, ou (ii) un test de Wald significatif (p 0.05) en analyse
multivarie.

Analyse Cas Complet


Une analyse cas complet approfondie doit tre ralise lors de cette phase prliminaire. On
effectue tout dabord une analyse univarie afin de slectionner les variables qui seront
retenues pour les analyses multivaries cas-complet et imputation multiple, et didentifier les
termes dinteraction potentiels entre les variables. Puis, lanalyse multivarie permet dune
part de mesurer limpact des donnes manquantes sur le processus de slection des variables,
et dautre part dobtenir des estimations qui pourront tre compares avec les rsultats
obtenus aprs imputation multiple. Lanalyse cas-complet est donc une tape indispensable
car elle permet dapprhender les relations entre les variables, relations qui seront prises en
compte lors du processus dimputation.

5.3.2. Etape 2 : Construction du modle dimputation


Slection des variables prdictrices
La spcificit de la mthode dimputation par quations chanes est de permettre
llaboration dun modle dimputation conditionnelle pour chaque variable incomplte.
Ainsi, une fonction de lien et un ensemble de variables prdictrices sont spcifis pour chaque
variable. La slection des variables prdictrices, automatise pour certaines implmentations
(IVEware, MICE), peut galement tre ralise manuellement en suivant des critres de
slection simples.
60

Rubin [3] propose dinclure le plus de variables explicatives possible, tout en construisant un
modle dimputation de faon raisonne, c'
est--dire en respectant les relations entre les
variables. Selon lui, il est en principe plus dangereux domettre des variables explicatives que
den inclure trop dans le modle dimputation. Rubin fait alors rfrence un type particulier
dimputation qui consiste estimer les donnes manquantes dans des bases de donnes
importantes, et ceci sans tenir compte des analyses qui seront ralises par la suite sur des
sous-parties des bases compltes.
Meng [49] prcise la mthode de slection des variables en introduisant la notion
dhomognit entre la procdure dimputation et les analyses ultrieures. Ainsi, il montre
quil est ncessaire dinclure au minimum dans le modle dimputation toutes les variables
retenues pour les analyses ultrieures, sous peine dintroduire des biais. Concrtement, si on
ralise une analyse tiologique partir dune base de donnes incomplte, on doit inclure
dans le modle dimputation les covariables retenues au terme de lanalyse univarie cascomplet ainsi que la variable expliquer.
Bien que cette dmarche ne paraisse pas intuitive, il est ncessaire dinclure la variable
expliquer dans le modle dimputation afin de reproduire le niveau de lien entre les valeurs
observes de la variable expliquer et les valeurs imputes des covariables incompltes, tel
quil existe pour les autres donnes observes de la base [50;51;52]. Si la variable expliquer
nest pas retenue, le niveau de lien entre la variable expliquer et les covariables sera sousestim lors de limputation, ce qui faussera lanalyse tiologique ultrieure [20]. Ces
variables, retenues systmatiquement pour limputation, sont dnommes variables
principales. Elle composent le modle dimputation le plus rduit.
Cependant, suivant les indications princeps de Rubin [30], Van Buuren [42] propose une
stratgie de construction du modle dimputation consistant slectionner le plus de variables
prdictrices possible, dans la mesure o elles contiennent des informations sur le mcanisme
de donnes manquantes des variables incompltes. Il faut donc retenir dune part les variables
lies aux variables imputer, et dautre part les variables lies au mcanisme de donnes
manquantes des variables imputer. Ces variables additionnelles, dites variables auxiliaires
[14], permettent damliorer les capacits prdictrices du modle dimputation [53], mme
lorsquelles ne sont pas retenues dans les analyses ultrieures des donnes imputes. Le
modle dimputation est alors plus gnral que le modle danalyse. Il est conseill de retenir

61

un total de 15 25 variables prdictrices [42], mais nous verrons quen pratique il est peu
courant de pouvoir slectionner plus de 15 variables.
Lajout de variables auxiliaires permet de capturer au mieux le mcanisme de donnes
manquantes et ainsi de rendre lhypothse MAR plus plausible, puisque la modlisation des
variables incompltes dpend davantage de valeurs observes et donc dans une moindre
mesure de valeurs non-observes [10;14]. Van Buuren [42] a ainsi dmontr dans une tude
par simulation que limputation de donnes manquantes selon un mcanisme MNAR tait
nettement amliore par lajout de variables auxiliaires, c'
est--dire que les estimateurs taient
moins biaiss par rapport la vraie valeur que lors dune imputation ralise partir dun
modle plus rduit.
En pratique, la slection des variables seffectue en deux temps. Tout dabord, on retient les
variables slectionnes pour les analyses ultrieures, les variables principales, puis on
identifie les variables auxiliaires en croisant les indicatrices de donnes manquantes des
variables incompltes avec les variables disponibles dans la base de donnes.
La slection des variables prdictrices, principales et auxiliaires, est prsente par Van Buuren
[42] comme une recherche de corrlations entre les variables deux deux, aussi bien pour les
liens entre variables incompltes, quentre indicatrices de donnes manquantes et variables
incompltes ou/et compltes. Il est cependant informatif de tenir compte dans cette slection
de lajustement sur les autres variables, c'
est--dire de se placer dans un cas multivari. On
slectionne ainsi les variables prdictrices par rgression de chaque indicatrice de donnes
manquantes et de chaque variable imputer sur lensemble des variables de la base de
donnes [41]. Cependant, si cette stratgie permet de prendre en compte les relations entre les
donnes utilises lors du processus dimputation, ces analyses multivaries sont ralises en
cas-complet et peuvent donc tre affectes par une perte de puissance ainsi que par un biais de
slection du fait des donnes manquantes.
Il a donc t propos par Wood et al.[54] et plus rcemment par White et al. [28] deffectuer
cette slection partir des donnes imputes. Cette approche, qui peut paratre circulaire, a t
retenue dans notre travail essentiellement comme un procd de validation du jeu de variables
prdictrices retenues. En effet, sachant quune imputation multiple valide doit prserver les
relations entre les variables, il parait cohrent dexaminer les liens entre les variables partir
des donnes imputes puisquils doivent reflter les liens initiaux entre les variables
incompltes.
62

Notre approche a consist construire un modle multivari expliquant chaque indicatrice de


donnes manquantes partir des covariables (variables explicatives et variable expliquer),
puis appliquer pour chaque modle une stratgie de slection pas pas descendante portant
sur lensemble des bases imputes, par le biais des commandes propres limputation. Les
rsultats obtenus sont utiliss pour valider la slection ralise en analyse cas-complet
univarie. Les applications pratiques prsentes dans ce rapport montrent que le processus
multivari est plus slectif que le processus univari, et nous avons fait le choix de privilgier
le modle dimputation le plus complet, tout en testant des modles plus parcimonieux.

Type des variables incompltes


Une fonction de lien est spcifie pour chaque variable selon son type. Les variables sont
imputes par rgression logistique pour les variables binaires, rgression multivarie pour les
variables nominales ou ordinales et rgression linaire pour les variables continues.
Les variables catgorielles sont bien prises en compte par la mthode dimputation par
quations chanes. Il a t dmontr que la mthode dimputation multivarie normale, en
traitant les variables catgorielles comme des variables continues, peut induire des biais dans
les estimations [55]. A linverse, la mthode par quations chanes permet de spcifier une
fonction de lien multinomiale pour les variables catgorielles. Ainsi, chaque variable
catgorielle est dcompose en un jeu de variables indicatrices binaires qui sont utilises pour
lestimation des autres variables incompltes [56].
Limputation des variables continues repose sur lhypothse dune distribution normale. Or
les rsultats de limputation multiple sont sensibles au non-respect de la normalit aussi bien
pour lapproche multivarie normale que pour lapproche par quations chanes [45]. Il est
donc recommand de transformer chaque variable dont la distribution scarte de la normalit
pour assurer la validit de limputation de cette variable, mais aussi celle des autres variables
incompltes du modle. Une transformation inverse est dans ce cas applique aprs
imputation.

Choix du nombre de bases imputer


Les indications de la littrature, essentiellement bases sur les rgles dictes par Rubin,
stipulent quun nombre restreint dimputations, c'
est--dire de 3 5, est suffisant. Cet
argument standard est bas sur la notion defficacit statistique relative des estimateurs, qui
63

value lefficacit de lutilisation dun nombre fini M dimputations par rapport un nombre
infini dimputations.
Si la fraction dinformation manquante, que lon dnotera FMI (Fraction of Missing
Information), est dfinie comme une fonction des variances intra-imputation (W ) et interimputation (B ) avec FMI =

B
, alors lefficacit statistique relative (Relative Efficiency,
W +B

RE) est donne par RE = 1 +

FMI
.
m

La valeur de la FMI dune variable dpend forcment de la proportion de donnes


manquantes initiale de cette variable, et Bodner [57] a propos dapproximer la FMI par cette
proportion. Cependant, la FMI dpend galement du processus dimputation, et reprsente un
indicateur de la qualit de limputation pour chaque variable, selon quelle est gale,
infrieure ou suprieure la proportion de donnes manquantes.
Le Tableau 1.2, daprs [3], illustre les variations defficacit statistique relative (RE ) selon
la FMI et M. Si lon tolre une perte defficacit de 5% (RE = 95% ) , alors

FMI
0.05 et
M

donc M = 5 est adquat si FMI 0.25. On se place ici dans un cas univari, ce qui signifie
quil suffit dimputer 5 bases pour obtenir une efficacit statistique relative de 95% si la
variable incomplte a une FMI de 25%. Pour une mme efficacit statistique, il suffirait
dimputer 10 bases pour prendre en compte une FMI de 50%.

Tableau 1.2

Efficacit statistique relative en % selon la FMI et le nombre


de bases imputes M
FMI
0,1

0,2

0,3

0,5

0,7

0,9

95

91

87

80

74

69

97

94

91

86

81

77

98

96

94

91

88

85

10

99

98

97

95

93

92

20

100

99

99

98

97

96

64

Formul autrement, une perte defficacit statistique relative correspond une inflation de la
variance de lestimation. Ainsi, tolrer une efficacit statistique de 95% implique une
augmentation de la variance dun facteur de 1.02 pour une proportion de donnes manquantes
de 25% et M = 5 . Ce facteur atteint 1.08 pour une FMI=50% et M = 10 .
Cependant, de nouveaux arguments en faveur dun nombre dimputations plus important sont
dcrits dans la littrature. Ainsi, Graham et al. [58] reprennent les arguments defficacit
statistique proposs par Rubin en les prcisant. Ils observent par simulation une baisse notable
de puissance statistique, avec un impact sur la largeur de lintervalle de confiance et sur la pvaleur, baisse suprieure 5% pour une FMI 0.25 et pour M = 10 , par rapport 100
imputations. Selon cet exemple, le nombre de bases quil faudrait imputer pour limiter la perte
de puissance statistique 5% serait le double de celui retenu selon les arguments prcdents,
pour une FMI similaire.
White et al. soulignent cependant que les arguments defficacit statistique relative et de
puissance statistique ne sont pas suffisants pour dterminer le nombre de bases imputer.
Comme suggr par Horton et al. [38], il faudrait tenir compte dans le choix du nombre de
bases de la stabilit des rsultats obtenus en analysant des jeux de donnes imputes partir
de la mme base de donnes initiale (et le mme modle dimputation). On se base ainsi sur
lestimation de lerreur de Monte Carlo, donne par lexpression MCerror = B

qui tend

vers 0 lorsque M augmente. A partir dune tude par simulation, Bodner [57] propose
destimer lerreur de Monte Carlo dun paramtre . Afin de valider le choix du nombre de
bases imputes, on peut retenir comme critre que lerreur de Monte Carlo de doit tre
gale environ 10% de lcart type de .
De faon sassurer que tous ces critres sont remplis, White et al. suggrent de choisir,
quand cela est possible, un nombre de bases imputes M tel que M 100 FMI . En
approximant la FMI par la proportion de donnes manquantes, il faudrait alors imputer, si une
seule variable est incomplte, environ 100 fois la proportion de donnes manquantes de cette
variable.

65

En pratique, il est rare davoir traiter une base de donnes contenant une seule variable
incomplte et la FMI peut diffrer de la proportion de donnes manquantes. Nous verrons
dans les applications prsentes quun diagnostic simple du nombre de bases imputes peut
tre obtenu en combinant ces diffrents critres, et quil est souvent difficile en pratique
dimputer un nombre de bases adquat. Il reste cependant intressant dexplorer ces critres
diagnostiques, tout particulirement lorsquun processus dimputation peut tre amlior au
cours du temps, comme cest le cas pour les donnes de systmes de surveillance.

Autres options
Nombre de cycles
Plusieurs cycles sont ncessaires seulement si plusieurs variables sont incompltes.
Lchantillonneur de Gibbs converge rapidement (5 10 itrations) et le programme
additionnel ICE spcifie 10 cycles par dfaut. Dans la littrature, les auteurs observent peu de
variations au-del de 20 cycles [35;42;59]. En pratique, le temps dimputation varie peu entre
10 et 30 cycles, ce qui peut autoriser un choix conservateur.

Racine
La racine ("seed") est un nombre que lon peut spcifier dans les options du modle
dimputation. Cest un nombre qui initialise le gnrateur de nombres alatoires. Si ce nombre
est spcifi, il est alors possible dobtenir un jeu de donnes identique lorsque lon rpte le
processus dimputation partir du mme modle. Dans le cas contraire, une racine est gnre
par ICE et chaque nouvelle imputation donnera des rsultats potentiellement diffrents.

66

5.3.3. Etape 3 : Analyse des donnes imputes et prsentation


des rsultats
Diagnostic de limputation multiple
Deux conditions sont requises afin dobtenir des infrences valides aprs imputation
multiple : (i) le modle dimputation doit tre correctement spcifi et (ii) lhypothse MAR
doit tre plausible, ou du moins limpact dun processus MNAR doit tre limit.
Il est recommand de tester plusieurs bases de donnes imputes issues de modles
dimputation diffrents. Ceux-ci peuvent tre plus ou moins gnraux, c'
est--dire inclure plus
ou moins de variables prdictrices, et plusieurs transformations de variables peuvent tre
values (par exemple lors de recodage de variables catgorielles ou de transformation de
variables continues).
Les implmentations classiques de limputation multiple requirent que les donnes soient
manquantes alatoirement, c'
est--dire quelles ne dpendent que des donnes observes, et
non de donnes non-observes. Une approche thorique pour tester cette hypothse a t
propose par Pothoff et al. [60] mais elle nest pas applicable en pratique courante (sans
implmentation dans un logiciel).
Lorsque des informations issues de la littrature ou spcifiques au mode de recueil de donnes
laissent supposer que certaines variables peuvent contenir des donnes MNAR, les
estimations issues de limputation multiple peuvent tre biaises. Deux approches sont
envisageables : (i) modliser la non-rponse pour ces variables en appliquant des modles par
slection ou par mlange partir dhypothses sur le mcanisme de donnes manquantes, (ii)
appliquer une mthode danalyse de sensibilit afin dvaluer limpact dun mcanisme
MNAR sur les rsultats de limputation multiple.
En pratique, mme si la procdure dimputation multiple ne peut tre valide partir des
valeurs observes, les rsultats obtenus peuvent tre vrifis en tenant compte de standards
raisonnables. Ainsi, les diffrences entre donnes observes et donnes imputes peuvent tre
testes, afin dvaluer si ces variations ont un sens dans le contexte du recueil de donnes. En
effet, avant la ralisation de limputation, une analyse des donnes observes permet de
dfinir des mcanismes MAR dpendant de certaines variables, et ainsi danticiper des
variations entre donnes observes et imputes.
67

Abayomi et al. [61] proposent des comparaisons numriques et graphiques afin de dpister
des anomalies dans le processus dimputation, appliques conscutivement plusieurs bases
de donnes imputes. Comme soulign par Raghunatan et al. [62], les comparaisons
numriques ne sont pas toujours interprtables en raison de la diffrence deffectifs entre
valeurs observes et imputes, car elles peuvent tre de ce fait artificiellement significatives.
Les diagnostics graphiques permettent de tester aisment les donnes imputes, sur une seule
base ou sur lensemble des bases imputes. Dans le cas des variables continues, limputation
se fait sous lhypothse dune distribution normale, ce qui implique souvent une
transformation pralable de ces variables. Une analyse graphique permet ainsi de dpister des
dfauts de superposition des distributions observes et imputes.
Cette premire tape de validation du processus dimputation doit prendre place avant la
phase danalyse. Lexprience montre que, bien quelle repose sur des examens qualitatifs,
cette tape est cruciale pour sassurer (i) de la validit du modle dimputation retenu, (ii) de
la plausibilit de lhypothse MAR. Dans le cas o les tests diagnostiques montrent des
variations inexpliques, et si le modle dimputation parait valide, il est important denvisager
une analyse de sensibilit sur la base dhypothses pidmiologiques. Cette approche est
illustre dans le chapitre 3. Une autre approche consiste appliquer une procdure de
validation croise [63] partir dchantillons simuls selon plusieurs mcanismes de donnes
manquantes. Cette procdure permet de tester ltendue des biais sur les estimateurs, ainsi que
la couverture des intervalles de confiance selon les mcanismes de donnes manquantes
gnrs. Elle est illustre dans le chapitre 4.

Analyse jointe des bases de donnes imputes


Puisque les variables sont imputes sous leur forme originelle, une transformation inverse
nest ncessaire que pour les variables continues qui ont d tre normalises avant imputation.
Selon les analyses prvues, il peut tre ncessaire de gnrer des variables partir des
variables imputes. Elles sont alors cres automatiquement dans lensemble des M bases de
donnes.
Pour les analyses descriptives, les estimations sont assorties dun intervalle de confiance
rendant compte de la variabilit lie au processus destimation. Dans le cas des analyses
tiologiques, le calcul de la variance intgre la variabilit entre les bases imputes, et les
principales fonctions de lien peuvent tre spcifies. La prise en compte dun plan de sondage
est galement prvue pour les implmentations classiques et pour certaines rgressions [64].
68

La ralisation dune analyse multivarie implique une stratgie de slection de variables base
sur le test dhypothses. Aprs imputation multiple, le test de Wald est approxim par un test
de Student pour tester les coefficients de rgression. Un test de Fisher permet galement de
tester conjointement une srie de coefficients de rgression sur lensemble des bases imputes
[65].
Cependant, certaines statistiques ne peuvent tre obtenues directement partir de donnes
imputes, car elles ne peuvent tre combines sur les M bases imputes selon les rgles de
Rubin. White et al. [28] ont rcemment synthtis cette problmatique pour les statistiques les
plus frquemment utilises (Tableau 1.3).

Tableau 1.3

Statistiques courantes pouvant tre combines ou non


selon les rgles de Rubin (daprs [28]).

Statistiques pouvant tre combines


sans transformation

Moyenne, proportion, coefficient de rgression, C-index, aire sous la


courbe ROC

Statistiques ncessitant une


transformation adquate pour tre
combines

Odds ratio, risque relatif, probabilit de survie, cart-type, corrlation,


proportion de variance explique, skewness, kurtosis

Statistiques ne pouvant pas tre


combines

p-valeur, test de rapport de vraisemblance, test du Chi2 du modle,


test d'adquation du modle

Les critres statistiques permettant la slection du meilleur modle tels que le test de rapport
de vraisemblances, le test de la dviance, les critres dadquation AIC (Akake Information
Criterion) et BIC (Bayesian Information Criterion) ainsi que le test du Chi2 du modle (test
dadquation) ne peuvent pas tre obtenus directement. Une approximation de la statistique
du rapport de vraisemblances a t propose par Meng et Rubin [66]. La problmatique de la
slection dun modle selon des critres dadquation sera aborde dans le chapitre 2.

69

Rgles de publication des rsultats de limputation multiple


En relation avec le nombre croissant dtudes dans lesquelles une mthode dimputation
multiple est applique, des rgles de publication se dgagent de la littrature [26;52] et sont
synthtises ci-aprs en suivant la structure de larticle.

Matriel et mthodes
Prsenter les variables incompltes, la proportion de donnes manquantes par variable
et leur motif global de rpartition. Donner un ordre de grandeur de la perte deffectifs
attendue en analyse cas-complet.
Proposer un mcanisme de donnes manquantes par variable partir des variables
indicatrices de donnes manquantes. Si des analyses tiologiques sont prvues,
prciser le risque de biais attendu en analyse cas-complet, c'
est--dire si un mcanisme
MAR(ME) global est attendu.
Identifier selon le type de donnes recueillies et le mode de collecte les principaux
mcanismes gnrant des donnes manquantes. Formuler des hypothses MCAR,
MAR, MNAR en fonction de ces informations.
Dgager lintrt de lestimation des donnes manquantes par imputation multiple par
rapport lanalyse cas-complet. Prciser la mthode retenue (modle multivari
normal ou modle par quations chanes), ainsi que le logiciel utilis.
Dtailler le processus dlaboration du modle dimputation. Prciser les variables
incluses dans le modle, leur type ainsi que les transformations ventuelles ainsi que
les termes dinteraction retenus. Spcifier le nombre de bases de donnes imputes en
le rapportant la proportion de donnes manquantes.

70

Rsultats
Proposer un diagnostic de limputation en comparant les donnes imputes et
observes pour les variables contenant une proportion non-ngligeable de donnes
manquantes.
Prsenter si possible les rsultats des deux analyses, cas-complet et imputation
multiple. Prciser, si cest le cas, les variables qui ne sont pas communes aux modles
finaux retenus au terme des deux analyses. Prsenter les estimations obtenues sur la
base dun modle incluant les mme variables pour les bases de donnes incomplte et
impute.

Discussion
Discuter les diffrences entre les deux analyses en termes de (i) slection des variables
(c'
est--dire les variables retenues dans le modle final), (ii) comparaison des
estimations tenant compte de la variabilit des rsultats laide du coefficient de
variation

CV =

SE

, et (iii) biais attendus pour les deux analyses selon les

hypothses sur le mcanisme de donnes manquantes (MAR(ME) en cas-complet,


MNAR en imputation multiple).
Discuter la validit de lhypothse MAR selon (i) la richesse du modle dimputation
en variables auxiliaires (rendant lhypothse MAR plus plausible), (ii) les hypothses
pidmiologiques sur le mcanisme de donnes manquantes propos pour les variables
"sensibles".
Discuter lintrt dune analyse de sensibilit permettant de tester la robustesse des
rsultats au non-respect de lhypothse MAR, sachant que ce type danalyse reste trs
majoritairement lapanage darticles vise statistique.

71

6.

Mcanismes de donnes manquantes et biais :


Etude de simulation
6.1.

Contexte

Il est tabli quune analyse cas-complet peut donner des rsultats biaiss lorsque le
mcanisme de donnes manquantes dpend conjointement de la variable expliquer et dune
autre variable. En revanche, si le mcanisme de donnes manquantes ne dpend pas de la
variable expliquer, une analyse cas-complet peut savrer plus robuste, c'
est--dire donner
des rsultats non-biaiss, en cas de donnes de type MNAR [4;12;67].
Les mthodes dimputation multiple, telles quelles sont implmentes dans les logiciels
standards, sont bases sur lhypothse que les donnes sont manquantes selon un mcanisme
MAR, que le mcanisme de donnes manquantes dpende ou non de la variable expliquer.
Ainsi, une analyse par imputation multiple permet de redresser les biais observs en analyse
cas-complet lorsque le mcanisme de donnes manquantes dpend de la variable expliquer.
Cependant, si les donnes sont MNAR, c'
est--dire que le mcanisme de donnes manquantes
dpend de valeurs non-observes dune variable, alors limputation multiple peut donner des
rsultats biaiss. Selon Carpenter et al., ce biais peut tre plus important si le mcanisme de
donnes manquantes dpend de la variable expliquer [68]. Ce dernier concept nest
cependant pas explicit clairement dans la littrature, et larticle de Wang et al. [69] tend
montrer que la relation entre le type de mcanisme de donnes manquantes et les biais
observs en imputation multiple est probablement plus complexe.

6.2.

Etude de simulation
6.2.1. Matriel et mthodes

En reprenant lexemple propos par Vach et al. [4] et illustr par Chavance et al. [70], nous
avons choisi de simuler une enqute cas-tmoins, avec un tmoin par cas. Comme prsent
dans le Tableau 1.4, la base de donnes contient 792 individus, et trois variables binaires M
(maladie), E (exposition) et C (confusion).
72

Tableau 1.4

Rpartition des effectifs de lenqute cas-complet simule et odds ratios


associs, en global et selon les deux strates du facteur de confusion

M=1

M=0

Total

C=1

M=1

M=0

Total

C=0

M=1

M=0

Total

E=1

180

162

342

E=1

90

135

225

E=1

90

27

117

E=0

216

234

450

E=0

36

117

153

E=0

180

117

297

Total

396

396

792

Total

126

252

378

Total

270

144

414

OR=1.204

OR=2.167

OR=2.167

IC95% = [0.908;1.595]

IC95% = [1.349;3.429]

IC95% = [1.329;3.533]

Les effectifs ont t calculs de faon respecter certaines contraintes : obtenir pour lodds
ratio stratifi une valeur plausible dun point de vue pidmiologique (environ 2) et similaire
pour les deux strates du facteur de confusion.
Des donnes manquantes sont ensuite simules pour le facteur de confusion selon les
mcanismes prsents en paragraphe 2.3.3. Puis des analyses cas-complet et par imputation
multiple sont ralises.

6.2.2. Rsultats
Analyse cas-complet
Une proportion variable de donnes manquantes est applique pour chaque strate selon le
mcanisme recherch. Par exemple, pour un mcanisme MCAR, une proportion de 11% de
donnes manquantes est applique chaque cellule des tableaux de contingence des deux
strates du facteur de confusion. Pour simuler un mcanisme MAR(M) dpendant de la
maladie, une proportion de 22% de donnes manquantes est applique pour les malades et
33% pour les non-malades. Il nous a paru cohrent de simuler une proportion plus leve de
donnes manquantes parmi les non-malades que parmi les malades, ainsi que parmi les nonexposs que parmi les exposs. Ce principe est dclin pour tous les autres mcanismes. Par
exemple, pour le mcanisme MAR(ME), 2% de donnes manquantes sont simules pour les
non-malades/non-exposs,

4% pour les

malades/non-exposs,

3% pour les

non-

malades/exposs et enfin 50% chez les non-malades/non-exposs.


Le Tableau 1.5 montre, pour chaque mcanisme simul, la rpartition des effectifs dans les
tableaux de contingence, en global et pour les deux strates du facteur de confusion, et donne
les odds ratios, brut et pour chaque strate du facteur de confusion.
73

Tableau 1.5

Effectifs et odds-ratios ajusts selon les diffrents


mcanismes de donnes manquantes
MCAR : 11% dm

M=1

M=0

Total

C=1

M=1

M=0

Total

C=0

M=1

M=0

Total

E=1

160

144

304

E=1

80

120

200

E=1

80

24

104

E=0

192

208

400

E=0

32

104

136

E=0

160

104

264

Total

352

352

704

Total

112

224

336

Total

240

128

368

OR=1.204

OR=2.167

IC95% = [0.908;1.595]

OR=2.167

IC95% = [1.332;3.526]

IC95% = [1.290;3.640]

Maladie - MAR(M) : %M1 = 22% - %M0 = 33%


M=1

M=0

Total

C=1

M=1

M=0

Total

C=0

M=1

M=0

Total

E=1

140

108

249

E=1

70

90

160

E=1

70

18

88

E=0

168

156

324

E=0

28

78

106

E=0

140

78

218

Total

308

264

572

Total

98

168

266

Total

210

96

306

OR=1.204

OR=2.167

OR=2.167

IC95% = [0.908;1.595]

IC95% = [1.204;3.898]

IC95%=[1.290;3.640]

Exposition - MAR(E) : %E1 = 22% - %E0 = 33%


M=1

M=0

Total

C=1

M=1

M=0

Total

C=0

M=1

M=0

Total

E=1

160

144

304

E=1

80

120

200

E=1

80

24

104

E=0

144

156

300

E=0

24

78

102

E=0

120

78

198

Total

304

300

604

Total

104

198

302

Total

200

102

302

OR=1.204

OR=2.167

OR=2.167

IC95% = [0.908;1.595]

IC95% = [1.265;3.710]

IC95% = [1.265;3.710]

Maladie - Exposition
MAR(ME) : %E1M1 = 2% - %E1M0 = 4% - %E0M1 = 3% - %E0M0 = 50%
M=1

M=0

Total

C=1

M=1

M=0

Total

C=0

M=1

M=0

Total

E=1

176

156

332

E=1

88

130

218

E=1

88

26

114

E=0

210

118

328

E=0

35

59

94

E=0

175

59

234

Total

386

274

660

Total

123

189

312

Total

263

85

348

OR=0.634

OR=1.141

OR=1.141

IC95% = [0.464;0.866]

IC95% = [0.693;1.878]

IC95% = [0.673;1.934]

74

Confusion - MNAR(C) : %C1 = 11% - %C0 = 33%


M=1

M=0

Total

C=1

M=1

M=0

Total

C=0

M=1

M=0

Total

E=1

140

138

278

E=1

80

120

200

E=1

60

18

78

E=0

152

182

334

E=0

32

104

136

E=0

120

78

198

Total

292

320

612

Total

112

224

336

Total

180

96

276

OR=1.215

OR=2.167

OR=2.167

IC95% = [0.883;1.671]

IC95% = [1.332;3.526]

IC95% = [1.190;3.944]

Maladie - Confusion
MNAR(MC) : %C1M1 = 6% - %C1M0 = 11% - %C0M1 = 22% - %C0M0 = 33%
M=1

M=0

Total

C=1

M=1

M=0

Total

C=0

M=1

M=0

Total

E=1

155

138

293

E=1

85

120

205

E=1

70

18

88

E=0

174

182

356

E=0

34

104

138

E=0

140

78

218

Total

329

320

649

Total

119

224

343

Total

210

96

306

OR=1.175

OR=2.167

OR=2.167

IC95% = [0.862;1.601]

IC95% = [1.345;3.490]

IC95% = [1.204;3.898]

Exposition - Confusion
MNAR(EC) : %C1E1 = 2% - %C1E0 = 11% - %C0E1 = 22% - %C0E0 = 44%
M=1

M=0

Total

C=1

M=1

M=0

Total

C=0

M=1

M=0

Total

E=1

158

153

311

E=1

88

132

220

E=1

70

21

91

E=0

132

169

301

E=0

32

104

136

E=0

100

65

165

Total

290

322

612

Total

120

236

356

Total

170

86

256

OR=1.175

OR=2.167

OR=2.167

IC95% = [0.962;1.818]

IC95% = [1.342;3.499]

IC95% = [1.214;3.866]

Maladie - Exposition - Confusion


MNAR(MEC) : %C1E1M1 = 2% - %C1E1M0 = 4% - %C1E0M1 = 3% - %C1E0M0 = 50%
%C0E1M1 = 11% - %C0E1M0 = 26% - %C0E0M1 = 17% - %C0E0M0 = 43%

M=1

M=0

Total

C=1

M=1

M=0

Total

C=0

M=1

M=0

Total

E=1

168

150

318

E=1

88

130

218

E=1

80

20

100

E=0

185

126

311

E=0

35

29

94

E=0

150

67

217

Total

353

276

629

Total

123

189

312

Total

230

87

317

OR=0.763

OR=1.141

OR=1.787

IC95% = [0.447;1.079]

IC95% = [0.643;1.639]

IC95% = [1.218;2.355]

75

Les rsultats du Tableau 1.5 montrent que les estimations des OR stratifis sont biaises pour
le mcanisme MAR(ME) avec un odds ratio de 1.141 [0.373 ;1.934] pour C=0. Lintervalle
de confiance de lodds ratio pour ce mcanisme ne contient donc pas la vraie valeur de lOR
qui est gale 2.167 [1.349 ;3.429]. Pour le mcanisme MEC, on observe un biais de la mme
amplitude, mme si lintervalle de confiance de lOR stratifi contient la vraie valeur de lOR
pour C=0.

Analyse aprs imputation multiple


Pour chacune des bases de donnes incompltes cres, on estime les donnes manquantes par
imputation multiple et 50 bases sont gnres. Puis, une analyse bivarie est effectue sur
lensemble des bases imputes. Les rsultats de ces analyses ralises en cas-complet et aprs
imputation multiple sont synthtiss dans le Tableau 1.6.

Tableau 1.6

Rsultats des analyses bivaries en analyse cas-complet


et aprs imputation multiple

Mcanisme de donnes manquantes


MCAR
MAR(M)

Maladie

MAR(E)

Exposition

MAR(ME)

Maladie + Exposition

MNAR(C)

Confusion

MNAR(EC)

Exposition + Confusion

MNAR(MC)

Maladie + Confusion

MNAR(MEC)

Maladie + Exposition + Confusion

Cas Complet

Imputation Multiple

2.167
[1.33;3.53]
2.167
[1.20;3.90]
2.167
[1.26;3.71]
1.141
[0.69;1.88]
2.167
[1.33;3.53]
2.167
[1.34;3.50]
2.167
[1.34;3.49]
1.395
[0.64;1.64]

2.162
[1.54;3.06]
2.185
[1.53;3.11]
2.171
[1.53;3.08]
2.157
[1.54;3.02]
2.132
[1.51;3.02]
1.964
[1.40;2.75]
2.219
[1.57;3.14]
2.184
[1.55;3.07]

Sont prsents les odds ratios associs la variable dexposition aprs ajustement sur le facteur de confusion.
Les zones en vert reprsentent les OR biaiss en analyse cas-complet, et les zones en jaune les OR biaiss en
analyse par imputation multiple.

6.2.3. Discussion
Les rsultats montrent que lanalyse cas-complet est effectivement biaise pour les
mcanismes impliquant la variable expliquer et lune des variables dexposition, c'
est--dire
les mcanismes MAR(ME) et MNAR(MEC). Limputation multiple donne des rsultats non76

biaiss lorsque le mcanisme de donnes manquantes est de type MCAR ou MAR, et permet
donc de redresser le biais observ en analyse cas-complet pour le mcanisme MAR(ME).
Pour les mcanismes MNAR, les rsultats apparaissent effectivement biaiss aprs imputation
multiple.
Cependant, selon les connaissances sur ce sujet, des biais plus importants sont attendus pour
les mcanismes MNAR dpendant de la variable expliquer, c'
est--dire les mcanismes
MNAR(MC) et MNAR(MEC). Or, cest pour le mcanisme MAR(EC) que le biais est le plus
important. Cela montre tout dabord les limites dune analyse simple de simulation. Il aurait
en effet t intressant de faire varier les effectifs de dpart, ainsi que les proportions de
donnes manquantes selon les mcanismes, mais les contraintes imposes ne permettaient pas
denvisager dautres scnarios. Par ailleurs, et cela sera confirm dans une application plus
complexe sur des donnes relles (chapitre 3), lamplitude de la dpendance entre le
mcanisme de donnes manquantes et la variable expliquer peut varier selon les variables,
avec un impact diffrentiel sur les biais attendus en cas de mcanisme MNAR.

Conclusion
Nous avons abord dans ce chapitre le traitement des donnes manquantes dans des bases de
donnes transversales ou de systmes de surveillance. Nous navons pas prsent le mode de
traitement de donnes longitudinales, car limputation est alors base sur des modles
diffrents de ceux dcrits, tenant compte de la rptition des observations pour les mmes
individus. Ainsi, la prise en compte de donnes manquantes de type monotone et selon un
processus MAR lies des sorties dtudes dans le cadre de donnes de cohorte est plus
facilement grable en pratique par une estimation par maximum de vraisemblance des
paramtres dun modle mixte plutt que par imputation multiple. Par ailleurs, certaines
donnes transversales ont une structure hirarchique du fait de la prsence de sous-groupes
dfinis au sein de lchantillon analys. Il est alors possible dimputer ce type de donnes
avec les mthodes dimputation prsentes ici, en incluant des variables indicatrices
identifiant les sous-groupes. Cette adaptation a cependant ses limites si le nombre de sousgroupes est lev, et il est alors prfrable dappliquer des procdures ddies [31].

77

78

CHAPITRE 2
PROCESSUS DIMPUTATION MULTIPLE DEDIE A DES
ANALYSES SPECIFIQUES : APPLICATION A DES DONNEES
DENQUETES ET DE SURVEILLANCE

1.

Etude du risque de transmission du VIH


par les dons de sang

En France, les hommes ayant des rapports sexuels avec des hommes (HSH) sont exclus de
faon permanente du don de sang parce quils ont un risque plus lev dtre infects par le
VIH [71;72], mais aussi par lhpatite B ou la syphilis, et donc un risque de transmettre ces
infections. Depuis 1985, des progrs trs importants ont t raliss en matire de tests de
dpistage pour le VIH, incluant depuis 2001 le Dpistage Gnomique Viral (DGV) qui permet
la dtection dinfections trs rcentes.
Cependant, un risque de transmission du VIH persiste, essentiellement d lexistence dune
fentre silencieuse, c'
est--dire dune priode qui survient aprs que le donneur ait t infect
et avant que les marqueurs de linfection soient dtectables. Du fait de lexistence de cette
fentre silencieuse, les autorits de sant ont maintenu lexclusion permanente des HSH des
dons de sang. Cette mesure, considre comme discriminatoire par certains activistes, nest
pas totalement respecte car certains HSH ne dclarent pas leur comportement sexuel avant le
don.
Lobjectif de cette tude tait destimer la part de risque rsiduel de transmission du VIH par
transfusion attribuable aux HSH.

79

1.1.

Mthodes
1.1.1. Recueil de donnes

Depuis 1992 en France, tous les centres de transfusion collectent chaque trimestre le nombre
total de dons et de donneurs selon le statut du donneur (nouveau ou connu) et les
caractristiques pidmiologiques (sexe, ge, sous-type du VIH 1, origine gographique) des
donneurs confirms VIH positifs au systme national de surveillance des donneurs de sang
[73]. Parmi les donneurs identifis comme positifs pour le VIH, plus des trois quarts
reviennent pour une consultation mdicale aprs le don durant laquelle linformation sur le
mode probable de contamination est recueillie.

1.2.2. Examen des donnes manquantes


La base de donnes constitue partir de la surveillance de linfection par le VIH parmi les
donneurs de sang pour la priode 1994-2008 contient 1105 observations et 47 variables. Les
variables slectionnes pour les analyses sont lanne de diagnostic (1994-2008), le sexe,
lge (variable continue), le dpartement de domicile, le pays de naissance (France
mtropolitaine, Antilles/Guyane, Afrique sub-Saharienne, autre), le mode de contamination
(homosexuel, htrosexuel, autres), le type de donneur (nouveau donneur, donneur connu) et
la prsence danticorps VIH (variable binaire).
La variable mode de contamination est incomplte avec 29.7% de donnes manquantes. On
gnre une indicatrice de donnes manquantes gale 1 si le mode de contamination est
manquant et 0 sinon. Lexamen univari du mcanisme de donnes manquantes de la variable
mode de contamination montre des liens significatifs (test du Chi2, p 0.05) entre lindicatrice
de donnes manquantes et les variables anne de diagnostic, sexe, dpartement de domicile,
pays de naissance et type de donneur. Toutes ces variables sont compltes et le mcanisme de
donnes manquantes est donc a priori MAR.
Cependant, le mode probable de contamination est recueilli lors dun entretien aprs le don de
sang pour les personnes positives pour le VIH. Puisque les donneurs HSH sont exclus de
faon permanente du don de sang, certains dentre eux pourraient considrer cette mesure
comme discriminatoire et tre tents de cacher leur orientation sexuelle afin de pouvoir
donner leur sang. Par ailleurs, le don de sang pourrait tre un moyen simple pour les HSH
daccder un dpistage du VIH ralis au moyen de tests performants. Ainsi, un mcanisme
80

de donnes manquantes de type MNAR ne peut tre exclu pour la variable mode de
contamination.

1.2.

Construction du modle dimputation


1.2.1. Construction des quations de prdiction

La variable mode de contamination est catgorielle et une fonction de lien multinomiale est
spcifie. Les variables retenues pour les analyses de risque rsiduel sont lanne de
diagnostic, le sexe, le type de donneur et la prsence danticorps VIH. Ces 4 variables
constituent les variables principales, systmatiquement incluses dans le modle dimputation.
Peu de variables supplmentaires ont pu tre retenues dans la base de donnes de dpart, et 3
variables auxiliaires ont t identifies : lge, le dpartement de domicile et le pays de
naissance.

1.2.2. Choix du nombre de bases et de cycles


En tenant compte des indications de la littrature rcente, nous avons slectionn M = 30
bases puisque la variable incomplte contient 30% de donnes manquantes. Une seule
variable est incomplte et donc un seul cycle de lchantillonneur de Gibbs est ncessaire.

1.3.

Diagnostic de limputation

Afin destimer si le modle dimputation est correct et si lhypothse MAR est plausible, nous
avons compar les proportions observes et estimes de la variable mode de contamination.
En effet, si le processus dimputation est valide, on sattend ce que les variations entre
valeurs observes et imputes restent dans des limites raisonnables et quelles soient
explicables par un mcanisme identifi.
Les rsultats de cet examen sont prsents dans le Tableau 2.1. Les proportions observes de
la variable mode de contamination ne diffrent pas significativement des proportions
estimes, puisquelles appartiennent aux intervalles de confiance 95% (IC 95%) des
proportions estimes, aussi bien pour chacune des priodes de 3 ans que sur lensemble de la
priode dtude.

81

Tableau 2.1

Comparaison des proportions observes et estimes de la variable


mode de contamination selon la priode

Mode de transmission

1994-1996

1997-1999

2000-2002

2006-2008

1994-2008

Observ
Imput
IC 95%
Hrrosexuel

29.30
32.96
26.2,39.8

24.59
26.25
18.6,33.9

32.58
34.02
24.5,43.5

26.25
28.38
18.6,38.2

34.15
34.90
24.7,45.1

31.4
33.72
30.5,37.0

Observ
Imput
IC 95%

65.61
61.50
54.5,68.5

72.13
70.39
62.4,78.3

65.17
63.55
54.0,73.1

72.5
70.13
60.2,80.1

64.63
63.85
53.6,74.0

64.35
61.43
58.1,64.8

3.28
3.36
0.2,6.6

2.25
2.43
0.8,5.7

1.25
1.48
0.9,5.7

1.22
1.25
0.8,3.6

4.25
4.86
3.2,6.5

Homosexuel

2003-2005

Proportions (%)

Autres modes de transmission


Observ
Imput
IC 95%

5.1
5.54
2.1,9.0

Nous en concluons que le risque davoir des donnes MNAR est limit, ou que le modle est
suffisamment riche en variables prdictrices pour rendre lhypothse MAR plausible.

1.4.

Calcul du risque rsiduel


1.4.1. Risque rsiduel VIH pour la priode 2006-2008

Le risque rsiduel de transmettre le VIH par transfusion a t calcul par priodes de 3 ans en
faisant le produit de lincidence du VIH chez les donneurs de sang ayant donn au moins deux
fois au cours de la priode dtude par la dure de la fentre silencieuse (en annes) [74].
Lincidence du VIH correspond au nombre de donneurs rguliers ayant sroconverti pour le
VIH pendant la priode de 3 ans (S) divis par le nombre de donneurs-annes (DA) calcul en
sommant les dlais entre le premier et le dernier don de chaque donneur au cours de la priode
dtude. La fentre silencieuse pour le VIH correspond la priode pendant laquelle le virus
est indtectable, et a t estime 12 jours [75].

82

1.4.2. Evaluation de la part du risque rsiduel attribuable


aux HSH
Malgr la mesure dexclusion permanente, des HSH sont rgulirement tests positifs pour le
VIH loccasion dun don de sang. Afin destimer limpact des dons de ces donneurs HSH
sur le risque rsiduel de contamination par le VIH, lincidence du VIH chez les donneurs de
sang a t calcule en deux parties : lincidence estime chez les HSH et lincidence estime
chez les autres donneurs (femmes et hommes non HSH).
Si lon note I HSH et I AUTRES lincidence du VIH chez les donneurs HSH et les autres
donneurs, et DAHSH et DAAUTRES le nombre de Donneurs-Annes chez les donneurs HSH et
les autres donneurs, alors lincidence du VIH pour lensemble des donneurs est estime
comme suit :

I=

DAHSH
I
+
(DAHSH + DAAUTRES ) HSH

avec I HSH =

DAAUTRES
I
(DAHSH + DAAUTRES ) AUTRES

S HSH
S
10 5 et I AUTRES = AUTRES 10 5 o S HSH et S AUTRES sont respectivement
DAHSH
DAAUTRES

le nombre de sroconversions VIH observes chez les donneurs HSH et chez les autres
donneurs pendant la priode dtude.
Cependant, contrairement aux nombres de sroconversions, les nombres de Donneurs-Annes
nont pu tre obtenus sparment pour les HSH et les autres donneurs partir du systme de
surveillance des donneurs de sang.
Les deux quantits DAHSH et DAAUTRES ont pu tre estimes partir des donnes suivantes :
(1) Pendant la priode 2006-2008, 50.2% des donneurs taient des hommes
(2) Un intervalle a t propos pour estimer la proportion dHSH parmi les donneurs
masculins, dduit des rsultats dune tude en population gnrale sur le comportement sexuel
des Franais (CSF-2006) [76]. Lintervalle propos est [1.5% ; 4.1%] et les bornes sont
utilises pour proposer des valeurs des incidences et des risques rsiduels pour les donneurs
de sang HSH et les autres donneurs.

83

Ainsi on aurait, selon le scnario, une proportion de 1.5% ou de 4.1% de HSH parmi les
donneurs de sang masculin, ce qui donne :
I HSH 1 =

S HSH
S AUTRES
10 5 et I AUTRES 1 =
10 5
DA 0.502 0.015
DA (1 (0.502 0.015))

I HSH 2 =

S HSH
S AUTRES
10 5 et I AUTRES 1 =
10 5
DA 0.502 0.041
DA (1 (0.502 0.041))

o DA est le nombre total de Donneurs-Annes.

1.5.

Rsultats
1.5.1. Risque rsiduel VIH pour la priode 2006-2008

Les rsultats sont prsents dans le Tableau 2.2. Pour la priode 2006-2008, 31
sroconversions VIH ont t observes parmi les donneurs de sang ayant fait au moins deux
dons, ce qui donne une incidence de 1.3 pour 100 000 Donneurs-Annes. A partir de cette
incidence, le risque rsiduel a t estim 0.41 par million de dons soit 1 sur 2 440 000 de
dons.

Tableau 2.2

Risque rsiduel de transmission de linfection par le VIH


par transfusion selon la priode fentre, 2006-2008

Nombre de cas
VIH incidents

Nombre de DA

Incidence pour
100 000 DA
(IC 95%)

Dure de la priode
fentre en jours
(tendue)

Risque rsiduel
par million de dons
(IC 95%)

31

2 467 560

1.26
(0.87-1.81)

12 (0 28)

0.41
(0.0 1.39)

84

1.5.2. Part de risque rsiduel attribuable aux HSH


Parmi les 31 cas incidents observs entre 2006 et 2008, 23 taient des hommes et 8 des
femmes. Aprs imputation multiple de la variable mode de contamination, lanalyse jointe des
30 bases permet destimer que, parmi les 23 hommes, 15 se sont contamins par voie
homosexuelle et 8 par voie htrosexuelle. Le nombre de cas incidents non-HSH a donc t
estim 16. Les estimations dincidence et de risque rsiduel de transmission du VIH par
transfusion sont prsentes dans le Tableau 2.3 pour les deux scnarios proposs.

Tableau 2.3

Incidence du VIH et risque rsiduel de transmission


de linfection par le VIH par transfusion parmi les donneurs HSH
et les autres donneurs
Donneurs HSH

Autres donneurs

SHSH = 15

SAUTRES = 16

Scnario 1: 1.5% donneurs masculins HSH

18 590

2 448 970

Scnario 2: 4.1% donneurs masculins HSH

50 813

2 416 747

Scnario 1: 1.5% donneurs masculins HSH

IHSH-1 = 80.7

IAUTRES-1 = 0.65

Scnario 2: 4.1% donneurs masculins HSH

IHSH-2 = 29.5

IAUTRES-2 = 0.66

Scnario 1: 1.5% donneurs masculins HSH

RRHSH-1 = 26.5

RRAUTRES-1 = 0.21

Scnario 2: 4.1% donneurs masculins HSH

RRHSH-2 = 9.7

RRAUTRES-2 = 0.22

Nombre de cas VIH incidents (sroconversions)


Nombre de Donneurs-Annes

Incidence du VIH pour 100 000 Donneurs-Annes

Risque rsiduel pour 1 million de dons

Pour le scnario 1 (1,5% des donneurs masculins seraient des HSH), le risque rsiduel
dinfection par le VIH li aux HSH a t estim 26.5 par million de dons ou 1 sur 38 000
dons, soit 125 fois plus que le risque imputable aux autres donneurs (1 sur 4 700 000 dons).
Pour le scnario 2 (4,5% des donneurs hommes seraient des HSH), le risque rsiduel
dinfection par le VIH li aux HSH a t estim 9,7 par million de dons ou 1 sur 100 000
dons, soit 45 fois plus que le risque imputable aux autres donneurs (1 sur 4 600 000 dons).

85

Ces rsultats montrent que, si tous les HSH avaient renonc donner leur sang au cours de la
priode 2006-2008, le risque rsiduel de transmission du VIH se serait situ dans lintervalle
[1 sur 4 700 000 1 sur 4 600 000 dons] soit la moiti du risque actuel (1 sur 2 440 000
dons).
Notons que lincidence, et donc le risque rsiduel, sont plus levs pour le scnario 1 (1.5%
des donneurs masculins sont des HSH) que pour le scnario 2 (4.1% des donneurs masculins
sont des HSH) car, pour un nombre de sroconversions identique, le nombre de DonneursAnnes est plus faible pour le scnario 1 que pour le scnario 2.

1.5.3. Evolution de lincidence du VIH sur lensemble


de la priode de surveillance
En appliquant les proportions estimes par imputation multiple aux modalits de la variable
mode de contamination, lincidence a t estime pour chaque priode de 3 ans pour les
donneurs HSH selon les deux scnarios ainsi que pour les autres donneurs.

Incidence du VIH pour 100 000 donneursannes (chelle logarithmique)

Figure 2.1 Tendances dincidence du VIH parmi les donneurs HSH et les autres
donneurs pour la priode 1994-2008
100.0

HSH, avec 1.5% des


donneurs HSH
HSH, avec 4.1% des
donneurs HSH

10.0

Incidence VIH
globale

1.0

Autres donneurs

0.1
1994-96

1997-99

2000-02

2003-05

2006-08

Priodes d'
tude

Les rsultats illustrs par la Figure 2.1 montrent que lincidence a augment de faon
significative parmi les donneurs HSH entre la priode 1994-1996 et la priode 2006-2008
(p=0.02) alors que lincidence globale est reste stable.

86

1.6.

Discussion

Lestimation du nombre dhommes se contaminant par voie homosexuelle tait


prcdemment ralise par raffectation proportionnelle. Sachant que les donnes manquantes
pour cette variable sont fort risque dtre MNAR, il convient de choisir une mthode
destimation prenant en compte toute linformation disponible, afin de rendre lhypothse
MAR plausible. Le modle dimputation inclut 7 variables prdictrices et les rsultats de
ltape de diagnostic montrent que les donnes imputes et observes sont proches. La
variable mode de contamination contient 30% de donnes manquantes et la stabilit des
rsultats permet de conclure que limputation est valide.
Les rsultats de cette tude montrent que la part du risque de contamination par le VIH lors de
transfusion attribuable aux HSH est importante, puisque ce risque serait rduit de moiti si les
HSH staient abstenus de donner leur sang. La politique actuelle dexclusion du don de sang
peut tre ressentie comme discriminatoire pour certains HSH, ce qui en amne certains
donner leur sang tout en dissimulant leur orientation sexuelle. Cependant, lincidence du VIH
chez les donneurs de sang HSH (0.08%) reste trs infrieure celle estime chez les HSH de
la population gnrale (1%) [71].
Pour complter cette tude, un modle a t construit afin dvaluer limpact dune
modification de cette politique dexclusion actuelle en la remplaant par une mesure
consistant nexclure que les HSH multipartenaires au cours des 12 mois prcdant le don.
Ce modle est bas sur des donnes obtenues partir denqutes comportementales et
pidmiologiques. Les rsultats montrent quune modification de la politique dexclusion des
HSH, au profit dune politique plus proche de celle pratique pour les autres donneurs, peut
augmenter le risque de transmission du VIH par transfusion [77]. Toutefois, le modle ne
prend pas en compte lamlioration possible de la compliance des HSH avec une mesure
dexclusion moins stricte et qui serait donc perue comme plus quitable. A linverse,
lassouplissement de cette mesure pourrait encourager certains HSH se faire dpister dans
des centres de transfusion sanguine. Des tudes qualitatives doivent donc tre mises en uvre
pour valuer les changements possibles de compliance des donneurs de sang lis une
nouvelle stratgie.

87

Conclusion
Cette illustration partir de donnes de surveillance du VIH chez les donneurs de sang
prsente une application simple de la mthode dimputation multiple. En effet, une seule
variable est manquante et le schma de donnes manquantes est donc univari, cas de figure
rarement rencontr en pratique. Cependant, on doit faire lhypothse que les donnes sont
MNAR pour cette variable, puisquil est tabli partir des entretiens postrieurs au don de
sang que certains HSH ont volontairement dissimul leur prfrence sexuelle. Parmi les 35%
dindividus positifs pour le VIH qui ne se prsentent pas lentretien, certains sont
probablement en partie des HSH avec un comportement risque qui recherchent un test VIH
rapide et fiable. Des donnes rcentes de lInVS (non publies) indiquent dailleurs que les
cas dinfection dpists par DGV un stade trs prcoce sont trs majoritairement des
homosexuels.

88

2.

Enqute cas-tmoins sur linfection campylobacter

Dans la plupart des pays industrialiss, les infections Campylobacter reprsentent, avec les
infections par les Salmonelles, la cause la plus frquente de gastroentrite bactrienne
dorigine alimentaire. Des tudes antrieures ont montr que les principaux facteurs de risque
dinfection Campylobacter actuellement identifis sont : la consommation de poulet peu cuit
ainsi que dautres produits carns, la consommation deau non-traite, les contacts avec des
animaux de compagnie ou de ferme ainsi que le fait de voyager ltranger [78-80].
Lobjectif de cette tude tait didentifier les facteurs de risque des cas sporadiques
dinfection Campylobacter survenant en France. Cette tude consistait en une enqute castmoins incidents exploratoire nationale avec appariement, et elle a t mene du 15/08/02 au
30/06/04.

2.1.

Population dtude et critres dinclusion

La population cible tait compose de personnes de tout ge rsidant en France


mtropolitaine.
La population source tait compose des personnes rsidant dans la zone gographique du
praticien prescripteur de la coproculture et du laboratoire danalyse et de biologie mdicale
qui avait dclar le cas.
Un cas tait dfini comme toute personne rsidant en France mtropolitaine pour lequel un
diagnostic clinique de gastroentrite ou dinfection systmique avait t pos puis confirm
par lisolement dun Campylobacter dans les selles ou un liquide biologique normalement
strile.
Les cas taient slectionns partir du systme de surveillance des infections
Campylobacter [81]. Chaque cas tait appari selon lge, le sexe (pour les plus de 15 ans) et
le lieu de rsidence, avec un tmoin dsign par le mdecin traitant du cas.
Au final, 269 cas et tmoins ont t retenus pour les analyses.
89

2.2.

Recueil de donnes
2.2.1. Donnes collectes

La priode dexposition explore correspondait aux 8 jours prcdant la date dapparition des
premiers symptmes du cas. Le questionnaire a port sur des expositions alimentaires (types
daliments, mode de cuisson et/ou lieu de consommation) et sur des contacts avec des
animaux (vivants ou morts) ainsi quavec des malades diarrhiques dans lentourage du cas.
Lhygine en cuisine a t explore comme une habitude comportementale et non sur une
priode donne.
A partir de la base de donnes dorigine, nous avons constitu une base de donnes restreinte
pour les analyses (cas-complet et imputation multiple). Pour cela, nous avons dabord
slectionn et/ou reconstruit 28 variables binaires. Des variables ayant un pourcentage lev
de donnes manquantes (30%) ont t retenues, mais les variables ayant de faibles effectifs
dans la catgorie des exposs ont t exclues. La base de donnes contient au final 21
variables dexposition.

2.2.2. Examen des donnes manquantes


Examen quantitatif
Le questionnaire contenait 200 questions portant sur la consommation dtaille de
nombreuses catgories daliments pendant une priode de 8 jours. Malgr la qualit du recueil
des informations, le mode de recueil rtrospectif a induit un problme de mmorisation et les
rponses "ne sait pas" ont gnr des donnes manquantes pour la majorit des variables
dexposition. Sur les 21 variables dexposition, 3 variables sont compltes, 10 variables ont
moins de 8% de donnes manquantes, 5 variables de 8 15% et 3 variables de 15 30%
(Tableau 2.4).
Afin de dterminer la typologie des donnes manquantes, on examine la rpartition des
donnes manquantes parmi les diffrentes combinaisons des 21 variables incompltes. Mme
si des variables appartenant un mme sous-groupe (par exemple les variables de
consommation de poulet) ont des donnes manquantes communes, la rpartition parat suivre
un motif arbitraire, c'
est--dire que la proportion de donnes manquantes est du mme ordre
de grandeur pour la plupart des combinaisons des 21 variables.
90

De ce fait, les 21 variables sont entirement renseignes pour 202 individus seulement, sur un
effectif total de 538.

Examen qualitatif
Afin didentifier le mcanisme de donnes manquantes, on associe chaque variable
dexposition incomplte Ei une indicatrice de donnes manquantes Ri binaire, qui vaut 1 si la
variable Ei est manquante pour lindividu i et 0 sinon. On croise chaque indicatrice Ri avec
dune part la variable expliquer M (infection Campylobacter), et dautre part chacune des
variables dexposition Ei . Le lien statistique recherch est un test du Chi2 significatif
(p 0.05). Cet examen univari permet de proposer une premire synthse des mcanismes de
donnes manquantes.
Le mcanisme de donnes manquantes dpend de la variable expliquer pour une seule
variable, avoir mang au restaurant. Cela signifie que, pour les autres variables dexposition,
la proportion de donnes manquantes ne diffre pas significativement entre les cas et les
tmoins. Le dtail des relations entre les variables indicatrices de rponse et les variables
dexposition est donn dans le Tableau 2.4. Il montre que 18 des 21 variables dexposition
sont lies significativement au moins une variable indicatrice de donnes manquantes.
Le mcanisme de donnes manquantes serait donc a priori de type MAR(ME) pour la variable
avoir mang au restaurant, MAR(E) pour 17 autres variables, et MCAR pour les 3 variables
de contact (avec des malades diarrhiques ou des animaux). On peut en dduire que le risque
de biais des estimateurs en analyse cas-complet est rduit. Notons quun mcanisme MCAR
pour les 3 variables de contact est peu raliste, mme si aucune relation statistique na t
mise en vidence. Par ailleurs, un mcanisme de type MNAR doit tre envisag pour les 18
autres variables, puisquun lien existe entre leurs indicatrices de donnes manquantes et des
variables dexposition incompltes, donc potentiellement avec les valeurs non-observes de
ces variables.

91

Tableau 2.4

Examen de la base de donnes incomplte


Donnes manquantes
(%)

Variables d'exposition

Libell Signification

Variables de non
rponse *

Tmoins
(N=269)

Cas
(N=269)

Libell

Lien avec les


variables

d'exposition

Consommation de volaille
E1

Avoir mang du poulet

32.7

27.1

R1

R2 R8 R16

E2

Avoir mang du poulet achet au dtail

23.8

28.6

R2

R1

11.1

13.4

R3

R1 R2 R6 R7

Consommation de buf
E3

Avoir mang du buf

E4

Avoir mang du buf hors du domicile

4.5

2.2

R4

R2 R6 R7

E5

Avoir mang du buf achet en boucherie, la ferme


ou au march

0.0

0.4

R5

R3 R6 R7

E6

Avoir mang du buf achet au dtail

15.6

18.6

R6

R2 R18

E7

Avoir mang du buf peu cuit

7.8

11.1

R7

R3

Autres consommations alimentaires


E8

Avoir mang au restaurant

6.0

1.1

R8

R1 R2 R6 R10
R16 R17 R18

E9

Avoir mang de la viande cuite au barbecue

0.0

0.0

R9

R16 R17 R18

E10

Avoir mang du poisson ou des fruits de mer

11.9

9.7

R10

R1 R6

E11

Avoir mang des lgumes crus ou des salades

7.4

4.5

R11

R1 R3 R6

E12

Avoir mang des fruits ou des baies

7.4

11.5

R12

R8

E13

Avoir consomm des produits laitiers

3.0

3.0

R13

R11

E14

Avoir mang du fromage

0.0

0.0

R14

R1 R6 R8 R21

E15

Avoir bu de l'eau du robinet

0.7

1.1

R15

R6

Comportement en cuisine pour la prparation des repas


E16

Hygine insuffisante des mains

4.1

6.3

R16

R21

E17

Hygine insuffisante des ustensiles

3.3

5.6

R17

R8 R18

E18

Hygine insuffisante des plans de travail

5.2

7.1

R18

R21

Contacts avec des animaux ou des personnes malades


E19

Avoir eu des contacts avec des animaux de compagnie


ou des animaux de ferme

6.0

3.0

R19

E20

Expositions professionnelles (animaux morts ou vivants)

0.0

0.0

R20

E21

Avoir t en contact avec une personne diarrhique

3.3

5.2

R21

* Variables indicatrices de donnes manquantes indiquant si la variable est entirement renseigne ou non
Variables indicatrices de donnes manquantes lies significativement chacune des variables d'
exposition
(Chi2, p 0,05)

92

Il est possible dvaluer la pertinence de lhypothse MAR. Dun point de vue


pidmiologique, les mcanismes de donnes manquantes explors concernent des variables
de consommation alimentaire, dhygine et de contact avec des animaux ou des personnes.
Parmi ces expositions, un mcanisme de type MAR parait plausible pour les variables de
consommation alimentaire puisque les donnes manquantes proviennent sans doute dun
dfaut de mmorisation. Le mcanisme de donnes manquantes dpendrait alors seulement
des valeurs observes des autres variables (un consommateur rgulier de produits carns
pourrait consommer moins souvent du poisson).
En revanche, les expositions lies aux comportements dhygine en cuisine pourraient tre
ressenties comme sensibles et il parait cohrent que certaines personnes, plus particulirement
parmi celles qui ont t malades, prfrent ne pas fournir ce type dinformation. Le
mcanisme de donnes manquantes dpendrait alors de la valeur non-observe des variables,
et les donnes seraient MNAR. Cependant, la proportion de donnes manquantes pour ces
variables est faible (5%) et nest pas plus leve chez les cas que chez les tmoins.

2.3.

Construction et validation du modle dimputation


2.3.1. Analyse cas-complet

Une analyse cas-complet est ralise afin (i) didentifier les variables retenues pour tre
incluses dans le modle danalyse multivarie en cas-complet et aprs imputation multiple, et
(ii) dobtenir des estimations qui pourront tre compares celles obtenues aprs imputation
multiple. Au terme de lanalyse univarie, 14 variables ont t retenues pour lanalyse
multivarie car elles sont lies la variable expliquer avec un seuil de significativit p 0.2
(Tableau 2.5). Des interactions dordre 1 ont t recherches mais aucune ntait significative.

93

Tableau 2.5 Slection des variables incluses dans les modles danalyse et dimputation
Variables d'exposition
Libell

Odds Ratio appari

Signification

(IC 95%)

Variables d'
exposition lies la variable expliquer
et la non rponse : variables principales
E1

Avoir mang du poulet

0,7 (0,4;1,2)

0.2

E2

Avoir mang du poulet achet au dtail

0,5 (0,3;1,0)

0.05

E3

Avoir mang du buf

0,8 (0,5;1,2)

0.2

E5

Avoir mang du buf achet en boucherie, la ferme ou au march

0,6 (0,4;1,0)

0.03

E6

Avoir mang du buf achet au dtail

0,6 (0,4;0,9)

0.02

E7

Avoir mang du buf peu cuit

2,0 (1,2;3,4)

0.009

E8

Avoir mang au restaurant

1,6 (1,0;2,7)

0.06

E10

Avoir mang du poisson ou des fruits de mer

0,5 (0,3;0,9)

0.01

E11

Avoir mang des lgumes crus ou des salades

0,4 (0,2;0,7)

0.002

E12

Avoir mang des fruits ou des baies

0,5 (0,4;0,8)

0.004

E16

Hygine insuffisante des mains

1,5 (1,0;2,2)

0.04

E17

Hygine insuffisante des ustensiles

1,7 (1,1;2,6)

0.009

E19

Avoir eu des contacts avec des animaux de compagnie ou des animaux


de ferme

1,5 (1,0;2,3)

0.06

E21

Avoir t en contact avec une personne diarrhique

2,3 (1,3;3,9)

0.003

Variables d'
exposition non lies la variable expliquer
mais lies la non rponse : variables auxiliaires
E4

Avoir mang du buf hors du domicile

0,9 (0,4;2,1)

0.8

E14

Avoir mang du fromage

0,8 (0,5;1,2)

0.3

E9

Avoir mang de la viande cuite au barbecue (toute viande)

1,5 (0,8;2,3)

0.3

E13

Avoir consomm des produits laitiers

0,8 (0,4;1,5)

0.4

E15

Avoir bu de l'eau du robinet

1,0 (0,7;1,4)

0.9

E18

Hygine insuffisante des plans de travail

1,3 (0,8;2,0)

0.3

1,3 (0,8;2,0)

0.3

Variable d'
exposition ni lie la variable expliquer
ni lie la non rponse : variable accessoire
E20

Expositions professionnelles (animaux morts ou vivants)

94

Nous avons ralis une analyse multivarie en appliquant une stratgie de slection des
variables pas pas descendante. Cependant, les 14 variables incluses dans le modle sont
incompltes, et la perte deffectifs en analyse multivarie est importante et aggrave par
lappariement. En effet, comme illustr sur la Figure 2.2, la prsence dune donne manquante
pour un cas ou un tmoin entraine la perte de la paire complte lors de lanalyse.

Figure 2.2 Evolution des effectifs en fonction des variables incluses successivement
dans le modle danalyse multivarie cas-complet
600

500

Effectifs

400

300

200

100

0
Modle
vide

E1

E2

E3

E5

E6

E7

E8

E10

E11

E12

E16

E17

E19

Modle
complet

Variables ajoutes successivement dans le modle d'


analyse multivarie (14 variables)
Sans appariement

Avec appariement

Ainsi, aprs inclusion des 14 variables dans le modle multivari tenant compte de
lappariement, les effectifs sont ramens 94 individus sur les 538 initiaux. De ce fait,
lalgorithme de maximisation de la vraisemblance du modle ne converge pas et les
paramtres ne peuvent pas tre estims. Nous avons donc appliqu une stratgie danalyse par
sous-modles qui consiste effectuer une premire slection des variables en les incluant par
groupes de variables corrles dans 4 modles multivaris indpendants. Les 9 variables
retenues au terme des 4 analyses (p 0.2) sont incluses dans un modle unique et le modle
final obtenu porte sur 340 individus.

95

2.3.2. Construction du modle dimputation


Construction des quations de prdiction
La spcification des quations de prdiction consiste prciser une fonction de lien et un
ensemble de variables prdictrices pour chaque variable imputer. Les variables de la base de
donnes sont toutes binaires et une fonction de lien logit est spcifie. La slection des
variables inclure dans les quations de prdiction est ralise comme suit (Tableau 2.5).
La rgle de base est dinclure systmatiquement toutes les variables significativement lies
la variable expliquer en analyse univarie (test du Chi2, p 0.2). Elles constituent les
variables dites principales et sont incluses dans le modle danalyse multivarie. La variable
expliquer doit galement tre retenue pour limputation. Le modle dimputation le plus
rduit se limite ces 15 variables.
Le modle dimputation gagne tre plus riche que le modle danalyse par linclusion de
variables dites auxiliaires, non lies la variable expliquer mais lies aux variables
indicatrices de donnes manquantes des variables principales (test du Chi2, p 0.05). Six
variables auxiliaires potentielles sont identifies.
Linclusion de variables qui ne sont lies ni la variable expliquer, ni aux variables
indicatrices de donnes manquantes, peut rduire la prcision des estimations. Elles sont dites
variables accessoires. Dans cette tude, une seule variable est de type accessoire.
Le modle dimputation retenu se compose donc de 21 variables.

Nombre de bases et de cycles


En se basant sur les critres defficacit statistique, il est recommand dimputer 5 bases pour
une fraction dinformation manquante (FMI) denviron 25%, tolrant ainsi une perte
defficacit statistique de moins de 5% par rapport un nombre infini dimputations [3]. Afin
de limiter la perte de puissance lors des analyses, il faudrait imputer 10 bases pour avoir une
perte de puissance de moins de 5% par rapport 100 imputations [31]. Nous avons fait le
choix conservateur dimputer 30 bases de donnes en raison de la taille rduite de la base de
dpart ainsi que de la proportion et de la rpartition des donnes manquantes.

96

Le programme additionnel utilis (ICE) spcifie 10 cycles par dfaut car la convergence de
lchantillonneur de Gibbs est rapide si le modle est correctement spcifi, et nous avons
retenu cette valeur.

2.3.3. Analyse et diagnostic des donnes imputes


Analyse
Les 30 bases de donnes imputes sont analyses de faon spare puis combine selon les
rgles de Rubin. Le modle danalyse multivarie inclut la variable expliquer ainsi que les
14 variables identifies lors de lanalyse univarie cas-complet. Les commandes spcifiques
de limputation permettent deffectuer une analyse par rgression logistique tenant compte de
lappariement (rgression logistique conditionnelle).
Notons que les variables associes une diminution du risque de Campylobactriose ont t
conserves dans le modle danalyse (avoir mang du poisson ou des fruits de mer, avoir
mang des lgumes crus ou des salades et avoir mang des fruits ou des baies). En effet, on
peut faire lhypothse que leffet protecteur de ces variables est probablement indirect, li
une prfrence alimentaire et non un mcanisme biologique.

Diagnostic
Cette tape, qui en pratique est ralise en parallle de la phase danalyse, a pour objectif de
valider le modle dimputation, et destimer si lhypothse que les donnes soient MAR est
plausible.

Comparaison des donnes observes et imputes


Mme si la procdure dimputation multiple ne peut tre valide partir des donnes
observes, la comparaison des donnes observes et des donnes imputes est informative.
Ainsi, il est logique dobserver des diffrences modres entre donnes observes et imputes,
puisque lexamen des mcanismes de donnes manquantes montre de nombreuses relations
entre les indicatrices de donnes manquantes et les variables. Nous avons choisi de comparer
les OR obtenus en analyse univarie cas-complet et aprs imputation. Le Tableau 2.6 prsente
ces rsultats, ainsi quun critre de variation relative entre ces OR.
97

Tableau 2.6

Rsultats compars de lanalyse univarie en analyse


cas-complet et aprs imputation multiple

Cas Complet

Imputation Multiple

Variables d'exposition

Diagnostic (%)
|ORIM-ORCC|*

ORCC (IC 95%)

SE

ORIM (IC 95%)

SE
ORCC

Donnes
manquantes
(%)

E1

Avoir mang du poulet

0.69 (0.42-1.16)

0.18

0.91 (0.60-1.38)

0.19

31.9

30.0

E2

Avoir mang du poulet


achet au dtail

0.55 (0.30-0.99)

0.17

0.73 (0.47-1.13)

0.16

32.7

26.2

E3

Avoir mang du buf

0.80 (0.54-1.19)

0.16

0.85 (0.60-1.21)

0.15

6.3

12.3

E5

Avoir mang du buf


achet en boucherie, la
ferme ou au march

0.64 (0.43-0.97)

0.13

0.69 (0.46-1.03)

0.14

7.8

3.3

E6

Avoir mang du buf


achet au dtail

0.62 (0.41-0.94)

0.13

0.78 (0.54-1.12)

0.14

25.8

17.1

E7

Avoir mang du buf peu


cuit

2.00 (1.18-3.38)

0.53

2.26 (1.39-3.69)

0.56

13.0

9.5

E8

Avoir mang au
restaurant

1.64 (1.00-2.70)

0.42

1.67 (1.02-2.72)

0.41

1.8

3.5

E10

Avoir mang du poisson


ou des fruits de mer

0.55 (0.34-0.88)

0.13

0.55 (0.36-0.86)

0.12

0.0

10.8

E11

Avoir mang des lgumes


crus ou des salades

0.42 (0.25-0.72)

0.12

0.45 (027-0.74)

0.12

7.1

6.0

E12

Avoir mang des fruits ou


des baies

0.55 (0.37-0.83)

0.11

0.64 (0.44-0.94)

0.12

16.4

9.5

E16

Hygine insuffisante des


mains

1.50 (1.01-2.22)

0.3

1.51 (1.03-2.21)

0.29

0.7

5.2

E17

Hygine insuffisante des


ustensiles

1.71 (1.15-2.55)

0.35

1.68 (1.14-2.49)

0.34

1.8

4.5

E19

Avoir eu des contacts


avec des animaux de
compagnie ou de ferme

1.52 (0.98-2.35)

0.34

1.46 (0.95-2.23)

0.32

3.9

4.5

E21

Avoir t en contact avec


une personne diarrhique

2.26 (1.32-3.88)

0.62

2.03 (1.22-3.39)

0.53

5.8

4.3

* Variation relative des OR obtenus en analyse cas-complet (ORCC) et aprs imputation multiple (ORIM)

98

Des variations relatives de 20 30% sont observes pour les 3 variables ayant une proportion
de donnes manquantes leve, de 17 30%. Pour ces variables, les ORCC et les ORIM ne
diffrent pas significativement puisque les ORCC appartiennent aux intervalles de confiance
95% des ORIM. Pour les autres variables, le critre de variation relative des OR est infrieur
10% pour 10 variables sur 12.
En ce qui concerne les variables dhygine pour lesquelles les donnes sont risque dtre
MNAR, la variation relative est infrieure 2%. Cela peut tre li au faible pourcentage de
donnes manquantes pour ces variables (<5%), ainsi que par linclusion des principaux
prdicteurs de ces variables dans le modle dimputation.

Choix du nombre de bases


Lors de la ralisation de cette tude, les critres diagnostiques tels que lefficacit statistique
et lerreur de Monte Carlo ntaient pas directement accessibles lors des analyses. De ce fait,
nous avons tenu compte, lors du choix du nombre de bases imputes, des variations de la
valeur de lodds ratio ajust (ORa) de 4 variables cls en analyse multivarie en fonction du
nombre de bases imputes.

Tableau 2.7

Evolution des ORa en analyse multivarie en fonction du nombre


de bases imputes
Nombre de bases imputes

Donnes
manquantes
(%)

10

20

30

50

E1

29.9

1.05 (0.70 - 1.58)

0.96 (0.64 - 1.45)

0.97 (0.65 - 1.45)

0.99 (0.66 - 1.49)

0.99 (0.66 - 1.49)

E6

17.1

0.96 (0.64 - 1.43)

0.90 (0.61 - 1.32)

0.91 (0.62 - 1.34)

0.91 (0.61 - 1.34)

0.90 (0.61 - 1.32)

E10

16.8

0.64 (0.40 - 1.06)

0.66 (0.41 - 1.08)

0.67 (0.41 - 1.10)

0.67 (0.41 - 1.09)

0.67 (0.41 - 1.09)

E17

4.5

1.80 (1.15 - 2.82)

1.83 (1.19 - 2.82)

1.82 (1.18 - 2.81)

1.82 (1.18 - 2.81)

1.82 (1.18 - 2.82)

Variables

E1 : Avoir mang du poulet ; E6 : Avoir mang du buf achet au dtail ; E10 : Avoir mang du poisson ou des
fruits de mer ; E17 : Hygine insuffisante des ustensiles

Les rsultats prsents dans le Tableau 2.7 montrent peu de variations au-del de 20 bases,
aussi bien pour la valeur de lORa que pour lintervalle de confiance 95%. On peut en
dduire quil est suffisant dimputer 30 bases.

99

2.4.

Rsultats

Les rsultats des analyses cas-complet et par imputation multiple sont prsents dans le
Tableau 2.8. Pour le modle danalyse final, les effectifs sont respectivement de 340 et 538
individus.

Tableau 2.8

Analyse multivarie des facteurs associs une augmentation ou une


diminution du risque dinfection Campylobacter, analyse cas-complet et
imputation multiple

Variables

Cas complet (N* = 340)

Imputation Multiple (N* = 538)

OR

IC 95%

OR

IC 95%

E5 - Avoir mang du buf achet en


boucherie, la ferme ou au march

0.51

0.28 - 0.93

0.03

0.59

0.37 - 0.94

0.03

E7 - Avoir mang du buf peu cuit

2.71

1.37 - 5.39

0.004

2.76

1.62 - 4.73 < 0.001

1.75

1.02 - 3.03

0.04

0.40

0.22 - 0.70

0.002

2.10

1.32 - 3.30

0.002

2.01

1.13 - 3.58

0.02

E8 - Avoir mang au restaurant


E11 - Avoir mang des lgumes crus ou des
salades

NS
0.45

0.23 - 0.88

E17 - Hygine insuffisante des ustensiles


E21 - Avoir t en contact avec une
personne diarrhique

0.002
NS

3.19

1.57 - 6.48

0.001

Sont nots en caractres gras les ORa des variables associes une augmentation du risque dinfection
Campylobacter.
* Nombre dindividus pris en compte dans le calcul des ORa dans le modle final
Analyse cas-complet ralise par lintermdiaire de sous-modles
Odds ratio non significatif

Pour les deux analyses, la consommation de buf insuffisamment cuit et le contact avec une
personne diarrhique sont des facteurs indpendamment associs au risque de survenue dune
Campylobactriose. Par ailleurs, la consommation de buf achet en boucherie, la ferme ou
au march, ainsi que la consommation de lgumes crus ou de salades sont des facteurs
associs une diminution du risque de Campylobactriose.
Lanalyse ralise par imputation multiple met en vidence deux facteurs de risque
supplmentaires de Campylobactriose : le fait davoir mang au restaurant et une hygine
insuffisante des ustensiles de cuisine lors de la prparation des repas.
Les odds ratios ajusts (ORa) prsents dans le Tableau 2.8 sont issus de modles multivaris
diffrents en analyse cas-complet et en imputation multiple. Nous avons restreint lanalyse
100

par imputation multiple aux 4 variables slectionnes par lanalyse cas-complet afin de
pouvoir comparer les estimations en fonction du type danalyse. Les rsultats sont prsents
dans le Tableau 2.9.

Tableau 2.9

Rsultats compars de lanalyse multivarie (modle final 4


variables), analyse cas-complet et imputation multiple
Cas Complet (N* = 330)

Imputation Multiple (N* = 538)

Variables
OR

SE

(SE/OR)x100

E5 - Avoir mang du
buf achet en
boucherie, la ferme ou
au march

0.51 (0.28-0.93)

0.15

E7 - Avoir mang du
buf peu cuit

2.71 (1.37-5.38)

E11 - Avoir mang des


lgumes crus ou des
salades
E21 - Avoir t en
contact avec une
personne diarrhique

OR

SE

(SE/OR)x100

29.4

0.61 (0.39-0.97)

0.14

23.1

0.95

35.1

2.62 (1.57-4.38)

0.69

26.3

0.45 (0.23-0.88)

0.15

33.3

0.47 (0.27-0.80)

0.13

27.7

3.19 (1.57-6.48)

1.15

36.1

2.03 (1.17-3.53)

0.57

28.1

* Nombre d'
individus pris en compte dans le calcul des OR dans le modle final
Coefficient de variation associ l'
OR, exprim en %

Les ORa sont proches pour les deux analyses pour les variables E5, E7 et E11. On observe un
gain de prcision aprs imputation multiple avec une baisse du coefficient de variation. Pour
la variable contact avec une personne diarrhique, la diffrence entre les ORa obtenus dans les
deux analyses est plus marque avec une variation relative de 36%. Notons que, pour cette
variable, lcart type est divis par 2 aprs imputation et le coefficient de variation est rduit
de presque 10%.

101

2.5.

Analyse de sensibilit selon le modle dimputation

Il est recommand de tester plusieurs bases de donnes imputes issues de modles


dimputation diffrents, car cela peut constituer une forme simple danalyse de sensibilit
[35]. Dans cette tude, le type des variables ne peut tre modifi, mais il est possible de faire
varier le nombre de variables incluses dans le modle dimputation.
Le Tableau 2.10 prsente les valeurs des ORa et de leur cart-type pour les 6 variables
retenues au terme de lanalyse multivarie aprs imputation, et pour des modles incluant de
15 24 variables dexposition.
Les modles 1 4 sont composs des variables principales et dun nombre croissant de
variables auxiliaires, le modle 4 tant le modle retenu pour limputation. On note peu de
variations de la valeur de chacun des ORa et de son cart-type selon les modles.
Le modle 5 inclut en plus une variable accessoire, c'
est--dire sans capacit prdictrice, et le
modle 6 contient les 3 variables dappariement (sexe, ge, rgion de rsidence). Notons
quen toute rigueur il aurait t justifi de tester les capacits prdictrices des 3 variables
dappariement afin de dterminer si elles pouvaient tre des variables auxiliaires. On observe
un impact faible de lajout de ces variables, avec au maximum une variation relative par
rapport aux rsultats du modle 4 de 6% pour la variable E8 (avoir mang au restaurant).
Les modles 8 11 correspondent au modle 1, c'
est--dire le modle minimal, dont on a
exclu certaines variables principales. On se trouve donc dans des conditions o le modle
dimputation spcifi est incorrect, ce qui en thorie peut provoquer des biais dans les
estimations. Or limpact sur les estimations est limit, avec une variation relative maximale de
8% par rapport au modle 4 pour la variable E8.
Cette analyse montre que les estimations sont stables selon le modle dimputation retenu,
mme lors dincompatibilit des modles dimputation et danalyse. Cela peut tre li la
robustesse de la mthode dimputation, ainsi qu la richesse du modle dimputation en
variables prdictrices bien corrles entre elles par sous-groupes.

102

Tableau 2.10 Rsultats compars du modle danalyse multivarie final


selon le modle dimputation
ORa
(Ecart type)

Modles d'imputation
E5

E7

E8

E11

E17

E21

Modle 1 : 15 variables (variable


expliquer + 14 variables principales)

0.60
(0.14)

2.79
(0.76)

1.69
(0.47)

0.41
(0.12)

2.05
(0.47)

2.02
(0.60)

Modle 2 : 18 variables (variable


expliquer + 14 variables principales +
3 variables auxiliaires)

0.59
(0.14)

2.74
(0.76)

1.74
(0.49)

0.39
(0.11)

2.10
(0.49)

2.04
(0.60)

Modle 3 : 19 variables (variable


expliquer + 14 variables principales +
4 variables auxiliaires)

0.59
(0.14)

2.84
(0.78)

1.73
(0.48)

0.39
(0.11)

2.11
(0.49)

2.03
(0.60)

Modle 4 : 21 variables (variable


expliquer + 14 variables principales +
6 variables auxiliaires)

0.58
(0.14)

2.77
(0.76)

1.75
(0.49)

0.40
(0.12)

2.10
(0.49)

2.01
(0.59)

Modle 5 : 22 variables (variable


expliquer + 14 variables principales +
6 variables auxiliaires + 1 variable
accessoire)

0.60
(0.14)

2.75
(0.76)

1.75
(0.49)

0.39
(0.11)

2.10
(0.49)

1.98
(0.58)

Modle 6 : 24 variables (variable


expliquer + 14 variables principales +
6 variables auxiliaires + 3 variables
d'appariement)

0.60
(0.14)

2.71
(0.75)

1.64
(0.45)

0.44
(0.13)

2.07
(0.48)

1.96
(0.57)

Modle 8 : 14 variables (Modle 1


sans la variable E1)

0.61
(0.14)

2.85
(0.77)

1.73
(0.48)

0.40
(0.11)

2.10
(0.47)

1.99
(0.58)

Modle 9 : 14 variables (Modle 1


sans la variable E3)

0.60
(0.14)

2.78
(0.80)

1.63
(0.45)

0.40
(0.11)

2.00
(0.47)

1.93
(0,57)

Modle 10 : 14 variables (Modle 1


sans la variable E10)

0.59
(0.14)

2.86
(0.83)

1.61
(0.44)

0.39
(0.11)

2.07
(0.48)

1.95
(0.57)

Modle 11 : 13 variables (Modle 1


sans les variables E1 et E3)

0.60
(0.14)

2.69
(0.73)

1.66
(0.46)

0.41
(0.12)

2.09
(0.48)

2.03
(0.60)

E5 : Avoir mang du buf achet en boucherie, la ferme ou au march ; E7 : Avoir mang du buf peu cuit ;
E8 : Avoir mang au restaurant ; E11 : Avoir mang des lgumes crus ou des salades ; E17 : Hygine
insuffisante des ustensiles ; E21 : Avoir t en contact avec une personne diarrhique.
E1 : Avoir mang du poulet ; E3 : Avoir mang du buf ; E10 : Avoir mang du poisson ou des fruits de mer.
En gris fonc : modle retenu pour limputation ; en gris clair : modle incluant toutes les variables disponibles.

103

2.6.

Discussion
2.6.1. Interprtation des rsultats

Processus de slection des variables


Lanalyse cas-complet, bien que potentiellement non-biaise, nest pas satisfaisante puisque
les variables slectionnes en analyse univarie nont pu tre incluses simultanment dans le
modle danalyse multivarie. Le processus de slection des variables en analyse multivarie
est donc fauss puisque toutes les relations entre les variables nont pu tre explores. Un
ventuel effet de confusion pourrait donc tre omis en relation avec les donnes manquantes.
De plus lanalyse multivarie cas-complet ne porte que sur 340 individus pour le modle final
sur les 538 individus de dpart.
De ce fait, lanalyse par imputation multiple est plus efficace car elle permet de tenir compte
de lensemble des informations contenues dans la base de donnes. La slection des variables
nest alors pas fausse par les donnes manquantes et les variables retenues au terme de
lanalyse multivarie diffrent de celles de lanalyse cas-complet. Deux facteurs de risque
supplmentaires de Campylobactriose sont mis en vidence aprs imputation multiple, le fait
davoir mang au restaurant et une hygine en cuisine insuffisante.
Par ailleurs, certaines variables qui auraient pu tre occultes lors de lanalyse cas-complet
par manque de puissance, car contenant une proportion leve de donnes manquantes (25
30%), ne sont pas retenues au terme de lanalyse aprs imputation multiple. Ainsi,
limputation multiple permet de confirmer que la consommation de poulet, identifie par
dautres tudes comme un facteur de risque de Campylobactriose, nest pas mise en vidence
dans cette enqute. Un des objectifs de cette tude tait de prciser ce point important.

Puissance et prcision
Outre une amlioration du processus de slection des variables, limputation multiple permet
dobtenir un gain de puissance et donc de prcision, ainsi que de redresser les biais potentiels
en analyse cas-complet, sous lhypothse MAR.
Lanalyse cas-complet est ralise sur 38.6% des effectifs totaux pour les 4 variables
communes aux deux analyses. Les coefficients de variation rendent compte de limpact de
104

cette perte deffectifs en analyse cas-complet. Ils ont des valeurs proches pour les 4 variables
considres. Notons que la perte deffectifs est alors indpendante de la proportion de
donnes manquantes initiale de ces variables, mais dpend de leffet conjugu des donnes
manquantes des 4 variables. Lors de lanalyse aprs imputation multiple, portant sur des
effectifs restaurs, la variabilit lie la prsence de donnes estimes est prise en compte
dans le calcul de la variance (en intgrant une variance inter-bases). Limputation dun
nombre suffisant de bases de donnes, tenant compte de la proportion de donnes manquantes
dans la base de donnes de dpart, doit permettre de limiter cette variabilit. Dans cette tude,
cet objectif est atteint puisque le coefficient de variation est nettement rduit aprs imputation
multiple pour les 4 variables considres. Par ailleurs, un examen simple des ORa de
variables cls selon le nombre de bases imputes montre que le choix dimputer 30 bases est
valide. Une limite de cette tude est de navoir pas prcis cette notion par le calcul pour
chacune des variables de la FMI, de lefficacit statistique et de lerreur de Monte-Carlo.

Biais hypothse MAR


Lors de la comparaison des rsultats obtenus par analyse cas-complet et par imputation
multiple, la question dun biais potentiel des estimations doit tre aborde. Notons cependant
que, lors de lanalyse dune base de donnes incomplte, le biais li aux donnes manquantes
nest quantifiable que lorsque les donnes compltes sont disponibles, soit uniquement par
des tudes de simulation. Lexamen initial de la base de donnes incomplte montre que les
mcanismes de donnes manquantes des variables dintrt sont trs majoritairement de type
MAR(E) ou MAR(EC) si lon tient compte dun effet de confusion. Sous ces scnarios, une
analyse de type cas-complet est non-biaise.
Limputation multiple peut donner des rsultats biaiss (i) si le modle dimputation nest pas
correctement spcifi, ou (ii) si des donnes sont manquantes selon un mcanisme MNAR.
Dans cette tude, la base de donnes contient des variables qui ont pu tre ajoutes au modle
dimputation afin damliorer ses capacits prdictrices et 6 variables auxiliaires ont t
slectionnes. Une limite est de ne pas avoir recherch les capacits prdictrices des variables
dappariement, mme si linclusion de la variable expliquer dans le modle dimputation
permet de tenir compte du statut cas/tmoin. De plus, les estimations obtenues avec ce modle
plus complet (modle 6 24 variables) sont proches de celles prsentes (modle 4 21
variables). Par ailleurs, nous avons test leffet de lexclusion dune ou plusieurs variables

105

principales du modle dimputation et les estimations se sont rvles robustes cette


incompatibilit entre les modles dimputation et danalyse.
Dans cette tude, nous avons fait lhypothse que les donnes manquantes taient
essentiellement dues un dfaut de mmorisation, en relation avec le type dinformation
collecte sur une priode prcise et avec un mode de recueil rtrospectif. Cependant, les
rponses aux questions dhygine pourraient tre volontairement omises, menant un
mcanisme MNAR. Lorsque lhypothse MAR est pose tort, les estimations obtenues aprs
imputation peuvent tre biaises, c'
est--dire les estimations des coefficients de rgression des
variables du modle final. Cependant, la proportion de donnes manquantes des variables
dhygine est de lordre de 5%, et ne dpend pas du statut cas/tmoin.
Les estimations obtenues avec les deux types danalyse sont proches pour les 4 variables
communes. La diffrence relative observe entre les ORa associs la variable cuisson du
buf et plus nettement pour la variable contact avec une personne diarrhique peut tre lie
au gain de prcision aprs imputation multiple, objectiv par la baisse du coefficient de
variation. On peut donc conclure que le processus dimputation sous lhypothse MAR, bas
sur un modle riche en variables prdictrices, permet de redresser les biais lis un
mcanisme MNAR potentiel.

2.6.2. Intrt mthodologique de ltude


La principale difficult rencontre a consist effectuer la slection des variables inclure
dans le modle dimputation. Au moment de ltude, le mode de slection des variables tait
encore peu document dans la littrature, essentiellement dtaill par Van Buuren et Schafer
[17;42]. Nous avons explor en analyse univarie les liens entre les variables indicatrices de
donnes manquantes des variables incompltes et toutes les autres covariables retenues. Cela
nous a permis de synthtiser les mcanismes de donnes manquantes, et de slectionner des
variables auxiliaires. Cependant, la notion de variable prdictrice est imprcise puisque le
nombre de liens entre les variables auxiliaires et les indicatrices de donnes manquantes des
variables auxiliaires varie de 1 3 liens significatifs sur 14 variables imputer. De mme, les
variables principales ont des capacits prdictrices trs variables puisque de 1 8 relations
significatives sont observes entre ces variables et leurs indicatrices de donnes manquantes.
Nous avons fait le choix conservateur dinclure chaque variable lie au moins une

106

indicatrice de donnes manquantes dans lquation de prdiction de toutes les variables


imputer.
Cependant, les liens identifis ne tiennent pas compte dun ajustement sur les autres
covariables. Une analyse multivarie des indicatrices de donnes manquantes est
recommande dans la littrature rcente, mais naurait pas pu tre mise en uvre partir de la
base de donnes incomplte, en raison de la proportion et de la rpartition des donnes
manquantes. Ce type danalyse multivarie aurait pu tre effectue partir de bases de
donnes compltes selon un modle dimputation trs gnral, afin de valider le choix des
variables prdictrices.
Par ailleurs, dans cette tude, la stratgie danalyse partir des donnes imputes est ralise
de faon linaire, en se basant sur la significativit des coefficients, ce qui permet de
slectionner un modle final sans faire appel des procdures de post-estimation. Notons que
lestimation des donnes manquantes par imputation multiple permet de minimiser le risque
de ne pas dpister un effet de confusion li aux donnes manquantes, si le processus
dimputation est valide. Dans cette tude, limputation multiple par quations chanes est
particulirement adapte puisque les variables incompltes sont discrtes. Par ailleurs, la
richesse de la base de donnes en variables prdictrices trs corrles entre elles permet de
conclure que les rsultats issus de lanalyse multivarie aprs imputation sont fiables.
Pour le choix du modle dimputation, aucun critre dadquation ne peut tre calcul. Il est
cependant possible de tester ladquation aux valeurs observes de chacun des modles
construits partir des quations de prdiction. Il aurait ainsi fallu laborer 14 modles, un par
variable imputer, en testant pour chaque modle leffet de linclusion de chacune des 6
variables auxiliaires.

Conclusion
Cette application pratique a t ralise partir dune base de donnes contenant de
nombreuses variables incompltes, avec des donnes qui sont manquantes selon un schma
arbitraire et un mcanisme majoritairement MAR. Lintrt de cette tude est donc dillustrer
le processus de slection des variables lorsque de nombreuses variables sont disponibles.
Notons que pour certaines bases de donnes de sant publique, pouvant contenir plus de 100
variables, des procdures automatiques de construction des quations de prdiction sont
disponibles pour certaines implmentations. Par exemple, le programme IVEware retient par
107

une procdure danalyse pas pas descendante automatique les variables considres comme
prdictrices. La slection est automatise en spcifiant au pralable la valeur de la part de la
variance explique du modle de rgression [82]. Cependant, le nombre de variables retenues
dans lquation de prdiction de chaque variable varie sensiblement selon la valeur de ce
critre. Ce type de slection automatique contient donc une part darbitraire quil convient de
contrler au mieux.

108

3.

Estimation par une mthode capture-recapture trois


sources du nombre de nouveaux diagnostics VIH chez
les enfants : imputation dune variable de
stratification

Lobjectif mthodologique de ce travail tait destimer par imputation multiple les donnes
manquantes dune variable de stratification non-renseigne pour une des trois sources de
donnes, puis dappliquer la mthode capture-recapture des bases de donnes imputes.

3.1.

Contexte

Au niveau mondial, limmense majorit des infections par le VIH chez les enfants est due
une transmission mre-enfant (TME) au cours de la grossesse, de laccouchement ou de
lallaitement. Environ 430 000 nouvelles infections pdiatriques ont t diagnostiques dans
le monde en 2008 [83]. La plupart de ces infections auraient pu tre vites par des
programmes de prvention de la TME.
En France, le risque de transmission du VIH lenfant a t rduit de faon marque depuis la
fin des annes 80 grce lutilisation prophylactique et thrapeutique des thrapies
antirtrovirales (ART). Ces traitements administrs la mre pendant la grossesse, mais aussi
au bb pendant les premires semaines de vie, ont permis dobtenir un taux de transmission
trs faible, de lordre de 1% pour les femmes ayant accouch entre 1997 et 2004 [84]. Ainsi,
un diagnostic prcoce durant la grossesse et une mise sous traitement rapide de la mre
permet une prvention efficace de la TME. En France, une nouvelle politique nationale datant
de 1993 stipule quun test de dpistage de linfection par le VIH doit tre systmatiquement
propos aux femmes enceintes lors du premier examen prnatal (1er trimestre de la
grossesse).
Il est communment admis que le nombre denfants vivant avec le VIH en France est
denviron 1 500 sur un total estim de 150 000 personnes sropositives. De plus, 10 15
nouvelles infections sont diagnostiques chez des nouveau-ns chaque anne [85], auxquelles
il faudrait ajouter les diagnostics chez les enfants ns en pays de forte endmie, arrivant en
France aprs leur naissance et pour lesquels aucune estimation nest disponible.
109

3.2.

Objectif

Notre objectif tait destimer par la mthode capture-recapture le nombre total de nouveaux
diagnostics dinfection VIH chez les enfants de moins de 13 ans en France mtropolitaine
pour la priode 2003-2006, partir de trois sources de donnes : la dclaration obligatoire du
VIH (DOVIH), lEnqute Prinatale Franaise (EPF) et la surveillance de lactivit de
dpistage du VIH auprs des laboratoires (LaboVIH). Lobjectif secondaire de cette tude
tait dvaluer lexhaustivit de la DOVIH chez lenfant et celle dEPF.
La mthode capture-recapture permet, en croisant au moins deux sources dinformations
dune mme maladie, destimer le nombre total de cas de la maladie et ainsi lexhaustivit de
chaque source [86].

Dfinition de cas
Un cas est un enfant de moins de 13 ans pour lequel un nouveau diagnostic dinfection VIH
a t effectu en France mtropolitaine entre le 01 janvier 2003 et le 31 dcembre 2006. Le
diagnostic est bas sur un examen virologique (culture virale ou PCR) chez lenfant de moins
de 18 mois ou sur une srologie confirme positive (Western Blot) chez lenfant de plus de 18
mois [85].

3.3.

Description des trois sources de donnes


3.3.1. La dclaration obligatoire du VIH (DOVIH)

La dclaration obligatoire des nouveaux diagnostics de linfection VIH a t mise en place


en 2003 par lInstitut de Veille Sanitaire (InVS) afin de suivre les tendances temporelles et
spatiales de lpidmie et de dcrire les caractristiques des nouveaux cas [87]. Chaque cas
avec une srologie positive confirme pour la premire fois doit tre notifi par les
biologistes. La cration dun code didentification unique pour chaque individu, construit
partir de la date de naissance, du prnom, de linitiale du nom et du sexe, permet de dtecter
les ventuels doublons. Les cliniciens compltent le formulaire de notification avec des
informations pidmiologiques et cliniques. Pour les enfants de moins de 13 ans, la
notification ntait base jusquen 2007 que sur les pdiatres et non sur la base dune double
dclaration par les biologistes et les cliniciens comme chez les adultes. Les formulaires de
notification sont transmis aux autorits sanitaires, puis centraliss lInVS o les donnes
110

sont saisies dans une base de donnes nationale. Afin de tenir compte des dlais de
dclaration, plus longs pour les notifications des enfants que pour celles des adultes, la base
DOVIH utilise a inclus des notifications jusquau 31 mars 2010.

3.3.2. Lenqute prinatale franaise (EPF)


Lenqute prinatale franaise, finance par lANRS (ANRS-EPF CO1/CO10/CO11), est une
cohorte de mres sropositives, incluses au plus tard laccouchement, ayant donn leur
accord pour leur inclusion et le suivi de leurs enfants, quils soient ou non infects par le VIH.
Initie en 1984, cette enqute collecte prospectivement des donnes grce la participation
volontaire dune centaine de services de maternit et de pdiatrie sur lensemble du territoire
franais [84]. Les critres dinclusion des enfants ont t tendus depuis 2005 tous les
enfants de moins de 13 ans rcemment diagnostiqus pour le VIH dans des sites pdiatriques
et ns de mres non incluses dans EPF, avec un consentement parental. Pour ces enfants, le
recueil de donnes a t rtrospectif entre 2003 et 2004 puis prospectif partir doctobre
2004. Des examens cliniques et biologiques sont effectus tous les 6 mois entre la naissance
et 18 ans pour les enfants infects par le VIH et jusqu 24 mois pour les enfants non-infects.
Lobjectif de cette enqute tait dtudier les facteurs associs la TME du VIH, la tolrance
aux antirtroviraux administrs en prinatal chez les mres et leurs enfants, ainsi que le
pronostic de linfection pdiatrique. La base de donnes constitue pour notre tude inclut des
cas slectionns partir du fichier disponible en avril 2008, pour lequel les doublons avaient
t identifis et supprims.

3.3.3. Lenqute LaboVIH


Afin dvaluer lactivit de dpistage du VIH en France, lInVS a mis en place en 2001
lenqute LaboVIH auprs de lensemble des laboratoires danalyses biologiques et mdicales
(4200 laboratoires). Chaque laboratoire envoie lInVS des donnes agrges par semestre
concernant le nombre de tests VIH effectus et le nombre de tests confirms positifs [88]. Il
prcise galement le nombre de diagnostics dinfection par le VIH confirms chez des enfants
gs de moins de 15 ans.
Une troisime source de donnes a donc pu tre constitue partir de ce rseau de
surveillance afin damliorer les conditions dapplication de la mthode capture-recapture.
Parmi les laboratoires participant chaque anne (taux de participation de 85%), 137
111

laboratoires mtropolitains ont signal au moins un diagnostic dinfection VIH confirm


pour la priode 2003-2006. Un questionnaire leur a t envoy afin de recueillir des donnes
individuelles pour chacun de ces diagnostics. Parmi ces 137 laboratoires, 113 ont finalement
rapports au moins un cas pdiatrique dinfection au VIH. Seuls les diagnostics pour les
enfants de moins de 13 ans ont t retenus pour ltude. Les doublons de notifications ont t
identifis et supprims.

3.4.

Mthodes
3.4.1. Identification des cas communs

En labsence dun identifiant unique pour chaque nouveau diagnostic, des algorithmes
didentification des cas communs aux sources ont t construits en fonction de critres
communs disponibles dans chacune des bases de donnes. Lanne de naissance, le sexe,
lhpital de suivi (ou son dpartement) et la date de diagnostic (ou de prise en charge) taient
renseigns dans les trois sources. Lalgorithme didentification des cas communs la DOVIH
et EPF a galement pris en compte la maternit de naissance pour les enfants ns en France ou
le pays de naissance, lorigine gographique de la mre et le statut vital de lenfant.
Lidentification des cas communs a t ralise par la procdure SQL de SAS (version 9.1)
et a t complte par une vrification manuelle.

3.4.2. Identification de variables dhtrognit de capture


Des variables dites dhtrognit de capture permettent de prendre en compte des variations
de la probabilit de notification au sein dune mme source [86]. Trois variables ont t
identifies comme variables dhtrognit potentielles.

La rgion de diagnostic (Ile de France, province)


Pour EPF, lexhaustivit pourrait varier selon la rgion de diagnostic puisque la rgion Ile de
France regroupe les sites les plus importants. Pour la DOVIH, il existe une disparit selon les
rgions, avec une sous-dclaration allant jusqu 50% pour certaines [89]. Enfin le taux de
participation des laboratoires lenqute LaboVIH varie galement selon la rgion (de 78
98% en 2005) [89].

112

Le pays de naissance de lenfant (France, tranger)


Pour EPF, il est probable que lexhaustivit soit meilleure pour les enfants ns en France que
pour les enfants ns ltranger. En effet, linclusion denfants aprs leur dcouverte de
sropositivit date de 2004, et le recueil de donnes a t rtrospectif pour la priode 20032004. De plus, un consentement parental est ncessaire pour inclure ces enfants, et il est
probable que le risque de refus est plus important que dans le cas de mres sropositives
incluses demble dans la cohorte. Pour la DOVIH, il est possible que les enfants ns
ltranger et porteurs du VIH soient moins bien dpists que les enfants ns en France du fait
dun accs aux soins plus difficile pour les enfants ns ltranger.

Lanne de diagnostic (2003-2006)


Pour la source DOVIH, on peut considrer que les dlais de notification ont t pris en
compte, du fait de la mise jour de la base de donnes jusquen 2010. En revanche pour la
source EPF, mme si le problme de dlais ne se pose pas avec la mme acuit que pour la
DO, le recueil de donnes a t cltur en avril 2008, et il est possible que la base de donnes
ne soit pas complte.

3.4.3. Imputation de la variable pays de naissance


Nous avons fait le choix destimer le nombre total de nouveaux diagnostics VIH en prenant
en compte le pays de naissance (n en France, n ltranger). Cette variable binaire na
jamais t recueillie dans la source LaboVIH. Cependant, cette information tait partiellement
disponible pour les cas de LaboVIH communs au moins lune des deux autres sources
(DOVIH et EPF) pour lesquelles cette information avait t collecte. La proportion globale
de donnes manquantes pour la variable pays de naissance tait donc denviron 30% (66/216)
et variait selon les sources : 59.9% (64/129) pour LaboVIH, 1.8% (2/110) pour DOVIH et
0.0% pour EPF.
Les donnes manquantes de la variable pays de naissance ont t estimes par une mthode
dimputation multiple. Dans une tude de type capture-recapture, les variables communes aux
trois sources sont peu nombreuses. Dans cette tude, la base regroupant les donnes des trois
sources contenait les 3 variables indicatrices de sources (codes 1 lorsque lindividu est
prsent dans la source et 0 sinon), le sexe, lge et les 3 variables dhtrognit de capture.
Les 4 variables sexe (variable binaire), ge (variable continue), rgion de diagnostic (variable
113

catgorielle) et anne de diagnostic (variable catgorielle) taient entirement observes et ont


t incluses comme variables prdictrices dans le modle dimputation. Le modle
dimputation tait donc rduit aux 3 variables dites principales car utilises dans les analyses
aprs imputation, et 1 variable auxiliaire, le sexe. Une fonction de lien multinomiale a t
spcifie pour la variable pays de naissance. Les variables catgorielles ont t dcomposes
en variables indicatrices binaires avant dtre incluses dans le modle dimputation.
Du fait de la proportion importante de donnes manquantes de la variable pays de naissance
(30%) nous avons choisi de gnrer 100 bases de donnes compltes. Nous avons tenu
compte dans ce choix dindications de la littrature rcente qui suggrent de gnrer un
nombre important de bases de donnes afin de limiter la perte de puissance lors des analyses
[28;58].

3.5.

Estimations issues de la mthode capture-recapture


3.5.1. Conditions dapplication

Pour la mthode capture-recapture, la fiabilit des rsultats dpend du respect de diffrentes


conditions dapplication : (1) labsence de faux-positifs parmi les cas, (2) lidentification de
tous les vrais cas communs, (4) lhomognit de capture, (5) la mme priode et la mme
zone gographique, (6) lindpendance entre les sources et (7) une population dtude ferme
[86].
Lhomognit de capture est vrifie quand la probabilit de notification dun cas par une
source donne est la mme pour tous les cas, cest--dire que cette probabilit ne dpend pas
des caractristiques individuelles des cas (par exemple lge, le sexe ou le lieu de naissance).
Cette probabilit peut varier dune source une autre ou tre globalement constante.
Linclusion dans lanalyse de variables dites dhtrognit de capture permet cependant de
prendre en compte des variations de la probabilit de notification au sein dune mme source
[86].
Deux sources sont dites indpendantes si la probabilit de notification dun cas par une source
ne dpend pas de la probabilit de notification de ce cas par une autre source. Pour des
analyses ralises partir de trois sources ou plus, lhypothse dindpendance nest plus
requise puisque des termes dinteraction peuvent tre inclus dans les modles de rgression de
faon ajuster sur les dpendances potentielles entre les sources.
114

3.5.2.

Analyses prliminaires

La dpendance entre les sources peut tre prise en compte dans le calcul du nombre total de
cas. Ainsi, Wittes propose de comparer les estimations obtenues pour chaque combinaison des
sources deux deux et dvaluer la dpendance entre les sources en comparant ces
estimations [86]. Si un couple de sources donne une estimation trs diffrente des autres
couples, une dpendance entre ces sources peut tre suspecte (positive ou ngative). La
dpendance entre deux sources peut tre plus directement approche par le calcul du rapport
de cotes (OR) de Wittes et son intervalle de confiance 95%.
Une analyse prliminaire ralise partir de la base de dpart (non-impute) a t applique
en ajustant 8 modles log-linaires aux donnes rparties dans un tableau de contingence 23
cellules selon la prsence ou non des cas dans chacune des 3 sources. La variable dpendante
pour chaque modle est le logarithme nprien du nombre de cas dans chacune des 7 cellules
non-vides du tableau de contingence. Ces analyses permettent dobtenir des estimations pour
la population dtude tenant compte des dpendances entre les sources. Les 8 modles loglinaires construits vont du modle le plus simple sans interaction au modle satur incluant
les trois interactions dordre 1. Cette analyse prliminaire est base sur lhypothse dune
homognit de capture au sein de chaque source et a t ralise en utilisant le programme
additionnel RECAP de STATA [90]. Les intervalles de confiance des estimations ont t
calculs selon une mthode base sur la vraisemblance propose par Regal et Hook [91].

3.5.3. Analyses incluant les variables dhtrognit


Nous avons choisi de prendre en compte trois variables potentielles dhtrognit de
capture : le pays de naissance (n en France, n ltranger), la rgion de diagnostic (Ile de
France, province) et lanne de diagnostic (2003-2006). Les donnes sont donc rparties dans
un tableau de contingence form de 23x2x2x4 cellules, afin dobtenir tous les croisements
avec les variables dhtrognit. Par ailleurs, les donnes se prsentent sous la forme dun
fichier contenant les 100 bases de donnes imputes et la base de dpart (dite base 0), chacune
des bases tant identifie par une variable indicatrice.
La commande permettant de gnrer ce tableau de contingence a donc t applique
successivement chacune des 100 bases de donnes imputes. Puis la base 0 et les bases
imputes ont t regroupes dans un fichier global et une variable indicatrice permettant
115

didentifier les bases a t reconstruite. Le fichier obtenu a t ensuite mis en forme de faon
permettre lanalyse jointe des 100 bases de donnes.
Des modles log-linaires ont t ajusts aux donnes imputes avec la commande GLM de
STATA ddie aux modles linaires gnraliss, en spcifiant un lien logarithmique et une
distribution de Poisson. Une procdure manuelle de slection des variables pas pas
descendante a t effectue en partant dun modle incluant toutes les interactions dordre 2
entre sources, entre sources et variables dhtrognit, et entre variables dhtrognit.
Pour chaque modle log-linaire construit lors de lanalyse pas pas descendante, les
analyses ont t effectues sparment puis de faon jointe selon les rgles de Rubin, en
utilisant le module MI ESTIMATE de STATA 11 [65]. La slection des variables
dinteraction a t base sur un test de la significativit des coefficients, par un test de Student
pour les variables binaires et par un test de Fisher pour les interactions avec la variable
catgorielle anne de diagnostic.
Les estimations de la taille de la population, calcules comme une somme dexponentielles de
coefficients de rgression, ont t obtenues par des commandes spcifiques limputation
multiple. Leurs variances respectives ont t estimes en appliquant la mthode delta. Les
intervalles de confiance des estimations ont t calculs en utilisant une approximation de
Student, avec un nombre de degrs de libert dpendant pour chaque variable des variances
intra et inter-imputation et du nombre de bases imputes.
Classiquement, dans les tudes appliquant la mthode capture-recapture, le choix du modle
final est bas sur ladquation du modle aux donnes par la statistique du rapport de
vraisemblances (entre le modle test et le modle satur) dit test de la dviance (G2), mais
aussi sur lAIC (Akake Information Criterion) et le DIC correspondant au BIC (Bayesian
Information Criterion) adapt par Draper [92;93]. Les critres AIC et DIC ont t calculs
pour chaque base de donnes imputes selon les expressions suivantes : AIC = G 2 2(ddl ) et

DIC = G 2 (ln(N obs 2 )) (ddl ) o ddl est le nombre de degrs de libert associ chaque
modle et N obs est le nombre de cellules renseignes du tableau de contingence.
Lapproche nave consistant faire la moyenne des tests de la dviance sur lensemble des
bases de donnes imputes ne donne pas une p-valeur valide [28]. Une approche propose par
Meng et Rubin [66], et rcemment illustre par Marshall et al. [94], a t applique pour
calculer un test de la dviance global sur les donnes imputes et la p-valeur correspondante.
116

Les coefficients de rgression de chacun des 100 modles log-linaires ont t contraints aux
valeurs des coefficients de rgression obtenus par lanalyse jointe, cest--dire la moyenne
des coefficients de rgression sur les 100 bases de donnes. Les estimations des AIC et DIC
ont alors t calcules comme la moyenne des 100 AIC et DIC obtenues avec ce modle
contraint.
La stratgie danalyse retenue consiste slectionner un seul modle final, et fait ainsi
abstraction de lincertitude lie au choix du modle. Nous avons donc calcul un estimateur
composite driv de tous les K modles impliqus dans la procdure pas--pas descendante
comme suggr par Draper [92]. Nous avons choisi de retenir lestimateur pondr par le DIC
exprim comme N WDIC =

K
i =1

N i e ( DICi / 2 )

K
i =1

e ( DICi / 2 ) o N i est lestimateur associ au

modle i, et DICi est le DIC associ au modle i, i (i = 1,..., K ).


Lexhaustivit des sources a t estime en divisant le nombre de nouveaux diagnostics
rapport par chaque source par le nombre total estim par le modle log-linaire final.
Lexhaustivit a galement t calcule pour chaque strate des variables pays de naissance,
rgion de diagnostic et anne de diagnostic. Le taux annuel de nouveaux diagnostics VIH a
t obtenu en faisant le rapport du nombre estim de nouveaux diagnostics VIH sur la taille de
la population des enfants de moins de 13 ans recenss en France mtropolitaine en dcembre
2007 [95]. Ce taux a galement t calcul selon le pays de naissance, en se basant sur le
nombre denfants de moins de 13 ans ns en France ou ltranger.

3.6.

Rsultats
3.6.1. Cas communs aux sources

Entre le 1er janvier 2003 et le 31 dcembre 2006, 216 nouveaux diagnostics dinfection VIH
chez des enfants de moins de 13 ans en France mtropolitaine ont t recenss par au moins
lune des trois sources (Figure 2.3).

117

Figure 2.3 Distribution du nombre de diagnostics dinfection VIH selon la source


Nobs = 216
DOVIH
110

EPF
101
36

31

20

28
22

15

LaboVIH
129

64

DOVIH : Systme de dclaration obligatoire du VIH


EPF : Enqute prinatale franaise
LaboVIH : Surveillance de lactivit de dpistage par les laboratoires

3.6.2.

Imputation de la variable pays de naissance

Aprs imputation de la variable pays de naissance, 60% des enfants nouvellement


diagnostiqus taient ns ltranger (Tableau 2.11). La distribution des nouveaux
diagnostics selon le pays de naissance et la classe dge (< 1 an,

1 an) variait selon la

source. Ainsi, la proportion denfants ns ltranger et gs de plus de 1 an tait plus


importante dans les sources EPF et surtout DOVIH que dans la source LaboVIH.

Tableau 2.11

Distribution des nouveaux diagnostics dinfection VIH identifis par


chacune des trois sources selon lge et le pays de naissance,
aprs imputation multiple
Total

DOVIH
< 1 an

EPF
1 an

< 1 an

Labo VIH
1 an

< 1 an

1 an

N l'tranger

130 (60.2%)

1 (12.5%)

24 (85.8%)

1 (12.5%)

9 (75%)

4 (33.3%)

37 (71.2%)

N en France

86 (39.8%)

7 (87.5%)

4 (14.3%)

7 (87.5%)

3 (25%)

8 (66.7%)

18 (28.8%)

216

28

12

12

52

DOVIH : Systme de dclaration obligatoire du VIH ; EPF : Enqute prinatale franaise ; LaboVIH :
Surveillance de lactivit de dpistage par les laboratoires.

118

3.6.3. Estimation du nombre total de diagnostics


et valuation de la dpendance
Analyses prliminaires
Lanalyse capture-recapture, applique chaque combinaison de sources deux deux, a
donn les rsultats suivants : lestimation du nombre de nouveaux diagnostics VIH produite
par lanalyse des sources DOVIH et EPF (Nest=188 ; IC 95% [171;206]) tait plus petite que
celle issue de lanalyse des sources LaboVIH et EPF (Nest=261 ; IC 95% [224;297]) et des
sources LaboVIH et DOVIH (Nest=330 ; IC 95% [272;389]), suggrant une dpendance
positive entre les sources DOVIH et EPF. Le calcul des odds ratios de Wittes a confirm la
dpendance entre les sources DOVIH et EPF (OR = 5.4 ; IC 95% [2.5;12.1]) et a suggr
lexistence dune dpendance positive entre LaboVIH et EPF (OR = 2.2 ; IC 95% [1.0;4.8]).
Lanalyse prliminaire incluant les 3 sources et les dpendances entre sources dans les
modles log-linaires a donn une estimation de 369 (IC 95% [294 ;532]) nouveaux
diagnostics pour la priode 2003-2006 (Tableau 2.12). Ce modle a pris en compte deux
interactions entre sources (DOVIH*EPF et EPF*LaboVIH).

Tableau 2.12 Estimations du nombre de nouveaux diagnostics VIH par les modles loglinaires, analyses prliminaires
n

IC 95%

ddl

AIC

BIC

LaboVIH*DOVIH, LaboVIH*EPF,
DOVIH*EPF

126

342

259,573

LaboVIH*DOVIH, LaboVIH*EPF

23

239

225,263

18.83

<10

16.83

16.89

LaboVIH*DOVIH, DOVIH*EPF

58

274

243,331

3.78

0.05

1.78

1.84

LaboVIH*EPF, DOVIH*EPF

153

369

294,521

0.24

0.63

-1.76

-1.71

14.49

14.6

26.12

26.23

Modles log-linaires

Dpendances entre sources

-4

LaboVIH*DOVIH, EPF

29

249

234.272

18.49

<10

-4

LaboVIH*EPF, DOVIH

51

267

245,300

30.12

<10

-4

DOVIH*EPF, LaboVIH

85

301

268,349

5.96

0.05

1.96

2.07

LaboVIH, DOVIH, EPF

49

265

246,292

30.2

<10

-4

24.2

24.36

n : estimation du nombre de diagnostics recenss dans aucune des trois sources ; N : estimation du nombre de
diagnostics ; IC 95% : intervalle de confiance 95% ; ddl : nombre de degrs de libert ; G2 : dviance ; p : pvaleur ; AIC : Akake Information Criterion ; BIC : Bayesian Information Criterion.

119

Modles log-linaires incluant les variables dhtrognit


En considrant les interactions avec les variables dhtrognit, le modle ayant le plus petit
AIC et un test de la dviance non-significatif (p>0.05) a donn une estimation de 387 (IC
95% [271;503]) nouveaux diagnostics VIH durant la priode 2003-2006 (Tableau 2.13). Ce
modle (modle 8) incluait deux interactions entre sources (DOVIH*EPF et EPF*LaboVIH)
et des interactions entre sources et variables dhtrognit (DOVIH*pays de naissance,
EPF*pays de naissance, DOVIH*rgion de diagnostic, EPF*rgion de diagnostic,
LaboVIH*rgion de diagnostic et EPF*anne de diagnostic). Lestimation pondre
correspondante tait de 384 nouveaux diagnostics VIH. Lestimation annuelle du nombre de
nouveaux diagnostics diminuait au cours du temps, variant de 108 en 2003 89 en 2006
(Tableau 2.14).

Exhaustivit
Lexhaustivit estime des trois sources combines tait de 55.8% (IC 95% [42.9 ;79.7]),
mais variait selon la source (Tableau 2.4). Lexhaustivit de la source DOVIH (28.4%) et
dEPF (26.1%) tait plus basse que celle de LaboVIH (33.3%). Lexhaustivit a diminu
lgrement depuis 2004 aussi bien pour DOVIH que pour EPF, puis plus nettement pendant la
dernire anne dtude (2006). Lexhaustivit tait plus leve en rgion parisienne quen
province pour les trois sources, et tait meilleure pour les enfants ns en France que pour les
enfants ns ltranger pour les sources EPF et LaboVIH.

Taux annuel de nouveaux diagnostics


En se basant sur le nombre estim de nouveaux diagnostics prsents dans le Tableau 2.14, le
taux annuel de nouveaux diagnostics de VIH chez les enfants de moins de 13 ans en France
mtropolitaine tait de 9.1 cas par million (IC 95% [5.7 ;12.5]) en 2006. Ce taux annuel tait
38 fois plus lev pour les enfants ns ltranger (161.1 cas par million) que pour les enfants
ns en France (4.2 cas par million).

120

Tableau 2.13 Estimation du nombre de nouveau diagnostics par les modles loglinaires incluant les variables dhtrognit,
analyse pas pas descendante
n

IC 95%

df

AIC

DIC

Modle 1: DO*LABO, DO*EPF,


LABO*EPF,DO*pays, Labo*pays,
EPF*pays, DO*rgion, Labo*rgion,
EPF*rgion, DO*anne, Labo*anne,
EPF*anne, pays*rgion, pays*anne,
rgion*anne.

108.3

324.3

210.9,437.6

78

93.84

0.07

-62.16

-130.85

Modle 2: DO*LABO, DO*EPF,


LABO*EPF,DO*pays, EPF*pays,
DO*rgion, Labo*rgion, EPF*rgion,
DO*anne, Labo*anne, EPF*anne,
pays*rgion, pays*anne,
rgion*anne.

106.9

322.9

211.2,434.5

79

93.95

0.08

-64.05

-133.62

Modle 3: DO*LABO, DO*EPF,


LABO*EPF,DO*pays, EPF*pays,
DO*rgion, Labo*rgion, EPF*rgion,
DO*anne, Labo*anne, EPF*anne,
pays*region, pays*anne.

108.6

324.6

211.7,437.5

82

96.17

0.10

-67.83

-140.05

Modle 4: DO*LABO,
LABO*EPF,DO*pays, EPF*pays,
DO*rgion, Labo*rgion, EPF*rgion,
DO*anne, Labo*anne, EPF*anne,
pays*rgion, pays*anne.

148.0

364.0

257.9,470.1

83

96.82

0.10

-69.18

-142.27

Modle 5: DO*LABO,
LABO*EPF,DO*pays, EPF*pays,
DO*rgion, Labo*rgion, EPF*rgion,
DO*anne, Labo*anne, EPF*anne,
pays*anne.

152.3

368.3

259.9,476.7

84

98.31

0.10

-69.69

-143.66

Modle 6: DO*LABO,
LABO*EPF,DO*pays, EPF*pays,
DO*rgion, Labo*rgion, EPF*rgion,
Labo*anne, EPF*anne, pays*anne.

143.3

359.3

259.1,459.6

87

102.28

0.09

-71.72

-148.34

Modle 7: DO*LABO,
LABO*EPF,DO*pays, EPF*pays,
DO*rgion, Labo*rgion, EPF*rgion,
EPF*anne, pays*anne.

140.8

356.8

258.0,455.6

90

105.54

0.09

-72.46

-153.71

Modle 8: DO*LABO,
LABO*EPF,DO*pays, EPF*pays,
DO*rgion, Labo*rgion, EPF*rgion,
EPF*anne.

171.0

387.0

271.0,502.9

93

112.72

0.07

-73.28

-155.17

Modle 9: DO*LABO,
LABO*EPF,DO*pays, EPF*pays,
DO*rgion, Labo*rgion, EPF*rgion.

171.0

387.0

271.0,502.9

96

118.48

0.05

-73.52

-158.06

Modles log-linaires

Estimation pondre par le DIC

384.3

n : estimation du nombre de diagnostics recenss dans aucune des trois sources ; N : estimation du nombre de

diagnostics ; IC 95% : intervalle de confiance 95% ; ddl : nombre de degrs de libert ; G2 : dviance ; p : pvaleur ; AIC : Akake Information Criterion ; DIC : Draper Information Criterion ; estimation pondre :
estimation de

N pondre par le DIC de tous les modles (p>0.05).

121

Tableau 2.14 Estimation de lexhaustivit pour chaque source selon lanne de diagnostic,
le pays de naissance et la rgion de diagnostic
Strate

Total
Nest

DOVIH

EPF

LaboVIH

IC 95%

Nobs

Exh(%)

IC 95%

Nobs

Exh(%)

IC 95%

Nobs

Exh(%)

IC 95%

Nobs

Exh(%)

IC 95%

72.4-142.7
68.9-129.4
62.4-120.9
55.4-121.8

60
59
53
44

55.8
59.5
57.8
49.7

42.0-82.9
45.6-85.7
43.8-85.0
36.1-79.4

30
35
27
18

27.9
35.3
29.5
20.3

21.0-41.4
27.0-50.8
22.3-43.3
14.8-32.5

28
32
27
14

26.0
32.3
29.5
15.8

19.6-38.7
24.7-46.5
22.3-43.3
11.5-25.3

30
35
34
30

27.9
35.3
37.1
33.9

21.0-41.4
27.0-50.8
28.1-54.5
24.6-54.2

100.3-204.9
158.9-309.9

86
130

56.4
55.5

42.0-85.7
42.0-81.8

37
73

24.2
31.1

18.1-36.9
23.6-45.9

47
54

30.8
23.0

22.9-46.8
17.4-34.0

55
74

36.0
31.6

26.8-54.8
23.9-46.6

Anne de diagnostic
2003
2004
2005
2006

107.6
99.1
91.7
88.6

Pays de naissance
France
Etranger

152.6
234.4

Rgion de diagnostic
Ile de France

198.1

154.7-241.4

139

70.2

57.6-89.9

79

39.9

32.7-51.1

79

39.9

32.7-51.1

82

41.4

34.0-53.0

Province

188.9

101.0-276.8

77

40.8

27.8-76.2

31

16.4

11.2-30.7

22

11.6

7.9-21.8

47

24.9

17.0-46.5

387

271-503

216

55.8

42.9-79.7

110

28.4

21.9-40.1

101

26.1

20.1-37.3

129

33.3

25.6-47.6

Total

N : estimation du nombre de diagnostics ; IC 95% : intervalle de confiance 95% ; N obs : nombre de cas observs ; Exh(%) : exhaustivit en %.

122

3.7.

Discussion

Cette tude a permis destimer pour la premire fois le nombre total de nouveaux diagnostics
dinfection VIH chez les enfants gs de moins de 13 ans en France mtropolitaine. Cette
estimation, ralise sur la priode 2003-2006, slve 369 (IC 95% [294 ;532]). Les trois
sources combines ont permis de recenser plus de la moiti des cas, alors que lexhaustivit du
systme de dclaration obligatoire et de la cohorte EPF sont relativement faibles (<30%).
La variable pays de naissance ntait pas collecte dans la source LaboVIH, mais tait presque
complte pour les deux autres sources. Lapproche standard dans les tudes capture-recapture
consiste ignorer les variables qui ne sont pas disponibles dans chacune des sources, ce qui peut
mener des estimations biaises de la taille de la population [96]. Une approche classique pour
traiter les bases de donnes incompltes consiste remplacer chaque donne manquante par une
donne impute et analyser la base de donnes comme si elle tait complte. Nous avons vu que
de telles mthodes dimputation simple ne sont pas valides statistiquement, puisquelles peuvent
donner des estimations biaises et quelles induisent une sous-estimation systmatique des
variances [12]. Deux mthodes sont couramment recommandes pour traiter les donnes
manquantes de faon adquate : lestimation par la mthode de maximisation de la vraisemblance
et limputation multiple. Il a t montr que ces deux mthodes sont asymptotiquement
quivalentes, sachant quelles sont bases sur la mme hypothse que les donnes sont
manquantes alatoirement [17]. Dans cette tude, la variable pays de naissance est manquante du
fait du schma dtude puisque non collecte dans la source LaboVIH. De ce fait, le mcanisme
de donnes manquantes ne dpend pas des valeurs non-observes de la variable incomplte, et
lhypothse MAR est vrifie.
Limputation de donnes manquantes dans des applications de la mthode capture-recapture a t
rapporte dans quelques tudes seulement [96-98], et la mthode destimation par maximisation
de la vraisemblance utilisant un algorithme dEstimation-Maximisation (EM) avait t applique.
Van der Heidjen et al. [98] ont estim les donnes manquantes de variables dhtrognit de
capture non collectes dans toutes les sources telles que le sexe et la rgion de rsidence.
Cependant, les auteurs soulignent que lalgorithme EM implique souvent une phase dintgration
numrique complexe (tape E) et que limputation multiple prsente lavantage dtre plus simple

123

appliquer dans la plupart des cas de figures, surtout pour des variables incompltes structure
continue [99].
Au cours du processus danalyse pas pas descendante, la slection du modle final, incluant les
variables dhtrognit de capture, a t effectue sur la base des critres AIC et DIC. Le
modle retenu est donc celui pour lequel les valeurs de lAIC et du DIC sont les plus petites, et
pour lequel ladquation aux donnes apparait correcte daprs les rsultats du test du rapport de
vraisemblances dit test de la dviance. Ce test a t ralis daprs une approche propose par
Meng et Rubin, et a donn des p-valeurs lgrement plus basses que celle obtenues par
lapproche nave. Cependant, une limitation de cette tude est due au fait que les critres AIC et
DIC ont t calculs en prenant la moyenne de leurs valeurs pour les 100 bases de donnes
imputes et que les rsultats doivent donc tre interprts avec prcaution [100]. Ainsi, en se
basant sur les valeurs de ces critres, les diffrences entre les modles embots pourraient tre
surestimes, ce qui pourrait mener retenir un modle trop complexe. Cependant, dans notre
application, le modle slectionn selon lAIC et le DIC (modle 9) tait plus parcimonieux que
celui slectionn selon la statistique du rapport de vraisemblances (modle 8) et les estimations
fournies par ces deux taient identiques (387.0). Nous avons fait le choix de retenir le modle le
moins parcimonieux (modle 8) de faon sassurer que ladquation du modle tait correcte
selon le test du rapport de vraisemblance (p=0.07). De plus, le modle 8 incluait une interaction
entre la source EPF et lanne de diagnostic, qui nous paraissait pertinente dun point de vue
pidmiologique.
Notons que dans ltude de Zwane et al. [96], la slection du modle final, base sur les critres
AIC et BIC aprs imputation multiple, a t ralise partir dune seule base impute
supplmentaire (M+1), gnre pour le processus de slection du modle. Par ailleurs, Zwane et
al. ont soulign que lapproche par imputation multiple permettait dobtenir directement les
variances et intervalles de confiance des estimations. En revanche, lapproche par maximisation
de la vraisemblance requiert de calculer les intervalles de confiance des estimations par bootstrap
(paramtrique ou non). Notons cependant que lincertitude lie au choix du modle final na pas
t prise en compte dans notre approche par imputation multiple. Des recherches
complmentaires dans ce domaine pourraient permettre dincorporer cette incertitude dans le
calcul de la variance aprs imputation multiple.

124

Conclusion
Dans cette tude, une seule variable est incomplte et les donnes sont manquantes selon un
schma univari et un mcanisme de type MCAR. La construction du modle dimputation sest
rvle simple puisque peu de variables taient disponibles. Au cours danalyses antrieures, les
donnes manquantes avaient t estimes par raffectation proportionnelle. Limputation multiple
permet de tenir compte des informations des variables dhtrognit qui sont par la suite
incluses dans les modles danalyses et ainsi dviter des biais. De plus, le calcul de la variance
tient compte du processus destimation des donnes manquantes.
La phase danalyse a ncessit une restructuration des bases permettant la cration de tableaux de
contingence pour chaque base impute. Puis, les estimations partir des modles log-linaires
ont t obtenues par des commandes spcifiques limputation. Cependant, cette application
souligne le problme de ltape de post-estimation aprs imputation multiple. En effet, la
littrature rcente prcise que les statistiques drives de la vraisemblance ne peuvent tre
combines simplement [100]. Lors dune stratgie danalyse par modles emboits, le choix du
meilleur modle est essentiellement bas sur une approximation de Student permettant de
slectionner les variables retenir dans le modle. Lvaluation de ladquation dun modle aux
donnes est plus difficile, mme si lapproche de Meng et Rubin permet de comparer des
modles emboits entre eux.

125

126

CHAPITRE 3

PROCESSUS DIMPUTATION MULTIPLE APPLIQUE A UNE


ETUDE TRANSVERSALE DANS UN SYSTEME DE SURVEILLANCE
DE LHEPATITE C

Linfection par le virus de lhpatite C (VHC) demeure un important problme de sant publique
en France du fait de sa prvalence (1.05% en 1994 [101], 0.84% en 2004 [102]), du risque de
complications hpatiques graves et de la transmission prenne parmi les usagers de drogues
intraveineuses (UDI).
De ce fait, un programme national a t mis en place en 1998 avec pour objectif de rduire la
transmission du VHC, damliorer le dpistage dans les populations risque ainsi que laccs aux
soins pour les patients infects chroniquement par le VHC. Afin de contribuer lvaluation de
ce programme, lInVS a mis en place un systme de surveillance depuis 2000.
Nous prsenterons dans une premire partie une tude visant identifier les facteurs de risque de
complications hpatiques graves de linfection par le VHC au sein de ce systme de surveillance,
aprs estimation des donnes manquantes par imputation multiple sous lhypothse MAR. Dans
une deuxime partie nous dtaillerons une mthode danalyse de sensibilit par pondration
permettant de tester la robustesse de ces rsultats un ventuel non-respect de lhypothse MAR.

127

1.

Analyse tiologique des facteurs de risque


de complications hpatiques graves
1.1.

Population dtude et critres dinclusion

Ce systme de surveillance du VHC repose sur la participation volontaire de 26 des 30 ples de


rfrence existants, localiss dans des centres hospitaliers universitaires [103]. Son objectif est
dvaluer les modifications au cours du temps des caractristiques pidmiologiques et cliniques
des patients infects par le VHC et nouvellement pris en charge dans un ple de rfrence. Les
patients peuvent tre rfrs dans un ple par un mdecin gnraliste, un spcialiste ou se
prsenter de leur propre initiative. Sont inclus dans le systme de surveillance les patients
porteurs dAc anti-VHC et admis en consultation ou hospitaliss pour la premire fois dans un
ple de rfrence de lhpatite C.
En 2000-2001, la proportion de complications hpatiques graves de type cirrhose tait de 10%
la premire visite [104], en baisse par rapport 1993-1995 (20%). Par ailleurs, il a t montr que
la prvalence du VHC chez les UDI variait de 55% 60% [102;105]. Lobjectif de notre tude
tait de dterminer les facteurs de risque de complications hpatiques graves (cirrhose, carcinome
hpatocellulaire) dans une population de personnes virmiques pour le VHC et ayant rapport un
usage de drogue, par voie intraveineuse ou intranasale, au moins une fois dans leur vie. Ont t
retenus les patients nayant pas eu dvaluation histologique antrieure du foie et pour lesquels le
statut de complication hpatique tait connu. Au final, 4343 patients ont t inclus pour la
priode 2001-2007 (Figure 3.1).

128

Figure 3.1 - Inclusion des patients du systme de surveillance dans ltude


20 191 personnes prises en charge au sein des
ples pendant la priode 2001-2007
(virmiques pour le VHC)

6 892 (34%) personnes ayant rapport


un usage de drogue (IV ou intranasale)

4 343 personnes sans valuation histologique


antrieure pour lesquelles le statut
"complication hpatique grave" est connu

1.2.

Recueil de donnes
1.2.1. Donnes collectes

Un formulaire standard a t utilis pour collecter les donnes en routine. Les donnes
disponibles taient : lanne du dernier test ngatif, la date du test, la charge virale qualitative
(ARN), le gnotype du VHC, une ventuelle co-infection par le VIH ou/et lhpatite B (antignes
HBs), lhistorique de consommation excessive dalcool dfinie comme plus de 210 grammes par
semaine dthanol pur chez les femmes et 280 grammes par semaine chez les hommes, et le
nombre dannes de consommation excessive.
La svrit de latteinte hpatique a t objective par une biopsie hpatique (score Metavir)
ou/et par une valuation clinique incluant un examen clinique, des dosages biochimiques (ALAT)
et des examens dimagerie mdicale, essentiellement une chographie abdominale.

129

1.2.2. Examen des donnes manquantes


La base de donnes initiale contenait 20191 cas et 126 variables. Une base restreinte a t
constitue ce stade, limite 4343 usagers de drogues et 27 variables.

Variables construites
La variable dintrt tudie est la prsence ou non de complications hpatiques graves (cirrhose
ou carcinome hpatocellullaire) base sur un examen clinique seul (pas de biopsie). Il a t choisi
de ne retenir que les patients pour lesquels cette information tait disponible. La variable dintrt
est donc complte.
Les variables retenues pour tre incluses dans lanalyse univarie sont prsentes dans le Tableau
2.15 et dtailles ci-dessous :
Donnes sociodmographiques : le sexe et lge (

40 ans, >40 ans)

Historique de la maladie : la date de prise en charge du patient (2001-2007), le dlai de


prise en charge du patient dfini comme le dlai entre la srologie positive ralise dans
un ple de rfrence ou une autre structure et la prise en charge du patient au sein du ple
(<1an, 1an), la dure de linfection par le VHC approxime par la dure entre la dernire
srologie VHC ngative ralise pendant la priode dusage de drogue ou lanne de
premire injection et la srologie VHC positive (<18 ans, 18 ans, selon la mdiane de la
dure), et une consommation excessive dalcool dans le pass (plus de 210 g dthanol par
semaine pour la femme, et plus de 280g chez lhomme).
Examens complmentaires de laboratoire : une co-infection par le VIH (statut srologique
VIH), une co-infection par le virus de lhpatite B (VHB) (antignes HBs), et le gnotype
du VHC.

130

Tableau 3.1

Description des variables retenues pour lanalyse univarie

Variables
Anne de prise en charge
Sexe
Age
Dure de l'infection par le VHC
Dlai de prise en charge
Consommation excessive passe d'alcool
Co-infection par le VIH
Co-infection par le VHB (AgHbs)
VHC Gnotype 3

Codage

Donnes manquantes (%)

2001-2007
F/H
40 ans/>40 ans
18 ans/>18 ans
1an/>1an
non/oui
non/oui
non/oui
non/oui

0
0
0
14.6
10.4
11.1
16.3
15.7
26.3

Examen quantitatif
A lexception des variables sexe, ge et anne dinclusion, toutes les variables retenues pour
lanalyse statistique sont incompltes, avec une proportion de donnes manquantes variant de
10.4 26.3 % (Tableau 3.1).
En ralisant un examen de la rpartition des donnes manquantes parmi les diffrentes
combinaisons des 6 variables incompltes, la rpartition apparait arbitraire, c'
est--dire que la
proportion de donnes manquantes est du mme ordre de grandeur (<3%) pour chacune des
combinaisons de ces 6 variables. De ce fait, la perte deffectifs attendue lors dune analyse cascomplet est importante.
Ainsi, une analyse multivarie incluant les 6 variables incompltes porterait sur seulement 1818
individus au lieu des 4343 initiaux, soit sur 41.8% de leffectif. On peut donc craindre que le
processus de slection des variables lors dune analyse multivarie cas-complet ne soit fauss au
profit des variables les mieux renseignes.

Examen qualitatif
Les analyses prvues taient la fois descriptives et de nature tiologique. Pour lidentification
des facteurs de risque, il est informatif deffectuer un examen qualitatif du mcanisme de nonrponse, dpendant ou non de la variable dintrt, et ainsi didentifier le risque de biais en
analyse cas-complet. Une variable indicatrice binaire de donnes manquantes est gnre pour
chaque variable incomplte. Des analyses univaries et multivaries permettent dexpliquer
chaque variable indicatrice partir des 9 variables retenues. Lobjectif de ces analyses est de
131

rechercher des liens significatifs entre, dune part chaque variable indicatrice, et dautre part la
variable expliquer et les variables explicatives. Ces analyses peuvent tre ralises partir de la
base incomplte, mais une perte deffectifs importante est attendue en analyse multivarie. De ce
fait, comme suggr par White et al. [28], ces analyses ont t effectues partir des donnes
imputes.

Tableau 3.2

Analyse multivarie des variables indicatrices de donnes manquantes


partir des variables retenues pour lanalyse multivarie
Rdure

Complication hpatique grave

Rdlai

Ralcool

Rvih

Rgeno3

Sexe
Age

Anne de prise en charge

x
x

Dure de l'infection VHC

x
x

x
x

Dlai de prise en charge

Consommation excessive d'alcool


Co-infection par le VIH

Rvhb

Co-infection par le VHB (AgHbs)


VHC Gnotype 3

La zone en gris clair reprsente les croisements entre les indicatrices de donnes manquantes et la variable
expliquer, et les zones en gris fonc les intersections entre chaque variable dexposition et son indicatrice de donnes
manquantes.
X reprsente une liaison significative entre les variables dfinie comme un test de Wald significatif (p 0.05).

Au vu des rsultats prsents dans le Tableau 3.2, un mcanisme de type MCAR peut tre exclu
puisque des liens existent entre les indicatrices de donnes manquantes et les autres variables. De
plus, cette analyse permet didentifier un mcanisme de type MAR(ME) pour les variables dlai
de prise en charge, consommation dalcool et co-infection par le VIH, et MAR(E) pour les autres
variables incompltes. La terminologie MAR(ME), dfinie dans le chapitre 1, signifie que le
mcanisme de donnes manquantes dpend conjointement de la variable expliquer (M) et dau
moins une variable dexposition (E). Un risque de biais en analyse multivarie cas-complet doit
donc tre envisag. Par ailleurs, un mcanisme de type MNAR ne peut tre exclu puisque
certaines indicatrices de donnes manquantes sont lies des variables incompltes. Par exemple,
lindicatrice de la variable srologie VHB est significativement lie aux variables dlai de prise
en charge et consommation dalcool qui sont incompltes. Le mcanisme de donnes manquantes
peut donc dpendre des valeurs non-observes de ces variables.

132

Au vu de limpact attendu des donnes manquantes en analyse cas-complet, il a t dcid


deffectuer une analyse par imputation multiple.

1.3.

Construction et validation du modle dimputation

Au cours de la premire tape du processus dimputation, il est important didentifier les relations
entre les variables par une analyse cas-complet. Lorsque lanalyse prvue aprs imputation est
tiologique, lanalyse univarie cas-complet permet de slectionner les variables qui seront
incluses dans le modle danalyse multivarie. A ce stade sont identifies les interactions
ventuelles qui doivent tre prises en compte lors de limputation. Il est galement informatif de
raliser une analyse cas-complet multivarie afin dobtenir des estimations qui pourront tre
compares avec celles obtenues aprs imputation multiple (valeur centrale, variance).

1.3.1. Construction des quations de prdiction


Slection des variables
Le processus de slection des variables a t dtaill dans le chapitre 1. Ainsi, le modle
dimputation doit tre au moins aussi gnral que le modle danalyse c'
est--dire quil doit au
moins inclure la variable dintrt ainsi que les covariables retenues au terme de lanalyse
univarie, soit 10 variables en tout (6 incompltes et 4 compltes). Cependant, le modle peut
acqurir des qualits prdictrices supplmentaires par linclusion de variable dites auxiliaires qui
ninterviennent que dans le processus destimation des donnes manquantes. Dans les bases de
donnes de surveillance, la proportion de donnes manquantes est souvent leve du fait du mode
de recueil et, dans notre tude, seules deux variables partiellement renseignes ont pu tre
retenues comme variables auxiliaires potentielles. Plusieurs modles dimputation ont donc t
construits, le plus complet incluant les variables auxiliaires pays de naissance et dosage des
transaminases (ALAT). Cependant, ces variables taient incompltes (>10% donnes
manquantes) et se sont rvles faiblement prdictrices, c'
est--dire que lon a observ des
relations non-significatives entre ces deux variables et la plupart des indicatrices de donnes
manquantes des variables imputer. Au final, le modle le plus simple incluant 10 variables et ne
contenant aucune variable auxiliaire a t retenu.

133

Fonction de lien
Les variables incompltes incluses dans le modle dimputation taient toutes binaires et ont t
imputes par rgression logistique. La variable date dinclusion tait catgorielle et complte.
Elle a t incluse telle quelle dans les quations de prdiction. Il a t montr plus rcemment,
aprs la finalisation de cette tude, quil tait prfrable de dcomposer toutes les variables
catgorielles, mme compltes, en variables indicatrices binaires [56].

1.3.2. Choix du nombre de bases et de cycles


Nombre de bases
Les arguments lis lefficacit statistique ont t retenus (chapitre 1), c'
est--dire que le nombre
de bases imputes doit tre du mme ordre de grandeur que la fraction de cas incomplets pour
tolrer une perte defficacit statistique infrieure 5%, par rapport un nombre infini
dimputations. Cette proportion de donnes manquantes varie de 10 26% selon les variables et
30 bases de donnes ont t imputes. Il faut noter que, compte-tenu de la petite taille de la base
de donnes, il aurait t ais dimputer un plus grand nombre de bases sans trop alourdir les
processus dimputation et danalyse.

Nombre de cycles
Le programme additionnel utilis (ICE) spcifie 10 cycles par dfaut car la convergence de
lchantillonneur de Gibbs est rapide si le modle est correctement spcifi, et que les
distributions de chaque variable incomplte convergent vers une distribution jointe. Nous avons
fait le choix conservateur de spcifier 20 cycles car la plupart des variables incluses dans le
modle dimputation sont incompltes.

1.3.3. Analyse des bases de donnes imputes


Les 30 bases de donnes imputes sont analyses automatiquement de faon spare puis
combine selon les rgles de Rubin. Le modle utilis pour les analyses cas-complet et aprs
imputation multiple est un modle de rgression logistique incluant les 6 variables binaires
compltes ainsi que le sexe et lge en deux catgories ( 40 ans, >40 ans). Pour les deux
analyses, une stratgie danalyse manuelle pas pas descendante a t mene. La slection des
134

variables a t effectue par des tests de rapport de vraisemblances sur modles emboits pour
lanalyse cas-complet. Une stratgie diffrente a t utilise pour lanalyse aprs imputation,
puisque la vraisemblance est une statistique qui ne peut tre combine sur toutes les bases
imputes [28]. De ce fait, la slection des variables a t base sur un test des coefficients de
rgression. Aprs imputation multiple, le test de Wald est approxim par un test de Student dont
le nombre de degrs de libert dpend des variances inter et intra-imputation et du nombre de
bases.

1.3.4. Diagnostic de limputation


Comparaisons des donnes observes et imputes
Le Tableau 3.3 prsente, pour chaque variable impute, les proportions observes et estimes.
Les rsultats issus des deux bases de donnes sont proches, puisque les proportions observes de
chaque variable appartiennent lintervalle de confiance 95% des proportions estimes. Cet
examen a t effectu pour les diffrents modles dimputation tests et les proportions estimes
ne diffrent pas significativement selon les modles. De ce fait, le choix du modle le plus simple
contenant 10 variables apparat justifi.

Tableau 3.3

Comparaison des proportions observes et imputes


Dure de la
maladie

Dlai de prise
en charge

Consommation
d'alcool

Srologie VIH

Srologie VHB

Genotype3

( 18 ans)

( 1an)

(excessive)

(positive)

(aghbs+)

(positif)

Observ (%)

53.95

55.6

47.82

8.09

2.43

34.91

Estim (%)

52.20

58.3

46.12

8.19

2.76

35.20

46.4-58.0

51.3-65.0

38.1-54.2

5.1-11.3

0.7-4.9

31.1-39.3

IC 95%

Choix du nombre de bases


Lefficacit statistique obtenue avec limputation de 30 bases de donnes est suprieure 99%
pour toutes les variables, ce qui signifie que lon observe une perte defficacit statistique
infrieure 1% par rapport un nombre infini dimputations. Des outils de diagnostic plus
labors tels que lexamen de lerreur de Monte-Carlo nont pas t appliqus cette analyse,
mais ils sont illustrs dans le chapitre 4, dans un cas de figure plus complexe.
135

1.4.

Rsultats et discussion

Le Tableau 3.4 prsente les rsultats compars des deux analyses cas-complet et imputation
multiple.

Interprtation des rsultats


Les variables retenues dans les modles finaux des deux analyses diffrent : la variable coinfection avec le VIH a t retenue aprs imputation alors que cest la variable co-infection avec
le VHB qui apparat dans le modle cas-complet. Dun point de vue pidmiologique et
statistique, la co-infection avec le VIH apparat plus justifie comme facteur de risque de
complications hpatiques. En effet, le nombre de cas de co-infections avec le VIH est de lordre
de 8.1% (294 cas) versus 2.4% (89 cas) pour la co-infection avec le VHB. Mme si la proportion
de donnes manquantes est proche pour ces deux variables (16.3% versus 15.7%), la perte
deffectifs cumuls due aux donnes manquantes des 6 variables incompltes a affect davantage
la variable co-infection par le VIH (c'
est--dire que leffectif global est plus faible pour le modle
multivari incluant la co-infection avec le VIH). Le processus de slection des variables a donc
t fauss en faveur de la co-infection par le VHB. Il faut noter que la variable gnotype 3, qui est
en limite de significativit dans le modle cas-complet final (p=0.05), apparat nettement
significative aprs imputation multiple (p=0.003). De plus, la variable gnotype 3 ntait pas
retenue lors dune analyse cas-complet antrieure portant sur une priode de surveillance plus
restreinte (2001-2004, 3153 patients).

136

Tableau 3.4

Analyse par rgression logistique multivarie en cas-complet et par


imputation multiple des facteurs de risques associs des complications
hpatiques graves

Variables

Patients
(N=4343)

Complications
Donnes
hpatiques
manquantes
(%)
(%)

Analyse multivarie
Cas Complet

Imputation Multiple

(N*=2130)
ORa (IC 95%)

(N*=4343)
ORa (IC 95%)

Priode d'
inclusion
2001-2003

2330

7.0

2004-2007

2013

9.5

NS

NS

femmes

993

4.2

1.0

1.0

hommes

3350

9.3

1.8 (1.1-3.0)

2.0 (1.4-2.9)

Sexe

Age
40 ans

2435

3.9

1.0

1.0

>40 ans

1908

13.6

2.2(1.5-3.3)

2.3 (1.7-3.1)

<1an
1an

1728
2163

6.7
8.7

NS

NS

manquant

452

11.5

1709
2002
632

3.0
12.5
8.2

1.0
3.1 (2.0-5.1)

1.0
2.6 (1.8-3.7)

1.0
2.6 (1.8-3.7)

1.0
2.8 (2.2-3.7)

1.0
2.4 (1.0-5.9)

NS

NS

1.0
1.8 (1.2-2.6)

1.0
1.5 (1.1-2.0)

1.0
1.6 (1.3-2.1)

Dlai de prise en charge

10.4

Dure de l'
infection VHC
<18 ans
18 ans
manquant

14.6

Historique de consommation excessive d'


alcool
non
oui

2015
1847

4.5
13.2

manquant

481

4.4

ngatif
positif

3570
89

8.3
13.5

manquant

684

6.7

3342
294
707

8.2
14.0
5.7

2083
1117
1143

7.2
10.3
7.8

11.1

Statut AgHBs

15.7

Satut srologique VIH


ngatif
positif
manquant

16.3

VHC gnotype 3
non
oui
manquant

26.3

* Nombre dindividus pris en compte dans le calcul des ORa dans le modle final
Odds ratio non significatif

137

Afin de pouvoir comparer les rsultats des analyses cas-complet et imputation multiple, le mme
modle incluant les 5 variables communes aux deux analyses a t appliqu aux deux bases de
donnes (initiale et impute). Les rsultats sont prsents dans le Tableau 3.5. Les odds-ratios
ajusts (ORa) ne diffrent pas significativement entre les deux analyses puisque les ORa en
analyse cas-complet appartiennent aux intervalles de confiance 95% des ORa aprs imputation.
Les carts-types sont globalement rduits aprs imputation, puisque les effectifs sont restaurs
par limputation (2265 4343), et ce malgr la prise en compte dans le calcul de la variance de la
variabilit entre les bases imputes. Paradoxalement, la baisse dcart type la plus marque
concerne une variable complte, lge, alors que pour la variable gnotype 3 contenant une forte
proportion de donnes manquantes, lcart-type reste trs stable entre les deux analyses. Lors de
lanalyse cas-complet, les donnes manquantes ont induit une perte importante deffectifs, de
prs de 50%, qui affecte proportionnellement davantage les variables originellement compltes
comme lge, variable pour laquelle les effectifs varient donc beaucoup entre les deux analyses.
Cet argument explique la rduction marque dcart-type pour lge, essentiellement due une
lvation artificielle de la valeur de lcart-type en analyse cas-complet. Inversement, la variable
genotype 3 induit la majorit des donnes manquantes en analyse cas-complet, et la valeur de son
cart-type varie peu entre les deux analyses.

Tableau 3.5

Rsultats compars de lanalyse multivarie (modle final 5 variables),


analyse cas-complet et imputation multiple
Cas Complet (N*=2465)
ORa
(IC 95%)

Sexe
Age
Dure de l'infection par le
VHC
Consommation d'alcool
Gnotype 3

1.93
(1.24 - 3.01)
2.44
(1.67 - 3.57)
2.83
(1.82 - 4.41)
2.54
(1.85 - 3.48)
1.50
(1.11 - 2.02)

SE

(SE/OR)100
(%)

0.44

22.5

0.47

19.4

0.64

22.6

0.41

16.2

0.23

15.2

Imputation Multiple (N*=4343)

ORa
(IC 95%)
1.94
(1.38 - 2.73)
2.28
(1.70 - 3.06)
2.65
(1.84 - 3.81)
2.78
(2.14 - 3.60)
1.62
(1.23 - 2.12)

* Nombre dindividus pris en compte dans le calcul des OR du modle final


Coefficient de variation associ lORa

138

SE

(SE/OR)100
(%)

0.34

17.4

0.34

15.0

0.49

18.5

0.37

13.3

0.22

13.7

Ces rsultats sont issus dune imputation multiple utilisant un modle simple, cest dire
nincluant pas de variables auxiliaires. Des modles dimputation plus complexes, incluant des
variables auxiliaires et/ou des termes dinteraction (par exemple entre ge et dure de la maladie),
nont pas apport de changements dans les estimations. Comme pour toute procdure
dimputation, lhypothse MAR doit tre discute, ce qui sera fait dans la deuxime partie de
cette tude.

Discussion pidmiologique
Les donnes ont t collectes pour un sous-chantillon dusagers de drogues au sein dun
systme de surveillance. Le type dtude correspond donc une enqute transversale et il est
dlicat didentifier des facteurs de risque de complications hpatiques graves au moyen dune
analyse tiologique. Cependant, bien que les variables dexposition aient t renseignes en
mme temps que la variable dintrt (complications hpatiques graves), la plupart de ces
variables refltent des expositions antrieures lissue de la maladie hpatique.
Les rsultats de lanalyse tiologique aprs imputation multiple montrent que les variables
suivantes sont significativement associes des complications hpatiques graves chez les patients
nouvellement diagnostiqus : sexe masculin, ge >40 ans, dure de linfection 18ans, historique
de consommation excessive dalcool, co-infection par le VIH et infection par le VHC de
gnotype 3. A lexclusion de la variable gnotype 3, tous ces facteurs ont dj t identifis
comme facteurs associs avec une fibrose hpatique [106].
De nombreuses tudes ont montr quune consommation excessive passe ou actuelle dalcool
tait associe une volution plus rapide de la fibrose hpatique chez les patients porteurs du
VHC [103;106]. Par ailleurs, linfection par le VIH est connue pour modifier lhistoire naturelle
de la maladie en acclrant la progression de la fibrose hpatique, que ce soit avant ou depuis
lavnement des traitements antirtroviraux [107]. Une tude a montr une association entre une
infection par un virus de lhpatite C de gnotype 3 et une fibrose hpatique avance chez des
patients co-infects par le VIH [108]. Par ailleurs, le portage du gnotype 3, qui est le gnotype
de lhpatite C le plus rpandu parmi les usagers de drogue (>30%), a pu tre li une statose
hpatique et a galement merg comme un co-facteur de risque de progression de fibrose
hpatique [109].

139

Ces trois facteurs de risque ont dj t identifis parmi les usagers de drogues. Ils doivent tre
pris en compte de faon optimiser la prise en charge des patients ayant t soumis ces
expositions. Lidentification du portage dun virus de gnotype 3 comme facteur de risque de
fibrose hpatique est rcente [109], et a t renforce par ce travail.

Hypothse MAR
La validit des rsultats de limputation multiple repose, lors de lutilisation de logiciels
standards, sur lhypothse que le mcanisme de donnes manquantes est de type MAR.
La co-infection par le VIH et linfection par le VHC de gnotype 3 ont t identifis comme
facteurs de risque de fibrose hpatique aprs estimation des donnes manquantes par imputation
multiple. La consommation excessive dalcool est un facteur de risque bien tabli de fibrose,
mais sa dclaration peut tre considre comme sensible.
Mme si les rsultats des analyses cas-complet et imputation multiple sont proches, ce qui peut
laisser supposer que les deux analyses sont valides (car non-biaises), il parait important de tester
la robustesse des rsultats pour ces trois variables cls. De ce fait, une analyse de sensibilit par
pondration, base sur une approche propose par Carpenter et al., a t applique ces trois
facteurs de risque.

2.

Analyse de sensibilit par pondration


2.1. Contexte

Limputation multiple, telle quelle est implmente dans les logiciels standards danalyse
statistique [38], permet destimer des paramtres sous lhypothse que les donnes sont
manquantes au hasard (MAR), impliquant quelles dpendent seulement des donnes observes
des variables [3].
Lanalyse cas-complet, applique par dfaut par les logiciels danalyses statistiques, restreint
lanalyse aux individus pour lesquels les variables incluses dans lanalyse sont entirement
renseignes. Dans le cas danalyses tiologiques, une approche cas-complet induit une perte de
puissance, mais peut donner des estimations non-biaises si le mcanisme de donnes
140

manquantes ne dpend pas de la variable expliquer [110]. Dans le cas contraire, une analyse
cas-complet donne des rsultats systmatiquement biaiss, mme si le mcanisme de donnes
manquantes est MAR. Par contre, une approche par imputation multiple permettra dobtenir des
estimations valides sous lhypothse MAR, si le modle dimputation est correct, et ce mme si
le mcanisme de donnes manquantes dpend de la variable expliquer [3].
Les donnes manquantes peuvent galement tre dues un mcanisme MNAR et il nest pas
possible en pratique de diffrencier statistiquement ces deux mcanismes [60]. Si les donnes
manquantes sont MNAR, alors limputation multiple ralise par le biais de procdures
classiques donnera des estimations biaises. Limportance des biais observes sous ce mcanisme
est a priori proportionnelle la dpendance entre le mcanisme de donnes manquantes et la
variable expliquer [111].
Dans de nombreuses analyses, le mcanisme de donnes manquantes dau moins une covariable
peut dpendre de la variable expliquer et il est alors prfrable dappliquer une approche par
imputation multiple. Cependant, le mcanisme de non-rponse peut dans ce cas dpendre
galement de donnes non-observes de certaines covariables, et les estimations des coefficients
peuvent y tre sensibles, et ce dautant plus si des variables auxiliaires ne peuvent pas tre
incluses dans le modle dimputation afin de rendre lhypothse MAR plus plausible [14]. Il est
donc important de tenir compte de limpact dun mcanisme MNAR potentiel sur les estimations
lors de linterprtation des rsultats.
Dans la littrature biostatistique, deux types dapproches ont t proposes pour traiter des
donnes manquantes selon un mcanisme MNAR : les modles par slection [112] et les modles
par mlange [113]. Ces approches ncessitent de faire des hypothses fortes et invrifiables pour
modliser le mcanisme de donnes manquantes, mme si cette incertitude peut tre rduite en
incluant dans les modles des variables lies au mcanisme de donnes manquantes. Des
procdures permettant dadapter ces modles pour raliser des analyses de sensibilit ont t
proposes [114;115]. Cependant, ces mthodes ne sont pas implmentes dans des logiciels
statistiques standards et restent globalement dune application complexe. Ceci peut expliquer
quelles soient peu utilises en pratique courante. Ainsi, daprs une revue de Sterne et al. [52],
une analyse de sensibilit a t ralise dans seulement 1 des 59 applications dimputation
multiple publies dans des journaux majeurs entre 2002 et 2007.

141

La mthode prsente dans ce travail permet de raliser rapidement une analyse de sensibilit
aprs une imputation multiple classique sous lhypothse MAR. Cette approche plus directe est
drive des modles par slection et a t propose par Carpenter et al. [68;116]. Elle permet
dexplorer la robustesse des estimations un non-respect "local" de lhypothse MAR. Cela
signifie que la sensibilit des estimations au non-respect de lhypothse MAR peut tre estime
partir des donnes observes, sans quil soit ncessaire de modliser la non-rponse [117]. Les
paramtres issus de lanalyse de bases de donnes imputes sous lhypothse MAR sont pondrs
de faon reprsenter la distribution des donnes imputes selon un mcanisme MNAR. De cette
faon, les estimations obtenues sous les hypothses MAR et MNAR peuvent tre compares, ce
qui permet de tester la robustesse des estimations un non-respect "local" de lhypothse MAR.
Cette mthode est attractive dans la mesure o elle est relativement facile implmenter aprs
imputation multiple. Elle na pas, notre connaissance, t applique des donnes
pidmiologiques de type observationnel. Nous avons donc mis en uvre cette mthode
danalyse de sensibilit partir des donnes de surveillance de lhpatite virale C en France, et
propos des rgles dapplication pratiques.

2.2.

Arguments pidmiologiques pour le choix des variables

Nous avons choisi dappliquer cette mthode aux donnes prsentes en premire partie de ce
chapitre. Lanalyse initiale visait identifier les facteurs de risque de complications hpatiques
graves dans une population dusagers de drogues infects par le VHC et nouvellement pris en
charge au sein des ples de rfrences (priode 2001-2007).
Les variables prdictrices incluses dans le modle dimputation ont t limites la variable
expliquer et aux 9 variables retenues aprs lanalyse univarie. Puisque le modle dimputation
na pas pu tre enrichi de variables auxiliaires qui auraient pu rendre lhypothse MAR plus
plausible, une analyse de sensibilit a t envisage. Parmi les facteurs de risque identifis au
terme de lanalyse aprs imputation multiple, trois variables ont t retenues pour lanalyse de
sensibilit, sur la base dhypothses pidmiologiques sur leur mcanisme de donnes
manquantes respectif : une consommation excessive passe dalcool, une co-infection par le VIH
et le portage dun virus de lhpatite C de gnotype 3.

142

Consommation excessive passe dalcool


Le fait de dclarer une consommation excessive dalcool peut tre ressentie comme sensible
socialement, plus particulirement dans une population de patients atteints par une hpatite, et ce
mme sil sagit dune consommation dalcool ancienne. Nous avons donc fait lhypothse que
danciens gros consommateurs dalcool taient moins susceptibles que les autres de dclarer cette
consommation.

Co-infection par le VIH


Le statut de co-infection par le VIH a pu tre attest soit par une srologie antrieure, lorsque
celle-ci tait rapporte dans le dossier mdical du patient, soit par un test effectu lors de la
premire prsentation dans un ple de rfrence. Il faut noter quen France, les patients coinfects VHC-VIH sont gnralement rfrs un service hospitalier de maladies infectieuses.
De ce fait, la prvalence de la co-infection VHC-VIH est denviron 8% dans les ples de
rfrence, ce qui peut inciter les hpatologues considrer leurs patients comme mono-infects
VHC quand aucune srologie VIH antrieure nest signale. Nous avons donc fait lhypothse
que linformation sur un test VIH est moins souvent rapporte pour des patients ngatifs pour le
VIH.

Infection par un virus de lhpatite C de gnotype 3


Le gnotypage des souches virales a t ralis par les laboratoires de virologie des ples de
rfrence. La demande de gnotypage dpend du mdecin prescripteur, sachant que le
gnotypage ntait pas ralis en routine au dbut de la priode de surveillance (2001-2003). Par
la suite, la connaissance dun impact du gnotype sur la prise en charge du patient a conduit un
gnotypage plus systmatique. On observe dailleurs que la proportion de donnes manquantes
de la variable genotype 3 diminue trs nettement au cours du temps. Le gnotype peut aussi ne
pas tre renseign du fait du mode transversal de recueil des donnes, par exemple lorsque le test
est ralis lextrieur du ple ou aprs le recueil de donnes. Il est cependant peu probable que
le mcanisme de donnes manquantes dpende du gnotype lui-mme, puisque celui-ci est
identifi par un processus de squenage aprs amplification virale, indpendant du gnotype luimme. Nous avons cependant explor lhypothse MAR pour cette variable du fait de sa
proportion leve de donnes manquantes et de limportance de lidentification du gnotype 3
comme facteur de risque de complications hpatiques graves.
143

2.3.

Mthode danalyse de sensibilit par pondration

Considrons une variable (covariable ou variable expliquer) Y contenant des donnes


manquantes. On dfinit par Yi la valeur de Y pour lindividu i. Soit Ri une variable indicatrice de
donnes manquantes gale 1 si Yi est observe et 0 sinon. Nous supposons un modle logistique
liant la probabilit dobserver Y la valeur de Y, ajuste sur un vecteur X de covariables :
logit Pr ( Ri = 1) = + X i + Yi .

(1)

Sous cette hypothse de modle paramtrique, si = 0 et conditionnellement lensemble des


donnes observes, le mcanisme lorigine des donnes manquantes de Y ne dpend pas de Y,
de sorte que les donnes manquantes sont MAR. Inversement, si 0 , le mcanisme de
donnes manquantes dpend des donnes manquantes de Y, mme en prenant en compte
linformation contenue dans les donnes observes, et les donnes sont alors MNAR.
En pratique, la rgression logistique ci-dessus ne peut pas tre excute puisque, par dfinition,
on ne peut pas observer Yi quand Ri = 0 . Cela implique quil faut choisir une valeur pour ,
puis explorer son impact sur les estimations obtenues partir du modle danalyse. Pour la
mthode que nous explorons, cela peut tre fait en gnrant des poids qui sont fonction de et
des donnes imputes. Nous donnons par la suite une explication intuitive de cette approche.
Supposons que M bases de donnes sont gnres par une mthode dimputation multiple sous
lhypothse MAR. Pour chaque base de donnes, notons m lestimation du paramtre dintrt
(par exemple un coefficient de rgression).
Limputation multiple sous lhypothse MAR permet dobtenir plusieurs estimations qui sont
ensuite combines selon les rgles de Rubin pour obtenir une infrence finale MAR exprime
comme suit :

MAR =

1
M

M
m=1

( )

( ) (

avec sa variance estime VMAR MAR = VW MAR + 1 + 1

144

) V ( ),
B

MAR

( )

1
o VW MAR =
M

M
m =1

( )

m2 et VB MAR =

1 M
m MAR 2.
M 1 m =1

Lapproche de Carpenter consiste remplacer cette moyenne simple par une moyenne pondre,
pour laquelle les estimations issues de limputation qui sont les plus susceptibles dtre affectes
par un mcanisme MNAR vont tre surpondres par rapport aux autres. Une explication
intuitive du processus de pondration est donne dans le paragraphe suivant. Selon le modle de
rgression logistique expliquant la probabilit de donnes manquantes dcrit dans (1), Carpenter
et al. montrent que les poids prennent une forme particulirement simple [116].
Le modle (1) fait lhypothse que, aprs ajustement sur les autres variables observes, la
probabilit dobserver Y lorsque Y varie dune unit est gale au log-odds ratio . Ainsi le poids,
~ ( ) pour limputation m, (m = 1,..., M ) , est gal exp[
not w
m

n1
iI Y

Yi m ] , o Yi m (i I Y )

correspond la valeur impute de Y pour lindividu i dans la base de donnes m, et I Y est


lensemble des individus pour lesquels Y est manquant. La forme exponentielle des poids est
drive de la fonction de lien logistique dans lquation (1).
Les poids normaliss calculs pour chaque base de donnes imputes sont exprims par :
wm ( ) =

~ ( )
w
m
M
k =1

~ ( )
w
k

Lestimation MNAR de est alors dfinie comme :

MNAR ( ) =

M
m =1

wm ( ) m ,

avec la variance estime suivante :

) (

VMNAR MNAR ( ) VW MNAR ( ) + 1 + 1

o VW MNAR ( ) =

M
m =1

) V (

MNAR

wm ( ) m2 et VB MNAR ( ) =

145

M
m =1

( )),

2
wm ( ) m MNAR ( ) .

Notons que si les donnes sont MAR, alors = 0 et toutes les imputations sont pondres de
faon quivalente comme dans les rgles de Rubin.
Pour donner une explication intuitive de ces poids, supposons que Y prenne seulement des
valeurs positives et que

soit positif, de faon ce que la probabilit dobserver Y soit plus

importante pour les valeurs positives de Y les plus leves. Alors, les bases pour lesquelles la
somme des valeurs de Y est petite seront sous-reprsentes parmi lensemble des bases imputes
sous lhypothse MAR. Les poids permettent de corriger cela en surpondrant les estimations
issues de bases ayant une somme des valeurs imputes de Y petite (par rapport aux autres bases
de donnes imputes).
Nous prsentons ci-dessous les estimations MAR pour les donnes de la base de surveillance de
lhpatite C. Nous explorerons la robustesse de ces estimations un mcanisme MNAR lorsque
sloigne de 0 et nous proposerons des rgles dapplication pratiques pour slectionner une valeur
de .

2.4.

Application pratique de lanalyse de sensibilit par


pondration
2.4.1. Problmatique

Les analyses prliminaires sont prsentes dans la premire partie de ce chapitre. Elles ont port
sur 30 bases de donnes imputes avec un modle incluant les 6 variables incompltes, 3
variables compltes et la variable expliquer.
Afin dappliquer la mthode de Carpenter, il est recommand dimputer plus de 50 bases de
donnes. Nous avons fait le choix dimputer 1000 bases afin dillustrer au mieux les particularits
de la mthode. Le programme additionnel ICE de STATA a t utilis pour limputation, en
incluant les mme variables que lors des analyses prliminaires, mais cest le logiciel R et la
librairie MICE qui ont permis de raliser les analyses et les graphes afin de grer les problmes
de calcul dus la taille du fichier imput.
Il est parfois possible de slectionner la valeur du paramtre de sensibilit

partir de lavis

dexperts, aptes proposer des valeurs plausibles du paramtre de sensibilit dans leur domaine
de comptence. Peu dinformations sont disponibles en pidmiologie dobservation et
146

lalternative consiste alors explorer une tendue de valeurs de

en tenant compte des

hypothses sur le mcanisme de donnes manquantes telles que prsentes prcdemment.


Nous proposons une approche combinant 4 tapes pour choisir une valeur approprie de ,
illustre en utilisant la variable infection par un virus de lhpatite C de gnotype 3, avant de
lappliquer aux deux autres variables consommation excessive dalcool et co-infection par le
VIH. Nous avons choisi la variable gnotype 3 car elle permet de soulever les principales
questions pratiques inhrentes cette mthode.
Notre objectif est dappliquer lanalyse de sensibilit au paramtre dintrt, c'
est--dire le
coefficient (odds ratio ajust) de la variable gnotype 3 dans la rgression logistique multivarie
aprs imputation multiple prsente dans le Tableau 3.4 (variable expliquer : complications
hpatiques graves). Selon les notations prsentes prcdemment, m est lestimation du
coefficient de rgression logistique associe la variable gnotype 3 pour la base de donnes
impute m, (m = 1...., M ).

2.4.2. Processus de slection du paramtre de sensibilit delta


Etape 1 : Rgression logistique explorant le mcanisme de donnes manquantes
Cette tape consiste gnrer une variable indicatrice de rponse pour la variable incomplte,
puis dterminer par une rgression logistique multivarie les associations avec, dune part la
variable expliquer, et dautre part les autres covariables.
La variable gnotype 3 tant utilise pour lillustration, on gnre une variable indicatrice de
donnes manquantes gale 1 si la variable gnotype 3 est observe et 0 sinon (notons que le
codage retenu ici est celui utilis par Carpenter et al. dans larticle princeps [116], inverse par
rapport au reste de ce travail). Puis, en utilisant les donnes imputes pour toutes les variables
lexclusion de la variable gnotype 3, on ajuste un modle de rgression logistique multivarie
pour expliquer lindicatrice de donnes manquantes de la variable genotype 3. On inclut dans ce
modle la variable expliquer (complications hpatiques graves) ainsi que toutes les covariables
retenues dans le modle danalyse initial, lexclusion de la variable gnotype 3. Les rsultats
sont prsents dans le Tableau 3.6 et montrent que le mcanisme de donnes manquantes de la

147

variable gnotype 3 dpend de lge et de la dure de la maladie, mais pas de la variable


expliquer.
Tableau 3.6

Rgression multivarie expliquant lindicatrice de donnes manquantes de


gnotype 3 partir des covariables

Indicatrice de donnes manquantes de


gnotype 3

Coefficients
de rgression

SE

Complications hpatiques graves

-0.05

0.13

0.72

Age

0.17

0.09

0.06

Sexe

0.04

0.08

0.63

Dure de l'infection par le VHC

0.19

0.09

0.04

Dlai de prise en charge

0.05

0.08

0.53

Consommation d'alcool

-0.005

0.07

0.94

Co-infection par le VIH

0.02

0.14

0.90

Co-infection par le VHB

-0.15

0.23

0.52

Etape 2 : Dtermination graphique dune valeur de delta


La justification thorique de la mthode repose sur le principe de lchantillonnage prfrentiel
(importance sampling) [118]. Dans les applications dchantillonnage prfrentiel, il est
recommand de ne pas mettre tout le poids sur une ou trs peu de valeurs. De ce fait, il est
ncessaire de rduire ltendue des valeurs prises par . Nous recommandons dappliquer les
critres suivants : les valeurs de

doivent tre choisies de faon ce que la valeur du poids

normalis maximal se situe autour de 0.5 et quau moins 5 poids normaliss soient suprieurs
1/M (c'
est--dire la valeur des poids lorsque = 0 ) [68]. Ainsi, lestimateur MNAR obtenu est
dduit dinformations issues dau moins 5 bases de donnes imputes, ce qui correspond au
nombre minimum usuellement recommand en pratique.
Nous recommandons de reprsenter cette information sur un graphique tel que la Figure 3.2. La
partie gauche de la Figure reprsente (pour chacune des 1000 bases imputes) lhistogramme de
la somme des valeurs imputes de Y pour la variable gnotype 3. Les valeurs extrmes sont 340
pour la base impute n921 et 480 pour la base n771. Sur la partie droite de la Figure sont
reprsents les poids normaliss en fonction de la valeur de , pour chacune des M = 1000 bases
de donnes imputes. Le poids normalis maximal correspond la base de donnes pour laquelle
la somme de valeurs imputes de Y est minimale (base n921) quand > 0 ou maximale (base

148

~ (0 ) sont
n771) quand < 0 . Lorsque = 0 , le poids normalis est gal 1 M car tous les w
m
gaux 1.
pour la variable gnotype 3

1.0

Figure 3.2 Dtermination graphique dune valeur de

Im puted
data s et
n92 1

Im puted
data set
n921

Im puted
data set
n771

0.0

0.2

10

0.4

15

wm

0.6

20

25

0.8

30

Im puted
data set
n771

340

360

3 80

400

42 0

440

46 0

480

-1.0

-0.5

0.0

0.5

1.0

Partie gauche : histogramme de la somme des valeurs imputes de gnotype 3 pour chaque base de donnes impute
parmi M=1000 bases.
Partie droite : poids normaliss (wm) selon la valeur de pour chaque base de donnes impute.

La Figure 3.3 montre la partie centrale de la Figure 3.2. En suivant les recommandations cites
prcdemment, nous retenons des valeurs positives de correspondant un poids normalis
denviron 0.5, ce qui donne un intervalle pour

de [-0.2;0.15]. Mme pour les valeurs extrmes

de cet intervalle, on note que plus de 5 poids normaliss sont suprieurs 0.001. Notons que la
partie centrale de la zone hachure correspond des valeurs de

induisant des carts

lhypothse MAR trop rduits pour tre utiliss en pratique, puisque tous les poids normaliss
dcroissent vers 1 M .

149

pour chaque base de donnes impute

0.0

0.1

0.2

wm

0.3

0.4

0.5

Figure 3.3 Poids normaliss (wm) selon

-0.4

-0.3

-0.2

-0.1

0.0

0.1

0.2

La zone hachure dlimite les valeurs de correspondant des poids normaliss gaux 0.5 au maximum.

Etape 3 : Choix du signe de delta


Nous dterminons lors de cette tape si la valeur de

retenue correspond la borne haute ou

basse de lintervalle identifi au cours de lEtape 2.


Pour le gnotype 3 de lhpatite C, lquation (1) montre la relation entre le signe de

et le

mcanisme de donnes manquantes suppos : pour des valeurs positives de , la probabilit


dobserver le gnotype augmente si lindividu porteur de lhpatite C est infect par une souche
virale de gnotype 3, et inversement pour des valeurs ngatives de . Dans notre exemple et
tenant compte des rsultats de lEtape 2 (Figure 3.3), nous slectionnons = 0.15 . Cela signifie
en pratique quil est 1.2 (exp(0.15)) fois plus frquent dobserver des donnes manquantes pour
le gnotype 3 parmi les individus infects par une souche virale de gnotype 3 que parmi ceux
infects par des souches virales dautres gnotypes.
Dans le cas particulier de cette variable, lexprience ne permet pas de suggrer fortement une
valeur positive ou ngative pour , et les rsultats sont prsents pour les deux valeurs.

150

Etape 4 : Diagnostic graphique


La mthode de pondration est applicable seulement pour une analyse de sensibilit locale, ce
qui signifie que les distributions du paramtre dintrt obtenues sous les hypothses MAR et
MNAR doivent se chevaucher partiellement, mme si elles ont des valeurs moyennes diffrentes.
Ceci ne sera gnralement pas vrai pour une analyse de sensibilit "non locale". Pour vrifier si
cette condition est respecte pour la valeur de

choisie, nous proposons de reprsenter (i) la

distribution des poids normaliss wm en fonction de m , m = 1,..., M , et (ii) la distribution de

lestimateur MNAR en fonction dun nombre croissant dimputation. Pour ces deux
reprsentations, si la mthode donne des rsultats valides, la distribution de lestimateur MNAR
doit tre contenue dans la distribution des m obtenus par imputation multiple sous lhypothse
MAR, sans tre positionne aux extrmes de la distribution MAR.
Pour la variable gnotype 3, les rsultats de cet examen graphique sont prsents sur la Figure
3.4. La partie gauche de la Figure reprsente, pour = 0.15 , les poids normaliss selon m pour
chaque base de donnes imputes (sachant que m est lestimation du coefficient de rgression
obtenu sous lhypothse MAR pour chaque base de donnes impute). La partie droite de la
figure reprsente lestimateur MNAR, calcul pour n imputations en fonction du nombre de bases
de donnes imputes not n, (n = 10,..., M ) , et dfini comme :
n

MNAR

( , n ) =

m =1

wm ( ) m
n
m =1

wm ( )

Par exemple :

NMAR ( ,1) = w1 ( ) 1 w1 ( ) , NMAR ( ,2 ) = w1 ( ) 1 + w2 ( ) 2


et ainsi de suite.

151

) (w ( ) + w ( ))
1

0.0

0.5
0.3

0.2

0.4

0.4

wm

^ MNAR(, n)

0.6

0.6

0.8

0.7

1.0

Figure 3.4 Analyse de la variable genotype 3 pour =0.15

0.3

0.4

0.5

0.6

0.7

Partie gauche : poids normaliss ( wm ) selon


donnes imputes m).

200

400

600

800

1000

Number of imputations (n)

(coefficient de rgression estim de genotype 3 pour la base de

Partie droite : estimateur pondr, calcul comme la moyenne mobile des

MNAR

selon le nombre de bases de

donnes imputes. A lextrmit droite du graphe est reprsente la distribution des 1000 estimations de
pour chaque base de donnes impute.
Pour les deux graphes, la ligne pointille reprsente MAR (moyenne des
imputes).

m , une

sur les 1000 bases de donnes

Sur le graphe nous observons que (i) lestimateur MNAR parat se stabiliser lorsque le nombre
dimputations augmente et que (ii) la distribution de lestimateur MNAR ne se situe pas dans les
valeurs extrmes de la distribution MAR (reprsente par les traits sur la partie droite du graphe).

152

2.5.

Rsultats

Les rsultats des analyses cas-complet et imputation multiple sous lhypothse MAR sont
prsents dans le Tableau 3.7. Nous prsentons galement dans ce tableau les rsultats de
lanalyse de sensibilit pour les trois variables suivantes : gnotype 3 du VHC, srologie VIH et
historique de consommation excessive dalcool.
Pour le gnotype 3 du VHC, nous utilisons la valeur de

telle quelle a t slectionne selon la

procdure en 4 tapes propose. Nous appliquons la mme approche pour les variables srologie
du VIH et consommation dalcool. La Figure 3.5 reprsente les graphes de lEtape 2 pour ces
deux variables.
Figure 3.5

Poids normaliss (wm) selon pour chaque base de donnes impute, pour les
variables consommation dalcool et statut srologique VIH

0.8
0.6
0.0

0.2

0.4

wm
0.0

0.2

0.4

wm

0.6

0.8

1.0

HIV

1.0

Alcohol

-1.0

-0.5

0.0

0.5

1.0

-1.0

-0.5

0.0

0.5

1.0

Lintervalle retenu pour est [-0.4;0.4] pour lalcool (partie gauche) et [-0.4;0.7] pour le VIH (partie droite).

153

Pour la variable consommation dalcool, lEtape 1 montre que la probabilit davoir des
observations pour cette variable dpend de la variable expliquer (complications hpatiques
graves). LEtape 2 permet didentifier une tendue de valeurs de

de [-0.4;0.4] (partie gauche de

la Figure 3.5). Tenant compte des rsultats de lEtape 1 et des hypothses pidmiologiques
formules prcdemment, nous supposons que la probabilit dobserver la consommation
dalcool est plus faible si cette consommation est excessive et nous choisissons = 0.4.
Linterprtation de ce choix est que, aprs ajustement sur les autres covariables, la probabilit
dobserver lhistorique de consommation dalcool est rduite dun facteur 0.7 = exp( 0.4) pour
les individus ayant un historique de consommation dalcool excessive.
Pour la variable co-infection par le VIH, lEtape 1 montre que la probabilit davoir des
observations pour cette variable dpend de la variable expliquer (complications hpatiques
graves). LEtape 2 permet didentifier une tendue de valeurs pour

de [-0.4;0.7] (partie droite

de la Figure 3.5). Selon les rsultats de lEtape 1, et sachant que, dans un contexte similaire, la
probabilit dobserver une co-infection par le VIH est plus leve pour les individus positifs pour
le VIH, nous retenons = 0.7 . Linterprtation de cette valeur est que, aprs ajustement sur les
autres covariables, la probabilit dobserver une srologie VIH est augmente dun facteur
2.0 = exp(0.7 ) pour les individus positifs pour le VIH.
Pour ces trois variables, on peut considrer le diagnostic expos en Etape 4 comme acceptable.
Les odds ratios ajusts sont prsents dans le Tableau 3.7. Notons que le mme modle
multivari incluant les variables sexe, ge, dure de linfection par le VHC, consommation
excessive dalcool, gnotype du VHC et co-infection par le VIH a t appliqu pour chaque
analyse (cas-complet, imputation multiple sous MAR, analyse de sensibilit). Lanalyse de
sensibilit a t ralise pour chacune des 3 variables tour tour.
Deux critres ont t retenus pour interprter les odds ratios ajusts dans chacune des trois
analyses :
(1) Le coefficient de variation (CV) de lodds ratio qui donne sa mesure de dispersion
normalise. Pour les trois variables, il est nettement rduit aprs imputation et reste stable aprs
pondration.

154

(2) Le taux de variation (TV) permet destimer la variation relative entre l OR MNAR et l OR MAR , et
est dfini par TVAS = 100 (OR MNAR OR MAR ) / OR MAR . De la mme faon, nous avons dfini un
taux de variation ( TVIM ) qui rend compte de la variation relative des odds ratios ajusts obtenus
lors des analyses cas-complet et imputation multiple sous lhypothse MAR. Le TVIM varie de
9.7% pour le genotype 3 15.5% pour la co-infection par le VIH et 22% pour la consommation
dalcool. Le TV AS est calcul pour la valeur de

choisie pour chaque variable. Sa valeur est

relativement faible pour la consommation dalcool (1.3%) et pour le gnotype 3 (3.5%) mais
augmente pour la co-infection par le VIH (6.6%). La Figure 3.6 montre que le TV AS est
relativement stable pour des valeurs de

variant de [-1;1] pour les variables consommation

dalcool et gnotype 3, mais augmente pour la co-infection par le VIH pour des valeurs de
suprieures celle retenue.
Figure 3.6 -

Taux de variation selon aprs analyse de sensibilit (TVSA) pour les variables
gnotype 3, consommation dalcool et co-infection par le VIH

HIV

Genotype 3

Alcohol

HIV

Genotype 3

-5

VRSA (%)

Alcohol

-1.0

-0.5

0.0

0.5

1.0

Les points noirs correspondent au TVSA calcul pour la valeur de retenue pour chaque variable
(gnotype 3 : =0.15 ; alcool : =-0.4 ; VIH : =0.7)

155

Tableau 3.7 -

Analyse multivarie de type cas complet, imputation multiple et analyse de sensibilit,


pour M = 1000 bases de donnes imputes

Variables

Cas Complet (CC)


Donnes

ORa

Manquantes

(IC 95%)

Imputation multiple (IM)


SE

11.1

26.3

2.32

0.39

17

1.51

16.3

1.56
(0.92 - 2.62)

CV*

2.82

0.37

TVIM

ORa

(IM versus CC)

(IC 95%)

(%)

(%)

13

21.86

-0.40

(2.18 - 3.66)
0.24

16

(1.10 - 2.07)
Co-infection
par le VIH

SE

(%)

(1.66 - 3.23)
Gnotype 3

ORa
(IC 95%)

(%)
Consommation
d'alcool

CV*

Analyse de sensibilit (AS)

1.66

27

1.80

CV*

TVAS

(AS versus IM)


(%)

(%)

0.37

13

1.29

0.21

13

3.56

0.36

19

6.12

(2.21 - 3.70)
0.23

14

9.70

0.15

1.60
(1.23 - 2.06)

(1.27 - 2.16)
0.41

2.86

SE

0.34

19

15.52

0.70

1.91
(1.32 - 2.76)

(1.24 - 2.61)

* Coefficient de variation de laOR


Taux de variation exprimant la variation relative entre lORa obtenu par analyse de sensibilit et lORa aprs imputation multiple
Taux de variation exprimant la variation relative entre lORa obtenu aprs imputation multiple et lORa par analyse cas-complet.

156

2.6.

Discussion

En prsence de donnes manquantes, toutes les analyses et estimations correspondantes sont


bases sur des hypothses sur le mcanisme de donnes manquantes que lon ne peut tester
directement. Des analyses de sensibilit permettant dexplorer la robustesse des estimations selon
les diffrentes hypothses sont donc essentielles.
Ainsi, des approches ont t proposes afin dlaborer des modles prenant en compte des
donnes MNAR selon diverses hypothses sur les paramtres de modlisation, et de tester
limpact de ces paramtres sur les infrences cls. Van Buuren [2] propose dadapter la mthode
dimputation par quations chanes en incorporant dans le processus dimputation un facteur
dajustement , gnrant ainsi plusieurs modles dimputation sous lhypothse MNAR selon la
valeur de

retenue. Troxel et al. [117] proposent de crer un "index de sensibilit un

mcanisme MNAR" (index of sensitivity to non-ignorability) calcul partir des donnes


observes. Si limpact sur les infrences est modr, alors lanalyse est robuste la spcification
du mcanisme de donnes manquantes, et les rsultats de limputation multiple sont valides.
La mthode prsente dans ce travail permet dappliquer rapidement une analyse de sensibilit
afin de tester la robustesse des estimations obtenues par imputation multiple sous lhypothse
MAR. Cette approche consiste surpondrer des imputations qui sont alors plus plausibles sous
un mcanisme MNAR. En modlisant le mcanisme de donnes manquantes par une rgression
logistique, ces poids prennent alors une forme particulirement simple. Mme si lanalyse de
sensibilit demeure un niveau local, elle fournit cependant dimportantes informations sur
limpact des dviations de lhypothse MAR sur les estimations, tout en vitant la complexit
dune modlisation du mcanisme de donnes manquantes (full joint modeling). La pertinence de
cette approche a t confirme par dautres tudes [68;116].
Nous avons donc dvelopp et illustr la mise en application de cette approche, et propos une
procdure en 4 tapes afin de slectionner une valeur pour le paramtre de sensibilit .
Pour la variable gnotype 3, ltape 1 de notre procdure montre que la probabilit dobserver le
gnotype ne semble pas lie la variable expliquer de notre modle dintrt (complications
hpatiques graves), aprs ajustement sur les autres covariables (Tableau 3.6). Lanalyse de
sensibilit permet la probabilit dobserver le gnotype de dpendre en plus de la valeur du
157

gnotype. Le Tableau 3.7 et la Figure 3.6 montrent que les estimations ne sont pas sensibles
cette dpendance. Ainsi, on peut en dduire que cette dpendance MNAR ne modifie pas la
relation entre la probabilit dobserver cette variable gnotype 3 et la variable expliquer.
En ce qui concerne la variable consommation dalcool, nous avons pos lhypothse que les
patients pouvaient tre rticents dclarer une consommation excessive passe car cette question
pouvait tre ressentie comme sensible socialement. Cependant, le mode de dclaration de la
consommation dalcool et sa relation avec la consommation relle observe nest pas si claire
dans la littrature. Ainsi, Pernanen [119] a rapport des taux de non-rponse plus levs dans des
populations incluant une forte proportion de gros consommateurs dalcool. Van Oers [120] a
observ une sous-dclaration de la consommation dalcool plus importante chez les femmes que
chez les hommes, mais pas spcifiquement parmi les gros consommateurs. Un pourcentage plus
lev de non-consommateurs et de consommateurs excessifs parmi des non-rpondants a t
rapport par Knibbe [121], tandis que Lemmens [122] na pas mis en vidence une
consommation plus importante parmi les non-rpondants que parmi les rpondants. Finalement,
Lahaut [123] a observ des proportions de non-rponse importantes parmi les non-buveurs, et
beaucoup moins leves parmi les buveurs excessifs.
Le fait de rapporter une consommation dalcool est fortement li aux caractristiques
sociodmographiques des individus, caractristiques qui peuvent tre incluses dans le modle
dimputation de faon rduire le biais de non-rponse. Nous avons seulement pu inclure lge et
le sexe dans le modle dimputation car les autres variables ntaient pas lies au mcanisme de
donnes manquantes. Notre Etape 1 montre que la probabilit dobserver la consommation
dalcool dpend de la variable expliquer, aprs avoir pris en compte les autres covariables.
Lanalyse de sensibilit permet cette probabilit de dpendre en plus de la valeur de la
consommation dalcool. Ainsi, on peut en dduire que cette dpendance MNAR ne modifie pas la
relation entre la probabilit dobserver cette variable consommation dalcool et la variable
expliquer.
Pour la variable co-infection avec le VIH, les hpatologues des ples de rfrence ont
probablement tendance considrer leurs patients comme tant mono-infects par le VHC car les
patients co-infects VHC-VIH sont habituellement rfrs dans les services hospitaliers de
maladies infectieuses en France. Par ailleurs, les patients infects par le VHC auraient d tre
tests plus frquemment pour le VIH depuis la confrence de consensus de 2002 qui spcifie un
158

traitement plus long pour les patients co-infects [124]. Etonnamment, aucun effet de la priode
sur le mcanisme de donnes manquantes na t dtect puisque la proportion de donnes
manquantes reste peu prs constante au cours du temps. De plus, lorsque le statut VIH a t
mieux rapport, la proportion de patients ngatifs pour le VIH a augment. Nous avons donc fait
lhypothse par dfaut que le statut VIH tait plus susceptible dtre observ si le statut
srologique tait positif, do notre choix dun signe positif pour . LEtape 1 montre que la
probabilit dobserver le statut VIH dpend de la variable expliquer, aprs ajustement sur les
autres covariables. Lanalyse de sensibilit permet cette probabilit de dpendre en plus du
statut VIH. Le Tableau 3.7 et la Figure 3.6 montrent que les rsultats sont sensibles cela. On
peut en dduire que, si le mcanisme de donnes manquantes est MNAR, avec une probabilit
plus leve que le statut VIH soit renseign pour les patients positifs pour le VIH, alors
lassociation entre cette variable et la variable expliquer est en ralit plus forte que ce qui est
observ dans lanalyse ralise sous lhypothse MAR.
Conclusion
On peut conclure de lanalyse de ces donnes que lanalyse de type cas-complet est
potentiellement biaise puisque les donnes suggrent une dpendance entre la probabilit
dobserver les valeurs et la variable expliquer, aprs prise en compte des covariables. Une
analyse ralise par imputation multiple sous lhypothse MAR est donc prfrable. Notre
analyse de sensibilit montre que, pour des dviations locales de lhypothse MAR, les
estimations pour les variables gnotype 3 et consommation dalcool sont peu affectes, alors que
limpact sur lodds ratio associ la variable co-infection par le VIH est sous-estim si la
probabilit dobserver le statut VIH est plus importante lorsque ce statut srologique est positif.

159

160

CHAPITRE 4
PROCESSUS DIMPUTATION MULTIPLE PERENNE :
APPLICATION AU SYSTEME DE SURVEILLANCE DU VIH
Le traitement des donnes manquantes dans les bases de donnes de surveillance de sant
publique est peu abord dans la littrature rcente [82;125;126]. Dans le domaine des maladies
infectieuses dclaration obligatoire et plus spcifiquement du VIH, peu de systmes de
surveillance font lobjet dun traitement raisonn des donnes manquantes. Le systme de
surveillance du VIH mis en place aux Etats-Unis rcolte des donnes qui sont incompltes. Les
donnes manquantes, traites en routine par une mthode dimputation simple [127], font lobjet
dun processus dimputation multiple dans le cadre de lestimation de lincidence du VIH
[128;129]. Il a t galement propos dappliquer systmatiquement une mthode dimputation
multiple aux donnes du VIH et du SIDA comme mthode alternative limputation simple (risk
factor redistribution) [130].
En Europe, des systmes de surveillance du VIH ont t mis en place depuis les annes 2000
avec la prise de conscience par les autorits de sant publique des limites des systmes nationaux.
Il a donc t propos dtendre la surveillance aux nouveaux diagnostics de linfection au VIH (et
plus seulement aux cas au stade sida), de surveiller les comportements risque et de diversifier
les systmes de surveillance sentinelles. Au niveau europen, la surveillance du VIH se fait par le
biais de systmes htrognes, avec des variations importantes dans la qualit des donnes
collectes. LEuropean Center for Disease Prevention and Control (ECDC) assure la
centralisation de ces donnes. La France a mis en place un systme de surveillance du VIH avec
demble un grand nombre de variables recueillies, ce qui explique la proportion non-ngligeable
de donnes manquantes. Au fil du temps, il est apparu prfrable destimer ces donnes
manquantes par une mthode adapte. Nous prsentons dans ce chapitre lapplication de
limputation multiple au systme de dclaration obligatoire du VIH en France, c'
est--dire les
tapes de sa mise en uvre ainsi que les phases de diagnostic et de validation.

161

1.

Systme de surveillance du VIH


1.1.

Dclaration obligatoire des diagnostics dinfection VIH

Les objectifs de la dclaration obligatoire (DO) de linfection VIH sont de connatre le nombre
et les caractristiques des personnes dcouvrant leur sropositivit au VIH, den suivre
lvolution au cours du temps [131], et de fournir des donnes permettant destimer le nombre de
nouvelles contaminations, c'
est--dire lincidence du VIH [71].
Mise en place en 2003 [132], cette notification est initie par les biologistes qui doivent dclarer
toute personne dont la srologie VIH est confirme positive, et cela pour la premire fois dans le
cadre de leur laboratoire. Un code danonymat unique est cr pour chaque individu partir de la
date de naissance, du prnom, de linitiale du nom et du sexe. La fiche de notification complte
dabord par le biologiste comporte cinq feuillets : le biologiste en conserve un et envoie les autres
respectivement au mdecin de lAgence Rgionale de Sant (ARS) (feuillet 1), au mdecin
prescripteur (feuillets 2 et 3), et au Centre National de Rfrence du VIH (feuillet 4) (Figure 4.1).
Le feuillet mdical est complt par le mdecin prescripteur du test qui renseigne les
informations sociodmographiques et pidmiologiques telles que le pays de naissance, le mode
de contamination ainsi que les raisons ayant motiv le test VIH. Le mdecin doit galement
consigner lhistorique des tests VIH antrieurs la notification, quils aient t positifs ou
ngatifs. Cet historique se dcompose en deux questions sur le fait davoir eu ou non un test VIH
antrieur, positif ou ngatif. En cas de srologie antrieure, la dure en mois entre cette srologie
antrieure et celle donnant lieu la notification doit tre prcise. Le mdecin complte
galement la fiche par des informations cliniques telles que le stade clinique et, depuis 2008, le
taux de lymphocytes T4 (CD4).
Les feuillets de dclaration (feuillets biologiques et mdicaux) sont ensuite adresss aux
mdecins inspecteurs des Agences Rgionales de Sant (ARS) qui doivent les coupler et les
transmettre lInVS. Les doublons, dfinis comme plusieurs dclarations pour une mme
personne, sont alors dtects grce au code danonymat et permettent le plus souvent de
complter la notification initiale.

162

Figure 4.1 Reprsentation schmatique du systme de dclaration obligatoire du VIH


La proportion moyenne de donnes manquantes est indique en % pour les variables incompltes

Centre National de Rfrence

Biologistes

Srotypage de la souche virale 32%


Test dinfection rcente :
Biomarqueurs (TM-V3)
25%

Anonymisation
Sexe, ge,
rgion de
rsidence

Mdecins

1.2.

Pays de naissance
Mode de contamination

26%
29%

Motivation du test
Historique de tests antrieurs
Dlai avec un test antrieur

28%
35%
38%

Stade clinique
Taux de Cd4 (depuis 2008)

26%
47%

Surveillance virologique

La surveillance virologique ralise par le Centre National de Rfrence (CNR) du VIH a t


initie en mme temps que la notification obligatoire en 2003 [133]. Les biologistes envoient
volontairement un chantillon de srum au CNR du VIH. Cet chantillon est dpos sur buvard
partir du "fond de tube" ayant permis de diagnostiquer linfection VIH. Lobjectif de la
surveillance virologique est double : la ralisation dun test dinfection rcente et le srotypage de
la souche virale.
Le test dinfection rcente permet destimer la part des contaminations rcentes, c'
est--dire
datant de moins de 6 mois en moyenne, parmi les dcouvertes de sropositivit. Ce test EIA-RI
(Enzyme Immuno-Assay Recent Infection) a t initialement dvelopp afin de dtecter les
infections rcentes par le biais dun algorithme combinant les mesures par densit optique de
deux marqueurs spcifiques [134]. Ces paramtres biologiques sont des anticorps anti-VIH
dfinis par leur liaison avec dune part lpitope immunodominant (IDE ou TM) de la protine
gp41 et dautre part la rgion V3 de la protine gp120.
163

Le srotypage permet de suivre lvolution des sous-types viraux circulant actuellement en


France. Des tests srologiques permettent la dtermination des types viraux, ainsi que des
groupes puis des sous-types. Les chantillons sont dabord classs en type VIH-1 ou VIH-2, puis
pour les types VIH-1 en groupe M ou O, et enfin parmi les groupes M en sous-type B ou non-B.
Sachant que le VIH-1 est trs largement majoritaire, la proportion des sous-types B versus les
sous-types non-B est informative car elle permet dvaluer la dynamique de lpidmie en termes
de migrations [135].
Les rsultats de la surveillance virologique sont transmis lInVS, o ils sont coupls aux
informations de la dclaration obligatoire grce au code danonymat.

1.3.

Objectifs du processus dimputation multiple

Lobjectif du processus dimputation multiple de la base de dclaration obligatoire du VIH est de


fournir lquipe de surveillance une base de donnes complte utilise pour (i) raliser les
analyses descriptives permettant de caractriser les personnes nouvellement contamines par le
VIH et (ii) estimer lincidence du VIH.
Il sagit donc dun processus dimputation prenne appliqu une base de surveillance
importante (>40000 cas), effectu sur une priode dfinie (2003-2010) et en vue danalyses
spcifiques. Les variables qui sont retenues pour ce processus dimputation doivent donc tre
identifies au pralable par lquipe de surveillance. Puis, lissue de limputation, la base de
donnes produite est mise disposition de lquipe pour analyse. Elle sera utilise comme base
de travail pendant un an afin de produire les diverses communications sur le VIH au niveau
national et international.
La base de dclaration obligatoire du VIH est impute annuellement depuis 2008. Nous
prsenterons dans ce travail les diffrentes tapes du processus dimputation effectu partir de
la base de donnes du 31 dcembre 2009.

164

2.

Examen de la base de donnes

Parmi les variables construites partir des donnes issues de la notification obligatoire et de la
surveillance virologique du VIH, 13 variables sont retenues pour limputation.

2.1.

Examen quantitatif

Les variables incompltes slectionnes sont 3 variables binaires, 5 variables catgorielles et 5


variables continues. Parmi ces 13 variables incompltes, 12 contiennent une proportion de
donnes manquantes variant de 23 44% (Tableau 4.1).
Lexamen du motif de rpartition des donnes manquantes montre quelles suivent un motif
alatoire. Une illustration est donne dans le Tableau 4.2 pour 4 variables catgorielles partir
dune commande ddie lexamen des donnes manquantes sous STATA (misschk). Ce tableau
montre que les 4 variables contiennent 17% de donnes manquantes communes, mais que les
autres combinaisons de donnes manquantes apparaissent selon des frquences faibles. On peut
galement dduire du Tableau 4.2 que 18028 individus parmi leffectif total de 41049 individus
ont des donnes manquantes pour au moins une des 4 variables considres. Une analyse cascomplet incluant les 4 variables catgorielles porterait donc seulement sur 23021 des 41049
individus soit sur seulement 56.08 % des observations.

165

Tableau 4.1

Description des 13 variables incompltes traites par imputation

Variables

Type

Codage

Donnes
manquantes
(%)

Donnes socio-dmographiques
Pays de naissance

Catgorielle

Mode de contamination

Catgorielle

France, Afrique sub-saharienne


(AFSS), Europe, Amrique/Hati,
Autres
Homo/bisexuel, Usage de drogue
intraveineuse (UDI), Htrosexuel,
Autres

26.20
29.01

Historique de dpistage

Motif de dpistage

Catgorielle

Symptmes cliniques et biologiques


(SCB), Exposition (EXP),
Bilan/Grossesse, Dpistage orient
(DOR), Prise en charge (PEC)/Autres

Srologie ngative antrieure

Binaire

Non, Oui

26.20

Dure en mois

44.90

Binaire

Non, Oui

35.81

Continue

Dure en mois

33.93

Stade clinique

Catgorielle

Asymptomatique (ASY), Primoinfection virale (PIV), Symptomatique


non-Sida (SNS), Sida

25.73

Taux de lymphocytes T4

Continue

Nombre de CD4 par mm3

43.36

Catgorielle

Type 1, Type 2, Type 1 et 2

1.50

Dure entre srologie ngative


antrieure et srologie de la
Continue
notification
Srologie positive antrieure
Dure entre srologie positive
antrieure et srologie de la
notification

27.25

Donnes cliniques

Surveillance virologique
Type viral
Srotype viral

Binaire

Srotype B, Srotype non-B

33.93

Biomarqueurs V3 et Tm

Continue

Mesure par densit optique

34.14

166

Tableau 4.2

Examen du motif de rpartition des donnes manquantes


Variables examines pour leurs donnes manquantes

Variables

Donnes manquantes
(Effectifs)

1 - Pays de naissance
2 - Mode de contamination
3 - Stade clinique
4 - Motif de dpistage

10740
11907
10560
11187

Donnes manquantes
(%)
26.2
29.0
25.7
27.3

Donnes manquantes pour quelles variables ?


Frquence

% cumul

1234
123_
12_4
12__
1_34
1_3_
1__4
1___
_234
_23_
_2_4
_2__
__34
__3_
___4
____

Variables

7117
348
229
616
210
292
524
1404
194
395
357
2651
869
1135
1687
23021

17.34
0.85
0.56
1.5
0.51
0.71
1.28
3.42
0.47
0.96
0.87
6.46
2.12
2.76
4.11
56.08

17.34
18.19
18.74
20.24
20.76
21.47
22.74
26.16
26.64
27.6
28.47
34.93
37.04
39.81
43.92
100

Total

41049

100

Donnes manquantes pour combien de variables ?


Nombre de variables
incompltes
0
1
2
3
4
Total

2.2.

Frquence

% cumul

23021
6877
3053
981
7117
41049

56.08
16.75
7.44
2.39
17.34
100.00

56.08
72.83
80.27
82.66
100.00

Examen qualitatif

Afin de raliser cet examen qualitatif, on gnre des indicatrices binaires de donnes manquantes
pour chaque variable incomplte. Ces indicatrices permettent didentifier le mcanisme de
donnes manquantes pour chaque variable, par une rgression multivarie expliquant lindicatrice
de donnes manquantes de chaque variable incomplte en fonction des covariables identifies
dans la base de DO.
167

Notons que, dans ce cas particulier dimputation de donnes de surveillance, les analyses
ralises aprs imputation sont essentiellement descriptives. Il nest donc pas ncessaire de
distinguer une variable expliquer et des variables explicatives. Lexamen du mcanisme de
donnes manquantes de chaque variable incomplte fournit des informations utiles pour
linterprtation des rsultats des comparaisons entre donnes observes et imputes lors de
ltape de diagnostic. Par exemple, le mcanisme de donnes manquantes de la variable mode de
contamination dpend de la variable pays de naissance. On peut donc sattendre une distribution
diffrentielle des donnes imputes de la variable mode de contamination selon les diffrentes
modalits de la variable pays de naissance.
Les hypothses sur les mcanismes causant des donnes manquantes varient selon les variables
recueillies. Ainsi, les donnes issues de la surveillance virologique sont essentiellement
manquantes si le biologiste ne souhaite pas participer cette surveillance (40% des donnes
manquantes), ou bien pour des raisons techniques, si lchantillon est inexploitable ou que
linfection est un stade trop rcent pour que le srotype soit identifiable. Le mdecin
prescripteur renseigne un volet clinique partir de lexamen clinique et dexamens
complmentaires (stade clinique, nombre de CD4), mais rapporte galement des informations
impliquant un entretien avec le patient, au cours duquel le patient peut dcider de rpondre ou
non. Alors que les questions concernant lhistorique de tests srologiques peuvent tre
considres comme anodines, dautres questions portant sur les raisons ayant motiv le test VIH
ou sur le mode probable de contamination sont plus sensibles et le patient peut faire le choix de
ne pas y rpondre.
On peut donc proposer les hypothses pidmiologiques suivantes pour le mcanisme de donnes
manquantes des variables cites : (i) les donnes des variables de la surveillance virologique sont
de type MAR ou MCAR, (ii) les donnes des variables cliniques et dclaratives sont de type
MAR et (iii) les donnes dclaratives sensibles sont risque dtre MNAR. Lexamen des
mcanismes de donnes manquantes partir des variables indicatrices de donnes manquantes
permet dexclure un mcanisme MCAR, puisque des liens existent entre indicatrices et
covariables pour toutes les variables incompltes examines. Des mcanismes MAR dpendant
de certaines variables sont identifis, mais cet examen ne permet pas dexclure un mcanisme
MNAR puisque le mcanisme de donnes manquantes de toutes les variables dpend de variables
incompltes, et donc potentiellement des valeurs non-observes de ces variables.
168

3.

Processus dimputation en deux phases


3.1.

Historique de srologies VIH

Cet historique se dcompose en deux questions binaires sur lexistence ou non dun test VIH
antrieur, positif ou ngatif, partir desquelles sont cres deux variables binaires, srologie
antrieure positive et srologie antrieure ngative. En cas de srologie antrieure connue,
positive ou ngative, une dure entre cette srologie et celle dont dcoule la notification peut tre
dduite des informations contenues dans le dossier mdical ou dclares par le patient. Une
terminologie simplifie sera adopte dans la suite de ce travail pour faire rfrence aux deux
variables binaires sur une srologie antrieure, serpo (srologie antrieure positive) et serneg
(srologie antrieure ngative) ainsi que pour les variables quantitatives indiquant les dures en
mois entre une srologie antrieure positive ou ngative et la srologie de la notification, dlais
positifs et dlais ngatifs.
Ces 4 variables sont incompltes et sont dterminantes pour les analyses des donnes de la DO du
VIH pour les raisons suivantes :
Les analyses descriptives de la DO ont pour but dtablir le nombre annuel de nouveaux
diagnostics pour le VIH, ainsi que de dcrire les caractristiques de cette population. On
parle de nouveau diagnostic ou de dcouverte de sropositivit pour un individu
lorsquaucune srologie positive antrieure na t rapporte ou bien quelle date de plus
de 11 mois.
Lestimation de lincidence du VIH prend en compte la proportion de patients ayant eu
une srologie antrieure ngative ainsi que le dlai associ.

3.2.

Imputation conditionnelle

Du fait du lien entre les variables binaires rapportant une srologie antrieure, positive ou
ngative, et les dlais correspondants, il est ncessaire destimer les donnes manquantes des
variables binaires avant destimer celles des dlais positifs ou ngatifs. De ce fait, comme illustr
par la Figure 4.2, limputation doit tre ralise en deux temps.
169

Figure 4.2 Imputation en deux phases


Srologie antrieure
positive ou ngative

oui

Premire phase

non

manquante

oui

Dlai
notifi

Dlai
manquant

Dlai
manquant

Dlai
imput

Dlai
imput

non

Deuxime phase

En effet, les variables dlais positifs et ngatifs dpendent de deux variables filtres, serpo et
serneg, et ne peuvent donc tre renseignes que pour la modalit "oui" de ces variables.
Cependant ces variables filtres sont incompltes. Il est donc ncessaire destimer dabord les
donnes manquantes des variables serpo et serneg afin didentifier tous les individus avec une
rponse positive. Cette estimation doit donc avoir lieu lors dune premire phase dimputation.
Puis, les variables dlais positifs et ngatifs peuvent tre compltes conditionnellement aux
variables serpo et serneg, c'
est--dire seulement pour les rponses positives pour ces variables,
que celles-ci soient observes dans la base de dpart ou imputes au cours de la premire phase.
Les variables de dlais sont donc compltes au cours dune deuxime phase dimputation.
Nous verrons dans la suite de ce chapitre que cette particularit impacte tout le processus
destimation des donnes manquantes puisque deux modles dimputation doivent tre labors.

170

4.

Etapes prliminaires
4.1.

Base de donnes de dpart

La base de donnes de dclaration obligatoire contient 44067 notifications depuis lanne 1982 et
116 variables issues de la saisie ou reconstruites. Tenant compte du dbut de la notification
obligatoire, la base de donnes retenue pour toutes les analyses de 2011 a t restreinte la
priode du 01 juin 2003 au 31 dcembre 2010 et inclut 41049 notifications. Nous navons pas
inclus le premier semestre 2003 car cette priode correspond au dbut de la dclaration
obligatoire et que les donnes ne nous ont pas sembl suffisamment fiables.
Les variables retenues pour le processus dimputation sont slectionnes en fonction des analyses
programmes par lquipe de surveillance. Du fait de la mthode dimputation retenue
(imputation multiple par quations chanes), les variables peuvent tre conserves sous leur
forme originelle (binaire, catgorielle ou continue). Un recodage des variables catgorielles est
cependant parfois ncessaire afin de limiter le nombre de modalits 5 et dquilibrer au mieux
les effectifs [56].
La base de donnes contient donc les variables dorigine incompltes, les variables recodes pour
limputation et leurs indicatrices de donnes manquantes. Compte tenu de la taille de la base de
donnes, nous avons cr une base restreinte, en cartant les variables contenant une proportion
de donnes manquantes trop leve (de 60 85%). Cette base finale est stabilise environ 100
variables.

4.2.

Recodages lis des problmatiques spcifiques


4.2.1. Biomarqueurs V3 et TM

Les valeurs des biomarqueurs biologiques du test dinfection rcente sont dune interprtation
dlicate pour les patients au stade sida. En effet, en relation avec lhistoire naturelle de la
maladie, les valeurs de ces biomarqueurs peuvent tre artificiellement basses pour ces patients, ce
qui pourrait amener les classer tort en infects rcents. De ce fait, les valeurs observes des

171

biomarqueurs sont recodes en donnes manquantes pour les patients au stade sida et le processus
dimputation prend en compte cette singularit.

4.2.2. Srologie antrieure ngative


Pour les fiches de DO utilises pendant la priode juin 2003-juin 2007, les questions concernant
lexistence dune srologie antrieure, positive ou ngative, ont fait lobjet dune formulation
ambigu : "Le mdecin a-t-il eu connaissance dune srologie ngative antrieure ?". Les
rponses possibles taient oui, non ou inconnu. Au vu de la proportion leve de rponses
ngatives, nous avons mis lhypothse que le mdecin pouvait cocher la modalit non au lieu
dinconnu sil navait pas connaissance de cette information. La formulation de la question tait
identique sur le feuillet du biologiste. De ce fait, une certaine proportion de rponses pourrait tre
renseigne tort par le biologiste ou/et le mdecin prescripteur en rponses ngatives. Ce
processus serait plus marqu pour la variable serneg du fait de la structure de la fiche (la rponse
sur le feuillet biologiste est autocopie sur le feuillet mdical).
Nous avons suppos que ce problme de formulation avait induit un dsquilibre entre les
rponses positives et ngatives de serneg (27% de rponses positives en 2003). Cette hypothse a
t renforce par une comparaison avec des donnes externes issues denqutes ou de cohortes
(60% de rponses positives pour serneg dans Copana, une cohorte de patients sropositifs
nouvellement diagnostiqus [136]). Par ailleurs, ce dsquilibre en faveur des rponses ngatives
a volu au cours du temps et sest attnu avec lintroduction en juillet 2007 dune nouvelle
version de la fiche de notification contenant une formulation plus claire des deux questions. La
proportion de rponses positives passe ainsi pour serneg de 24% en 2003 65% en 2010. La
proportion des modalits oui-non de la variable serneg impacte le calcul de lincidence.
Puisquun retour la rponse dorigine nest pas possible, nous avons fait le choix dlaborer un
filtre afin de slectionner les rponses "valides" de serneg.
La premire tape consiste slectionner des variables contenant des donnes que lon considre
sensibles et dont on pense quelles sont recueillies si lentretien men par le mdecin prescripteur
est approfondi. Lhypothse de dpart est quun remplissage correct de serneg est li la qualit
de lentretien mdical, value par le degr de remplissage global du questionnaire. Ne sont
retenues lissue de cette tape que les variables contenant une proportion de donnes
manquantes infrieure 50% (8 variables catgorielles).
172

La deuxime tape consiste construire des modles prdictifs de la variable serneg en utilisant
laire sous la courbe ROC. Ces analyses sont effectues sur une sous-partie de la base de
notification correspondant la priode 2008-2010, c'
est--dire la priode au cours de laquelle les
nouvelles fiches ont t introduites. Ces nouvelles fiches sont identifiables par le recueil dune
nouvelle variable, le taux de CD4. La stratgie danalyse consiste tout dabord slectionner,
parmi les 8 modles bivaris prdictifs de serneg, le modle avec la meilleure aire sous la courbe
ROC. Puis, partir du meilleur modle, on construit 7 autres modles en incluant chacune des
covariables restantes. Laire sous la courbe ROC nest cependant pas amliore par lajout de ces
variables. Le modle final retenu inclut donc les variables catgorielles mode de contamination
et motivation pour le test, avec une aire sous la courbe ROC de 0,74.
On slectionne ensuite sur lensemble de la base de donnes un sous-chantillon de fiches de
notification pour lequel ces 2 variables sont entirement renseignes. Pour les fiches qui ne font
pas partie de ce sous-chantillon, les valeurs observes de serneg sont recodes en donnes
manquantes, quelles que soient ces modalits. La proportion de donnes manquantes de serneg
passe ainsi de 26% 61%, et la rpartition des rponses oui-non passe de 27%-73% 40%-60%
sur lensemble de la priode.
La variable srologie positive antrieure (serpo) est sujette au mme problme de remplissage,
mais le dsquilibre des rponses oui-non est moins sensible et il a t dcid de ne pas le traiter.

5.

Construction des modles dimputation

Limputation de la base de notification est ralise de faon prenne, c'


est--dire que le processus
dimputation est ractualis chaque anne. Nous prsentons la construction du modle
dimputation pour chacune des deux phases dimputation.

5.1.

Constructions des quations de prdiction


5.1.1. Contexte mthodologique

Les variables retenues pour le processus dimputation suivent des distributions diffrentes
(binaire, catgorielle et continue) et la mthode dimputation par quations chanes permet de
173

conserver la forme originelle de ces variables. Une fonction de lien est spcifie pour chaque
variable imputer. Lessentiel de la construction des quations de prdiction rside donc dans la
slection des variables prdictrices pour chacune des deux phases. Rappelons que les variables
retenues pour les analyses ultrieures de la base de donnes sont systmatiquement incluses dans
le modle dimputation (variables principales) et que des variables supplmentaires peuvent tre
identifies pour amliorer les capacits prdictrices du modle dimputation (variables
auxiliaires).
Chaque variable incomplte est modlise par dfaut dans la commande ICE partir de toutes les
covariables incluses dans le modle dimputation. Cependant, il est possible de slectionner un
jeu de prdicteurs diffrent pour chaque variable imputer. Cette slection repose en partie sur
lexamen des relations entre chaque indicatrice de donnes manquantes et toutes les covariables
disponibles. Il est recommand de raliser cet examen par rgression logistique multivarie de
chaque indicatrice de donnes manquantes sur lensemble des covariables. Une variable est dite
prdictrice si le test de Wald du coefficient de rgression associ cette variable est significatif
(p 0.05).
Comme dcrit dans le chapitre 1, certains auteurs proposent de slectionner les variables
prdictrices en se basant sur les donnes imputes de faon viter le biais de slection d la
perte deffectifs en analyse cas complet [28;82]. Nous avons appliqu cette stratgie pour valuer
les relations entre variables imputer et variables prdictrices.

5.1.2. Premire phase


Variables principales
Les 9 variables imputes lors de la premire phase sont 5 variables catgorielles (pays de
naissance, mode de contamination, stade clinique, motivation pour le test et type viral), 2
variables binaires (srologie antrieure positive ou ngative) et 2 variables continues
(biomarqueurs TM et V3) (Figure 4.3). Ces 9 variables constituent les variables principales et
sont donc incluses demble dans le modle dimputation.

174

Figure 4.3 Description du processus dimputation en deux phases

Pays de naissance
Mode de
contamination
Stade clinique
Motivation pour le test

41 049
fiches

Dlai avec une srologie


VIH antrieure
Positive
Ngative

Srologie VIH antrieure


Positive
Ngative
Type viral

Srotype viral (B/nonB)


Taux de Cd4
(priode 2008-2010)

Biomarqueurs V3 - TM

Imputation de
5 bases de donnes

205 245
fiches

PREMIERE PHASE

Imputation de
3 bases de donnes

615 735
fiches

DEUXIEME PHASE

Le modle dimputation doit tre le plus gnral possible, et nous avons fait le choix dans un
premier temps dinclure chacune des 9 variables dans les quations de prdiction des autres
variables, en faisant lhypothse que leurs capacits prdictrices taient correctes. Dans un
deuxime temps, nous avons exclu deux variables de toutes les quations de prdiction. La
variable serneg a t recode et contient 61% de donnes manquantes. Il nous a donc paru
prfrable de lexclure des quations de prdiction. La variable type viral est presque complte
avec 1.4% de donnes manquantes mais contient 3 modalits trs dsquilibres avec 98% de
sous-type 1, 1.7% de sous-type 2 et 0.8% de sous-type 1 et 2. De ce fait, elle induit une instabilit
du modle dimputation et a t exclue des quations de prdictions.
Par ailleurs, les biomarqueurs TM et V3 sont imputs conditionnellement au stade clinique
observ de chaque patient. En effet, les valeurs de ces marqueurs ne doivent pas tre retenues
pour les individus au stade sida et les mesures disponibles sont donc recodes en donnes
manquantes. Une variable binaire spcifiant le statut sida est utilise pour limiter limputation des
biomarqueurs aux patients non-sida.
175

Variables auxiliaires
Du fait du mode de recueil des informations dans le domaine de la surveillance, la proportion de
donnes manquantes est souvent lev et il peut donc savrer difficile didentifier des variables
auxiliaires suffisamment bien renseignes. Dans le cas de la notification du VIH, nous avons
retenu comme variables auxiliaires potentielles 2 variables binaires, le sexe et le type de dclarant
(mdecin de ville, mdecin hospitalier), 2 variables catgorielles, lanne de diagnostic (20032010) et linter-rgion (6 catgories), et 1 variable continue, lge. Ces 5 variables auxiliaires sont
compltes.
Une premire imputation a donc t ralise en incluant les variables principales et ces 5
variables auxiliaires ; 5 bases ont t gnres. Lexamen des relations entre les variables
indicatrices de donnes manquantes de 8 des 9 variables principales (on ne retient pas la variable
type viral) et des 13 covariables (variables principales et variables auxiliaires potentielles) a t
ralis en appliquant un modle de rgression multivarie lensemble des donnes imputes, par
les commandes spcifiques de limputation. Les rsultats, prsents dans le Tableau 4.3, montrent
que les variables anne de diagnostic, inter-rgion et type de dclarant sont prdictrices de toutes
les variables incompltes. Les variables sexe et ge sont respectivement lies 4 et 2 indicatrices
de donnes manquantes. Cependant, ces variables peuvent tre utilises lors danalyses sur les
donnes imputes et elles ont t retenues dans les quations de prdiction de toutes les variables.
Le Tableau 4.3 montre galement que les 4 variables catgorielles (pays de naissance, mode de
contamination, stade clinique et motif de dpistage), la variable srologie positive antrieure et le
biomarqueur TM ont des capacits prdictrices correctes (3 5 liens significatifs avec les 8
variables indicatrices). Le biomarqueur V3 nest li aucune indicatrice, mais a t maintenu
dans le modle pour conserver son niveau de lien avec le biomarqueur TM. Aprs imputation des
donnes manquantes, la variable srologie ngative antrieure nest effectivement prdictrice
daucune variable incomplte, ce qui justifie son retrait des quations de prdictions.
Le modle de la premire phase se compose donc de 14 variables, 9 variables principales et 5
variables auxiliaires.

176

Tableau 4.3

Analyses multivaries des indicatrices de donnes manquantes partir des


donnes imputes au cours de la premire phase (M=5)
Rpnais

Rmcont
<10

Pays de naissance
Mode de contamination
Stade clinique
Motif de dpistage
Srologie ngative
Srologie positive
Biomarqueur V3
Biomarqueur TM

<10
0.39
-3
<10
0.04
0.16
0.35
0.04

Anne de diagnostic

<10

Inter-rgion
Sexe
Age
Type de dclarant

<10
0.03
0.09
-3
<10

-3

-3

0.01
-3
<10
0.39
0.12
0.38
0.02

-3

<10

-3

<10
0.04
-3
<10
-3
<10

Rstclin
-3

<10
0.05
0.02
0.18
0.13
0.26
0.09

-3

<10

-3

<10
0.01
0.04
-3
<10

Rmotif
-3

<10
0.02
-3
<10
0.91
-3
<10
0.84
-3
<10

Rserneg
-3

<10
-3
<10
0.02
0.01
-3

<10
0.42
-3
<10

Rserpo
0.26
0.01
0.18
-3
<10
0.03
0.79
0.02

-3

<10

-3

<10

-3

<10

-3

<10

-3

<10

-3

<10
0.02
0.65
-3
<10

0.19
0.17
-3
<10

0.30
0.65
-3
<10

RV3

RTM

-3

<10
-3
<10
0.14
0.40
0.09
0.01
0.52

<10
-3
<10
0.14
0.40
0.08
0.01

-3

0.52

-3

<10

-3

<10

-3

-3

<10

-3

<10

-3

0.30
0.07
-3
<10

0.30
0.07
-3
<10

Les variables indicatrices de donnes manquantes sont les variables expliquer de chaque modle. Ces variables sont
abrvies comme suit : Rpnais (pays de naissance), Rmcont (mode de contamination), Rstclin (stade clinique),
Rmotif (motif de dpistage), Rserneg (srologie ngative), Rserpo (srologie positive), RV3 (biomarqeur V3), RTM
(biomarqueur TM). Les p-valeurs associes chacune des variables explicatives sont prsentes, avec en caractres
gras les p-valeurs 0.05. Les zones grises reprsentent les intersections entre chaque variable et son indicatrice de
donnes manquantes.

5.1.3. Deuxime phase


Variables principales
Les variables principales imputes lors de la deuxime phase sont par construction imputes
conditionnellement des variables compltes lors de la premire phase (Figure 4.3).
Il sagit tout dabord des variables continues indiquant la dure en mois entre la srologie
lorigine de la notification et une ventuelle srologie antrieure, positive ou ngative, nommes
dlai positif et dlai ngatif. On spcifie dans les quations de prdiction quelles sont imputes
conditionnellement aux variables binaires serpo et serneg, que les modalits de celles-ci soient
imputes ou observes. Puisque la quantit dindividus avec une modalit oui pour les variables
serpo et serneg augmente aprs imputation, la proportion de donnes manquantes des variables de
dlai saccroit galement : de 4.6% 35.7% pour la variable dlai positif et de 4.1% 43.2%
pour la variable dlai ngatif.

177

De la mme faon, la variable srotype viral (srotype) est impute au cours de cette phase
conditionnellement la variable type viral imput la premire phase. La variable srotype est
reconstruite en deux modalits, srotype B versus non-B, et impute seulement lorsque le virus
est de type 1.
Le taux de lymphocytes T4 (CD4), qui est une variable continue, a t ajoute au modle
dimputation de la deuxime phase partir de 2009. Elle est recueillie par les nouvelles fiches de
notification depuis 2008 seulement et elle est donc impute conditionnellement la priode 20082010. Du fait de sa forte proportion de donnes manquantes (>50% en 2009 et 43% en 2010),
nous avons fait le choix de linclure dans le modle dimputation de la deuxime phase car celuici est plus stable. Ce modle ne contient en effet pas de variable catgorielle et bnficie de
lapport dinformations issues des 9 variables renseignes lors de la premire phase (et 15 bases
de donnes sont imputes au total).
Ces 4 variables contiennent une proportion leve de donnes manquantes (de 33 43%), et il est
donc prfrable de ne pas les retenir comme variables prdictrices. Chacune dentre elles est donc
exclue de lquation de prdiction des autres variables.

Variables auxiliaires
Les variables auxiliaires potentielles peuvent tre identifies parmi des variables originellement
compltes ou compltes lors de la premire phase dimputation. De ce fait, il parait cohrent de
les slectionner partir de la base impute issue de la premire phase. Le Tableau 4.4 montre les
rsultats des rgressions multivaries expliquant les indicatrices de donnes manquantes des 4
variables principales par les 11 covariables retenues.
Les rsultats des rgressions montrent que, en dehors de lge et des biomarqueurs, les variables
retenues partir de la premire phase ont de bonnes capacits prdictrices. La variable ge est
maintenue dans les quations de prdiction car elle est utilise lors des analyses. Les
biomarqueurs sont prdicteurs pour au moins la moiti des variables imputes et sont donc
retenus.

178

Tableau 4.4

Analyses multivaries des indicatrices de donnes manquantes partir des


donnes imputes au cours de la premire phase (M=3)
Rdelpos

Rdelneg

Rserotype

Rcd4

Pays de naissance

0.01

<10

-3

Mode de contamination

<10

-3

<10

-3

<10

Stade clinique

<10

-3

<10

-3

<10

Motif de dpistage

<10

-3

<10

-3

<10

V3

0.02

<10

-3

<10

0.84

<10

-3

0.27

<10

-3

0.30

TM

-3

<10

-3

-3

<10

-3

-3

<10

-3

-3

<10

-3

-3

<10

-3

<10

-3

<10

-3

Inter-rgion

<10

-3

<10

-3

<10

<10

Sexe

0.01

<10

-3

0.05

0.01

Age

0.13

<10

-3

0.51

0.18

<10

-3

-3

Anne de diagnostic

Type de dclarant

<10

-3

<10

-3

<10

<10

-3

-3

Les variables indicatrices de donnes manquantes sont les variables expliquer de chaque modle. Ces variables sont
abrvies comme suit : Rdelpos (dlais positifs), Rdelneg (dlais ngatifs), Rserotype (srotype), Rcd4 (taux de
CD4). Sont prsentes les p-valeurs associes chacune des variables explicatives, avec en caractres gras les
valeurs >0.05.

Bien que les 4 variables imputes au cours de la deuxime phase contiennent de fortes
proportions de donnes manquantes, le modle dimputation est trs complet du fait de
linclusion de 11 variables auxiliaires fortes capacits prdictrices.
Notons que dans le cas dun modle dimputation complexe, le processus de slection des
variables nest pas linaire mais quil fait appel des informations recueillies au cours du
processus de validation postrieur limputation. Nous prsentons donc la slection finale des
variables mais plusieurs modles qui ne seront pas dtaills ont t construits et tests.

5.2.

Traitement des variables catgorielles et continues


5.2.1. Traitement des variables catgorielles

Les variables catgorielles sont bien prises en compte par la mthode dquations chanes. Pour
chaque variable catgorielle incomplte, nominale dans le cas de cette imputation, une rgression
multinomiale est donc spcifie. Il est souhaitable de ne pas dpasser 5 catgories pour des
raisons de stabilit du modle et dquilibrer les effectifs des diffrentes modalits [56;125].

179

Lorsquune variable catgorielle, complte ou incomplte, est utilise comme variable


prdictrice, elle est dcompose en un jeu de variables binaires qui se substituent la variable
catgorielle dorigine dans les quations de prdiction des autres variables. Lusage montre que,
pour les variables catgorielles compltes, la seule contrainte est que le nombre de variables
binaires reste faible par rapport la taille de lchantillon [31]. Dans notre application, la variable
inter-rgion a t utilise comme variable prdictrice catgorielle. Nous avons d restreindre le
nombre de zones gographiques 6 pour des raisons de stabilit du modle.
Lors de limputation de variables discrtes, un biais dit de prdiction parfaite peut apparaitre. Par
exemple, dans une rgression logistique, un prdiction parfaite se produit si, pour une modalit
dune variable catgorielle explicative, la variable expliquer prend toujours la valeur 1 (ou 0).
La vraisemblance tend alors vers sa limite et un ou plusieurs paramtres de cette rgression
tendent vers moins ou plus linfini. En consquence, les variances associes ces paramtres sont
trs leves [137]. Ce biais de prdiction parfaite nest trait que depuis peu et seulement par
certains logiciels dimputation multiple [48;56;138]. Une des solutions prconises pour viter ce
biais, et implmente dans le programme additionnel ICE, est dajouter la base de donnes
quelques observations supplmentaires avec un poids faible, ce qui permet dviter la prdiction
parfaite. Loption AUGMLOGIT, applique par dfaut par le programme additionnel ICE, a t
utilise durant la premire phase pour limputation de certaines variables catgorielles.
Il faut noter que le traitement de plusieurs variables catgorielles incompltes dans un mme
modle dimputation peut tre problmatique en termes de convergence du modle [28]. Ltape
de diagnostic est donc importante pour ces variables.

5.2.2.

Traitement des variables continues

Limputation des variables continues repose sur lhypothse dune distribution normale. Il a t
dmontr que les rsultats de limputation taient sensibles au non-respect de la normalit, aussi
bien pour lapproche multivarie normale que pour lapproche par quations chanes [45]. Il est
donc essentiel de transformer chaque variable dont la distribution est nettement asymtrique afin
de sassurer de la validit de limputation de cette variable et ainsi dviter dintroduire des biais
dans les estimations des coefficients des autres variables du modle dimputation.

180

Les graphes de la Figure 4.4 reprsentent les distributions des valeurs observes des variables
continues. Les distributions des biomarqueurs V3 et TM sont nettement asymtriques avec une
distribution en U et des valeurs censures droite. Les variables dlais ngatifs, dlais positifs et
CD4 ont une distribution plus classique mme si la forte proportion de 0 est problmatique pour
les variables dlais positifs et CD4.
Figure 4.4 Reprsentation graphique des distributions observes des biomarqueurs,
des dlais positifs et ngatifs, et des CD4
Biomarqueur TM

1000

2000

200 400 600 800

3000

4000

1200

Biomarqueur V3

20

40

60

80

20

100

150

200

250

300

80

1200

4000

400 600 800

3000

200

1000
0
50

60

Nombre de CD4

2000

200 400 600 800


0
0

40

Dlais positifs

1200

Dlais ngatifs

50

100

150

200

250

300

1000

2000

3000

4000

5000

Dans le cas des biomarqueurs, des essais dimputation ont t raliss avec des transformations
classiques (logarithme, racine carre) ou plus labores en utilisant des fonctions ddies
(commandes boxcox, lnskew sous STATA) mais ladquation entre les distributions des donnes
imputes et observes sest rvle trs insuffisante. Au vu de ces rsultats, une transformation
propose par Nevalainen et al. [63] a t applique : la transformation par scores de quantiles.

181

Les tapes de cette transformation sont les suivantes :


Notons i les donnes de la variable laquelle on sintresse.
Les valeurs i sont ordonnes.
Les ex-aequos sont dpartags (zros ou valeurs de censure) c'
est--dire que les valeurs

i sont lgrement transformes en les remplaant par une valeur comprise entre i
et i partir de tirages alatoires dans une distribution uniforme ( i , i ) . Nous avons
choisi arbitrairement = 0.04 .
Les nouvelles valeurs sont rordonnes et une variable de rang note Ri est gnre pour
chaque valeur i, (i = 1,..., n ).
Des valeurs zi sont calcules partir des Ri en utilisant la relation suivante :

zi = 1

Ri
,
n +1

o 1 est la fonction de rpartition dune distribution normale centre rduite.


Les valeurs zi sont utilises pour la phase dimputation la place des valeurs i .
Les valeurs zi imputes sont retransformes pour gnrer les valeurs imputes i en
utilisant la fonction de rpartition empirique des valeurs observes des i .
Cette transformation par scores de quantiles a t retenue pour les 5 variables quantitatives
(biomarqueurs V3 et TM en phase 1, dlais positifs/ngatifs et CD4 en phase 2).

182

De plus, limputation de ces variables continues a t ralise en utilisant une rgression par
intervalle. Pour chaque variable, des bornes infrieures et suprieures ont t spcifies afin de
contraindre les valeurs imputes se situer dans lintervalle des valeurs observes. Les variables
et leurs bornes ont t incluses dans les modles dimputation. La rgression par intervalle est
implmente sous le programme additionnel ICE [139] et permet dobtenir aprs
retransformation des valeurs strictement positives.

5.3.

Choix du nombre de bases et de cycles


5.3.1.

Nombre de bases

Les critres de choix du nombre de bases ont t dvelopps dans le chapitre 1. En se basant
uniquement sur le critre defficacit statistique relative, il faudrait gnrer M = 5 bases pour
une fraction dinformation manquante (FMI) de lordre de 25%, ce qui revient tolrer une perte
defficacit statistique de 5% par rapport un nombre infini dimputations. Si lon approxime la
FMI par la fraction de cas incomplets, il est alors recommand dimputer plutt M = 10 bases si
la proportion de cas incomplets varie de 30 50%, pour une mme perte defficacit statistique
de 5%. En prenant en compte des critres supplmentaires tels que la perte potentielle de
puissance statistique et la rptabilit des analyses, il faut alors, comme propos par Bodner [57],
approximer la valeur de M par la fraction de cas incomplets, soit M = 30 bases de donnes pour
une proportion de donnes manquantes de 30%.
Dans notre application, des contraintes pratiques doivent tre prises en compte dans le choix de
M : (i) le fichier de dpart est volumineux (41049 observations, 100 variables), (ii) limputation
est ralise en deux phases et (iii) le fichier final est utilis pour des analyses rptes au fil du
temps.
Soit M 1 le nombre de bases gnres pendant la premire phase, M 2 le nombre de rplications
de chacune des M 1 bases au cours de la deuxime phase et M = M 1 M 2 le nombre total de
bases imputes pour lensemble du processus. Il aurait t indiqu dimputer au moins M 1 = 10
bases puisque la proportion moyenne de donnes manquantes est denviron 30%. Cependant,
pour M 1 = 10 et M 2 = 3 , la taille de la base finale aurait atteint les limites du logiciel utilis.

183

Nous avons donc dcid de tolrer une perte defficacit statistique de plus de 5% pour la
premire phase et dimputer M 1 = 5 bases puis M 2 = 3 bases.
Du fait de ce processus en deux phases, limputation pour les variables de la deuxime phase
revient gnrer 15 bases de donnes. Les variables imputes lors de la deuxime phase
contiennent des informations identiques dans les M 1 = 5 bases. A partir de chacune de ces 5
bases seront gnres 3 bases diffrentes, soit au final 15 bases potentiellement diffrentes pour
les variables imputes au cours de la deuxime phase. Ces variables contiennent en moyenne
40% de donnes manquantes et le choix de M = 15 permet de tolrer une perte de moins de 5%
defficacit statistique par rapport un nombre infini dimputations.
Lors de la phase de validation interne du processus dimputation prsente dans le paragraphe 7,
des critres tels que la FMI, lefficacit statistique et lerreur de Monte Carlo, calculs pour
chacune des 14 variables, permettent de discuter les avantages et les limites du processus retenu.

5.3.2.

Nombre de cycles

Du fait de la convergence rapide de lchantillonneur de Gibbs, 10 cycles sont spcifis par


dfaut dans le programme additionnel ICE. En lien avec la complexit des modles dimputation
construits dans cet exemple, particulirement pour le modle de la premire phase qui contient 5
variables catgorielles, nous avons spcifi 20 cycles pour chacune des deux phases pour nous
assurer de la convergence de lchantillonneur.

184

6.

Imputation et analyse

Le fichier final dlivr aprs imputation contient les 15 bases compltes et la base originelle
incomplte. Chaque variable impute est accompagne dune indicatrice permettant didentifier
les donnes dorigine. Des variables sont construites partir des variables imputes, et sont
gnres automatiquement dans chacune des 15 bases. La base de donnes est transmise
annuellement depuis 2008 lquipe de surveillance.
Les analyses sont ralises sur chaque base de donnes puis les rsultats sont combins selon les
rgles de Rubin. Deux implmentations sont disponibles pour lanalyse de donnes imputes sous
STATA : le programme additionnel MIM de Carlin et Royston [64;140] et le package MI
ESTIMATE de la version STATA 11 [65], plus rcent et plus complet. Cependant, les analyses
de routine sont ralises partir de MIM en raison dune particularit de la base de notification.
En effet, les analyses descriptives concernent seulement les dcouvertes de sropositivit et cette
notion de dcouverte dpend de deux variables imputes, serpo et dlais positifs. Les analyses
restreintes aux dcouvertes de sropositivit portent donc sur des effectifs qui varient selon les
bases imputes et il est plus ais de grer cette particularit avec le programme MIM.
Lquipe de surveillance est donc autonome pour les analyses de la base impute. Ces analyses
prennent galement en compte lexhaustivit de la notification obligatoire ainsi que les dlais de
notification. Cette tape intervient aprs limputation multiple et ses rsultats doivent tre
combins avec ceux de limputation pour produire les rsultats finaux (valeur centrale, variance).

185

7.

Validation interne

Afin dobtenir des estimations valides aprs imputation multiple, deux conditions sont requises :
(i) le modle dimputation doit tre correctement spcifi en termes de slection et de type de
variables, (ii) lhypothse que les donnes sont MAR doit tre vrifie.
Ltape de validation interne permet de vrifier la premire condition, c'
est--dire la validit du
modle, sachant que, si des donnes sont manquantes selon un mcanisme MNAR, les rsultats
de limputation seront biaiss mme si le modle est correctement spcifi. Cette validation
interne a t effectue deux niveaux : des approches simples de diagnostics graphiques et
numriques, puis une tude par simulation permettant dvaluer les capacits prdictrices du
modle de la premire phase.

7.1.

Diagnostic de limputation
7.1.1. Problmatique

Cette tape de diagnostic consiste rechercher des incohrences marques dans les rsultats de
limputation. A un stade initial o le modle dimputation nest pas encore stabilis, diffrentes
quations de prdictions ainsi que diffrents codages et/ou transformations peuvent tre tests.
Comme suggr par Abayomi et al. et Raghunatan et al. [61;62], un critre de validit interne
rside dans la comparaison des donnes imputes et observes via les variables indicatrices de
donnes manquantes. En effet, sous lhypothse que les donnes sont manquantes alatoirement,
des diffrences peuvent tre dtectes entre donnes observes et imputes, mais elles doivent
rester modres et explicables par des mcanismes identifis.
Abayomi et al. proposent deffectuer des comparaisons numriques et graphiques, appliques
conscutivement plusieurs bases de donnes imputes. Dans notre tude, les comparaisons
numriques ne sont pas facilement interprtables en raison (i) de la diffrence deffectifs entre
valeurs imputes et observes et (ii) de la taille de la base de donnes de dpart. Ainsi, des tests
statistiques raliss sur une seule base impute (41049 observations) sont dans cette tude

186

artificiellement significatifs. Une comparaison directe des proportions, complte par des
analyses graphiques, permettent cependant deffectuer une premire tape de validation.

7.1.2. Variables discrtes


Les proportions estimes partir des donnes imputes sont assorties dun intervalle de confiance
95% (IC 95%). Lexamen qui nous a paru le plus adapt a consist vrifier si les proportions
observes taient ou non contenues dans les intervalles de confiance des proportions estimes.
Cet examen a galement t effectu aprs ajustement sur certaines covariables, identifies
partir de lanalyse des mcanismes de donnes manquantes prsente dans les Tableaux 4.3 et
4.4.

Variables binaires
Sont prsentes dans le Tableau 4.5 les proportions observes et estimes pour les 3 variables
binaires serneg, serpo et srotype.

Srologie ngative antrieure : variable serneg


Rappelons que la variable serneg, du fait dun problme de codage initial, a t reconstruite et
contient au final 61% de donnes manquantes. Les proportions observes pour toute la priode
ainsi que selon lanne de diagnostic nappartiennent pas aux IC 95% des proportions estimes.
Pour toute la priode, lcart entre ces proportions est cependant modr avec une diffrence de
moins de 3% sur 40%, sachant que limpact des valeurs imputes sur la proportion globale
(donnes observes et imputes) est de 1%.

187

Tableau 4.5

Proportions observes et estimes des variables binaires


SEROLOGIE NEGATIVE ANTERIEURE

Anne de diagnostic

2003

2004

2005

2006

2007

2008

2009

2010

2003-2010

Donnes observes

24.37

28.79

31.07

34.01

38.09

54.86

58.97

64.92

40.90

Donnes imputes
(IC 95%)

17.77
(14.3-21.2)

21.2
(18.6-23.8)

28.09
(25.0-31.1)

34.08
(30.8-37.3)

40.19
(37.7-42.7)

43.39
(41.4-45.4)

50.27
(47.8-52.7)

55.09
(52.0-58.1)

38.09
(37.2-38.9)

Stade clinique
Donnes observes
Donnes imputes
(IC 95%)

PIV*

ASY*

SNS*

SID*

62.78
62.80
(59.2-66.4)

40.62
40.28
(39.0-41.5)

24.41
26.42
(24.3-28.5)

22.12
23.72
(18.3-29.0)

SEROLOGIE POSITIVE ANTERIEURE


Anne de diagnostic

2003

2004

2005

2006

2007

2008

2009

2010

2003-2010

Donnes observes

36.14

33.43

36.02

36.55

37.48

42.68

43.87

45.22

38.31

32.76

31.19

30.48

32.26

32.76

32.52

33.39

34.24

32.53

IC 95%

Donnes imputes

(28.9-36.6)

(28.2-34.2)

(27.1-33.9)

(29.4-35.1)

(30.2-35.3)

(29.2-35.8)

(31.4-35.4)

(31.7-36.8)

(31.3-33.8)

Mode de contamination

HOMO/BI

2008
58.54
65.89
(62.7;69.1)

2009
57.26
66.62
(63.2;70.0)

2010
55.72
69.6
(66.0;73.2)

2003-2010
58.05
66.65
(65.2;68.1)

Donnes observes
Donnes imputes
(IC 95%)

33.10

UDI

HETERO

8.23

56.66

AUTRES

2.01

30.22

6.85

60.07

2.86

(28.2-32.4)

(6.0-7.7)

(57.8-62.3)

(2.3-3.4)

Motif de dpistage

SCB

Donnes observes
Donnes imputes
IC 95%

26.33
27.19
(25.2-29.2)

14.83
14.32
(12.5-16.1)

27.96
25.54
(22.3-28.8)

Anne de diagnostic
Donnes observes
Donnes imputes
(IC 95%)
Pays de naissance

2003
51.61
65.32
(61.3;69.4)
France
78.30
81.28
(80.0;82.5)

2004
56.08
64.81
(61.9;67.7)

AFSS

2005
60.48
67.52
(63.9;71.2)
EUROPE

2006
59.44
66.46
(62.9;70.1)

AME/HAITI

2007
61.22
67.28
(64.0;70.6)
AUTRES

28.40
31.16
(28.2;34.1)

67.53
71.91
(66.7;77.2)

85.76
87.50
(84.7;90.4)

62.48
64.51
(58.6;70.4)

EXP

BIL/GROS

DOR

20.70
19.92
(15.2-24.7)

PEC/AUT

79.88
76.76
(73.2-80.3)

SEROTYPE B

Donnes observes
Donnes imputes
(IC 95%)

Une proportion observe est note en caractres gras si elle nappartient pas lIC 95% de la proportion estime.
* PIV : primo-infection virale ; ASY : asymptomatique ; SNS : symptomatique non sida ; SID : sida.
HOMO/BI : mode homosexuel/bisexuel ; UDI : usage de drogue intraveineuse ; HETERO : mode htrosexuel. SCB : symptmes cliniques et biologiques ; EXP :
exposition ; BIL/GROS : bilan/grossesse ; DOR : dpistage orient ; PEC/AUT : prise en charge/autre. AFSS : Afrique sub-Saharienne ; AME/HAITI : Amrique/Hati

188

Notons que, selon le Tableau 4.3, le modle de prdiction de la variable serneg est riche puisque
les 4 variables catgorielles sont prdictrices de serneg, c'
est--dire quelles sont
significativement lies lindicatrice de donnes manquantes de cette variable. On observe
dailleurs que les diffrences entre les proportions observes et estimes sont plus faibles aprs
ajustement sur les variables pays de naissance et mode de contamination. Aprs ajustement sur la
variable stade clinique, les diffrences entre proportions observes et estimes ne sont plus
significatives. On peut donc conclure que le mcanisme de donnes manquantes de la variable
serneg est complexe, mais que le modle de prdiction inclut sans doute les principaux
prdicteurs. Une variabilit rsiduelle est attendue du fait de la proportion leve de donnes
manquantes.

Srologie positive antrieure : variable serpo


Comme pour la variable serneg, la qualit de remplissage de la variable serpo a t altre par la
formulation de la question dans la fiche de notification. Limpact sur lquilibre des rponses ouinon est visible jusquen 2008, avec une surreprsentation de rponses ngatives. Avec la mise en
circulation des nouvelles fiches, la proportion de rponses ngatives diminue au profit des
donnes manquantes. De ce fait, la proportion de donnes manquantes augmente nettement au fil
du temps, de 26% en 2003 36% en 2007 et presque 50% en 2010. Notons que, pour la variable
serpo, un processus de tri des fiches na pas t appliqu, car limpact sur lquilibre des rponses
oui-non tait moindre que pour la variable serneg.
Les rsultats du Tableau 4.5 montrent que les proportions observes pour la priode 2003-2010 et
par anne nappartiennent pas aux IC 95% des proportions estimes. Lcart entre les proportions
observes et imputes de la priode complte est important, de lordre de 6% sur 36%, mme si
limpact des valeurs imputes sur la proportion globale (valeurs observes et imputes) nest au
final que de 2 % (38.3% de rponses positives pour les valeurs observes et 36.2% en global). Par
anne de diagnostic, limpact des valeurs imputes sur les proportions globales est infrieur 1%
jusquen 2007, puis saccroit et atteint 5 % en 2010.
Les rsultats de limputation apparaissent donc moins fiables pour la variable serpo que pour la
variable serneg malgr une proportion de donnes manquantes infrieure (36% versus 61%).
Cependant, le modle dimputation de la variable serpo est moins riche que celui de la variable
serneg, puisque seulement 2 des 4 variables catgorielles sont prdictrices de serpo. Aprs
189

ajustement sur ces deux variables, mode de contamination et motif de dpistage, lcart entre
proportions observes et estimes est rduit, et devient mme non-significatif aprs ajustement
sur la variable motif de dpistage.
La variable serpo est une variable cl car elle permet de dterminer, en association avec la valeur
des dlais positifs, la proportion de nouveaux diagnostics. Rappelons quun nouveau diagnostic
est pos quand aucune srologie positive antrieure nest rapporte ou quelle date de plus de 11
mois. Limputation a pour effet de diminuer la proportion de rponses positives pour serpo, et
donc daugmenter la proportion de nouveaux diagnostics, sans tenir compte de limputation des
dlais positifs. Ainsi, la proportion de nouveaux diagnostics passe pour la priode 2003-2010 de
79.7% partir des donnes observes 81.4% partir des donnes globales aprs imputation, et
pour lanne 2010 de 77.1% 80.8%.

Srotype viral B versus non-B pour les souches virales de type 1 : variable srotype
Sont prsentes dans le Tableau 4.5 les proportions de souches virales de type 1 et de sous-type
B, les autres types et sous-types tant regroups dans la catgorie non-B. Les proportions
observes de srotype B, par anne de diagnostic et sur toute la priode, ne sont pas incluses dans
les IC 95% des proportions estimes. Les proportions estimes de srotype B sont
systmatiquement plus leves que les proportions observes, avec un cart global de 9% sur
60%, et des carts par anne variant de 6% en milieu de priode pour atteindre 14% sur 69% en
2010. Limpact des donnes imputes sur les donnes globales nest cependant que de 2.8% pour
lensemble de la priode et atteint 5% en 2010.
Limputation de la variable srotype est ralise au cours de la deuxime phase,
conditionnellement la variable type viral impute lors de la premire phase. Lquation de
prdiction de la variable srotype contient 8 variables prdictrices et 15 bases sont imputes. Un
problme de spcification du modle parait donc peu probable. De plus, les variations observes
aprs imputation peuvent tre expliques, au moins en partie, par le lien entre les variables
srotype et pays de naissance. Ainsi, le srotype est un des indicateurs de lvolution de
lpidmie en France en matire de flux migratoires, en particulier en provenance dAfrique subSaharienne (AFSS). Historiquement, le srotype B est majoritaire en France et les srotypes nonB prdominent en AFSS. Ainsi, aprs ajustement sur la variable pays de naissance, la proportion

190

de souches virales B reste plus leve pour les valeurs imputes, mais cette diffrence nest plus
significative quen France.
Afin dinterprter cette diffrence en France, nous avons gnr une variable indicatrice
permettant didentifier aprs imputation des catgories de donnes manquantes dorigine
diffrente. Les 3 catgories de donnes manquantes correspondent (1) aux buvards non-raliss
ou inexploitables, (2) aux souches virales de type M (recodes en donnes manquantes pour
obtenir le sous-type) et (3) aux souches virales dfinies comme non-typables, trs
majoritairement parce que linfection est trop rcente. On observe que la proportion de srotype
B estime passe de 62.1% pour (1) 75.0% pour (2) et 78.0% pour (3). Par ailleurs la proportion
de nouveaux diagnostics passe de 81.4% pour (1), 89.7% pour (2) et 93.6% pour (3). La
proportion de srotype viral B est donc plus leve parmi les infections rcentes. Ce constat peut
tre li aux pratiques de dpistage selon le mode de contamination, puisque les individus ayant
des pratiques homosexuelles se testent plus frquemment que les htrosexuels (do un taux
dinfection rcente plus lev) et sont majoritairement ns en France, o le srotype B
prdomine. Ce mcanisme peut expliquer la proportion plus leve de srotype B parmi les
infections rcentes.
En rgle gnrale, limputation de variables binaires par la mthode dquations chanes donne
des rsultats fiables, si les conditions dapplication de la mthode sont remplies. Dans cette
application, les variables serneg et serpo contiennent une forte proportion de donnes manquantes
et le mcanisme lorigine de ces donnes manquantes varie selon les individus et avec le temps.
Cet effet semble paradoxalement moins marqu pour serneg, variable pour laquelle une partie des
donnes manquantes a t gnre a posteriori et selon un mcanisme dfini. Dans le cas du
srotype viral, cette variable binaire est en fait de structure initiale complexe, avec des donnes
manquantes dcoulant de mcanismes trs diffrents.
La conclusion de cette tape de diagnostic est que les variations observes sont contrles pour
les variables serneg et srotype, mais que limputation de la variable serpo gagnerait tre
amliore, ventuellement par lapplication dun filtre comme dans le cas de serneg.

191

Variables catgorielles
Le tableau 4.6 prsente les proportions des variables pays de naissance et mode de contamination,
et le Tableau 4.7 dtaille les variables stade clinique, motif de dpistage et type viral.

Tableau 4.6 -

Proportions observes et estimes des variables catgorielles pays de


naissance et mode de contamination

PAYS DE NAISSANCE

France

AFSS*

EUROPE

AME/HAITI*

AUTRES

Donnes observes
Donnes imputes
IC 95%

48.08
46.46
(45.4-47.5)

36.27
36.46
(35.2-37.7)

3.56
3.89
(3.3-4.5)

7.22
8.21
(7.4-9.0)

4.87
4.98
(4.3-5.9)

MODE DE CONTAMINATION

HOMO/BI

UDI

HETERO

AUTRES

2.78
2.35
(1.6-3.1)

94.81
95.73
(94.8-96.6)

2.42
1.92
1.4-2.4

4.76
4.52
(3.9-5.2)

41.48
47.30
(45.5-49.1)

1.35
1.43
(1.1-1.8)

HETERO

AUTRES

Femmes
Donnes observes
Donnes imputes
IC 95%
Hommes
Donnes observes
Donnes imputes
IC 95%
Selon le pays de naissance
(Hommes)
FRANCE
Donnes observes
Donnes imputes
IC 95%
AFSS*
Donnes observes
Donnes imputes
IC 95%
EUROPE
Donnes observes
Donnes imputes
IC 95%
AME/HAITI*
Donnes observes
Donnes imputes
IC 95%
AUTRES
Donnes observes
Donnes imputes
IC 95%

52.41
46.75
(44.9-48.6)
HOMO/BI

UDI

69.39
66.80
(65.1-68.5)

4.65
4.88
(4.0-5.7)

24.79
27.36
(25.6-29.2)

1.17
0.96
(0.5-1.5)

5.72
5.35
(3.7-7.0)

0.86
0.71
(0.1-1.4)

91.42
91.56
(89.5-93.6)

1.99
2.39
(1.6-3.1)

49.75
48.44
(42.9-54.0)

23.94
19.90
(13.4-26.4)

24.82
30.33
(23.3-37.4)

1.50
1.33
(0-3.8)

44.67
40.46
(36.2-44.7)

0.84
0.84
(0-2.0)

53.39
57.18
(52.6-61.8)

1.11
1.51
(0-3.3)

41.67
38.69
(30.7-46.6)

9.95
9.34
(5.2-13.4)

47.19
50.27
(40.8-59.9)

1.20
1.70
(0-3.4)

Une proportion observe est note en caractres gras si elle nappartient pas lIC 95% de la proportion estime.
* AFSS : Afrique sub-Saharienne ; AME/HAITI : Amrique/Hati ;
HOMO/BI : mode homosexuel/bisexuel ; UDI : usage de drogue intraveineuse ; HETERO : mode htrosexuel.

192

Pays de naissance (France, Afrique sub-Saharienne, Europe, Amrique/Hati,


Autres)
Les proportions estimes partir des donnes imputes sont proches des valeurs observes, avec
cependant une diffrence significative pour la France (Tableau 4.6). Limpact des valeurs
imputes sur les valeurs totales reste infrieur 0.5%. Lquation de prdiction de la variable
pays de naissance contient 7 variables prdictrices (Tableau 4.3).

Mode de contamination (homosexuel/bisexuel, usage de drogue intraveineuse,


htrosexuel, autres)
Lexamen des proportions a t ralis selon le sexe. Le Tableau 4.6 montre des diffrences
parmi les hommes puisque, pour les deux modalits principales (modes homo/bisexuel et
htrosexuel), les proportions observes nappartiennent pas aux IC 95% des proportions
estimes. La proportion estime est plus leve que la proportion observe parmi les hommes se
contaminant par voie homosexuelle ou bisexuelle (cart de 6% sur 60%), et on observe la relation
inverse pour la voie hrtosexuelle (cart de 3% sur 25%).
La variable mode de contamination est lie la variable pays de naissance. Chez les hommes,
aprs stratification sur le pays de naissance, des diffrences entre donnes imputes et observes
ne sont plus significatives quen France. La proportion observe est suprieure la proportion
estime pour le mode de contamination homo/bisexuel en France, avec un impact infrieur 1%
sur 70% pour les donnes totales. Il est cohrent dobtenir une proportion estime plus faible que
la proportion observe pour le mode de contamination homosexuel. En effet, une hirarchisation
des rponses lors de la saisie des fiches de notification privilgie la modalit contamination par
voie homo/bisexuelle par rapport aux autres modalits, soit essentiellement la modalit
contamination par voie htrosexuelle (le mode de saisie est bas sur lhypothse que, si le mode
de contamination homosexuel/bisexuel est renseign, il constitue la cause probable de
contamination, ce qui nest pas le cas pour le mode htrosexuel).
Par ailleurs, la variable mode de contamination est renseigne par voie dclarative par le patient
la demande du praticien. Cette question peut tre considre comme sensible socialement, en
particulier pour la catgorie des homo/bisexuels, ce qui pourrait provoquer des donnes
manquantes de type MNAR (par exemple si un homme contamin par voie homosexuelle prfre
193

ne pas divulguer cette information). Cependant, lexamen des proportions avant et aprs
imputation montre des rsultats proches, particulirement aprs ajustement sur le pays de
naissance. Le modle dimputation de la variable mode de contamination est riche (10 variables
prdictrices) et inclut probablement les variables les plus importantes, permettant ainsi de rduire
leffet sur les estimations dun ventuel mcanisme MNAR.

Tableau 4.7 -

Proportions observes et estimes des variables catgorielles stade clinique,


motif de dpistage et type viral

STADE CLINIQUE

PIV*

ASY*

SNS*

SID*

Donnes observes
Donnes imputes
IC 95%

8.12
6.80
(5.9-7.7)

58.71
62.40
(61.3-63.5)

13.50
13.91
(12.9-14.9)

19.67
16.88
(15.9-17.9)

SCB
Donnes observes
Donnes imputes
IC 95%

15.82
14.06
(12.0-16.1)

16.01
17.84
(15.8-19.8)

24.58
27.46
(25.3-29.6)

43.59
40.64
(38.1-43.2)

EXP
Donnes observes
Donnes imputes
IC 95%

7.75
6.47
(4.5-8.5)

85.31
86.46
(83.8-89.1)

4.81
5.11
(3.9-6.4)

2.13
1.97
(0.9-3.0)

BIL/GROS
Donnes observes
Donnes imputes
IC 95%

1.38
1.14
(0.4-1.9)

89.25
89.95
(87.8-92.1)

4.77
4.91
(3.5-6.3)

4.60
4.00
(2.5-5.5)

DOR
Donnes observes
Donnes imputes
IC 95%

4.15
4.11
(1.3-7.0)

79.60
78.99
(69.5-88.3)

13.25
14.14
(7.5-20.9)

3.00
2.76
(0-7.2)

PEC/AUTRES
Donnes observes
Donnes imputes
IC 95%

2.53
2.44
(1.7-3.2)

74.15
75.58
(73.2-78.0)

11.14
11.30
(9.6-13.0)

12.18
10.67
(7.8-13.5)

Selon le motif de dpistage

MOTIF DE DEPISTAGE

EXP

33.84
36.82
(35.6-38.1)

20.78
19.15
(18.4-19.9)

19.40
19.31
(18.4-20.2)

TYPE VIRAL

Type 1

Type 2

Type 1 et 2

Donnes observes
Donnes imputes

98.23
98.59

1.70
1.34

0.08
0.07

Donnes observes
Donnes imputes
IC 95%

BIL/GROS

SCB

DOR

2.57
2.31
(2.0-2.6)

PEC/AUT

23.41
22.41
(21.0-23.8)

Une proportion observe est note en caractres gras si elle nappartient pas lIC 95% de la proportion estime.
* PIV : primo-infection virale ; ASY : asymptomatique ; SNS : symptomatique non sida ; SID : sida.
SCB : symptmes cliniques et biologiques ; EXP : exposition ; BIL/GROS : bilan/grossesse ; DOR : dpistage
orient ; PEC/AUT : prise en charge/autres.

194

Stade clinique (asymptomatique, primo-infection virale, symptomatique non-sida,


sida)
Pour 3 catgories sur 4 de la variable stade clinique, les proportions observes nappartiennent
pas aux IC 95% des proportions estimes, avec des carts modrs entre les proportions, de 2.5%
sur 7% 3% sur 18% selon les modalits (Tableau 4.7). Les capacits prdictrices du modle
dimputation pour la variable stade clinique paraissent satisfaisantes, puisque les 3 autres
variables catgorielles ainsi que 4 variables auxiliaires sont prdictrices. Ainsi, un ajustement sur
les variables pays de naissance et mode de contamination permet dattnuer les carts entre les
proportions. Cest cependant la variable motif de dpistage qui est la plus nettement prdictrice
puisque, aprs ajustement sur cette variable, les proportions observes et estimes de la variable
stade clinique ne diffrent pas significativement.

Motif de dpistage (symptmes cliniques et biologiques, exposition, bilan/grossesse,


dpistage orient, prise en charge/autres)
Les rsultats du Tableau 4.7 montrent que les proportions observes et estimes sont proches.
Ainsi, les valeurs observes sont incluses dans lIC 95% des valeurs imputes pour 3 catgories
sur 5, avec un cart maximal de 2% sur 35% pour les 2 autres catgories. Par ailleurs, lquation
de prdiction de la variable motif de dpistage contient 9 variables prdictrices sur les 12 incluses
dans le modle dimputation.

Type viral (type 1, type 2, type 1 et 2)


La variable type viral reprend le codage originel et contient donc des effectifs trs dsquilibrs
entre les modalits, puisque le type viral 1 est trs peu frquent et donc a fortiori la co-infection
par les types viraux 1 et 2. Malgr ce dsquilibre, les proportions estimes sont trs proches des
proportions observes, sachant que cette variable a d tre exclue de lquation de prdiction des
autres variables lors de la premire phase dimputation car elle induisait une instabilit du
modle. Notons que les IC 95% des proportions estimes nont pu tre calculs pour 2 catgories
sur 3 du fait des faibles effectifs.
Les donnes de la littrature montrent que les variables catgorielles sont les plus problmatiques
imputer, mme si lutilisation de la mthode par quations chanes permettant de spcifier une
195

fonction de lien multinomiale limite les risques de biais. La dcomposition des variables
catgorielles en variables binaires incluses dans les quations de prdiction des autres variables a
permis damliorer nettement les qualits prdictrices des modles dimputation si lon compare
les rsultats au cours du temps (depuis 2008).
Par ailleurs, linclusion de plusieurs variables catgorielles incompltes dans un mme modle
dimputation peut induire une instabilit de ce modle. Nous avons pu observer ce problme avec
la variable type viral, mais les 4 autres variables catgorielles, globalement trs lies les unes aux
autres, ont pu tre maintenues dans toutes les quations de prdiction, ce qui a permis damliorer
les qualits prdictrices du modle dimputation de la phase 1. Enfin, la variable mode de
contamination, considre a priori comme tant risque de contenir des donnes manquantes de
type MNAR, ne prsente pas de dcalage majeur et inexpliqu entre les rsultats de limputation
et les donnes dorigine. Nous en concluons que le modle dimputation pour cette variable est
suffisamment riche en prdicteurs pour rendre peu perceptible leffet dun mcanisme MNAR
potentiel.
Cette tape de diagnostic montre donc que, pour les variables catgorielles, les diffrences entre
valeurs observes et imputes sont faibles, ou/et peuvent tre explique par un lien avec une ou
plusieurs autres variables, ce qui dfinit un mcanisme MAR plus ou moins complexe selon les
variables.

7.1.3. Variables continues


Cinq variables continues sont imputes au total, les biomarqueurs V3 et Tm la premire phase,
les dlais positifs et ngatifs ainsi que le taux de Cd4 la deuxime phase. Les procds de
diagnostic pour limputation des variables continues proposs dans la littrature sont des tests
numriques et graphiques.
Pour les bases de donnes importantes, les tests numriques tels que le test de KolmogorovSmirnov, indiqu pour tester lgalit de deux distributions, sont surtout utiliss pour dpister les
variables pour lesquelles un examen plus approfondi doit tre men [61]. Dans notre application,
le test de Kolmogorov-Smirnov, appliqu chaque base de donnes impute une une, conclut
pour chaque variable teste une diffrence significative entre donnes imputes et observes.

196

Cependant, limportance des effectifs (>40000) peut donner tort des rsultats significatifs du
fait de la puissance du test [62].
De ce fait, nous avons complt cette approche par une reprsentation graphique. Pour cette
analyse graphique, nous avons retenu des graphes quantiles-quantiles et des histogrammes
reprsentant les valeurs observes versus les valeurs imputes. Les Figures 4.5, 4.6 et 4.7
montrent que, pour les 5 variables considres, les distributions des donnes observes et
imputes sont proches.

197

Figure 4.5 Comparaison graphique des donnes observes et imputes des dlais positifs et ngatifs

Dlais positifs

200
100

150

Valeurs imputes

150
100

50

50

Valeurs imputes

200

250

250

300

300

Dlais ngatifs

50

100

150

200

250

300

Valeurs observes

50

100

150

200

Valeurs observes

198

250

300

Figure 4.6 Comparaison graphique des donnes observes et imputes des biomarqueurs V3 et TM

Biomarqueur TM

40
20

30

Valeurs imputes

40
30

10

20

10
0

Valeurs imputes

50

50

60

60

70

70

Biomarqueur V3

10

20

30

40

50

60

70

Valeurs observes

10

20

30

40

Valeurs observes

199

50

60

70

Figure 4.7 Comparaison graphique des donnes observes et imputes du taux de CD4

500

Valeurs imputes

1000

1500

Nombre de CD4

500

1000

Valeurs observes

200

1500

Afin de complter cette approche graphique simple, nous avons compar les distributions
observes et imputes selon leurs quantiles, leurs moyennes et leurs variances. Nous avons
appliqu un diagnostic propos par Stuart et al. [82] et qui dfinit deux indicateurs de discordance
entre les distributions : (i) une diffrence en valeur absolue entre les moyennes des donnes
observes et imputes suprieure 2 carts types (imputs), (ii) un ratio des variances observes
et estimes infrieur 0.5 (variance estime/variance observe) ou suprieur 2 (variance
observe/variance impute).

Tableau 4.8

Comparaisons numriques des donnes observes et imputes


des variables quantitatives
Quantiles

1%

moy*

| moy|

SE

| moy|

var

2SE

varobs

varimp

varimp

varobs

FMI
(%)

25%

50%

75%

99%

BIOMARQUEUR V3
Observ 0.4 20.5
Imput
0.4 19.0

39.8
39.7

55.3
55.7

70.0
70.0

38.10
37.78

0.32

0.17
0.17

0.9

0.03
0.03

1.0

1.0

42.6

BIOMARQUEUR TM
Observ 0.3 12.9
Imput
0.3 11.6

30.0
29.5

40.0
39.8

70.0
70.0

28.51
28.00

0.51

0.10
0.11

2.3

0.01
0.01

0.9

1.1

33.2

DELAIS POSITIFS
Observ 0.0 1.0
Imput
0.0 1.0

12.0
13.0

90.0
91.0

266.0
268.0

54.04
54.64

0.60

0.75
0.80

0.4

0.56
0.64

0.9

1.1

23.9

DELAIS NEGATIFS
Observ 0.0 9.0
Imput
0.0 9.0

21.0
21.0

47.0
45.0

196.0
180.0

35.79
33.71

2.08

0.46
0.47

2.2

0.21
0.22

1.0

1.0

47.7

8.60

3.14
3.56

1.2

9.86
12.67

0.8

1.3

20.8

TAUX DE CD4
Observ 3.0 143.0 333.0 524.0 1226.0 366.84
Imput
4.0 160.0 350.0 534.0 1163.0 375.44

* Moyenne
Valeur absolue de la diffrence entre moyenne des valeurs observes et imputes
Rapport de la variance de la moyenne des valeurs observes sur celle des valeurs imputes
Rapport de la variance de la moyenne des valeurs imputes sur celle des valeurs observes

Les rsultats sont prsents dans le Tableau 4.8. La comparaison des valeurs par quantiles montre
des valeurs trs proches entre les valeurs observes et imputes pour les biomarqueurs et les
dlais, mais dnote plus de variabilit pour le taux de CD4. Lindicateur dfini comme la
diffrence des moyennes divise par 2 carts types est suprieur 1 pour le biomarqueur TM, les
dlais ngatifs et les CD4. Notons cependant que, pour ces variables, la diffrence entre les
moyennes des proportions observes et imputes est faible, mais que lcart type est galement
201

petit, ce qui affecte la valeur du ratio. Cela est confirm par les indicateurs dfinis partir des
rapports de variances (proportions observes et estimes) qui sont trs proches de 1 pour 4
variables sur 5, et incluses dans lintervalle prdfini (0.5 ;2.0) pour les CD4.
Les distributions des donnes observes et imputes sont donc proches pour les variables
considres. Les quations de prdiction varient selon les variables, avec 6 variables prdictrices
pour les biomarqueurs, 8 pour les Cd4, et respectivement 9 et 11 pour les dlais positifs et
ngatifs. Le modle dimputation apparait donc efficace pour les variables continues, avec une
variabilit supplmentaire pour la variable taux de CD4, impute seulement sur une priode de 2
ans.
Posons quelques hypothses sur les mcanismes gnrant des donnes manquantes pour ces
variables. Les valeurs des biomarqueurs sont manquantes lorsque lchantillon nest pas transmis
au laboratoire, quil nest pas utilisable techniquement ou que le patient refuse le test. Ce
mcanisme ne dpend donc pas des valeurs non-observes des biomarqueurs. Un mcanisme
similaire peut tre envisag pour le taux de CD4, mesur galement partir dun prlvement
sanguin. Pour la valeur des dlais, son recueil est dclaratif ou bas sur le dossier mdical du
patient. Cette valeur pourrait tre volontairement omise, mais sans rapport identifiable avec la
valeur du dlai.
Cette tape de diagnostic des variables imputes continues est donc satisfaisante puisquelle
permet de conclure que (i) le modle dimputation apparat correctement spcifi, en termes de
slection de prdicteurs mais aussi de normalisation des variables continues et (ii) quun
mcanisme de type MNAR est peu probable.

7.1.4. Critres diagnostiques du nombre de bases


Le Tableau 4.9 prsente pour chaque variable impute la proportion de donnes manquantes
globale, la fraction dinformation manquante (FMI) par modalit, lefficacit statistique relative
et lerreur de Monte Carlo. Les rsultats sont prsents par phase, sachant que 5 bases sont
gnres la premire phase et 15 aprs la deuxime phase.

202

Tableau 4.9

Critres diagnostiques du nombre de bases imputes


Proportion
Moyenne

Donnes
manquantes
(%)

FMI
(%)

Efficacit
Statistique
(%)

SE

Mcerror*

Mcerror/SE
(%)

9.36
24.43
38.82
33.11

98.16
95.34
92.80
93.79

2.58E-03
2.70E-03
1.15E-03
1.55E-03

3.16E-04
5.23E-04
2.78E-04
3.48E-04

12.23
19.39
24.20
22.41

32.37

93.92

1.27E-03

2.81E-04

22.15

PREMIERE PHASE
Pays de naissance
FRANCE
AFSS
EUROPE
AME/HAITI

47.66%
36.32%
3.64%
7.48%

AUTRES

4.90%

Mode de contamination*

HOMO/BI

UDI

HETERO
AUTRES
Stade clinique

32.10%
3.94%
62.26%
1.70%

29.01

32.09
29.56
28.65
23.82

93.97
94.42
94.58
95.45

2.74E-03
1.12E-03
2.79E-03
7.23E-04

6.05E-04
2.39E-04
5.83E-04
1.38E-04

22.09
21.27
20.93
19.09

7.78%
59.66%
13.61%
18.95%

25.73

43.40
13.80
29.74
21.71

92.01
97.31
94.39
95.84

1.70E-03
2.60E-03
1.98E-03
2.16E-03

4.34E-04
3.83E-04
4.22E-04
3.97E-04

25.59
14.75
21.28
18.34

SCB

EXP

BIL/GROS

DOR

PEC/AUTRES

34.65%
20.34%
19.38%
2.50%
23.14%

27.25

25.94
1.90
14.73
13.52
44.74

95.07
99.62
97.14
97.37
91.79

2.69E-03
2.01E-03
2.10E-03
8.25E-04
2.70E-03

5.37E-04
1.12E-04
3.20E-04
1.20E-04
7.00E-04

19.95
5.58
15.22
14.55
25.96

Srologie positive

36.24%

35.81

44.18

91.88

3.06E-03

7.89E-04

25.78

Srologie ngative

27.35%

60.96

12.54

97.55

2.93E-03

4.14E-04

14.11

Biomarqueur V3

37.78

34.14

42.55

92.16

1.54E-01

3.90E-02

25.32

Biomarqueur TM

28.00

34.14

33.24

93.77

1.18E-01

2.64E-02

22.45

60.82%

33.45

37.51

97.56

3.05E-03

4.59E-04

15.06%

Dlais positifs

54.64

33.93

23.86

98.43

6.93E-01

8.36E-02

12.06%

Dlais ngatifs

33.71

44.90

47.67

96.92

4.46E-01

7.58E-02

16.98%

Taux de CD4

375.44

43.36

20.79

98.63

2.56E+00

2.89E-01

11.27%

PIV

ASY

SNS

SID
Motif de dpistage

26.16

DEUXIEME PHASE
Srotype B

Sont notes en caractres gras les valeurs de FMI suprieures la proportion de donnes manquantes, defficacit
statistique infrieures 95% et derreur de Monte Carlo suprieures 20%.
* Erreur de Monte Carlo
HOMO/BI : mode homosexuel/bisexuel ; UDI : usage de drogue intraveineuse ; HETERO : mode htrosexuel.
PIV : primo-infection virale ; ASY : asymptomatique ; SNS : symptomatique non sida ; SID : sida.
SCB : symptmes cliniques et biologiques ; EXP : exposition ; BIL/GROS : bilan/grossesse ; DOR : dpistage
orient ; PEC/AUT : prise en charge/autres

203

Fraction dinformation manquante (FMI)


La FMI est une fonction des variances inter et intra-imputation. Bodner [57] a propos de
lapproximer par la proportion de donnes manquantes. Nos rsultats montrent que sa valeur peut
en diffrer nettement, et peut tre suprieure (valeur en gras) ou nettement infrieure la
proportion de donnes manquantes initiale.
Il a t suggr par Bodner que la FMI peut tre infrieure la proportion de donnes
manquantes si le mcanisme de donnes manquantes est de type MCAR [28;57]. Par ailleurs, la
FMI tant une fonction des variances intra et inter-imputation, elle est un indicateur de la qualit
de limputation, dpendant conjointement des proprits du modle dimputation et des
mcanismes induisant les donnes manquantes.
Le premier dterminant de la valeur de la FMI est leffectif de chaque modalit pour les variables
catgorielles, qui impacte la valeur de la variance intra-imputation. La variabilit est
effectivement rduite si les effectifs de la modalit sont importants. Cela est nettement visible
pour les modalits principales des variables pays de naissance (France et AFSS) et stade clinique
(Asymptomatique). Ce critre ne permet cependant pas dexpliquer les variations observes entre
la FMI et la proportion de donnes manquantes pour les autres variables.
Pour certaines modalits des variables discrtes, le processus de rcolte de linformation pourrait
tre plus ais que pour dautres, rendant le mcanisme de donnes manquantes plus alatoire car
indpendant de facteurs extrieurs. Cela pourrait tre le cas, par exemple, de la modalit "France"
pour la variable pays de naissance (FMI=9.4%), ou des modalits "exposition" (FMI=1.9%),
"bilan/grossesse" et "dpistage orient" pour la variable motif de dpistage. La variable serneg
contient des donnes manquantes qui ont t gnres artificiellement do un mcanisme plus
alatoire (FMI=12.5%) que dans le cas de serpo (FMI=44.2%). Enfin, le taux de CD4 est
manquant en partie car les anciennes fiches ne collectent pas cette information (FMI=21%).
Cependant, pour certaines variables, un autre dterminant doit tre envisag pour interprter les
carts entre proportion de donnes manquantes et FMI. En effet, les biomarqueurs ont des
donnes manquantes pour les mmes individus et donc selon le mme mcanisme, et cependant
on observe seulement pour V3 une FMI plus leve que la proportion de donnes manquantes.
Les qualits du modle dimputation sont par ailleurs quivalentes pour les deux biomarqueurs (6
prdicteurs, 5 bases imputes). Une explication pourrait tre lie la distribution originelle du
204

biomarqueur V3, trs loigne de la normalit et avec une proportion leve de donnes
censures droite.

Efficacit statistique relative


Lefficacit statistique relative est une fonction de la FMI et du nombre de bases de donnes
imputes.
Pour les variables imputes lors de la premire phase, 5 bases de donnes ont t gnres, ce qui
revient tolrer une perte defficacit statistique variant de 5 10 % par rapport un nombre
infini dimputations. Pour cette premire phase, lefficacit statistique varie nettement en fonction
de la FMI.
Ainsi, les performances sont meilleures, avec une efficacit statistique suprieure 95%, lorsque
la FMI est infrieure la proportion de donnes manquantes, et inversement. La variable motif de
dpistage illustre bien ce mcanisme puisque les valeurs extrmes de la FMI sont obtenues pour
deux modalits de cette mme variable : la modalit "exposition" avec une efficacit de 99.6%
(FMI=1.9%) et la modalit "prise en charge/autres" avec une efficacit de 91.8%.
Logiquement, leffet de la valeur de la FMI sur lefficacit statistique est moins sensible pour les
variables imputes lors de la deuxime phase puisque les estimations sont cette fois pondres
par 15 bases au lieu de 5. Il en rsulte que lefficacit statistique est globalement meilleure, avec
une valeur dpassant 95% pour les 4 variables imputes.

Erreur de Monte Carlo


Lerreur de Monte Carlo est un indicateur de la rptabilit des analyses. Pour un paramtre
donn, le ratio de lerreur de Monte Carlo et de lcart type du paramtre doit tre infrieur 10%
[28]. Les rsultats montrent que ce ratio est trs corrl la FMI pour les variables imputes au
cours de la phase 1, avec des valeurs variant de 5.6% 26%. Globalement, ce critre de
rptabilit des analyses nest pas rempli pour la premire phase puisque sa valeur se situe aux
environ de 20% pour la majorit des variables. Pour la phase 2, leffet du plus grand nombre de
bases imputes est l encore perceptible puisque le ratio varie de 12 17%, avec une corrlation
toujours nette avec la FMI.

205

White et al. proposent une rgle empirique partir de linterprtation de ce ratio qui implique
dimputer environ M = 100 FMI . Or nos analyses montrent quavec seulement 15 bases et une
FMI de 48%, le ratio obtenu est 1.5 plus lev que la valeur recherche. En toute rigueur, il aurait
donc fallu imputer 10 bases la premire phase et atteindre 30 bases globalement. Ce rsultat
tait attendu, sachant que le choix du nombre de bases a d tre restreint pour des raisons
pratiques.

7.1.5. Conclusion
Les examens diagnostiques proposs interviennent dans la phase finale de validation des donnes
imputes mais ils constituent galement une tape essentielle dans la construction du modle
dimputation puisquaucun test dadquation du modle dimputation nest ce jour applicable
en routine. Il est ainsi recommand de tester plusieurs modles dimputation [34] et dvaluer
limpact du choix du modle sur la cohrence des rsultats obtenus, ce qui peut constituer une
forme simple danalyse de sensibilit. Au vu de la complexit des modles dimputation labors
ainsi que du type de variables, la mthode dimputation multivarie normale apparat moins
adapte et na pas t teste.
Plusieurs modles ont t labors au cours du temps pour chacune des deux phases, et les tapes
diagnostiques ont permis didentifier des diffrences plus marques entre valeurs observes et
imputes pour certains dentre eux. Pour la phase 1, une dizaine de modles ont t construits.
Les rsultats obtenus pour les variables binaires sont rests stables selon les modles.
Limputation des variables catgorielles a t nettement amliore par la dcomposition des
variables imputer ainsi que des variables prdictrices en variables indicatrices. Concernant les
variables continues, la normalisation de la distribution des biomarqueurs sest rvle
problmatique et la transformation par scores de quantile a permis dobtenir des distributions de
donnes observes et imputes nettement plus proches. Pour la phase 2, plusieurs modles ont t
labors, faisant varier la composition des quations de prdiction ainsi que la fonction de lien
pour les variables dlais positifs et taux de CD4, initialement imputes sous une forme discrte.
De plus, lexamen des critres lis au nombre de bases imputes aurait pu mener une
modification du choix initial si le contexte dimputation et danalyse lavait permis.
Cette tape de diagnostic permet de slectionner les modles dimputation, de proposer des
critres de validit interne du modle dimputation retenu ainsi que dvaluer la robustesse des
206

rsultats linfluence dun ventuel mcanisme MNAR. Cette tape permet ainsi de rechercher
conjointement des incohrences dues la spcification du modle dimputation et/ou des biais
dans les estimations lies des donnes manquantes selon un mcanisme MNAR. Donc, si la
prise en compte des valeurs observes permet de supprimer des diffrences systmatiques entre
valeurs observes et imputes [23], limpact de donnes manquantes de type MNAR sur les
rsultats de limputation apparat ngligeable, ce qui est le cas dans notre application.
Nous pensons quil est cependant indiqu dappliquer des mesures de validation plus labores,
internes par des tudes par simulation, et externes par comparaison avec des donnes extrieures.

7.2.

Validation croise

Nous avons effectu une tude de simulation afin dvaluer les capacits prdictrices du modle
dimputation de la premire phase en termes de construction du modle et de nombre de bases
imputes.

7.2.1. Etude de simulation


Cette tude est inspire dune illustration de Nevalainen et al. [63]. Nous avons slectionn la
variable mode de contamination impute au cours de la premire phase, code en 4
modalits (homo/bisexuel, UDI, htrosexuel et autres) et contenant 29% de donnes
manquantes. Lestimation dintrt est la proportion de la modalit "homosexuel/bisexuel". Pour
cette tude, la base de donnes de dpart est restreinte aux 29142 individus pour lesquels la
variable mode de contamination est entirement renseigne.

207

On ralise une simulation de Monte Carlo en rpliquant 500 fois lalgorithme suivant :
On tire un chantillon avec remise de 5000 individus
On calcule la proportion observe (homosexuel/bisexuel)
On gnre des donnes manquantes (30%)
On impute les donnes manquantes en utilisant le modle construit pour la premire
phase, et 20 bases sont gnres
On compare la vraie proportion observe et la proportion estime aprs imputation

Les donnes manquantes sont gnres selon deux scnarios :


MCAR avec 30% de donnes manquantes
MAR dpendant de lge en 3 catgories (0-24 ans, 25-49 ans et 50-90 ans). Comme la
distribution par classe dge varie selon les chantillons, on choisit de conserver dans
chaque chantillon respectivement 550 individus pour les moins de 24 ans, 2425 individus
pour les 25-49 ans et 525 individus pour les 50-90 ans, soit au total 3500 individus, et de
gnrer des donnes manquantes pour 1500 individus. Ainsi, 30% de donnes manquantes
sont gnres globalement ce qui donne en moyenne pour chaque catgorie 15, 34 et 20%
de donnes manquantes.
Limputation est ralise en appliquant le modle construit lors de la premire phase. La variable
mode de contamination y est incluse sous une forme catgorielle. Les covariables incluses dans le
modle sont celles retenues pour la premire phase. Elles peuvent contenir des donnes
manquantes et sont donc la fois imputes et prdictrices.

208

7.2.2. Rsultats et conclusions


Lobjectif de cette tude est de calculer, pour une variable donne, trois statistiques :
Le biais relatif dfini comme :

BR = 100

moy (P ) Pobs
.
Pobs

La probabilit de couverture de lintervalle de confiance correspondant la proportion


dintervalles de confiance 95% qui contiennent la vraie valeur de P parmi les 500
chantillons.
Lefficacit statistique relative dfinie ici comme la moyenne de lefficacit statistique sur
les 500 chantillons.
Les rsultats sont prsents selon les mcanismes MCAR et MAR, et pour 5 ou 20 bases (Figure
4.8, Tableau 4.10).

209

Figure 4.8 Probabilit de couverture de lIC, biais relatif et efficacit statistique relative
pour des mcanismes MCAR et MAR, pour les 500 chantillons, et pour 5 ou 20
bases imputes
Sont reprsents en rouge les intervalles de confiance 95% ne contenant pas la vraie valeur de P.
Mcanisme MCAR 20 bases
Probabilit de couverture = 93.6% - Biais relatif = -0.03%
Efficacit statistique = 99.1%

0.34
IC95%

0.30

0.32

0.32
0.30

IC95%

0.34

0.36

0.36

Mcanisme MCAR 5 bases


Probabilit de couverture = 94.6% - Biais relatif = -0.15%
Efficacit statistique = 96.2%

100

200

300

400

500

100

200

300

400

Echantillons

Echantillons

Mcanisme MAR 5 bases


Probabilit de couverture = 95.4% - Biais relatif = -0.23%
Efficacit statistique = 96.1%

Mcanisme MAR 20 bases


Probabilit de couverture = 95.4% - Biais relatif = -0.11%
Efficacit statistique = 99.1%

500

0.33

IC95%

0.30

0.30

0.31

0.32

0.32

IC95%

0.34

0.34

0.35

0.36

0.36

100

200

300

400

500

Echantillons

100

200

300

400

Echantillons

Tableau 4.10 Synthse des rsultats de la Figure 4.8

MCAR
5 bases
20 bases
MAR
5 bases
20 bases

Biais relatif (%)

Probabilit de couverture de
l'IC (%)

Efficacit statistique relative


(%)

-0.15
-0.03

94.6
96.6

96.2
99.1

-0.23
-0.11

95.4
95.4

96.1
99.1

210

500

Les rsultats montrent que le biais relatif reste trs modr pour les 4 cas de figures. Cependant,
on observe que ce biais relatif est plus limit respectivement pour un mcanisme MCAR et pour
20 bases. La probabilit de couverture reste proche de 95%, sans effet vident du mcanisme de
donnes manquantes ou du nombre de bases. Par ailleurs, dans cet exemple, lefficacit
statistique est logiquement amliore lorsque 20 bases sont gnres, mais nest pas sensible au
mcanisme de donnes manquantes. Notons cependant que les mcanismes prsents restent de
type alatoire et que les estimations par imputation multiple doivent tre non-biaises, si le
modle dimputation est correct.

Figure 4.9 Reprsentation graphique de lvolution de lefficacit statistique


relative selon le nombre de bases imputes, pour les 500 chantillons
et pour les mcanismes MCAR et MAR
Est reprsente en rouge la moyenne des efficacits statistiques des 500 chantillons

0.9
0.6

0.7

0.8

Efficacit statistique

0.8
0.6

0.7

Efficacit statistique

0.9

1.0

Mcanisme MAR

1.0

Mcanisme MCAR

10

15

20

Nombre de bases imputes

10

15

20

Nombre de bases imputes

Pour chacun des 500 chantillons, lefficacit statistique est calcule successivement pour un
nombre global k de bases imputes, avec k = 2,...20. De mme, est reprsente en ligne pointille
rouge la moyenne des efficacits statistiques des 500 chantillons, et ce pour chaque valeur de k.
Les graphes prsents en Figure 4.9 montrent que la variabilit de lefficacit statistique par
chantillon, importante pour k = 2 avec des valeurs variant entre 70 et 100%, est nettement
rduite partir de k = 10 et ne semble pas samliorer au-del de k = 15 . La moyenne de
211

lefficacit statistique atteint la valeur de 95% ds k = 4 . Si lon considre le scnario


comparable celui retenu lors de limputation relle, c'
est--dire k = 5 et un mcanisme MAR, la
perte moyenne defficacit statistique est infrieure 4%, mais peut atteindre 10% pour certains
chantillons.
En conclusion, cette tude de simulation montre que les valeurs du biais relatif et de la probabilit
de couverture de lintervalle de confiance se situent dans les valeurs attendues pour k = 5 , et sont
proches pour un mcanisme MCAR ou MAR. Concernant lefficacit statistique, dont la valeur
est plus dpendante du nombre de bases, les rsultats montrent quil aurait t prfrable
dimputer 20 bases. Cependant, il nous parait acceptable denvisager une inflation de la variance
des estimations de lordre de 4%, et pouvant aller jusqu 10%.
Cette analyse avait pour objectif de valider le modle dimputation de la premire phase sur la
base dune variable catgorielle avec des modalits peu quilibres et un mcanisme de donnes
manquantes pouvant tre partiellement MNAR. Les rsultats de cette tude montrent que le
modle dimputation de la premire phase, bien que complexe, permet dobtenir des estimations
fiables sous lhypothse MAR.

8.

Rsultats compars avec des donnes externes :


essai de validation

Une tape de validation par des donnes externes avait t initialement prvue. Lobjectif tait de
raliser ce type de validation partir des donnes dune enqute spcifique pour laquelle un
recueil diffrentiel aurait t effectu pour un sous-chantillon alatoire de patients [141]. Une
enqute hospitalire sur ltude des co-infections VIH/hpatites avait t retenue pour cette tude
de validation.
Celle-ci ayant t reporte, nous avons recherch des donnes denqutes ou de cohortes
recueillant des informations proches de celles de la dclaration obligatoire et avec un taux de
compltude lev. Nous avons finalement ralis des comparaisons avec les donnes dune des
enqutes Odysse ainsi que de la cohorte ANRS Copana que nous allons maintenant dcrire.

212

8.1.

Sources de donnes
8.1.1. Enqute Odysse

Lobjectif de cette enqute nationale tait destimer la prvalence de la rsistance primaire aux
antirtroviraux chez des patients chroniquement infects et nafs de traitement antirtroviral.
Cette enqute, dj ralise en 2002, a inclus des patients entre novembre 2006 et mars 2007 (20
patients conscutifs par centre taient slectionns). Au final 530 patients recruts dans 31
centres ont t inclus, et 466 patients ont t retenus pour lanalyse [142].
Ces patients, infects chroniques pour le VIH, avaient une dure entre le diagnostic de
sropositivit et linclusion distribue comme suit :
> 6 mois : 26.2%
6 mois 2 ans : 16.1%
2 5 ans : 19.7%
> 5 ans : 8%
La population dtude tait donc a priori caractrise par un recrutement plus tardif que pour la
dclaration obligatoire.

8.1.2. Cohorte Copana


Lobjectif de cette cohorte tait dtudier le pronostic court, moyen et long terme des patients
infects par le VIH, rcemment diagnostiqus et non traits par antirtroviraux [136]. Cette
cohorte prospective multicentrique (36 centres) a inclus des patients depuis fvrier 2004 et
pendant une priode de 4 ans. Ont t inclus des patients infects par le VIH de type 1, dont la
dcouverte de sropositivit tait rcente (datant de moins dun an), gs de 15 ans ou plus et non
traits au moment de linclusion. La cohorte Copana a inclus au total 795 patients. Les patients
dpists au stade de primo-infection nont pas t inclus dans la cohorte Copana mais dans une
cohorte ddie, la cohorte Primo.

213

Les informations collectes ont t (i) des donnes cliniques et biologiques prvues dans le suivi
des patients VIH, (ii) des donnes immuno-virologiques dont le taux de lymphocytes T4 et (iii)
des donnes rcoltes par des auto-questionnaires annuels portant sur les anomalies
morphologiques, la consommation de tabac et dalcool, lalimentation et lactivit physique. Les
donnes utilises dans la comparaison avec les donnes de la DO sont issues du questionnaire
administr linclusion des patients, et ne tiennent pas compte des donnes recueillies
annuellement.

8.2.

Comparaison des sources de donnes


8.2.1. Mthodes

Lobjectif initial de cette comparaison des donnes de la DO avec celles de deux autres sources
de donnes tait dappliquer des tests statistiques certaines estimations (proportions, moyennes,
odds ratios). Cependant, deux problmes mthodologiques se sont poss : (i) les chantillons
compars ne sont pas indpendants puisque la DO inclut en thorie tous les nouveaux diagnostics
de VIH et donc les individus inclus dans Odysse et Copana, et (ii) la taille des chantillons est
trs disproportionne (DO : N=41049, Copana : N=795 et Odysse : N=466). Des tests
statistiques adapts permettent de comparer des quantits calcules partir dchantillons qui ne
sont pas indpendants, mais la taille de lchantillon de la DO rend tout test statistique
ininterprtable puisque systmatiquement significatif.
Nous avons par ailleurs constitu une base de donnes unique partir des trois bases de donnes
(DO, Copana et Odysse), restreinte aux variables communes aux trois bases et incluant une
variable permettant didentifier la base dorigine. Nous avons cherch comparer les bases de
donnes en construisant une rgression logistique (2 bases) ou multinomiale (3 bases) expliquant
la variable indicatrice de base de donnes par les covariables dintrt. Pour chaque covariable,
un test de Wald ou de Fisher significatif mettrait en vidence une diffrence significative de la
distribution en fonction des bases de donnes considres. Les rsultats obtenus nont pas t
exploitables puisque les tests de Wald ou de Fisher taient tous significatifs quand la rgression
multivarie impliquait la source DO, toujours en raison des effectifs.
Nous avons donc appliqu au final une mthode simple, consistant comparer les proportions ou
les moyennes des variables communes aux trois bases de donnes, en utilisant les intervalles de
214

confiance obtenus partir des donnes imputes. On peut conclure une diffrence nonsignificative pour une variable donne lorsque le paramtre observ (Odysse, Copana)
appartient lintervalle de confiance du paramtre estim (DO).
Notons que la proportion de donnes manquantes dans la base Odysse est trs faible, de lordre
de 1% pour les variables dintrt, ainsi que pour Copana lexception de la variable mode de
contamination qui contient 7% de donnes manquantes. Les rsultats prsents ne tiennent pas
compte des donnes manquantes.

8.2.2. Rsultats
Nouveaux diagnostics
Les patients inclus dans la cohorte Copana sont rcemment diagnostiqus, avec un dlai
dinclusion variable et non-document, alors que pour lenqute Odysse, les patients inclus sont
dfinis comme des malades chroniques du VIH, avec un diagnostic a priori plus ancien. Parmi les
individus de la base de DO, certains ont dj eu un test VIH positif, mais les analyses sont
effectues en restreignant la base de donnes aux individus correspondant des dcouvertes de
sropositivit, c'
est--dire nayant pas eu de test antrieur positif ou un test antrieur positif
datant de plus de 11 mois, soit environ 80% des effectifs.
Dans le cas dOdysse, si lon reprend la dfinition de nouveau diagnostic applique aux patients
de la DO, les donnes sur les dlais entre test VIH et inclusion permettent destimer une
proportion de "nouveaux diagnostics" variant de 60 74%, soit infrieure celle de la DO. Pour
la cohorte Copana, linformation de dlai avec un ventuel test antrieur positif nest pas
disponible, mais seuls des patients rcemment diagnostiqus sont inclus. Par ailleurs, on dispose
pour Copana de linformation sur un ventuel test antrieur ngatif et 60% des patients sont dans
ce cas. Les dlais en mois entre le test VIH de linclusion et un test antrieur ont une distribution
proche de celle observe parmi les nouveaux diagnostics de la DO (dlai moyen de 36 mois pour
Copana et 33 mois pour la DO). Il est donc probable que linclusion dans Copana soit un peu plus
tardive que pour la DO.
Ainsi, le dlai entre diagnostic VIH et inclusion serait plus court pour la DO que pour Copana, et
plus court pour Copana que pour Odysse. Les analyses suivantes portent sur les nouveaux
diagnostics de la DO, et sur les bases compltes pour Copana et Odysse.
215

Distribution dge
Les distributions dge sont proches pour les trois sources de donnes lorsque lon compare des
critres quantitatifs (quantiles, moyenne, mdiane), avec cependant un ge moyen plus bas pour
Copana (Tableau 4.11). En effectuant une comparaison plus fine par classe dge, on constate que
la classe dge 0-24 est sous-reprsente dans Copana et de faon encore plus marque dans
Odysse par rapport la DO. Cela est d une non-inclusion des enfants de moins de 15 ans.

Tableau 4.11

Distribution dge pour les nouveaux diagnostics de la DO et les sources


Copana et Odysse
DO
(N=15x41049)

AGE
Forme continue
1%
25%
50%
75%
99%
Moyenne

Odysse
(N=466)

Quantiles
Observs

Imputs

Observs

Observs

17
29
36
45
69

16
29
37
45
70

20
29
34
43
69

21
31
37
44
65

37.64

38.04

36.84

37.85

Observes

Imputes

Proportions (%)
IC 95%*

Observes

Observes

13.55
34.33
29.25
14.54
6.53
1.81

13.28
34.18
29.60
14.77
6.32
1.84

12.9-13.7
33.7-34.7
29.1-30.1
14.4-15.2
6.1-6.6
1.7-2.0

9.31
42.26
27.67
13.46
5.91
1.38

5.58
32.62
37.34
18.03
5.36
1.07

19.63
40.74
22.65
10.64
4.95
1.39

18.82
40.46
23.67
10.84
4.76
1.45

18.1-19.5
39.6-41.4
22.9-24.4
10.3-11.4
4.4-5.2
1.2-1.7

11.06
45.96
24.26
9.79
7.66
1.28

9.09
41.32
26.45
16.53
6.61
0.00

10.17
30.76
32.91
16.70
7.40
2.05

10.09
30.56
33.03
17.04
7.22
2.06

9.7-10.5
29.9-31.2
32.4-33.7
16.5-17.6
6.9-7.6
1.9-2.3

8.57
40.71
29.11
15.00
5.18
1.43

4.35
29.57
41.16
18.55
4.93
1.45

Forme catgorielle
0-24 ans
25-34 ans
35-44 ans
45-54 ans
55-64 ans
65-90 ans

Copana
(N=795)

Selon le sexe
Femmes
0-24 ans
25-34 ans
35-44 ans
45-54 ans
55-64 ans
65-90 ans
Hommes
0-24 ans
25-34 ans
35-44 ans
45-54 ans
55-64 ans
65-90 ans

* Intervalle de confiance 95% des proportions imputes de la DO

216

Par ailleurs, la classe dge 25-34 ans est surreprsente dans Copana par rapport la DO et
Odysse, plus particulirement chez les hommes. Pour Odysse, cest la classe 35-44 qui est
surreprsente par rapport aux deux autres sources, l aussi trs nettement chez les hommes. Une
hypothse possible serait que ces diffrences soient dues un biais de recrutement chez les
hommes, avec une proportion plus leve de patients homosexuels inclus dans Copana et
Odysse que dans la DO. Cependant, cette hypothse nest pas confirme par les donnes de la
DO qui montrent que, globalement, la proportion de patients contamins par voie homosexuelle
est plus leve en consultation de ville quen structure hospitalire.

Pays de naissance
Si lon compare les donnes observes et imputes de la DO celles des autres sources, on
observe que le recrutement des patients diffre selon les sources pour le pays de naissance
(Tableau 4.12). Ainsi, la proportion de patients ns en France est plus leve dans Copana que
dans la DO, et elle saccroit dans Odysse par rapport Copana. On observe un classement
inverse entre les sources pour la proportion des patients ns en Afrique sub-Saharienne (AFSS).
En dtaillant par sexe, les diffrences entre les proportions sont similaires pour Odysse, alors
que pour Copana des variations marques apparaissent selon le sexe. Ainsi, la proportion de
femmes nes en France est proche entre Copana et la DO (diffrence non significative), alors que
la proportion dhommes ns en France est plus leve dans Copana que dans la DO. La
proportion de femmes nes en AFSS est plus leve dans Copana que dans la DO (68% versus
61%), alors quune relation inverse est observe pour les hommes ns en AFSS (19% versus
22%). Il est donc probable que Copana recrute bien des femmes originaires dAFSS, sans doute
en relation avec les mesures de dpistages dans le cadre de la transmission mre enfant (TME),
alors quun biais de slection est observ pour les hommes.
La rpartition diffrentielle des patients de Copana et dOdysse selon le pays de naissance,
visible partir des donnes imputes mais aussi des donnes observes de la DO, permet de
conclure que les deux sources de donnes retenues ne permettent pas de proposer une validation
externe pour limputation. Il est cependant informatif de comparer les distributions des autres
variables dintrt, tenant compte de cette diffrence tablie entre les sources de donnes.

217

Tableau 4.12

Distribution de la variable pays de naissance pour les nouveaux diagnostics


de la DO et les sources Copana et Odysse
DO
(N=15x41049)

PAYS DE NAISSANCE
France

AFSS
Europe
Amrique/Hati
Autres
Selon le sexe
Femmes
France

AFSS
Europe
Amrique/Hati
Autres
Hommes
France

AFSS
Europe
Amrique/Hati
Autres

Proportions (%)
IC 95%*

Copana

Odysse

(N=795)

(N=466)

Observes

Observes

Observes

Imputes

49.58
35.82
3.1
6.94
4.56

47.84
36.81
3.25
7.32
4.78

47.3-48.4
36.3-37.4
3.0-3.5
7.0-7.7
4.5-5.0

54.30
33.50
3.59
3.85
4.75

61.82
27.98
4.34
1.52
4.34

23.66
61.90
1.72
8.84
3.88

23.11
62.16
1.82
8.90
4.02

22.2-24.0
61.3-63.0
1.5-2.1
8.2-9.6
3.6-4.4

22.94
68.40
2.16
2.60
3.90

33.88
58.68
4.13
0.00
3.31

63.92
21.40
3.86
5.89
4.93

62.13
22.17
4.07
6.41
5.22

61.3-62.9
21.5-22.8
3.7-4.4
6.1-6.8
4.9-5.5

67.52
18.80
4.20
4.38
5.11

71.76
17.06
4.41
2.06
4.71

* Intervalle de confiance 95% des proportions imputes de la DO


AFSS : Afrique sub-Saharienne

Mode de contamination
La proportion de mode de contamination par voir homo/bisexuelle est beaucoup plus leve dans
les deux sources extrieures, et plus particulirement dans la source Copana (Tableau 4.13).
Inversement, la modalit transmission par voie htrosexuelle est sous-reprsente dans Odysse
et surtout dans Copana. Ces relations sont retrouves et mme amplifies aprs ajustement sur le
sexe pour ces deux principaux modes de transmission.
Cette diffrence marque entre Copana et la DO peut tre partiellement explique par la
rpartition diffrentielle du pays de naissance, puisque le mode de contamination homosexuel est
plus frquent pour les patients ns en France que pour ceux ns en AFSS. Cependant, cet
argument ne permet pas dexpliquer les diffrences de transmission par voie homo/bisexuelle (et
paralllement par voie htrosexuelle) entre Copana et Odysse puisquOdysse inclut plus de
patients ns en France que Copana et nettement moins de patients homo/bisexuels. Lajustement
218

sur le pays de naissance ne permet donc pas dexpliquer entirement les variations observes.
Notons que la variable mode de contamination contient 7% de donnes manquantes dans la
source Copana, ce qui peut impacter les diffrences entre les proportions.
Lexamen selon les sources de la variable mode de contamination, variable considre comme
traitant dun sujet sensible socialement, montre bien la difficult dobtenir des donnes de
validation issues de sources extrieures. La diffrence pour cette variable entre proportions
observes et estimes dans la DO est en effet bien moindre que la diffrence entre ces proportions
et celles observes dans les autres sources.

Stade clinique
Il existe deux classifications pour dcrire la progression de linfection VIH, bases sur les
manifestations cliniques et les anomalies biologiques : la classification en 3 stades cliniques des
Centers for Disease Control and Prevention (CDC) dAtlanta et la classification en 4 stades
cliniques propose par l'
Organisation Mondiale de la Sant (OMS) [85].
Le codage en 4 catgories ntait disponible que pour les sources DO et Copana. Une
comparaison de proportions de ces deux sources selon ce codage montre que Copana inclut plus
de patients un stade de primo-infection virale ou asymptomatique que la DO, et donc nettement
moins de patients un stade symptomatique non-sida ou sida (Tableau 4.13).
Les proportions ont t recalcules partir des stades cliniques dfinis par le CDC (A : primoinfection asymptomatique ou symptomatique, B : infection symptomatique non-sida, C :
infection au stade sida). Les modalits "primo-infection virale" et "asymptomatique" ont t
regroupes pour reformer la modalit A. Notons que celle-ci est largement majoritaire en effectifs
pour les trois sources de donnes. On retrouve avec ce nouveau codage une proportion de patients
au stade A plus leve pour Odysse et surtout pour Copana que pour la DO. Ainsi, bien que les
patients dOdysse soient considrs comme des malades chroniques, ils sont globalement un
stade clinique moins avanc que les patients de la DO.
Notons que la dfinition de dcouverte de sropositivit utilise pour discriminer les nouveaux et
anciens diagnostics ne tient compte que de lhistorique des tests positifs et non de lanciennet
relle de linfection. Ainsi, les sous-chantillons de la DO constitus par lenqute Odysse et la
cohorte Copana slectionnent certainement, par leur mode de recrutement, des patients un stade
219

clinique moins avanc que dans lensemble de la DO. Cela peut tre partiellement d au fait que
les enqutes hospitalires nont pas accs des populations marginalises (par exemple des
populations de migrants en situation irrgulire, ou des personnes non-bnficiaires de la CMU).
Linclusion dans les enqutes hospitalires ncessite en effet dobtenir le consentement du
patient, et les personnes socialement fragiles peuvent ne pas souhaiter tre incluses.

Tableau 4.13

Distribution des variables mode de contamination et stade clinique pour les


nouveaux diagnostics de la DO et les sources Copana et Odysse

Oserves

DO

Copana

Odysse

(N=15x41049)

(N=795)

(N=466)

Observes

Observes
45.06

Proportions (%)
IC 95%*

Imputes

MODE DE CONTAMINATION

Homo/BI

35.17

33.14

32.6-33.7

49.53

UDI

1.72

1.80

1.6-2.0

0.41

1.93

Htro
Autres
Selon le sexe
Femmes

UDI

62.09
1.02

63.72
1.34

63.1-64.3
1.2-1.5

47.09
2.98

46.35
6.65

1.05

1.06

0.8-1.3

0.47

0.83

Htro
Autres
Hommes

Homo/BI

97.51
1.44

97.10
1.85

96.7-97.5
1.6-2.1

94.37
5.16

90.91
8.26

54.86

52.27

51.5-53.1

69.58

60.87

UDI

2.10

2.23

2.0-2.5

0.38

2.32

42.27
0.78

44.44
1.05

43.7-45.2
0.9-1.2

27.95
2.09

30.72
6.09

Htro
Autres

STADE CLINIQUE

10.16

9.46

9.1-9.9

13.08

61.85

61.25

60.7-61.8

75.09

SNS

13.61

13.24

12.8-13.7

4.15

SID
Stade CDC
A
B
C

14.38

16.06

15.6-16.5

7.67

72.01
13.61
14.38

70.71
13.24
16.06

7.01-71.3
12.8-13.7
15.6-16.5

88.18
4.15
7.67

PIV

ASY

81.47
7.11
11.42

* Intervalle de confiance 95% des proportions imputes de la DO


HOMO/BI : mode homosexuel/bisexuel ; UDI : usage de drogue intraveineuse ; HETERO : mode htrosexuel ;
PIV : primo-infection virale ; ASY : asymptomatique ; SNS : symptomatique non sida ; SID : sida

220

Taux de CD4
La comparaison des valeurs du taux de CD4 en continu montre que les distributions ont des
valeurs globalement plus leves pour Copana et Odysse, et proches pour ces deux sources
(Tableau 4.14). Les distributions par quantiles montrent que le taux de CD4 est plus lev en
dbut de distribution pour Copana et Odysse, puis que les valeurs sont proches pour les trois
sources au-del de la mdiane.
La valeur du taux de lymphocytes T4 est troitement lie lhistoire naturelle de la maladie, et
donc trs corrle au stade clinique, ce qui explique les diffrences entre la DO et les autres
sources en dbut de distribution, lies la proportion plus leve de stade clinique A. Aprs
ajustement sur le stade clinique du taux de CD4 selon un codage catgoriel, les proportions
observes pour Copana et Odysse sont relativement proches de celles de la DO, mme si elles
nappartiennent pas aux intervalles de confiance des proportions estimes. Notons que cette
comparaison na de sens que pour la catgorie A qui contient des effectifs suffisants pour Copana
et Odysse.

221

Tableau 4.14 -

Distribution du taux de CD4 pour les nouveaux diagnostics


de la DO et les sources Odysse et Copana
DO

TAUX DE CD4

(N=15x41049)

Forme continue
1%
25%
50%
75%
99%
moyenne

Selon le stade clinique CDC


A
0-199
200-349
350-499
500 et +
B
0-199
200-349
350-499
500 et +
C
0-199
200-349
350-499
500 et +

Odysse

(N=795)

(N=466)

Quantiles
Observs

Imputs

Observs

Observs

4
170
357
542
1242
384.92

4
170
359
541
1172
383.71

6
238
383
546
1177
410.75

6
260
380
520
1016
398.18

Forme catgorielle
0-199
200-349
350-499
500 et +

Copana

Proportions (%)
Observes

Imputes

IC 95%*

Observes

Observes

28.65
20.50
20.84
30.00

28.61
20.31
21.01
30.08

27.7-29.5
19.5-21.1
20.1-21.9
29.1-31.0

19.37
23.9
26.29
30.44

19.52
26.03
25.81
28.63

12.67
23.03
25.69
38.62

14.52
21.80
25.24
38.43

13.1-15.4
20.9-22.7
24.1-26.3
37.2-39.6

12.55
24.82
29.1
33.52

12.03
27.81
28.34
31.82

49.25
21.44
14.57
14.74

1.53
23.30
16.21
13.82

49.7-30.5
20.6-26.0
13.9-18.5
11.7-15.9

45.45
21.21
15.15
18.18

18.18
27.27
27.27
27.27

87.89
7.67
2.56
1.88

83.84
10.22
3.82
2.12

81.6-86.0
8.5-11.9
2.7-4.9
1.3-3.0

83.61
14.75
0
1.64

75.00
11.54
7.69
5.77

* Intervalle de confiance 95% des proportions imputes de la DO

222

8.2.3. Discussion
La phase de diagnostic et de validation interne permet de conclure que les rsultats obtenus
partir des modles dimputation retenus pour chacune des deux phases sont stables puisque les
variations entre donnes observes et imputes peuvent tre en grande partie expliques par des
mcanismes de donnes manquantes de type MAR plus ou moins complexes.
Une limite de ce travail est que lobjectif initial de validation des rsultats de limputation par des
donnes externes na pu tre atteint. Des exemples dtudes transversales ou longitudinales
montrent que, dans des circonstances particulires, il est parfois possible de recueillir des donnes
complmentaires alors que limputation a t ralise et dobtenir ainsi un chantillon de
validation. Par exemple, pour une enqute multicentrique europenne sur lefficacit vaccinale du
vaccin contre la grippe, un recueil complmentaire a pu tre men pour les donnes franaises
[143]. Pour le systme de surveillance du VIH, un retour au clinicien a lieu pour 40% des
notifications mais il permet de complter les fiches de notification et est ralis avant
limputation. En rgle gnrale, ce type de validation nest possible pour des donnes denqutes
que lorsquun recueil de donnes intensifi est programm ds le protocole pour un souschantillon dindividus.
Il est possible de proposer deux axes damlioration de ce processus dimputation des donnes de
surveillance du VIH. Tout dabord, nous avons d, pour des raisons pratiques, imputer un nombre
de bases insuffisant au vu des examens pr et post-imputation, puisquil aurait t prfrable de
gnrer au moins 30 bases de donnes. Sagissant dun processus dimputation prenne, il est
envisageable daccrotre le nombre de bases imputes au cours du temps. Par ailleurs, les
variables binaires rapportant lhistorique des tests srologiques, serpo et serneg, ont fait lobjet
dun problme de codage notable au stade du remplissage des fiches papier. Les rsultats du
diagnostic montrent que la prise en compte de ce problme pour la variable serneg, en gnrant
des donnes manquantes pour des fiches identifies par des modle prdictifs, amliore la qualit
de limputation. Un traitement similaire de la variable serpo pourrait tre envisag. Ces
problmes de codages sont cependant limits dans le temps car corrigs depuis 2007. Une
imputation conditionnelle tenant compte de la priode devrait permettre terme de mieux prendre
en compte cette particularit pour les variables serpo et serneg.

223

Si lon tient compte des limites de ce processus dimputation appliqu une importante base de
donnes de surveillance, la question de la lgitimit du choix danalyser une base de donnes
impute versus une base de donnes incomplte mrite discussion. En effet, bien que des critres
diagnostiques montrent la fiabilit globale de ce processus dimputation multiple, ils en
soulignent galement les limites. Ainsi, lestimation des donnes manquantes de la base de
surveillance du VIH permet deffectuer des analyses partir dune base de donnes complte
pour les variables cls, ce qui est essentiel pour le calcul de lincidence, mais impacte forcment
les estimations par rapport aux analyses effectue partir de la base de donnes incomplte.
Lobjectif est dobtenir des variations entre les donnes initiales et les donnes compltes qui
intgrent le plus dinformations possible, ce qui constitue une amlioration par rapport un
processus de raffectation proportionnelle. Cependant, ce processus dimputation reste complexe,
bien quil ait t mis en place progressivement et amlior au fil du temps, et limputation de
certaines variables peut et doit tre amliore. Au final, le choix dutiliser une base impute pour
lanalyse des donnes de surveillance du VIH nous apparat justifi puisque, malgr ses limites,
la mthode dimputation multiple permet dintgrer dans les estimations toutes les informations
de la base de donnes, ce qui reprsente un atout indniable par rapport lanalyse de la base
incomplte.

Conclusion
La mise en place dun processus dimputation multiple prenne tel que celui-ci ncessite un
investissement en temps important, pour raliser limputation dabord mais aussi pour lanalyse
des donnes de surveillance. Ce projet sest inscrit dans un travail de recherche et la question de
son devenir peut donc se poser puisquun soutien statistique trs spcifique sera ncessaire pour
adapter les modles dimputation lvolution naturelle du systme de surveillance du VIH.
Lexigence mthodologique de lquipe de surveillance ainsi que sa forte implication dans ce
projet constitueront donc des atouts essentiels pour la poursuite de ce projet.

224

CHAPITRE 5
SYNTHESE ET PERSPECTIVES
Nous prsentons dans ce chapitre une synthse de notre travail de recherche, en proposant pour
chaque thme abord des perspectives de recherches potentielles.
Limpact des donnes manquantes sur les rsultats denqutes pidmiologiques est encore
largement sous-valu. Ainsi, lapproche la plus commune consiste dcrire les particularits des
individus prsentant des variables incompltes afin dtablir sils diffrent du reste de
lchantillon, puis restreindre lanalyse aux individus pour lesquels toutes les variables sont
renseignes. Cette mthode danalyse dite analyse cas-complet est applique automatiquement
par les logiciels danalyse statistique standards et, si limpact des donnes manquantes sur les
effectifs est modr, ce choix est la plupart du temps considr comme raisonnable. Cependant,
lexamen des caractristiques des non-rpondants ne permet pas dtablir si lanalyse cas-complet
risque ou non dintroduire des biais. En effet, si des diffrences sont mises en vidence entre les
rpondants et les non-rpondants, cela signifie simplement que le mcanisme de donnes
manquantes global est de type MAR, sans prciser sil dpend de la variable expliquer dans le
cas dune tude tiologique.
Il nous a donc paru important, sachant que ce sujet est peu abord dans la littrature, de prsenter
les mcanismes pour lesquels une analyse cas-complet donne des estimations valides. Pour cela,
nous avons propos dans le chapitre 1 une procdure standardise permettant de raliser lexamen
dune base de donnes incomplte. Cet examen permet de prciser le schma de donnes
manquantes pour lensemble de la base de donnes, ainsi que le mcanisme de donnes
manquantes pour chaque variable incomplte. De cet examen peuvent tre dduit la perte de
puissance attendue en analyse cas-complet et limpact sur la slection des variables lors dune
analyse multivarie. Ainsi, dans le cas dune analyse tiologique, il est possible que certains
facteurs de risques et/ou de confusion soient omis du modle final du fait de la perte deffectifs
due aux donnes manquantes. Il faut dailleurs noter que ce processus de slection des variables
225

peut galement impacter des variables originellement compltes, du fait de leffet cumul sur les
effectifs des donnes manquantes des variables incompltes. Dautre part, il est possible de
dduire de lexamen de la base de donnes incomplte le risque de biais des estimations en
analyse multivarie. Ainsi, seul un mcanisme MAR ou MNAR dpendant conjointement dune
variable dexposition et de la variable expliquer peut induire des biais en analyse cas-complet,
alors quun mcanisme de type MNAR indpendant de la variale expliquer permet dobtenir
des estimations non biaises. Une analyse par simulation reprenant un schma dtude
tiologique simple avec trois variables (maladie, exposition, confusion) nous a permis de montrer
que les situations thoriques prsentes donnaient les rsultats attendus partir de donnes
simules. Nous avons galement prsent la mthode dimputation multiple retenue pour
lensemble de ce travail et prcis les raisons de ce choix. La mthode dimputation multiple par
quations chanes se rvle tre une mthode fiable tout en tant dune utilisation abordable,
mme si ses bases thoriques peuvent tre discutes. Par ailleurs, il est ncessaire dappliquer
avec prudence ce type de mthode destimation des donnes manquantes, sous peine dobtenir
des rsultats biaiss ou imprcis. Ainsi, nous avons dtaill les tapes dlaboration dun modle
dimputation, aussi bien en termes de slection des variables prdictrices que de choix du nombre
de bases imputer. Nous avons galement prsent des critres diagnostiques simples permettant
de juger de la validit du modle dimputation. De plus, lexamen du mcanisme de donnes
manquantes est informatif puisque limputation multiple produit des estimations biaises si les
donnes sont de type MNAR, sachant que, pour des analyses tiologiques, lamplitude des biais
peut tre plus marque si le mcanisme dpend de la variable expliquer.
Dans le chapitre 2, nous avons dclin les rgles dapplication de limputation multiple
prsentes dans le chapitre 1 partir de donnes denqutes et de surveillance. Nous avons trait
les donnes manquantes dans trois tudes de schma diffrent : une tude valuant le risque de
transmission du VIH par don de sang, une tude cas-tmoins sur linfection Campylobacter et
une tude capture-recapture estimant le nombre de nouveaux diagnostics VIH chez les enfants.
Pour chacune de ces trois tudes, une proportion de donnes manquantes non-ngligeable tait
considre (30%).
Dans ltude estimant le risque de transmission du VIH par don de sang ainsi que dans ltude
capture-recapture valuant le nombre de nouveaux diagnostics VIH chez les enfants, une seule
variable tait incomplte, et une mthode de raffectation proportionnelle avait t applique
226

dans un premier temps. Cependant, cette mthode ne prenait pas en compte toute linformation de
la base de donnes, et fournissait une variance sous-estime pour les estimations. Pour ces deux
tudes, llaboration dun modle dimputation a permis dinclure toutes les variables prdictrices
identifies de la variable incomplte. Puisque les variables incluses dans les modles danalyse
sont utilises pour estimer les variables incompltes, cela permet de contrler, au moins en partie,
les biais attendus avec une mthode de remplacement simple. De plus, alors que le mcanisme de
donnes manquantes identifi tait de type MAR pour la variable pays de naissance dans ltude
capture-recapture, un mcanisme de type MNAR a d tre envisag pour la variable mode de
contamination dans ltude danalyse de risque de transmission du VIH par transfusion. Il nous a
donc paru important de modliser cette variable mode de contamination en incluant le plus de
variables prdictrices possible afin de rendre lhypothse MAR plus plausible. Pour ces deux
tudes, les rsultats de limputation peuvent impacter les rsultats finaux des analyses. Ainsi, la
variable pays de naissance est une variable dhtrognit de capture potentielle. Elle est incluse
dans les modles log-linaires permettant de slectionner les interactions pertinentes entre les
sources et les variables dhtrognit de capture, et les estimations finales sont stratifies selon
les modalits de cette variable. De mme, la proportion de HSH estime lors de limputation de la
variable mode de contamination est applique lestimation de lincidence parmi les HSH ainsi
qu lestimation du risque rsiduel de transmission du VIH attribuable cette population
risque. Dun point de vue mthodologique, llaboration du modle dimputation sest rvle
simple dans les deux tudes. Pour ltude danalyse de risque de transmission du VIH par don de
sang, ltape de diagnostic tait dterminante puisquun mcanisme de type MNAR tait
suspect. Des comparaisons simples des donnes observes et imputes ont permis de valider les
estimations.
Pour ltude capture-recapture, lintrt mthodologique a rsid dans lanalyse combine des
bases imputes par des modles log-linaires. Une restructuration des bases de donnes imputes
a t ncessaire pour obtenir les tables de contingence (c'
est--dire les effectifs communs selon
les sources et les variables dhtrognit), puis des modles log-linaires ont t ajusts
lensemble des bases imputes. Les estimations finales et leurs variances ont t obtenues
directement par des commandes spcifiques limputation. Cependant, la slection du modle
final a soulev un problme mthodologique puisque celle-ci repose habituellement sur des
statistiques calcules partir de la vraisemblance de chaque modle. Dans une tude capturerecapture, le test dadquation aux donnes habituellement ralis est le test de la dviance, qui
227

correspond un test de rapport de vraisemblances entre le modle test et le modle satur. Un


mode de calcul spcifique aux donnes imputes, propos par Meng et Rubin, a donc t
appliqu. Limputation de donnes manquantes dans des applications de la mthode capturerecapture a t rapporte dans quelques tudes seulement, dans lesquelles les auteurs avaient
appliqu une mthode destimation par maximisation de la vraisemblance en utilisant un
algorithme EM. A notre connaissance, une seule tude a prsent une approche par imputation
multiple dans une tude capture-recapture, et les critres de post-estimation (AIC, BIC, dviance)
avaient t estims partir dune seule base de donnes impute. Une perspective de recherche
mthodologique consisterait donc proposer un mode de calcul adapt la prsence de bases
multiples des critres AIC et BIC classiquement utiliss pour la slection du modle. Par ailleurs,
il est recommand dincorporer dans le calcul de la variance des estimations une composante
rendant compte de lincertitude lie au choix du modle. Cela ncessite de simuler des
chantillons par bootstrap non-paramtrique, ce qui parait difficile partir dun ensemble de
bases imputes. Une perspective de recherche serait donc dlaborer un mode de calcul de la
variance partir de bases imputes afin de tenir compte de cette incertitude.
Dans ltude cas-tmoins apparie sur les facteurs de risque dinfection Campylobacter, la
problmatique des donnes manquantes tait cruciale puisque la plupart des 28 variables taient
incompltes selon un schma arbitraire. La perte deffectifs en analyse multivarie conditionnelle
cas-complet tait donc trs importante et une stratgie danalyse par des sous-modles a t
ncessaire pour obtenir des estimations en analyse cas-complet. Le recodage de la catgorie
donnes manquantes en catgorie additionnelle avait t appliqu initialement mais il est tabli
que cette mthode donne toujours des rsultats biaiss. Lintrt mthodologique de cette tude a
rsid dans la stratgie de slection des variables lors de llaboration des quations de
prdiction. Cette stratgie ntait pas alors clairement dfinie dans la littrature et nous avons
propos un processus de slection des variables explorant les liens entre les indicatrices de
donnes manquantes et les variables utilisables dans la base de donnes. Sur la base de critres
proposs dans la littrature, nous avons retenu un modle incluant des variables dites principales
et auxiliaires. Cependant, ces critres de slection des variables ne sont pas clairement tablis.
Les variables principales ont t retenues sur la base dune analyse univarie cas-complet,
puisque ces variables constituent le modle danalyse multivari en analyse cas-complet et aprs
imputation multiple. Les variables auxiliaires ont t slectionnes en fonction de leurs capacits
prdictrices pour les variables principales. La stratgie applique dans cette tude a consist
228

examiner en analyse univarie les liens entre les indicatrices de donnes manquantes des
variables principales et les variables disponibles dans la base de donnes.
Cet examen gagnerait tre effectu en analyse multivarie puisque, lors du processus
dimputation, chaque variable est modlise partir de toutes les autres variables du modle
dimputation. Il faudrait donc construire pour chaque variable incomplte une rgression
logistique expliquant son indicatrice de donnes manquantes par toutes les covariables retenues.
Cette stratgie nest pas applicable dans cette tude du fait de la proportion leve de donnes
manquantes. Dans la littrature rcente, il a t propos dajuster ces rgressions logistiques
multivaries partir de donnes imputes. Cette stratgie consiste identifier des variables
prdictrices partir de donnes qui ont t imputes partir de ces mmes prdicteurs et peut de
ce fait paratre circulaire, mais elle repose sur le postulat quune imputation multiple valide
prserve les relations entre les variables telles quelles existent dans la base de dpart incomplte.
Une perspective de recherche dans ce domaine pourrait consister identifier une procdure de
slection des variables prdictrices partir de donnes imputes. Cette procdure inclurait le
mode de construction du modle pour limputation de dpart, le choix du nombre de bases
utiliser et les critres statistiques retenus pour la slection des variables prdictrices. Il faudrait
donc imputer sous un modle le plus gnral possible une base ou un ensemble de bases de
donnes permettant deffectuer cette slection. La stratgie la plus approprie reste donc dfinir.
Nous avons abord dans le chapitre 3 le traitement des donnes manquantes dans un systme de
surveillance, le rseau des ples de rfrence de lhpatite C. Le processus dimputation prsent
ne concernait pas lensemble des donnes du systme de surveillance, mais seulement un
chantillon dusagers de drogues positifs pour le VHC. Lobjectif de ltude tait didentifier les
facteurs de risque de complications hpatiques graves pour la priode 2001-2007. Les systmes
de surveillance des maladies infectieuses se caractrisent par le grand nombre de variables
recueillies et, en relation avec le mode de recueil de donnes, par une proportion importante de
donnes manquantes. Dans le cas de cette tude tiologique, lchantillon a t rduit aux patients
pour lesquels la variable expliquer (complications hpatiques graves) tait entirement
renseigne. Par ailleurs, les variables retenues pour lanalyse taient majoritairement incompltes,
avec une proportion de donnes manquantes leve. Malgr la perte deffectifs, une analyse cascomplet avait pu tre ralise. Lors de la construction du modle dimputation, seules des

229

variables principales ont pu t incluses, puisquil na pas t possible didentifier des variables
auxiliaires permettant denrichir le modle dimputation.
Ce cas de figure est problmatique lorsque lhypothse dun mcanisme de donnes manquantes
de type MNAR doit tre envisage. Or, cest le cas dans cette tude puisque, pour les variables
"historique de consommation excessive dalcool" et "co-infection par le VIH", il est possible que
la non-rponse dpende des valeurs non-observes de ces variables. Nous avons ainsi pos
lhypothse que la probabilit davoir des donnes observes est moindre pour la variable
consommation excessive dalcool chez les gros consommateurs dalcool, et pour la variable coinfection par le VIH chez les patients ngatifs pour le VIH. Nous avons donc fait le choix
dappliquer une analyse de sensibilit par pondration propose par Carpenter et al. Cette
mthode consiste pondrer les estimations obtenues par imputation multiple (OR et sa variance)
de faon simuler limpact dun mcanisme MNAR modr et mesurer ltendue du biais
induit par ce mcanisme MNAR sur les estimations. Les poids utiliss sont calculs en intgrant
un paramtre de sensibilit la somme des valeurs imputes de chaque base de donnes. Notre
objectif tait dappliquer cette analyse de sensibilit aux variables consommation excessive
dalcool et co-infection par le VIH en lien avec les hypothses pidmiologiques poses, ainsi
qu la variable infection par un virus de lhpatite C de gnotype 3 en raison de sa proportion
leve de donnes manquantes.
Lintrt mthodologique de cette tude a rsid dans le processus de slection du paramtre de
sensibilit delta. Nous avons donc propos de dcomposer ce processus de slection en 4 tapes
de dtermination graphique et de diagnostic de ce paramtre de sensibilit, et identifi une valeur
de delta pour chacune des trois variables. Ce processus de slection inclut le choix du signe de
delta selon la relation suppose entre la probabilit davoir des donnes manquantes pour une
variable et les valeurs de cette variable. Puis, lestimation de lOR sous un mcanisme MNAR a
t obtenue et compare avec lestimation MAR pour chacune des variables testes.
Linterprtation des rsultats est conditionne par le mcanisme de donnes manquantes identifi
par rgression logistique de chaque variable indicatrice de rponse partir des autres covariables.
En effet, sous un mcanisme de donnes manquantes de type MNAR, on sattend observer un
biais plus important lorsque ce mcanisme dpend de la variable expliquer. Cest le cas pour les
variables consommation dalcool et co-infection par le VIH. Les rsultats montrent quun
mcanisme MNAR impacte probablement les rsultats de lanalyse ralise sous lhypothse
230

MAR pour la variable co-infection par le VIH, et que lassociation entre cette variable et la
variable expliquer est en ralit plus forte que ce qui est observ dans lanalyse sous
lhypothse MAR. Cette mthode danalyse de sensibilit permet donc de tester partir de
donnes imputes leffet dun mcanisme MNAR potentiel sur les estimations obtenues sous
lhypothse MAR.
Des perspectives de dveloppement de ce travail peuvent tre proposes. Lanalyse de sensibilit
propose par Carpenter et al. est applique une seule variable binaire. Nous avons test dans ce
travail trois variables binaires, en dterminant alternativement pour chacune de ces variables le
paramtre de sensibilit delta et lestimateur MNAR. Une perspective intressante consisterait
tester plusieurs variables simultanment, sachant que cela ncessiterait une adaptation de la
mthode. Par ailleurs, cette mthode danalyse de sensibilit a t applique lensemble de
lchantillon, ce qui revient poser une hypothse dindpendance entre les variables, en
particulier entre chacune des variables et la variable expliquer. En effet, pour modliser le
mcanisme de donnes manquantes, nous supposons un modle paramtrique (une rgression
logistique) liant la probabilit dobserver une variable incomplte la valeur de cette variable,
ajuste sur un vecteur de covariables. Il serait donc justifi dappliquer cette analyse de sensibilit
aux deux sous-chantillons correspondant aux deux modalits de la variable expliquer
(complications hpatiques graves), et de calculer ainsi deux estimateurs MNAR.
Le chapitre 4 prsente une application de limputation multiple des donnes de surveillance du
VIH, mais avec cette fois une approche beaucoup plus globale. Jusquen 2008, les donnes
manquantes des variables incompltes taient prsentes comme un catgorie spcifique, et une
raffectation proportionnelle avait t applique pour des analyses ponctuelles. La
communication globale sur le VIH tait en pratique ralise partir de donnes brutes
incompltes. Les objectifs de notre travail de recherche dans ce domaine taient de proposer et
dvaluer un processus dimputation multiple permettant de produire les estimations annuelles
ncessaires la surveillance du VIH, c'
est--dire les analyses descriptives des personnes
nouvellement diagnostiques pour le VIH. De plus, un travail avait t initi afin destimer
lincidence du VIH, indicateur majeur de la surveillance du VIH, partir des donnes de la
dclaration obligatoire. Ce travail a t men bien par Stphane Le Vu dans le cadre de sa thse
de doctorat [71]. La mthode retenue pour cette estimation tait celle applique par les CDC
amricains, reposant sur la caractrisation, par un test biologique, dindividus rcemment infects
231

parmi une population de personnes sropositives. Notre objectif a donc t de complter les
variables utilises dans les analyses descriptives, mais aussi destimer les valeurs manquantes des
variables supplmentaires lies lestimation de lincidence du VIH, tels que les biomarqueurs
du test dinfection rcente.
Un objectif mthodologique a t dlaborer un processus dimputation en deux phases, tenant
compte de la prsence de variables filtres pour la description de lhistorique des srologies
positives et ngatives. Nous avons donc construit deux modles dimputation, et un processus de
slection des variables principales et auxiliaires a t ralis pour chacun des modles partir de
donnes imputes. De ce fait, un modle trs gnral est spcifi pour le processus dimputation
de la premire phase, et les rsultats de cette imputation sont exploits pour la slection des
variables. Pour la construction du modle de la deuxime phase, le processus de slection des
variables principales et auxiliaires est plus direct puisque les rsultats de limputation de la
premire phase ont t utiliss. Par ailleurs, lors de ltape de validation interne, un retour aux
donnes observes est recommand afin de vrifier la cohrence des donnes imputes.
Il est important de noter que lobjectif de limputation nest pas de produire des donnes calques
sur les donnes observes, mais quelle vise prendre en compte toute linformation contenue
dans les variables prdictrices retenues. Ainsi, une diffrence entre donnes observes et
imputes est attendue, mais elle doit tre explicable par le biais des mcanismes de donnes
manquantes identifis lors de lexamen pralable de la base de donnes incomplte. Nous avons
cherch comparer, par des tests statistiques, les proportions observes et estimes pour les
variables discrtes, ainsi que les distributions de donnes observes et imputes pour les variables
continues. Cependant, et ce problme mthodologique a dj t soulev dans ce type dtude,
limportance des effectifs fausse les rsultats de ces tests puisquils sont systmatiquement
significatifs, et ce mme si les valeurs observes et imputes sont trs proches. Le diagnostic a
donc t ralis par des comparaisons simples tenant compte des valeurs centrales des estimations
(proportion, moyenne) et de leur variance. Notons que cette phase essentielle de diagnostic nest
que rarement prsente dans la littrature sur limputation multiple, quelle constitue un domaine
de recherche actuelle, et quelle nest ce jour pas implmente dans les logiciels statistiques.
Cette tape de diagnostic a t complte par une tape de validation croise explorant, pour une
modalit dune variable catgorielle, la validit du modle dimputation. La modalit retenue est
le mode de contamination par voie homosexuelle, car nous avions fait lhypothse que le
232

mcanisme de donnes manquantes pour cette modalit pouvait tre de type MNAR. Cette tude
de simulation permet de valider le modle dimputation pour la variable retenue, mais pas
dvaluer la pertinence de lhypothse MAR. Afin destimer limpact dun mcanisme MNAR
pour la variable mode de contamination, nous avions prvu deffectuer un recueil de donnes
complmentaire fournissant un chantillon de validation. Nous avions envisag de slectionner,
lors dune enqute hospitalire, un sous-chantillon alatoire de patients pour lequel le recueil de
donnes aurait t intensifi afin dobtenir des donnes compltes. Cet chantillon aurait permis
de valider limputation effectue sur lensemble de la base de donnes. Cette enqute a t
reporte et nous avons fait le choix de comparer les donnes imputes du systme de dclaration
obligatoire du VIH dautres sources de donnes, slectionnant des patients ayant des
caractristiques proches de ceux de la DO : une enqute Odysse et la cohorte COPANA.
Cependant, la comparaison des donnes observes de la DO et de ces deux sources de donnes
extrieures a montr que les caractristiques des patients diffraient nettement, et que ces sources
de donnes ne pouvaient tre considres pour valider le processus dimputation des donnes de
la DO. Les comparaisons entre les donnes de la DO et celles dOdysse et COPANA nous ont
cependant paru intressantes pour explorer la reprsentativit des deux tudes plutt que pour
valider le processus dimputation de la DO. Nous avons donc retenu comme perspective de
recherche lapplication dune analyse de sensibilit abordable aux variables pour lesquelles un
mcanisme MNAR est suspect. Lanalyse de sensibilit dtaille dans le chapitre 3 ne peut tre
applique aux variables de la DO sans adaptation de la mthode car (i) elle ncessite un grand
nombre de rplications de la base de donnes initiale (500 1000) et (ii) elle est adapte des
donnes dtude de type tiologique et non descriptive. Notre objectif initial tait de lappliquer
la modalit homosexuel/bisexuel de la variable mode de contamination. Nous retenons donc
comme perspective de recherche lapplication dune analyse de sensibilit aprs imputation aux
donnes de surveillance, tenant compte des questions mthodologiques souleves.
Ltape de diagnostic montre que le processus dimputation multiple pourrait tre
significativement amlior. Les variables srologie antrieure ngative et positive sont impactes
par un problme de codage ancien. La stratgie de recodage a concern seulement la variable
srologie ngative antrieure, car cest une variable cl dans lestimation de lincidence du VIH,
et quelle a t plus affecte par les problmes de codage que la variable srologie positive
antrieure. Cependant, cette variable srologie positive antrieure est essentielle pour identifier
les personnes nouvellement diagnostiques pour le VIH, sachant que les analyses descriptives
233

portent uniquement sur cette population. Il parait donc important damliorer la qualit de
limputation de cette variable, en envisageant une stratgie de recodage similaire celle
applique la variable srologie antrieure ngative. Une autre perspective damlioration de
limputation consisterait accroitre le nombre de bases de donnes imputes, surtout pour la
premire phase dimputation, afin damliorer les estimations en termes de prcision (diminution
de la variance inter-bases) et de puissance statistique (amlioration de la couverture des
intervalles de confiance). Il apparait ainsi pertinent dimputer 10 bases au cours de la premire
phase, tout en gnrant 3 bases au cours de la deuxime phase. Cependant, la faisabilit en terme
de taille de fichier finale doit tre explore.
Mme si lapport mthodologique de cette tape destimation des donnes manquantes est
incontestable, et que le processus apparat globalement valide, cette tape dimputation multiple
impacte les rsultats de toutes les analyses ralises sur les donnes de surveillance du VIH. La
complexit de la mise en uvre de cette mthode, aussi bien en termes dimplmentation que
danalyse pour lquipe de surveillance, soulve la question de la lgitimit mais aussi de la
viabilit dun tel processus. Dans un scnario o, tel que lenvisageait Rubin aux dbuts de
limputation multiple, les quipes dimputation et danalyse reprsentent des entits distinctes,
une troite collaboration apparat ncessaire pour garantir la qualit des donnes produites et la
prennisation du processus dimputation.

Conclusion
Ce travail de thse a permis daborder un sujet qui suscite un vif intrt et de nombreuses
interrogations, le traitement des donnes manquantes, tout en ntant pas ou mal pris en compte
dans la grande majorit des enqutes et des systmes de surveillance en pidmiologie. Si la mise
en application dune mthode performante destimation des donnes manquantes, limputation
multiple, est devenue accessible des utilisateurs non-experts grce une volution rapide des
logiciels statistiques dans ce domaine, cette simplicit apparente ne doit pas faire oublier toutes
les questions mthodologiques qui restent encore en suspens.
Les tudes prsentes nous ont permis de balayer le champ des applications pratiques de
limputation multiple des donnes de type transversal et de synthtiser une stratgie globale de
traitement des donnes manquantes. Ce processus de traitement des donnes manquantes
schelonne des tapes dexamen de la base de donnes la construction du modle dimputation
puis aux ncessaires tapes de validation des modles et de vrification des hypothses. De
234

nombreuses questions mthodologiques se sont poses au fil de ces tudes et nous avons cherch
proposer des solutions abordables et valides pour les traiter. Certaines problmatiques mritent
certainement dtre approfondies, tout particulirement dans le domaine de la post-estimation et
de la validation des rsultats.

Enfin, deux recommandations nous apparaissent importantes.


Un objectif crucial serait de pouvoir planifier le traitement des donnes manquantes ds
llaboration du protocole dune enqute et de se procurer ainsi un sous-chantillon alatoire de
validation du processus dimputation, compos de donnes compltes. Pour les donnes de
surveillance, lobtention de donnes de validation demeure ce jour irraliste, en particulier pour
les maladies pour lesquelles un processus danonymisation nautorise pas un retour efficace aux
donnes.
Dans le domaine de lpidmiologie dobservation, mme si les tudes incluant une tape
dimputation se multiplient, les publications qui en dcoulent ne dtaillent que rarement les
points cls du processus dimputation. Notons que, dans le domaine des essais cliniques,
limputation multiple a t applique pour traiter les donnes manquantes de faon prcoce et que
des rgles dapplication et de valorisation claires ont t dictes. Il apparat donc important que,
dans le champ de lpidmiologie dobservation, de telles recommandations soient dveloppes
de manire collgiale et plus largement diffuses, afin que les quipes de recherche en tiennent
compte, tant dans la mise en uvre de limputation que lors de la valorisation des rsultats.

235

236

BIBLIOGRAPHIE
1. Vach W, Blettner M. Missing data in epidemiological studies. In: Armitrage P, Colton T.
Encyclopedia of Biostatistics.Chichester: Wiley, 1998. p. 2641-54.
2. Van Buuren S. Multiple imputation of discrete and continuous data by fully conditional
specification. Stat Methods Med Res 2007;16(3):219-42.
3. Little RJA, Rubin DB. Statistical analysis with missing data. Wiley series in Probability
and Statistics. 2nd ed. New York: Wiley, 2002.
4. Vach W, Blettner M. Biased estimation of the odds ratio in case-control studies due to the
use of ad hoc methods of correcting for missing values for confounding variables. Am J
Epidemiol 1991;134(8):895-907.
5. White JE. A two stage design for the study of the relationship between a rare exposure
and a rare disease. Am J Epidemiol 1982;115(1):119-28.
6. Janssen KJ, Donders AR, Harrell FE, Jr., Vergouwe Y, Chen Q, Grobbee DE, et al.
Missing covariate data in medical research: to impute is better than to ignore. J Clin
Epidemiol 2010;63(7):721-7.
7. Miettinen OS. Theoritical epidemiology. New York: Wiley, 1995.
8. Molenberghs G, Kenward M. Missing data in clinical studies. Wiley series in Probability
ans Statistics. Chichester: 2007.
9. Vergouw D, Heymans MW, Peat GM, Kuijpers T, Croft PR, de Vet HC, et al. The search
for stable prognostic models in multiple imputed data sets. BMC Med Res Methodol
2010;10:81.
10. Raghunathan TE. What do we do with missing data? Some options for analysis of
incomplete data. Annu Rev Public Health 2004;25:99-117.
11. Greenland S, Finkle WD. A critical look at methods for handling missing covariates in
epidemiologic regression analyses. Am J Epidemiol 1995 ;142(12):1255-64.
12. Allison PD. Missing data. Iowa City: Sage Publication, 2002.
13. Commenges D, Gagnon M, Letenneur L, Dartigues JF, Barberger-Gateau P, Salamon R.
Improving screening for dementia in the elderly using, Mini-Mental State Examination
subscores, Benton'
s Visual Retention Test, and Isaacs'Set Test. Epidemiology
1992;3(2):185-8.
14. Collins LM, Schafer JL, Kam CM. A comparison of inclusive and restrictive strategies in
modern missing data procedures. Psychol Methods 2001;6(4):330-51.
237

15. Jacqmin-Gadda H. Analyse de donnes incompltes: typologie et mthodes d'


analyse
lorsque les donnes manquantes sont ignorables. Modlisation des donnes incompltes:
Analyses de sensibilit. La Londe-les-Maures 2007, p.1-12. La Londe-les-Maures 2007 p.
1-12.
16. Zhou XH, Eckert GJ, Tierney WM. Multiple imputation in public health research. Stat
Med 2001;20(9-10):1541-9.
17. Schafer JL, Graham JW. Missing data: our view of the state of the art. Psychol Methods
2002;7(2):147-77.
18. Rubin DB, Schenker N. Multiple imputation in health-care databases: an overview and
some applications. Stat Med 1991;10(4):585-98.
19. Sinharay S, Stern HS, Russell D. The use of multiple imputation for the analysis of
missing data. Psychol Methods 2001;6(4):317-29.
20. Kenward MG, Carpenter J. Multiple imputation: current perspectives. Stat Methods Med
Res 2007;16(3):199-218.
21. Arnold AM, Kronmal RA. Multiple imputation of baseline data in the cardiovascular
health study. Am J Epidemiol 2003;157(1):74-84.
22. Barnard J, Meng XL. Applications of multiple imputation in medical studies: from AIDS
to NHANES. Stat Methods Med Res 1999;8(1):17-36.
23. Cattle BA, Baxter PD, Greenwood DC, Gale CP, West RM. Multiple imputation for
completion of a national clinical audit dataset. Stat Med 2011;In Press.
24. Barzi F, Woodward M. Imputations of missing values in practice: results from
imputations of serum cholesterol in 28 cohort studies. Am J Epidemiol 2004;160(1):3445.
25. Wood AM, White IR, Hillsdon M, Carpenter J. Comparison of imputation and modelling
methods in the analysis of a physical activity trial with missing outcomes. Int J Epidemiol
2005;34(1):89-99.
26. Klebanoff MA, Cole SR. Use of multiple imputation in the epidemiologic literature. Am J
Epidemiol 2008;168(4):355-7.
27. Azur MJ, Stuart EA, Frangakis C, Leaf PJ. Multiple imputation by chained equations:
what is it and how does it work? Int J Methods Psychiatr Res 2011;20(1):40-9.
28. White IR, Royston P, Wood AM. Multiple imputation using chained equations: Issues
and guidance for practice. Stat Med 2011;30(4):377-99.
29. Schafer JL. Analysis of incomplete multivariate data. Monographs on Statistics and
Applied Probability 72. Chapman & Hall. London: 1997.
30. Rubin DB. Multiple imputation after 18+ years. Am Stat Assoc 1996;91(434):473-89.
238

31. Graham JW. Missing data analysis: making it work in the real world. Annu Rev Psychol
2009;60:549-76.
32. Wayman JC. Multiple imputation for missing data: what is it and how can I use it ?
Annual Meeting of the American Educational Research. Chicago 2003.
33. Schafer JL. Multiple imputation: a primer. Stat Methods Med Res 1999 Mar;8(1):3-15.
34. Taylor JM, Cooper KL, Wei JT, Sarma AV, Raghunathan TE, Heeringa SG. Use of
multiple imputation to correct for nonresponse bias in a survey of urologic symptoms
among African-American men. Am J Epidemiol 2002;156(8):774-82.
35. Faris PD, Ghali WA, Brant R, Norris CM, Galbraith PD, Knudtson ML. Multiple
imputation versus data enhancement for dealing with missing data in observational health
care outcome analyses. J Clin Epidemiol 2002;55(2):184-91.
36. van der Heijden GJ, Donders AR, Stijnen T, Moons KG. Imputation of missing values is
superior to complete case analysis and the missing-indicator method in multivariable
diagnostic research: a clinical example. J Clin Epidemiol 2006;59(10):1102-9.
37. Nur U, Longford NT, Cade JE, Greenwood DC. The impact of handling missing data on
alcohol consumption estimates in the UK women cohort study. Eur J Epidemiol
2009;24(10):589-95.
38. Horton NJ, Lipsitz SR. Multiple imputation in practice: comparison of software packages
for regression models with missing variables. American Statistician 2001;55(3):244-54.
39. Horton NJ, Kleinman KP. Much ado about nothing: A comparison of missing data
methods and software to fit incomplete data regression models. Am Stat 2007;61(1):7990.
40. Royston P. Multiple imputation of missing values. Stata J 2004;4(3):227-41.
41. Cottrell G, Cot M, Mary JY. [Multiple imputation of missing at random data: General
points and presentation of a Monte-Carlo method]. Rev Epidemiol Sante Publique
2009;57(5):361-72.
42. Van Buuren S., Boshuizen HC, Knook DL. Multiple imputation of missing blood pressure
covariates in survival analysis. Stat Med 1999;18(6):681-94.
43. Van Buuren S, Groothuis-Oudshoorn K, Rubin DB. Fully conditional specification in
multivariate imputation. J Stat Comput Simul 2006;76:1049-64.
44. Yu LM, Burton A, Rivero-Arias O. Evaluation of software for multiple imputation of
semi-continuous data. Stat Methods Med Res 2007;16(3):243-58.
45. Lee KJ, Carlin JB. Multiple imputation for missing data: fully conditional specification
versus multivariate normal imputation. Am J Epidemiol 2010;171(5):624-32.
46. Gelman AE, Smith AFM. Sampling-based approaches to calculating marginal densities. J
Am Stat Assoc 1990;85:398-409.
239

47. Royston P. Multiple imputation of missing values: Update. Stata J 2005;5(2):188-201.


48. Royston P. Multiple imputation of missing values: Update of ice. Stata J 2005;5(4):52736.
49. Meng XL. Multiple imputation inferences with uncongenial sources of input. Stat Sci
1994;9(4):538-73.
50. Moons KG, Donders RA, Stijnen T, Harrell FE, Jr. Using the outcome for imputation of
missing predictor values was preferred. J Clin Epidemiol 2006;59(10):1092-101.
51. Bartlett JW, Frost C, Carpenter JR. Multiple imputation models should incorporate the
outcome in the model of interest. Brain 2011 Jun 6.
52. Sterne JA, White IR, Carlin JB, Spratt M, Royston P, Kenward MG, et al. Multiple
imputation for missing data in epidemiological and clinical research: potential and
pitfalls. BMJ 2009;338:b2393.
53. Schafer JL. Multiple imputation in multivariate problems when the imputation and
analysis model differ. Stat Neer 2003;57(1):19-35.
54. Wood AM, White IR, Royston P. How should variable selection be performed with
multiply imputed data? Stat Med 2008;27(17):3227-46.
55. Horton NJ, Lipsitz SR, Parzen M. A potential for bias when rounding in multiple
imputation. Am Stat 2003;57(4):229-32.
56. Royston P. Multiple imputation of missing values: furter update of ice, with an emphasis
on categorical variables. Stata J 2009;9(3):466-77.
57. Bodner TE. What improves with increased missin data imputations? Struct Equ Modeling
2008;15:651-75.
58. Graham JW, Olchowski AE, Gilreath TD. How many imputations are really needed?
Some practical clarifications of multiple imputation theory. Prev Sci 2007;8(3):206-13.
59. Yang X, Belin TR, Boscardin WJ. Imputation and variable selection in linear regression
models with missing covariates. Biometrics 2005;61(2):498-506.
60. Potthoff RF, Tudor GE, Pieper KS, Hasselblad V. Can one assess whether missing data
are missing at random in medical studies? Stat Methods Med Res 2006;15(3):213-34.
61. Abayomi K, Gelman A, Levy M. Diagnostics for multiple imputation. Appl Statist
2011;57(3):273-91.
62. Raghunathan TE, Bondarenko I. Diagnostics for multiple imputation.2007.[ressource
lectronique]. Disponible sur :
http://papers.ssrn.com/sol3/papers.cfm?abstract_id=1031750 [consult le 22/09/2011].

240

63. Nevalainen J, Kenward MG, Virtanen SM. Missing values in longitudinal dietary data: a
multiple imputation approach based on a fully conditional specification. Stat Med
2009;28(29):3657-69.
64. Royston P, Carlin JB, White IR. Multiple imputation of missing values: New features for
mim. Stata J 2009;9(2):252-64.
65. Stata multiple-imputation reference manual - release 11.College Station, Texas:2011.
66. Meng X, Rubin D. Performing likelihood ratio tests with multiply-imputed data sets.
Biometrika 1992;79(1):103-11.
67. Steyerberg EW, van VM. Imputation is beneficial for handling missing data in predictive
models. J Clin Epidemiol 2007;60(9):979.
68. Carpenter J, Rucker G, Schwarzer G. Assessing the Sensitivity of Meta-analysis to
Selection Bias: A Multiple Imputation Approach. Biometrics 2011;67(3):1066-72.
69. Wang C, Hall CB. Correction of bias from non-random missing longitudinal data using
auxiliary information. Stat Med 2010;29(6):671-9.
70. Chavance M, Manfredi R. [Modeling incomplete observations]. Rev Epidemiol Sante
Publique 2000;48(4):389-400.
71. Le Vu S, Le Strat Y, Barin F, Pillonel J, Cazein F, Bousquet V, et al. Population-based
HIV-1 incidence in France, 2003-08: a modelling analysis. Lancet Infect Dis
2010;10(10):682-7.
72. Semaille C, Cazein F, Lot F, Pillonel J, Le VS, Le SY, et al. Recently acquired HIV
infection in men who have sex with men (MSM) in France, 2003-2008. Euro Surveill
2009;14(48).
73. Pillonel J, Le MN, Girault A, David D, Laperche S. [Epidemiological surveillance of
blood donors and residual risk of blood-borne infections in France, 2001 to 2003].
Transfus Clin Biol 2005;12(3):239-46.
74. Schreiber GB, Busch MP, Kleinman SH, Korelitz JJ. The risk of transfusion-transmitted
viral infections. The Retrovirus Epidemiology Donor Study. N Engl J Med
1996;334(26):1685-90.
75. Pillonel J, Laperche S, Saura C, Desenclos JC, Courouce AM. Trends in residual risk of
transfusion-transmitted viral infections in France between 1992 and 2000. Transfusion
(Paris) 2002;42(8):980-8.
76. Enqute sur la sexualit en France: Pratiques, genre et sant. Editions La dcouverte.
Paris.2008.
77. Pillonel J, Heraud-Bousquet V, Pelletier B, Semaille C, Velter A, Saura C, et al. Deferral
from donating blood of men who have sex with men: impact on the risk of HIV
transmission by transfusion in France. Vox Sang 2011; In Press.
241

78. Friedman CR, Hoekstra RM, Samuel M, Marcus R, Bender J, Shiferaw B, et al. Risk
factors for sporadic Campylobacter infection in the United States: A case-control study in
FoodNet sites. Clin Infect Dis 2004;38 Suppl 3:S285-S296.
79. Neimann J, Engberg J, Molbak K, Wegener HC. A case-control study of risk factors for
sporadic campylobacter infections in Denmark. Epidemiol Infect 2003;130(3):353-66.
80. Studahl A, Andersson Y. Risk factors for indigenous campylobacter infection: a Swedish
case-control study. Epidemiol Infect 2000;125(2):269-75.
81. Gallay A. Contribution l'
pidmiologie des infections Campylobacter en France.
Thse en Epidmiologie. Universit Paris XI. 2006.
82. Stuart EA, Azur M, Frangakis C, Leaf P. Multiple imputation with large data sets: a case
study of the Children'
s Mental Health Initiative. Am J Epidemiol 2009;169(9):1133-9.
83. UNAIDS, WHO. AIDS epidemic update. 2009.[Ressource lectronique]. Disponible sur:
http://www.unaids.org/globalreport/Global_report.htm [consult le 28 mars 2010].
84. Warszawski J, Tubiana R, Le Chenadec J, Blanche S, Teglas JP, Dollfus C, et al. Motherto-child HIV transmission despite antiretroviral therapy in the ANRS French Perinatal
Cohort. AIDS 2008;22(2):289-99.
85. Yeni P. Prise en charge mdicale des personnes infectes par le VIH. Mdecine-Sciences
Flammarion, 2010.
86. Hook EB, Regal RR. Capture-recapture methods in epidemiology: methods and
limitations. Epidemiol Rev 1995;17(2):243-64.
87. Lot F, Semaille C, Cazein F, Barin F, Pinget R, Pillonel J, et al. Preliminary results from
the new HIV surveillance system in France. Euro Surveill 2004;9(10):34-7.
88. Cazein F, Le Vu S, Pillonel J, Le Strat Y, Couturier S, Basselier B, et al. Dpistage de
l'
infection par le VIH en France, 2003-2009. Bulletin Epidemiologique Hebdomadaire
2010;45-46:451-4.
89. Cazein F. Surveillance du VIH: notification obligatoire et surveillance virologique, Lutte
contre le VIH/sida et les infections sexuellement transmissibles en France - 10 ans de
surveillance, 1996-2005. 2007. [Ressource lectonique]. Disponible sur :
http://www.invs.sante.fr/pmb/invs/(id)/PMB_4047 [consult le 3 mai 2011].
90. Stata module to perform capture-recapture analysis for three sources with goodness of fit
based confidence intervals [computer program]. 2007.
91. Regal RR, Hook EB. Goodness-of-fit based confidence intervals for estimates of the size
of a closed population. Stat Med 1984 Jul;3(3):287-91.
92. Draper D. Assessment and propagation of model uncertainty. J R Stat Soc [B]
1995;57:45-70.

242

93. Hook EB, Regal RR. Validity of methods for model selection, weighting for model
uncertainty, and small sample adjustment in capture-recapture estimation. Am J
Epidemiol 1997;145(12):1138-44.
94. Marshall A, Altman DG, Holder RL, Royston P. Combining estimates of interest in
prognostic modelling studies after multiple imputation: current practice and guidelines.
BMC Med Res Methodol 2009;9:57.
95. National Institute of Statistics and Economic Studies. National population
census.2011.[Ressource lectronique]. Disponible sur :
http://www.insee.fr/fr/themes/detail.asp?reg_id=0&ref_id=irsd2008&page=irweb/sd2008/dd/sd2008_population.htm [consult le 10 mai 2011].
96. Zwane EN, van der Heijden PG. Analysing capture-recapture data when some variables
of heterogeneous catchability are not collected or asked in all registrations. Stat Med
2007;26(5):1069-89.
97. Robb ML, Bohning D. Imputing unobserved values with the EM algorithm under left and
right-truncation, and interval censoring for estimating the size of hidden populations.
Biom J 2011;53(1):75-87.
98. van der Heijden PG, Zwane E, Hessen E. Structurally missing data problems in multiple
list capture-recapture data. AStA Adv Stat Anal 2009;93:5-21.
99. Zwane E, van der Heijden PG. Capture-recapture studies with incomplete mixed
categorical and continuous covariates. J Data Sci 2008;6:557-72.
100. White IR, Royston P, Wood AM. Multiple imputation using chained equations: Issues
and guidance for practice. Stat Med 2011;30(4):377-99.
101. Dubois F, Desenclos JC, Mariotte N, Goudeau A. Hepatitis C in a French populationbased survey, 1994: seroprevalence, frequency of viremia, genotype distribution, and risk
factors. The Collaborative Study Group. Hepatology 1997;25(6):1490-6.
102. Meffre C, LeStrat Y, Delarocque-Astagneau E, Dubois F, Antona D, Lemasson JM, et al.
Prevalence of hepatitis B and hepatitis C virus infections in France in 2004: social factors
are important predictors after adjusting for known risk factors. J Med Virol
2010;82(4):546-55.
103. Delarocque-Astagneau E, Roudot-Thoraval F, Campese C, Desenclos JC, The Hepatitis
CSSS. Past excessive alcohol consumption: a major determinant of severe liver disease
among newly referred hepatitis C virus infected patients in hepatology reference centers,
France, 2001. Ann Epidemiol 2005 ;15(8):551-7.
104. Delarocque-Astagneau E, Campese C. Surveillance de l'
hpatite C l'
chelon national
partir des ples de rfrence volontaires, 2001-2001. Bull Epidemiol Hebd 2003;1617:90-3.

243

105. Jauffret-Roustide M, Le Strat Y, Couturier E, Thierry D, Rondy M, Quaglia M, et al. A


national cross-sectional study among drug-users in France: epidemiology of HCV and
highlight on practical and statistical aspects of the design. BMC Infect Dis 2009;9:113.
106. Massard J, Ratziu V, Thabut D, Moussalli J, Lebray P, Benhamou Y, et al. Natural history
and predictors of disease severity in chronic hepatitis C. J Hepatol 2006;44(1 Suppl):S19S24.
107. Marcellin P, Pequignot F, Delarocque-Astagneau E, Zarski JP, Ganne N, Hillon P, et al.
Mortality related to chronic hepatitis B and chronic hepatitis C in France: evidence for the
role of HIV coinfection and alcohol consumption. J Hepatol 2008 ;48(2):200-7.
108. Barreiro P, Martin-Carbonero L, Nunez M, Rivas P, Morente A, Simarro N, et al.
Predictors of liver fibrosis in HIV-infected patients with chronic hepatitis C virus (HCV)
infection: assessment using transient elastometry and the role of HCV genotype 3. Clin
Infect Dis 2006;42(7):1032-9.
109. Rubbia-Brandt L, Fabris P, Paganin S, Leandro G, Male PJ, Giostra E, et al. Steatosis
affects chronic hepatitis C progression in a genotype specific way. Gut 2004;53(3):40612.
110. Spratt M, Carpenter J, Sterne JA, Carlin JB, Heron J, Henderson J, et al. Strategies for
multiple imputation in longitudinal studies. Am J Epidemiol 2010;172(4):478-87.
111. White IR, Carlin JB. Bias and efficiency of multiple imputation compared with completecase analysis for missing covariate values. Stat Med 2010;29(28):2920-31.
112. Diggle MG, Kenward MG. Informative drop-out in longitudinal data analysis. Appl
Statist 1994;43(1):49-93.
113. Dodge HH, Shen C, Ganguli M. Application of the Pattern-Mixture Latent Trajectory
Model in an Epidemiological Study with Non-Ignorable Missingness. J Data Sci
2008;6(2):247-59.
114. Curran D, Molenberghs G, Thijs H, Verbeke G. Sensitivity analysis for pattern mixture
models. J Biopharm Stat 2004 Feb;14(1):125-43.
115. Molenberghs G, Verbeke G. Models for discrete longitudinal data. New York: Springer,
2005.
116. Carpenter JR, Kenward MG, White IR. Sensitivity analysis after multiple imputation
under missing at random: a weighting approach. Stat Methods Med Res 2007;16(3):25975.
117. Ma G, Troxel AB, Heitjan DF. An index of local sensitivity to nonignorable drop-out in
longitudinal modelling. Stat Med 2005;24(14):2129-50.
118. Rubin DB. The calculation of posterior distributions by data augmentation (in discussion
of Tanner MA, Wong WH). J Am Stat Assoc 1987;82(398):543-6.
119. Pernanen K. Validity of survey data on alcohol use. New York: Wiley, 1974.
244

120. Van Oers JA, Bongers IM, van de Goor LA, Garretsen HF. Alcohol consumption,
alcohol-related problems, problem drinking, and socioeconomic status. Alcohol Alcohol
1999;34(1):78-88.
121. Knibbe R. Measuring drinking context. Alcohol Clin Exp Res 1998;22(2 Suppl):15S-20S.
122. Lemmens PH, Tan ES, Knibbe RA. Bias due to non-response in a Dutch survey on
alcohol consumption. Br J Addict 1988;83(9):1069-77.
123. Lahaut VM, Jansen HA, van de MD, Garretsen HF. Non-response bias in a sample survey
on alcohol consumption. Alcohol Alcohol 2002;37(3):256-60.
124. Dhumeaux D, Marcellin P, Lerebours E. Treatment of hepatitis C. The 2002 French
consensus. Gut 2003;52(12):1784-7.
125. He Y, Zaslavsky A, Landrum M, Harrington D, Catalano P. Multiple imputation in a
large-scale complex survey: a practical guide. Stat Methods Med Res 2009;In Press.
126. Marston L, Carpenter JR, Walters KR, Morris RW, Nazareth I, Petersen I. Issues in
multiple imputation of missing data for large general practice clinical databases.
Pharmacoepidemiol Drug Saf 2010;19(6):618-26.
127. Green TA. Using surveillance data to monitor trends in the AIDS epidemic. Stat Med
1998;17(2):143-54.
128. Hall HI, Song R, Rhodes P, Prejean J, An Q, Lee LM, et al. Estimation of HIV incidence
in the United States. JAMA 2008;300(5):520-9.
129. Prejean J, Song R, Hernandez A, Ziebell R, Green T, Walker F, et al. Estimated HIV
incidence in the United States, 2006-2009. PLoS One 2011;6(8):e17502.
130. Harrison KM, Kajese T, Hall HI, Song R. Risk factor redistribution of the national
HIV/AIDS surveillance data: an alternative approach. Public Health Rep
2008;123(5):618-27.
131. Cazein F, Lot F, Pillonel J, Pinget R, Bousquet V, Le Strat Y, et al. Surveillance de
l'
infection VIH-sida en France, 2009. Bull Epidemiol Hebd 2010;45-46:467-72.
132. Lot F, Semaille C, Cazein F, Barin F, Pinget R, Pillonel J, et al. Preliminary results from
the new HIV surveillance system in France. Eurosurveillance 2004;9(10-12):34-7.
133. Semaille C, Barin F, Cazein F, Pillonel J, Lot F, Brand D, et al. Monitoring the dynamics
of the HIV epidemic using assays for recent infection and serotyping among new HIV
diagnoses: experience after 2 years in France. J Infect Dis 2007;196(3):377-83.
134. Barin F, Meyer L, Lancar R, Deveau C, Gharib M, Laporte A, et al. Development and
validation of an immunoassay for identification of recent human immunodeficiency virus
type 1 infections and its use on dried serum spots. J Clin Microbiol 2005;43(9):4441-7.

245

135. Barin F, Plantier JC, Brand D, Brunet S, Moreau A, Liandier B, et al. Human
immunodeficiency virus serotyping on dried serum spots as a screening tool for the
surveillance of the AIDS epidemic. J Med Virol 2006;78 Suppl 1:13-8.
136. ANRS CO9 COPANA. Cohorte de patients non traits par antirtroviraux
l'
inclusion.[Ressource lectronique]. Disponible sur :
http://www.anrs.fr/index.php/content/download/783/5243/file/ANRSCO9 COPANA.pdf
[consult le 05 fvrier 2011].
137. White IR, Daniel R, Royston P. Avoiding bias due to perfect prediction in multiple
imputation of incomplete categorical variables. Comput Stat Data Anal 2010;54:2267-75.
138. Van Buuren S, Groothuis-Oudshoorn K. MICE: Multivariate Imputation by Chained
Equations in R. Journal of Statistical Software 2010;In press.
139. Royston P. Multiple imputation of missing values: further update of ice, with an emphasis
on interval censoring. Stata J 2007;7(4):445-64.
140. Carlin JB, Galati JC, Royston P. A new framework for managing and analyzing multiply
imputed data in Stata. Stata J 2008;8(1):49-67.
141. Fraser G, Yan R. Guided multiple imputation of missing data: using a subsample to
strengthen the missing-at-random assumption. Epidemiology 2007;18(2):246-52.
142. Costagliola D, Descamps D, Assoumou L, Morand-Joubert L, Marcelin AG, Brodard V,
et al. Prevalence of HIV-1 drug resistance in treated patients: a French nationwide study. J
Acquir Immune Defic Syndr 2007;46(1):12-8.
143. Valenciano M, Kissling E, Cohen JM, Oroszi B, Barret AS, Rizzo C, et al. Estimates of
Pandemic Influenza Vaccine Effectiveness in Europe, 2009-2010: Results of Influenza
Monitoring Vaccine Effectiveness in Europe (I-MOVE) Multicentre Case-Control Study.
PLoS Med 2011;8(1):e1000388.

246

Annexe 1
Deferral from donating blood of men who have sex with men: Impact on the
risk of HIV transmission by transfusion in France.

Vox Sanguinis (2011)


2011 The Author(s)
Vox Sanguinis 2011 International Society of Blood Transfusion
DOI: 10.1111/j.1423-0410.2011.01509.x

ORIGINAL PAPER

Deferral from donating blood of men who have sex with


men: impact on the risk of HIV transmission by transfusion
in France
J. Pillonel1, V. Heraud-Bousquet1, B. Pelletier2, C. Semaille1, A. Velter1, C. Saura1, J.-C. Desenclos1, B. Danic3 & the blood
donor epidemiological surveillance study group*
1

Institut de Veille Sanitaire, Saint-Maurice, France


Etablissement Franais du Sang, Paris, France
3
Etablissement Franais du Sang de Bretagne, Rennes, France
2

Background In France, men who have sex with men (MSM) are permanently
excluded from blood donation. This policy is felt to be discriminatory by MSM
activists. Furthermore, the policy is not fully respected because some MSM do not
report their sexual behaviour before donating.
Methods We estimated the fraction of the current risk of HIV attributed to MSM.
We then constructed a model based on data obtained from behavioural and epidemiological surveys to assess the impact of a new strategy in which MSM would only
be deferred if they report more than one sexual partner in the last 12 months.
Results Thirty-one HIV seroconversions occurred among repeat donors between
2006 and 2008, giving a risk of one in 2 440 000 donations. Fifteen of these seroconversions (48%) were MSM. If all MSM had abstained from donating blood, the
risk would have been 1 in 4 700 000 donations, half the current risk. The new strategy would result in an overall HIV risk of between 1 in 3 000 000 (close to the
current risk) to 1 in 650 000 donations (37 times higher than the current risk).

Received: 5 November 2010,


revised 29 April 2011,
accepted 1 May 2011

Conclusions Changing the current MSM deferral policy may increase the risk of
transfusiontransmission of HIV. However, this does not take into account a possible better compliance with MSM with a less stringent policy that would be perceived as more equitable. Conversely, relaxing the policy could encourage some
MSM to seek an HIV test in blood centres. Thus, further qualitative study is needed
to assess possible changes in compliance linked to a new policy.
Key words: blood donor selection, HIV residual risk, men who have sex with men.

Introduction
In France, men who have sex with men (MSM) are permanently excluded from blood donation, mainly because they
are at higher risk of human immunodeficiency virus (HIV)
[1, 2] but also at increased risk of other transfusion-

*See appendix.
Correspondence: Josiane Pillonel, Institut de Veille Sanitaire, Dpartement
des Maladies Infectieuses, 12 rue du Val dOsne, 94415 Saint-Maurice
Cedex, France
E-mail: j.pillonel@invs.sante.fr

transmissible infections as hepatitis B virus and syphilis


[3, 4]. Exclusion of MSM began in the early 1980s when
male-to-male sex was documented as a major mode of
transmission of HIV and virus detection techniques were
not established [5]. The Health Authorities insisted that
the deferral policies had to be maintained, even after
HIV screening of blood donations became mandatory in
France in August 1985, essentially because of the window
period.
Since 1985, there has been a remarkable improvement in
the viral safety of the blood supply due to improvements in
donor selection and continuous progress in screening
assays, including nucleic acid amplification testing (NAT).

2 J. Pillonel et al.

Despite these measures, there is still a residual risk of transmitting HIV by transfusion of blood components. In France,
this risk was estimated to be 1 in 2 950 000 donations in
20052007, equivalent to fewer than one potentially
infected donation per year on the basis of 27 million collected donations [6]. This residual risk is mainly linked to
the window period, which occurs shortly after the donor is
infected and before the markers of infection can be detected.
Consequently, donor selection remains an important element in ensuring the viral safety of the blood supply.
The permanent deferral policy for MSM has been the
subject of debate, mainly because this stringent criterion is
felt by MSM activists to be discriminatory and outdated.
They request a change to deferral based, as for heterosexual
donors, on sexual behaviour during months preceding
donation. They would prefer to be asked more specific sexual behaviour questions such as having had multiple sexual
partners or unprotected sex with a new partner, rather than
be asked whether they had sex with another man or
whether they are homosexual. In addition, the permanent
deferral policy is not fully effective because some MSM do
not report their sexual behaviour before donating. This
seems to be increasing over time and raises the question of
changing the permanent deferral policy because of its lack
of efficiency. In this study, we chose to assess a new strategy involving a deferral policy close to that applied to heterosexuals in France. With this new strategy, MSM would
donate blood and be only deferred if they report more than
one male sexual partner in the last year. The only difference
with heterosexuals is the duration of 12 months instead of
4 months after the end of the risky behaviour. Furthermore,
this proposal seems to be more acceptable by the MSM
community than those assessed in previous studies which
are based on different periods of sexual abstinence before
donation (1, 5 or 10 years) [710].
In the first part of this study, we estimated the risk of
HIV transmission by transfusion associated with the lack of
compliance with MSM with the current policy. We then
assessed the impact on this risk of the proposed strategy.

Methods
Study population
Since 1992, all blood centres in France report quarterly the
total numbers of donors and donations according to donor
status (first time and repeat) and epidemiological characteristics (sex, age, probable mode of transmission, HIV-1 subtype, geographic origin and donor status) of donors
confirmed HIV-positive to the national surveillance system
for blood donors [11]. More than three-quarters of donors
found to be HIV positive return for a post-donation medical
interview during which information on the probable mode

of transmission of HIV is investigated. As the data set


concerning the risk factor for acquiring HIV, including
MSM, was not complete (missing for 30% of HIV-positive
donors for the 19922008 period), we applied multiple
imputation to estimate missing values from observed values
using the method of imputation by chained equations (ado
ice, STATA11.0; Stata Corporation, College Station, TX,
USA) [12] with the generation of 100 data sets. The proportion of MSM among donors found to be HIV positive was
then calculated according to Rubins rules [13].

HIV residual risk in 20062008 in France


The residual risk of transfusion-transmitted HIV infection
per million donations was calculated for periods of 3 years
as the product of the HIV incidence among blood donors
who had made at least two donations during the study period and the length of the HIV window period (in years) [14].
The HIV incidence is the number of repeat donors who
underwent HIV seroconversion (S) during the 3-year study
period divided by the number of donor-years (DY) calculated by summing time intervals between the first and the
last donation by each donor during the study period. The
HIV window period was estimated to be 12 days with
the use of minipool NAT [15].

Assessment of the fraction of the current HIV


residual risk that can be attributed to MSM
HIV-positive MSM are regularly found donating blood
despite the deferral policy. To estimate the current impact
of MSM donations on HIV residual risk, the HIV incidence
among blood donors was divided into two parts: HIV incidence estimated for MSM and HIV incidence estimated for
the other donors (women + men not having sex with men)
according to the following equation:
I

DYMSM
DYothers
IMSM
Iothers ;
DYMSM DYothers
DYMSM DYothers

where I is the overall HIV incidence among blood donors,


IMSM the HIV incidence among MSM donors, Iothers the HIV
incidence among the other donors, DYMSM the number of
Donor-Years for MSM donors, and DYothers the number of
Donor-Years for the other donors.
HIV
incidence
was
calculated
as
follows:
SMSM
IMSM DY
105 , where SMSM is the number of HIV seroMSM
conversions observed among MSM donors, and
Sothers
Iothers DY 105 , where Sothers is the number of HIV
others
seroconversions observed among the other donors during
the study period.
Unlike the numbers of seroconversions (SMSM and
Sothers), the numbers of Donor-Years could not be obtained

 2011 The Author(s)


Vox Sanguinis  2011 International Society of Blood Transfusion, Vox Sanguinis (2011)

HIV risk of blood donations from MSM 3

separately for MSM and other donors (DYMSM and DYothers),


through the national surveillance system for blood donors.
We, therefore, used external data to split the known total
number of Donor-Years (DY) into the two groups. A survey
(CSF2006 study) on sexual behaviour of 12 364 people randomly recruited from the general population aged 1869
years was conducted in France in 2006 [16]. In this survey,
the percentage of men aged 1869 years having sex with
men within the previous 12 months was estimated to be
15% and the percentage of men having sex with men at
least once during their life to be 41%. After having
separated the number of Donor-Years between men and
women (502% of repeat donors between 2006 and 2008
were men), we applied these proportions of MSM to the
number of Donor-Years among men to obtain two estimates for MSM HIV incidence and then derived those for
the other donors:
Hypothesis 1: 15% of the male donor population is MSM
IMSM:1

SMSM
105
DY  0:502  0:015

and
Iothers:1

Sothers
105 ;
DY  1  0:502  0:015

where DY is the total number of Donor-Years and 0502 the


proportion of men among repeat blood donors between
2006 and 2008.
Hypothesis 2: 41% of the male donor population is MSM

The starting point of the model was the estimate of the


number of sexually active MSM (NMSM) in France. This estimate was obtained by applying the percentage of men aged
1869 having sex with men within the last 12 months in
the CSF 2006 study (15%) [16], to the male population
aged 1865 obtained from the national census. As MSM
with more than one sexual partner in the previous
12 months would be deferred in the new strategy, we multiplied the percentage of such MSM as estimated in the CFS
2006 study (473%) [16] (plus personal communication,
CSF 2006 study, INSERM-INED) by the number of sexually
active MSM (NMSM) to calculate the maximum number of
donors who would be excluded for that reason. The number
of MSM eligible to donate blood (EBD MSM) was then calculated as the difference between the two values. We assume
that the proportion of eligible MSM giving blood is the
same as that of men in the general population aged 1865
giving blood (pBD). As incidence and residual risk are
calculated among repeat blood donors, we divided the
observed number of repeat male blood donors by the number of men of the general population aged 1865 years to
obtain the proportion pBD that was stable, around 28%, for
the years 2006, 2007 and 2008. Then, the number of MSM
expected to donate blood (BDMSM) can be estimated by
multiplying EBD MSM by pBD.
From the number of MSM expected to donate blood
(BDMSM), we then estimated the number of newly HIVinfected MSM expected to donate blood (BDMSMhiv) as
follows:
BDMSMhiv BDMSM  IMSM ;

IMSM:2

SMSM
105

DY  0:502  0:041

Iothers:2

and

Sothers
105 :
DY  1  0:502  0:041

Residual risks could then be derived for MSM donors and


the other donors.
Thus, we used proportions of MSM observed in the general population without taking into account the effects of
the deferral policy on the blood donor population. Consequently, for both these two hypotheses, and particularly for
hypothesis 2, incidence and thus HIV residual risk for MSM
donors should be considered to be minimum estimates.

Impact of a new strategy in which MSM would only


be deferred if they have had more than one sexual
partner in the previous 12 months
We constructed a model based on data obtained from
behavioural and epidemiological surveys of MSM to assess
the consequences of the new strategy on the HIV residual
risk.

where IMSM is the HIV incidence among MSM expected to


donate blood.
We considered two scenarios for IMSM: best case and
worst case. For the best-case scenario, we used the HIV
incidence estimated for MSM blood donors during the
period 20062008 (hypothesis 1 of the incidence estimate, IMSM.1). For the worst-case scenario, we used the
HIV incidence estimated in 2008 for MSM in France:
10% [1].
For the worst-case scenario, using data from HIV case
reporting in France [17], we assumed that 25% of these
newly HIV-infected MSM expected to donate blood would
not donate because they would have been diagnosed to be
HIV positive before their next blood donation and therefore
would not subsequently donate blood. In the best-case scenario, as the incidence used was directly derived from the
blood donor population, we did not apply this proportion
because the corresponding incident cases did not enter the
incidence calculation.
Finally, for each scenario, the annual number of HIV
incident cases among MSM blood donors was multiplied by
three to obtain the number for a 3-year period and added to

 2011 The Author(s)


Vox Sanguinis  2011 International Society of Blood Transfusion, Vox Sanguinis (2011)

4 J. Pillonel et al.

the number of incident cases observed among the other


donors (men not having sex with men + women) to obtain
the numerator of the incidence for the new strategy. For the
number of Donor-Years for MSM, we used the estimate
obtained under hypothesis 1 for HIV incidence calculation
used to assess current HIV residual risk attributed to MSM
(DYMSM = DY 0502 0015).
The 95% confidence intervals (95% CI) of the incidence
and the residual risk were obtained by the Fleiss Quadratic
method, which is pertinent when proportions are near to
zero [18].

Results
HIV residual risk in 20062008 in France
During the 3-year period 20062008, 31 HIV seroconversions were observed among blood donors who had made at
least two donations, such that the incidence was 13 per
100 000 Donor-Years (Table 1). On the basis of this incidence, the current HIV residual risk was estimated to be
041 per million donations or 1 in 2 440 000 donations
(95% CI: 01 in 700 000).

Assessment of the fraction of the current HIV


residual risk that can be attributed to MSM
Among the 31 HIV incident cases observed between 2006
and 2008, 23 were men and eight were women. Eleven of
these men (48%) reported having had sex with men during
the post-donation medical interview; for four (17%), the
probable mode of transmission was heterosexual intercourse, and for eight (35%), the probable mode of transmission was unknown. After performing multiple imputation,
we estimated the number of MSM to be 15 (65%) and the
number of men contaminated through heterosexual intercourse to be eight (35%). By adding these eight incident
cases among men to the eight incident cases among
women, the number of other donors (not MSM) was estimated to be 16.
With hypothesis 1, where 15% of male donors would be
MSM, the HIV residual risk linked to MSM was estimated to
be 265 per million donations or 1 in 38 000 donations
Table 1 Residual risk of transfusion-transmitted HIV infection associated
with the window period France, 20062008

Incidence per
No. of HIV
100 000
incident
No. of
donor
cases
donor- years years (CI 95%)
31

2 467 560

Length of
window
period
in days
(range)

126 (087181) 12 (028)

Residual risk
per million
donations
(CI 95%)
041 (00139)

Table 2 HIV incidence and residual risk of transfusion-transmitted HIV


infection among MSM and other donors France, 20062008
MSM donors
Number of HIV incident cases
SMSM = 15
(seroconversions)
Number of donoryears
Hypothesis 1: 15% of
18 590
male donors are MSM
Hypothesis 2: 41% of
50 813
male donors are MSM
HIV Incidence per 100 000 donor-years
Hypothesis 1: 15% of male
IMSM.1 = 807
donors are MSM
Hypothesis 2: 41% of male
IMSM.2 = 295
donors are MSM
Residual risk per 1 million donations
Hypothesis 1: 15% of male
RRMSM.1 = 265
donors are MSM
Hypothesis 2: 41% of male
RRMSM.2 = 97
donors are MSM

Other donors
Sothers = 16

2 448 970
2 416 747

Iothers.1 = 065
Iothers.2 = 066

RRothers.1 = 021
RRothers.2 = 022

MSM, men who have sex with men.

(Table 2), which is about 125 times higher than that linked
to other donors (1 in 4 700 000 donations).
With hypothesis 2, where 41% of male donors would be
MSM, the HIV residual risk linked to MSM was estimated to
be 97 per million donations or 1 in 100 000 donations or
about 45 times higher than that linked to other donors (1 in
4 600 000 donations). If all MSM had abstained from
donating blood between 2006 and 2008, the HIV residual
risk would have been around 1 in 4 600 0001 in
4 700 000 donations, which is half the current risk (1 in
2 440 000 donations).
Incidence among MSM and other blood donors by 3-year
period since 1994 is shown in Fig. 1: between the 1997
1999 period and the 20062008 period, the incidence
increased significantly (P = 002) among MSM, although
the global HIV incidence was stable.

Impact of a new strategy in which MSM would only


be deferred if they have had more than one sexual
partner in the previous 12 months
The model used to assess the impact of the new strategy
predicted that an average of 4355 sexually active MSM
would be expected to donate blood each year (Table 3).
Depending on the scenario, between 3 and 44 of them
would be newly infected with HIV. After eliminating those
who would not donate because they would have been diagnosed HIV positive before their subsequent blood donation
(11 in the worst-case scenario), the number of HIV incident
cases among MSM was estimated to be between 3 and 33

 2011 The Author(s)


Vox Sanguinis  2011 International Society of Blood Transfusion, Vox Sanguinis (2011)

HIV risk of blood donations from MSM 5

HIV incidence per 100 000


donor-years (Log scale)

1000

MSM, if 15% of blood


donors were MSM
MSM, if 41% of blood
donors were MSM

100

Global HIV Incidence

10

Other donors

01

Fig. 1 Trend in HIV incidence among men who


have sex with men and other blood donors
France, 19942008.

199496 199799 200002 200305 200608


Study periods

Table 3 Estimate of HIV seroconversions among MSM blood donors under


a new strategy in which MSM would only be deferred if they have had
more than one sexual partner in the last 12 months France, 20062008
Number of men aged 1865 years
(Census, 01 01 2008)
Percentage of men having sex with men within
the previous 12 months (CSF 2006)
Number of sexually active MSM aged
1865 years NMSM
Percentage of MSM having more than one partner
in the last 12 months (CSF 2006)
Annual number of MSM deferred from blood
donations
Annual number of MSM eligible to donate blood:
EBD MSM
Percentage of repeat male blood donors in the
population aged 1865 years: pBD
Annual number of MSM expected to donate blood:
BDMSM
Scenarios
Best case

19 676 810

HIV incidence rates


Annual number of newly HIV-infected
MSM expected to donate blood: BDMSMhiv
Percentage and annual number of donors
diagnosed HIV positive before their next
donation
Number of newly HIV-infected MSM
expected to donate blood over 3 years

008%
3

100%
44

25%
(11)

99

the current risk (1 in 2 440 000). In the worst-case


scenario, the risk is 37 times higher corresponding, for
France as a whole, to a mean of four donations potentially infected with HIV each year instead of one
currently.

15%
295 152
473%
139 607
155 545
28%
4355
Worst case

MSM, men who have sex with men.

for 1 year and between 9 and 99 for the 3-year period


20062008.
These estimates were added to the 16 incident cases
observed for the other donors (men not having sex with
men + women) during the same period to obtain the
numerator of the incident rate for the new strategy
(Table 4). This strategy would change the overall HIV
residual risk from 033 per million donations or 1 in
3 000 000 to 153 per million or 1 in 650 000 donations.
In the best-case scenario, this risk estimate is close to

Discussion
This study is the first to assess the excess of risk of transmitting HIV by transfusion associated with the lack of compliance with MSM with the current policy for blood donor
selection. Despite the permanent deferral of MSM from
donating blood, we estimated that nearly half of the current
risk of HIV transmission by transfusion in France can be
attributed to MSM who do not comply with the policy.
Although HIV incidence has been estimated to be much
lower among MSM blood donors (008%) than among the
MSM of the general population (1%) [1], the proportion of
donors infected by male-to-male sex among donors newly
infected with HIV was as high as the estimated proportion
of MSM among people newly infected with HIV in the general population (48%): in 2008, an estimated 6940 persons
became infected with HIV in France of whom 3320 were
MSM [1]. The similarity of the proportion of MSM for blood
donors and the general population would have been
expected if the criteria for the donor selection were the
same for all potential donors. However, the policy for heterosexuals is only temporary deferral based on risky behaviour (4 months after the end of the high-risk situation).
Therefore, the percentage of blood donors who are MSM
infected with HIV should be much lower than that of the
general population. This result reveals the failure of a deferral policy based on a stringent criterion for MSM. There are
at least two factors that may contribute to this: some MSM
currently consider lifetime deferral discriminatory while
others may use blood transfusion centres as HIV screening
centres. Both these groups may give blood and not reveal
their sexual behaviour. Data from the Retrovirus Epidemiology Donor Study (REDS) showed that in a sample of

 2011 The Author(s)


Vox Sanguinis  2011 International Society of Blood Transfusion, Vox Sanguinis (2011)

6 J. Pillonel et al.

Table 4 Estimate of HIV residual risk (RR) if the current MSM deferral policy was replaced with a strategy in which MSM would only be deferred if they
have had more than one sexual partner in the last 12 months France, 20062008

Estimates

No of HIV
incident cases

No. of
Donor-Years
(D-Y)

Incidence
per 100 000
D-Y (CI 95%)

Residual risk
per million
donations (CI 95%)

% of current
RR estimate

Current
Other donors only (current less 15 MSM)
Best-case scenario (adding 9 MSM)
Worst-case scenario (adding 99 MSM)

31
16
25 (16 + 9)
115 (16 + 99)

2
2
2
2

126 (087181)
065 (039109)
101 (067152)
466 (375562)

041 (00139)
021a (00083)
033 (00117)
153 (00431)

100
51
81
371

467 560
448 970
467 560
467 560

This is the estimated HIV residual risk if the current deferral policy was effective, under the hypothesis 1 (see Table 2: RRothers-1).
MSM, men who have sex with men.

25 168 male blood donors interviewed anonymously, 24%


reported male-to-male sex and, among them, 99% of those
who reported sex with men within the last 12 months also
reported recently seeking an HIV test [19]. It is likely that
this proportion is much higher among HIV-positive MSM
donors.
A worrying finding of our analysis is the significant
increase in the HIV incidence among MSM between the
19971999 and 20062008 periods. It is unlikely that this
increase reflects an increase in HIV incidence in MSM in
the general population: a recent study reports that the incidence of HIV in MSM of the general population was stable
between 2003 and 2008 [1].
This increase could be due to a magnet effect linked to
the implementation of NAT testing in July 2001 in France.
Indeed, some MSM may seek a free RNA test by giving
blood after risky behaviour. Of the 11 donors, who were
found to be HIV RNA positive and antibody negative
between July 2001 and December 2009 in France, nine were
men, of whom four (45%) reported during the post-donation medical interview having had sex with men; for two
(22%), the probable mode of contamination was heterosexual intercourse whereas for three (33%), it was unknown.
However, these small numbers are difficult to interpret.
The increase may also be the consequence of the feeling
of discrimination growing over time. If it were the case,
more and more MSM would come to give blood and
intentionally not report their sexual behaviour before
donating. This point is very difficult to investigate as we
do not know the sexual behaviour of HIV-negative blood
donors. To calculate the denominator for HIV incidence
among MSM blood donors in our study, we used estimated proportions of MSM in the general population
(from 15% to 41% depending on the definition, last 12months or lifetime). This probably underestimates the
incidence as MSM are in theory excluded from blood
donation. Furthermore, we used the same proportions of
MSM over the entire period, such that the denominator
remained stable. However, if this denominator increased

between 1997 and 2008, the apparent increase in HIV


incidence among blood donors over this period could be
artificial. Despite these limitations, our data indicate that
MSM make a large contribution to the current HIV residual risk of transfusion and therefore raise the question of
changing the permanent deferral policy because of its lack
of efficiency.
In the second part of our study, we used a model to estimate the impact on the HIV residual risk of a change in
strategy in which MSM would be only deferred if they have
had more than one sexual partner in the last 12 months.
Depending on the scenario used, this new strategy would
result in an overall HIV residual risk of between 1 in
3 000 000 donations, close to the current risk (1 in
2 440 000) and 1 in 650 000 donations. The worst-case
scenario corresponds to a mean of three donations potentially infected with HIV each year in France in addition to
the current estimate of one donation infected with HIV
each year. Based on these numbers, the incremental risk of
this change in policy concerning MSM would probably be
low; nevertheless, considering the worst-case scenario, it
could be judged to be unacceptable. However, these estimates do not take into account the possible better compliance with MSM with a less stringent policy. As the
perpetuation of the lifetime deferral for MSM is discrimination in the opinion of many within the homosexual community, some avoid the ban by hiding their sexual
behaviour during the pre-donation interview. Currently,
with the lifetime deferral policy, more than half of HIV
incident cases among blood donors are subsequently found
to be MSM. It is therefore reasonable to assume that a less
stringent policy would be perceived to be more equitable
and as a result enhance responsibility. MSM who donate
blood under a new policy based on risky behaviour may
self-defer in a more appropriate way. Conversely, relaxing
the policy could be perceived as indicating that the policy
is less important, and as a result of that perception, selfdeferral might be reduced. Thus, the new policy could
encourage some MSM at risk to seek an HIV test in the

 2011 The Author(s)


Vox Sanguinis  2011 International Society of Blood Transfusion, Vox Sanguinis (2011)

HIV risk of blood donations from MSM 7

blood centres. Unfortunately, these potential changes in the


attitude of MSM are difficult to predict, showing the complexity of estimating the true impact of a less stringent
deferral policy for MSM.
Several other factors regarding the assumptions or
parameters used in the model may have affected the results.
The number of sexually active MSM and the annual number of MSM that would be deferred from blood donations
were based on a sexual behaviour survey of more than
12 000 people, randomly recruited from the French general
population in 2006 (CSF 2006) [16]. Socially stigmatised
behaviours, including sex between men, can be underreported in questionnaire surveys [20]. Nevertheless, the
reported proportion of men having sex with men within the
previous 12 months (15%) was the same as that estimated
14 years earlier with the same study design (ACSF 1992)
[21]. Furthermore, others countries have reported similar
proportions of sexually active MSM in their population
[22, 23]. We assumed in our model that all MSM having
more than one partner in the last 12 months would be
excluded from donating blood, and this is probably too
optimistic even in a more confident climate. This assumption might have led to underestimating the impact of the
proposed strategy on the HIV residual risk. On the other
hand, in the worst-case scenario, we used the HIV incidence
estimated in the overall MSM population in France (1%) to
calculate the HIV incidence among MSM not having more
than one partner in the last 12 months: this may have led
to an overestimation of the risk associated with the proposed strategy. Another limitation is that our results are
derived from repeat donors only. However, these donors
gave more than 80% of all donations, and furthermore, the
HIV incidence is comparable between repeat and first-time
donors in France [24]. Thus, our results can be extended to
the entire blood donor population. Finally, our model did
not take into account the risk due to the release of false
negative donations, which is nevertheless much lower than
the risk linked to the window period [25].
Several studies have examined different deferral criteria
for MSM. Germain et al. [7] calculated the incremental risk
of accepting 12-month abstinent MSM in the United States
and Canada. They estimated one additional HIV-contaminated unit for every 136 000 new MSM donations, representing an overall increase of 8% in HIV risk. Soldan and
Sinka [8] estimated the increased risk of accepting
12-month abstinent MSM to be approximately 60% in the
United Kingdom. Using REDS data, Sanchez et al. [19]
estimated that the prevalence of reactive infectious screening tests was significantly higher among donors who
reported male-to-male sex within the past 5 years than
among non-MSM in the United States. Nevertheless, as
donors who reported male-to-male sex within 5 years
constituted less than 06% of all male donors, the impact of

these donors on the overall risk would be low. More recently,


Anderson et al. [9] predicted annual increases in risk of
HIV-infected blood of 05% if accepting donations from
5-year abstinent MSM or 30% when accepting donations
from 12-month abstinent MSM. In Australia, where the
deferral policy had been modified more than 10 years ago, a
recent study showed that neither the global rate of
HIV-positive donations nor the proportion of HIV positive
with male-to-male sex as risk factor had been changed
by the implementation of a 12-month deferral for male-tomale sex [26].
Lacking data on HIV incidence in MSM stratified by time
of abstinence from MSM behaviour, we were unable to produce equivalent estimates for France. In our model, we
chose to assess a new strategy involving a deferral policy
close to that applied to heterosexuals in France. This new
strategy is less stringent than those assessed in previous
studies [79]. Thus, in our worst-case scenario, our estimate
of the impact on the risk of HIV transmission by transfusion
was higher. Leiss et al. [10] suggested that an increase in
risk is a clear violation of ethical principles and therefore
not acceptable. Therefore, a strategy of accepting 12-month
abstinent MSM would probably be the most acceptable
change because the current incremental risk appears to be
extremely low as estimated in some recent studies [9], compared with currently tolerated transfusion risks [27]. If
such a deferral policy was implemented in France, communication efforts to publicise donor selection policy to
encourage appropriate self-deferral would be warranted
because compliance is a crucial parameter.

Conclusion
Despite the lifetime deferral policy of MSM, nearly half of
HIV transmission by transfusion in France was attributed to
MSM blood donors. Furthermore, the proportion of MSM
among blood donors was as high as among people newly
infected with HIV in the general population. These findings
raise the question of modifying the lifetime deferral policy.
A strategy in which MSM would be only deferred if they
have had more than one sexual partner in the last
12 months may increase the risk of transfusiontransmission of HIV. However, this does not take into account a possible change in compliance with MSM linked to a
modification of the deferral policy. As some MSM currently
consider lifetime deferral discriminatory, they give blood
while hiding their sexual behaviour. A less stringent policy
may be perceived to be more equitable and should enhance
responsibility. Conversely, relaxing the policy could be perceived as indicating that the policy is less important and
encourage some MSM at risk to seek an HIV test in the
blood centres. Further qualitative study is thus needed in
addition to our quantitative analysis to assess possible

 2011 The Author(s)


Vox Sanguinis  2011 International Society of Blood Transfusion, Vox Sanguinis (2011)

8 J. Pillonel et al.

changes in compliance with the MSM population linked to


a less stringent blood donor selection policy.

Conflicts of interest
None.

Acknowledgements
We thank all colleagues from the Etablissement Francais du
Sang and the Centre de Transfusion des Armees who participated in the national blood donor surveillance. We thank
Marle`ne Leclerc for her technical assistance.

References
1 Le Vu S, Le Strat Y, Barin F, et al.:
Population-based HIV-1 incidence in
France, 200308: a modelling analysis.
Lancet Infect Dis 2010; 10:682687
2 Semaille C, Cazein F, Lot F, et al.:
Recently acquired HIV infection in men
who have sex with men (MSM) in France,
20032008. Euro Surveill 2009; 14:
14
3 Bouyssou-Michel A, Gallay A, Janier M,
et al.: Surveillance de la syphilis en
France, 20002006 : recrudescence des
diagnostics en 2006. Bull Epidemiol Heb
2008; 6:3942
4 Meffre C, Le Strat Y, Delarocque-Astagneau E, et al.: Prevalence of hepatitis B
and hepatitis C virus infections in
France in 2004: social factors are
important predictors after adjusting for
known risk factors. J Med Virol 2010;
82:546555
5 Leads from the MMWR. Prevention of
acquired immune deficiency syndrome
(AIDS): Report of inter-agency recommendations. JAMA 1983; 249:1544
1545
6 Pillonel J, Brouard C, Laperche S, et al.:
Quantitative estimate of the risk of
blood donation contamination by infectious agents. Transfus Clin Biol 2009;
16:138145
7 Germain M, Remis RS, Delage G: The
risks and benefits of accepting men who
have had sex with men as blood donors.
Transfusion 2003; 43:2533
8 Soldan K, Sinka K: Evaluation of the deselection of men who have had sex with
men from blood donation in England.
Vox Sang 2003; 84:265273
9 Anderson SA, Yang H, Gallagher LM, et
al.: Quantitative estimate of the risks
and benefits of possible alternative
blood donor deferral strategies for men
who have had sex with men. Transfusion 2009; 49:11021114

Funding
No external funding.

10 Leiss W, Tyshenko M, Krewski D: Men


having sex with men donor deferral risk
assessment: an analysis using risk management principles. Transfus Med Rev
2008; 22:3557
11 Pillonel J, Le Marrec N, Girault A, et
al.: Epidemiological surveillance of
blood donors and residual risk of
blood-borne infections in France, 2001
to 2003. Transfus Clin Biol 2005;
12:239246
12 Royston P: Multiple imputation of missing values: further update of ice, with
an emphasis on interval censoring.
Stata J 2007; 7:445464
13 Little RJ, Rubin D: Statistical Analysis
with Missing Data, 2nd edn. Hoboken,
NJ, John Wiley & Sons Inc., 2002
14 Schreiber GB, Busch MP, Kleinman SH,
et al.: The risk of transfusion-transmitted viral infections. The Retrovirus
Epidemiology Donor Study. N Engl J
Med 1996; 334:16851690
15 Pillonel J, Laperche S: Trends in risk of
transfusion-transmitted viral infections
(HIV, HCV, HBV) in France between
1992 and 2003 and impact of nucleic
acid testing (NAT). Euro Surveill 2005;
10:58
16 Bajos N, Bozon M: Enquete sur la sexualite en France: Pratiques, genre et
sante. Paris, Editions La Decouverte,
2008
17 Cazein F, Pillonel J, Bousquet V, et al.:
Caracteristiques des personnes diagnostiquees avec une infection a` VIH ou un
sida, France, 2008, BEHweb 2009; 15
18 Fleiss J: Statistical Methods for Rates
and Proportions, 2nd edn. New York,
John Wiley, 1981. 2010
19 Sanchez AM, Schreiber GB, Nass CC, et
al.: The impact of male-to-male sexual
experience on risk profiles of blood
donors. Transfusion 2005; 45:404413
20 Sandfort T: Sampling male homosexuality; in Bancrofs J (ed.): Researching
Sexual
Behavior:
Methodological

21

22

23

24

25

26

27

Issues. Bloomington, Indiana University


Press, 1997: 261275
Groupe ACSF (coordonne par Bajos N,
Giami A, Laurent R, Leridon H, Spira A):
Comportements sexuels et sida en
France. Donnees de lenquete Analyse
des comportements sexuels en France.
Paris, Editions INSERM, 1998
Mercer CH, Fenton KA, Copas AJ, et al.:
Increasing prevalence of male homosexual partnerships and practices in
Britain 19902000: evidence from
national probability surveys. AIDS
2004; 18:14531458
Xu F, Sternberg MR, Markowitz LE:
Men who have sex with men in the United States: demographic and behavioral
characteristics and prevalence of HIV
and HSV-2 infection: results from
National Health and Nutrition Examination Survey 20012006. Sex Transm Dis
2010; 37:399405
Pillonel J, Barin F, Laperche S, et al.:
Human immunodeficiency virus type 1
incidence among blood donors in
France, 1992 through 2006: use of an
immunoassay to identify recent
infections. Transfusion 2008; 48:1567
1575
Pillonel J, Laperche S, Saura C, et al.:
Trends in residual risk of transfusiontransmitted viral infections in France
between 1992 and 2000. Transfusion
2002; 42:980988
Seed CR, Kiely P, Law M, et al.: No
evidence of a significantly increased
risk of transfusion-transmitted human
immunodeficiency virus infection in
Australia subsequent to implementing a
12-month deferral for men who have
had sex with men. Transfusion 2010;
50:27222730
Vamvakas EC: Relative risk of reducing
the lifetime blood donation deferral for
men who have had sex with men versus
currently tolerated transfusion risks.
Transfus Med Rev 2011; 25:4760

 2011 The Author(s)


Vox Sanguinis  2011 International Society of Blood Transfusion, Vox Sanguinis (2011)

HIV risk of blood donations from MSM 9

Appendix
The workgroup The blood donor epidemiological surveillance study group consists of (in alphabetic order):
Agence Francaise de Securite Sanitaire des Produits de
Sante: C. Caldani, JF. Legras, E. Pouchol, MP. Vo-Mai.
Agence Regionale de Sante Languedoc Roussillon (Coordonateur Regional dHemovigilance): G. Daurat.
Centre de Transfusion Sanguine des Armees: A. Kerleguer.

Direction Generale de la Sante: B. Worms.


Etablissement Francais du Sang: A. Assal, B. Danic, B.
David, MC. Dupuy-Montbrun, MH. Elghouzzi, P. Gallian,
MF. Lecomte des Floris, P. Morel, B. Pelletier, D. Rebibo, C.
Waller.
Institut National de la Transfusion Sanguine: G. Andreu, S.
Laperche.
Institut de Veille Sanitaire: JC. Desenclos, J. Pillonel, C.
Saura.

 2011 The Author(s)


Vox Sanguinis  2011 International Society of Blood Transfusion, Vox Sanguinis (2011)

Annexe 2
Risk factors for acquiring sporadic Campylobacter infection in France: Results
from a national case-control study.

MAJOR ARTICLE

Risk Factors for Acquiring Sporadic Campylobacter


Infection in France: Results from a National
Case-Control Study
Anne Gallay,1 Vanina Bousquet,1 Virginie Siret,1,2 Valrie Prouzet-Maulon,3 Henriette de Valk,1 Vronique Vaillant,1
Fernando Simon,1 Yann Le Strat,1 Francis Mgraud,3 and Jean-Claude Desenclos1
1
Dpartement Maladies Infectieuses and 2Field Epidemiology Training (Programme de Formation dpidmiologie de Terrain), Institut de Veille
Sanitaire, Saint-Maurice, and 3Centre National de Rfrence des Campylobacter et Helicobacter, Bordeaux, France

Background. To better document the risk factors for sporadic Campylobacter infection in France, we conducted
a national case-control study from September 2002 to June 2004.
Methods. Cases with confirmed Campylobacter infection were sampled through the national surveillance laboratory network. Cases and controls who were matched for age, as well as attending physicians, were interviewed about
foods consumed, food preparation practices, travel history, contact with cases and animals during the 8 days before
the onset of infection, and any antibiotic use occurring during the 30 days before onset. Matched odds ratios [ORs]
were calculated using conditional logistic regression and multiple imputation methods.
Results. A total of 285 pairs of cases and matched controls were enrolled. Ate undercooked beef (OR, 2.86; 95%
confidence interval [CI], 1.65 4.95), ate at restaurant (OR, 2.20; 95% CI, 1.233.93), and poor utensils hygiene in
the kitchen (OR, 2.12; 95% CI, 1.333.37) were the main independent risk factors for infection. Cases infected with
a ciprofloxacin-resistant Campylobacter jejuni strain were more likely than controls to have used antibiotics in the
month before onset.
Conclusion. Good hygiene practices in the kitchen remain a strong recommendation to avoid crosscontamination. However, studies are needed to explore the mechanism of contamination throughout the food chain.
The use of antibiotics in humans may favor the development of a resistant infection.
In most industrialized countries, Campylobacter organisms are, along with Salmonella organisms, the most
common cause of foodborne bacterial gastroenteritis [1,
2]. Previous studies have shown that Campylobacter infection is frequently acquired through consuming undercooked poultry and other meats, drinking untreated
water, having contact with pets or farm animals, and
traveling abroad [310]. Even if there is evidence that
cross-contamination between raw meat and other foods
during meal preparation is responsible for a consequent
Received 26 October 2007; accepted 12 December 2007; electronically published 1 April 2008.
Potential conflicts of interest: none reported.
Presented in part: 11th European Program for Intervention in Epidemiology
Training Scientific Seminar, Mahon, Menorca, Spain, 1214 October 2006 (abstract 20060090).
Reprints or correspondence: Dr. Anne Gallay, Institut de Veille Sanitaire,
Dpartement des Maladies Infectieuses, 12, rue du Val dOsne, 94 415 SaintMaurice, France (a.gallay@invs.sante.fr).
The Journal of Infectious Diseases 2008; 197:1477 84
2008 by the Infectious Diseases Society of America. All rights reserved.
0022-1899/2008/19710-0018$15.00
DOI: 10.1086/587644

number of cases, this factor has not been identified in


epidemiologic studies [57, 9, 1113]. In addition, what
were identified as risk factors in some studies were found
to be protective factors in others, even in studies performed in the same country [14]. The specific immunity
conferred by Campylobacter infection suggests that susceptibility should vary by age and exposure [15]. Because of their inability to multiply in food products,
Campylobacter organisms have a low outbreak potential;
however, they have been responsible for several large
outbreaks, most of them waterborne [16 19].
Campylobacter infection is usually self-limited, but extraintestinal infection or septicemia may occur and may
require treatment with appropriate antibiotics. Since the
beginning of the 1990s, the resistance of Campylobacter organisms to antibiotics has increased. Epidemiologic studies, modeling, and experimental studies have documented
a strong association between the increase in resistance to
quinolones/fluoroquinolones in human isolates and the
use of these antibiotics in animals [20 22].
Risk Factors for Campylobacteriosis, France

JID 2008:197 (15 May)

1477

Surveillance of Campylobacter infection was expanded in 2002


in France to monitor the incidence of and trends associated with
bacterial resistance of Campylobacter infection [23, 24]. So far,
very little information has been available on risk factors in
France. We therefore performed a prospective case-control
study of sporadic Campylobacter infection among French residents.
MATERIAL AND METHODS
Study design. A case was defined as a resident of metropolitan France who had clinical symptoms of campylobacteriosis
(i.e., gastroenteritis, systemic infection, or extradigestive infections) and a culture-confirmed Campylobacter isolate identified,
from 15 September 2002 to 30 June 2004, either in stool or in a
biological liquid that is normally sterile. When samples from 1
household member yielded Campylobacter species, or when the
case was either part of a household in which there was a cluster of
instances of gastroenteritis or part of a recognized outbreak, only
the first identified case was enrolled.
The present study was a collaboration between the National
Reference Center (NRC) for Campylobacter and Helicobacter
(Centre National de Rfrence des Campylobacter and Helicobacter) and the French Institute for Public Health Surveillance
(Institut de Veille Sanitaire) in France, conducted as part of their
routine activity. Potential cases were recruited through the national Campylobacter surveillance network, which is based on a
voluntary network of private (n 342) and public (n 92)
laboratories that send their isolates to the NRC [24]. Laboratories notified the cases to the French Institute for Public Health
Surveillance by fax, to reduce the delay until an interview could
be conducted. Each working day, a maximum of 4 cases with the
shortest delay between the date of isolation and the date of notification were sampled. A letter was faxed to the cases physician
to request from the case or the cases parents informed consent
to participate in the study.
Each case was matched, by age, sex, and geographic area, with
one control selected from the patient registry of the cases physician. The age groups of the matched pairs were defined as 6
months, 6 months to 3 years, 3 to 15 years [3 years], and
15 years [10 years]. Cases and controls were not matched by
sex before 15 years of age, under the assumption that food habits
were similar by sex. Potential controls were excluded from the
study if they had experienced diarrhea within 1 month before or
1 week after the onset of infection in the matched case or if they
were identified 15 days after the date that a Campylobacter
isolate was identified in the matched case. If a potential control
refused to participate or could not be reached after 5 attempts, a
search for another control was conducted.
The study received ethics approval from the Commission Nationale de lInformatique et des Liberts.
1478

JID 2008:197 (15 May)

Gallay et al.

Interviews and questionnaires. Cases and matched controls were contacted and interviewed by telephone by the same
interviewer, who was not blinded to the case/control status. For
children 12 years of age, a parent or a person who was familiar
with the usual environment and food habits of the children was
interviewed. A structured questionnaire was used to collect information on demographic characteristics; medical history, including use of any antibiotic within the month before onset of
infection in the matched case; clinical symptoms; occupational
activity; and specific exposures. Information on food consumption, the level of cooking of meat, food handling practices, travel
history, animal and water (i.e., drinking or swimming) exposures, and contact with a person with diarrhea was recorded for
cases and controls during the 8 days before onset in the matched
case.
Susceptibility testing of Campylobacter isolates. Campylobacter isolates were tested at the NRC for susceptibility to ciprofloxacin, erythromycin, amoxicillin, gentamicin, and tetracycline,
by use of the agar diffusion method, on Mueller-Hinton agar enriched with 5% sheep blood, with use of antibiotic disks according
to the Antibiogram Committee of the French Society for Microbiology [25].
Analysis. The level of cooking was classified as undercooked when the meat or poultry consumed was raw, rare, or
pink in color and as cooked when the meat or poultry consumed was well done or overcooked. Food handling hygiene
practices were classified as poor utensils hygiene in the kitchen
when hands or utensils used in the kitchen were not cleaned or
were dried only with a dish towel in between the handling of
meat or poultry and other foods and as good utensils hygiene in
the kitchen when hands or utensils were cleaned with water
only or a detergent or when utensils changed.
Variables that were associated with the outcome and for
which P .2 in matched univariate analysis were considered for
multiple conditional logistic regression analysis. Matched odds
ratios (ORs) for which P .05 were considered to be significant
in the multivariate analysis. We repeated the analysis after imputing for missing responses [26, 27]. All analyses were performed using Stata software (version 9; Stata Corporation).
The risk associated with the use of antibiotics within the
month before onset of illness was analyzed by comparing cases
with an antibiotic-resistant strain with (1) their matched controls and (2) cases with an antibiotic-susceptible strain.
RESULTS
Study population. During the 21-month study, 2743 patients
with culture-confirmed Campylobacter infection were notified.
Of the 954 cases (34.8%) sampled, 285 (29.9%) were included in
the study. Cases that were excluded (n 669) included 15 cases
with an undetermined date of onset, 285 with a notification delay of 10 days from the date of onset, 174 who could not be

Table 1. Clinical symptoms of cases, by age


group, in a case-control study of Campylobacter
infection in France, September 2002June 2004.

Symptom

Age 15 years
(N 169)

Age 15 years,
(N 116)

Diarrhea
Abdominal pain
Fevera
Bloody diarrhea
Vomiting
Weight loss

161/168 (95.8)
134/149 (89.9)
116/163 (71.2)
91/166 (54.8)b
66/168 (39.3)c
81/139 (58.3)c

113/116 (97.4)
104/116 (89.7)
76/105 (72.4)
39/111 (35.1)
28/116 (24.1)
78/104 (75.0)

NOTE. Data are the proportion (%) of cases; in each fraction, the numerator denotes the no. of cases who reported
having the symptom, and the denominator denotes the no. of
cases who answered the question.
a
b
c

Temperature, 38C.
P .001.
P .007.

reached after 5 attempts, 117 who refused to participate, 42 for


whom a matched control was not found, and 36 who were excluded for other reasons. The 285 enrolled cases were younger
(mean age, 19.5 years) than the cases who were excluded from
the study (mean age, 28.5 years) and were comparable with respect to sex (percentage of cases that were male, 60.1% vs. 56.3%,
respectively) and region of residence (data not shown). The
mean age of the cases and controls was 19.5 and 20.0 years, respectively. The median delay between the time of onset of disease
and the time when the interview was conducted was 15 days
(range, 5 44 days), and the median delay between the time that
interviews were conducted for cases and controls was 4 days
(range, 0 64 days).
Clinical description. Of the 235 isolates in which the
Campylobacter species was fully identified, 192 (81.7%) were C.
jejuni, 36 (15.3%) were C. coli, 3 (1.3%) were C. fetus, and 4
(1.7%) were C. lari. The main symptoms were diarrhea (in 96.5% of
patients), abdominal pain (in 90.0%), and fever (in 71.6%). Bloody
diarrhea and vomiting were more common in children 15 years
of age (table 1). Diarrhea lasted longer (1) in cases 15 years of age
(median duration, 5 days) than in younger cases (median duration,
4 days) (P .002) and (2) in cases with C. fetus infection (median duration, 13 days) than in cases with C. jejuni or C. coli
infection (median duration, 5 days) (P .001). Forty-one
(14.4%) of the 285 cases were hospitalized (median duration, 2
days; range, 110 days).
Risk factors. Sixteen cases (5.6%) reported traveling abroad
in the 8 days before onset, compared with 7 controls (2.4%) (OR,
2.5; 95% confidence interval [CI], 0.9 6.4). Countries visited
included North Africa (n 8), Europe (n 8), Burkina Faso
and Ethiopia (n 2), and Tahiti and Thailand (n 5). Because
travelers were likely to have exposures that were remarkably different from those of nontravelers, and because exposures occurring during travels have not been investigated, travelers were

excluded from the univariate and multivariate matched analysis,


regardless of whether they were cases or controls.
In matched univariate analysis, consumption of undercooked
beef was associated with an increased risk of campylobacteriosis
(OR, 2.0; 95% CI, 1.23.4) (table 2). Cases were not more likely
than controls to report consumption of any poultry or other
meat, even that which was undercooked (data not shown). Eating in a restaurant increased the risk significantly (OR, 1.9; 95%
CI, 1.11.3). Cases were less likely than controls to have eaten
raw vegetables, fruits or berries, and fish or seafood.
Tasting or handling raw meat in the kitchen was not a risk
factor, whereas poor hygiene of hands and utensils in the kitchen
was; 30.0% and 37.4% of cases had poor hands hygiene or poor
utensils hygiene, respectively, between handling raw meat and
handling other food, compared with 21.0% and 26.1% of controls, respectively (table 2).
Contact with any pet or farm animals was not a significant risk
factor (table 2). Having contact with a person who had diarrhea
in the 8 days before onset increased the risk of Campylobacter
infection (OR, 2.5; 95% CI, 1.4 4.4). Of the 51 cases (19.0%)
who reported contact with a person(s) with diarrhea, 28 reported contact with individuals in the same household, 12 reported contact with children outside the household who had
diarrhea, 7 reported contact with friends or colleagues at work,
and 4 reported contact with children, friends, or colleagues.
Multivariate analysis. Fourteen variables have been included in the multivariate model, both for the complete-case (CC)
and the multiple imputation (MI) analyses. No significant firstorder interaction was detected. In both models, having contact with
a person with diarrhea (ORCC, 3.32 [95% CI, 1.72 6.4]; ORMI, 2.27
[95% CI, 1.24 4.14]), eating undercooked beef (ORCC, 2.26 [95%
CI, 1. 2 4.24]; ORMI, 2.86 [95% CI, 1.65 4.95]), and eating at restaurant (ORCC, 2.46 [95% CI, 1.26 4.74]; ORMI, 2.20 [95% CI,
1.233.93]) were independent risk factors for Campylobacter infection while eating beef bought from a butcher shop, farm, or market,
and eating raw vegetables was associated with a decreased risk of
infection (table 3). Poor utensils hygiene when preparing foods in
the kitchen (ORMI, 2.12; 95% CI, 1.333.37), which was found to be
a significant factor in univariate analysis, remained in multiple imputation analysis.
Antibiotic treatment and resistance. Of the 285 strains,
233 (81.8%) were tested for antibiotic susceptibility. Results of
testing susceptibility to ampicillin, tetracycline, and gentamicin
were missing for 15 strains, and results of testing susceptibility to
ciprofloxacin were missing for 10 strains. Eighty-nine (48.0%) of
218 strains were resistant to ampicillin; 67 (30.7%) of 218, to
tetracycline; 60 (26.9%) of 223, to ciprofloxacin; 4 (1.7%) of 233,
to erythromycin; and 2 (0.9%) of 218 to gentamicin. The duration of illness was longer for cases infected with a strain resistant
to any antibiotic (median, 8.0 days; range, 138 days) than for
cases infected with a susceptible strain (median, 6.0 days; range,
230 days) (P .02).
Risk Factors for Campylobacteriosis, France

JID 2008:197 (15 May)

1479

Table 2. Matched univariate analysis of selected dichotomous risk factors for


sporadic indigenous campylobacteriosis in France, September 2002June 2004.
Persons reporting/
total
respondents,a no.
Potential
risk factor

Cases

Controls

Matched OR
(95% CI)

105/191
14/106
71/169

106/177
8/110
90/173

0.6 (0.41.1)
1.0 (0.33.4)
0.6 (0.31.0)

.1
1.0
.05

32/187
22/134
143/201

49/202
20/164
135/185

0.6 (0.31.0)
0.8 (0.41.9)
0.7 (0.41.3)

.06
.7
.2

123/228
13/260

135/233
12/260

0.8 (0.51.2)
1.0 (0.42.4)

58/257
102/211
67/214
74/234

75/251
117/217
90/222
46/243

0.6 (0.41.0)
0.7 (0.51.1)
0.6 (0.40.9)
2.0 (1.23.4)

.02
.1
.02
.007

97/250

66/257

2.1 (1.23.5)

.007

58/260
31/263
159/237
161/252
77/234
223/255
185/263
102/260

34/247
25/263
178/230
184/244
104/243
228/255
199/263
100/261

1.9 (1.13.3)
1.3 (0.72.5)
0.6 (0.30.9)
0.4 (0.30.9)
0.5 (0.40.8)
0.7 (0.41.4)
0.7 (0.51.1)
1.1 (0.71.6)

.01
.3
.01
.01
.004
.3
.1
.7

50/258
13/268

48/253
10/277

0.9 (0.51.7)
1.8 (0.74.9)

.7
.2

75/246
94/248
54/244

52/252
67/254
41/249

1.6 (1.02.3)
1.7 (1.12.6)
1.3 (0.82.0)

.03
.007
.3

51/249

26/254

2.5 (1.44.4)

.001

201/255
60/263

178/247
49/263

1.5 (1.02.4)
1.3 (0.82.0)

.06
.2

Poultry-related exposureb
Ate chicken
Any
Outside
Bought raw
Bought at retail vs. packed
or frozen
That was undercooked
Ate any poultry
Beef-related exposureb
Ate beef
Any
Outside
Bought from a butcher shop,
farm, or market
Bought raw
Bought at retail
That was undercooked
That was undercooked or
minced
Other food exposureb
Ate at a restaurant
Ate any meat at a barbecue
Ate fish or seafood
Ate raw vegetables
Ate fruits or berries
Ate any milk product
Ate cheese
Drank tap water
Behavior in the kitchenc
Prepared meat or poultry
Tasted meat or poultry
Practiced poor hygiene
Of hands
Of utensils
Of kitchen cutting boards
Contact with a person with
diarrheab
Animal exposureb
Contact with any pet or
farm animal
Occupational

.2
1.0

NOTE. A total of 269 cases and controls were included in the analysis. CI, confidence interval;
OR, odds ratio.
a
For specific exposures assessed during the 8 days before onset in the matched case, all
cases and controls could not always remember precisely and were therefore considered to be
nonrespondents.
b
During the 8 days before onset in the matched case.
c
Not during the 8 days before onset in the matched case but as a general habit.

Table 3. Multivariate analysis (conditional logistical regression) of risk factors for sporadic indigenous campylobacteriosis, by use of complete-case (CC) and multiple imputation (MI) analyses in France,
September 2002June 2004.
CC analysis (n 372)a

MI analysis (n 526)a

OR (95% CI)

OR (95% CI)

...
2.26 (1.204.24)
2.46 (1.264.79)
...
...
3.32 (1.726.40)

...
.01
.01
...
...
.001

0.56 (0.350.91)
2.86 (1.654.95)
2.20 (1.233.93)
0.42 (0.230.74)
2.12 (1.333.37)
2.27 (1.244.14)

.02
.001
.01
.003
.002
.01

Variable
Ate beef
Bought from a butcher shop, farm, or market
That was undercooked
Ate at a restaurant
Ate raw vegetables
Poor utensils hygiene in the kitchen
Contact with a person with diarrhea
NOTE.
a

CI, confidence interval; OR, matched odds ratio.

The n value denotes the no. of cases or controls in the final model.

Fifteen (12.9%) of 116 cases 15 years of age, compared with


2 (1.7%) of 116 controls, reported receiving treatment with antibiotics during the month before the onset of illness (OR, 7.5;
95% CI, 1.732.8). No difference in the receipt of antibiotics was
noted between cases and controls 15 years of age. Cases with
ciprofloxacin-resistant Campylobacter infection (due to any
Campylobacter species or due to C. jejuni) were more likely to
have received any antibiotic before onset than were the controls
(21.4% for those with C. jejuni infection vs. 0% for controls;
OR, undefined), regardless of whether they had traveled abroad
(table 4). Antibiotic use was a risk factor for indigenous
ciprofloxacin-resistant C. jejuni infection, compared with
ciprofloxacin-susceptible C. jejuni infection, and it was not a risk
factor for ciprofloxacin-susceptible infection when compared
with the matched control (table 4).

Nine (40.9%) of the 22 indigenous cases who reported receiving any antibiotic treatment in the month before onset were
infected with a ciprofloxacin-resistant C. jejuni strain, compared
with 27 (17.9%) of the 151 indigenous cases who did not report
receiving antibiotic treatment during that time (OR, 3.2; 95%
CI, 1.2 8.3). None of the 6 cases with travel-associated
ciprofloxacin-resistant infection due to a C. jejuni strain had received any antibiotics.
DISCUSSION
In the present study, we found that eating undercooked beef,
using poor utensil hygiene practices in the kitchen, eating at a
restaurant, and having contact with a person who had diarrhea
were independent risk factors for the acquisition of Campy-

Table 4. Association between use of antibiotics in the month before disease onset and ciprofloxacin-resistant Campylobacter
infection in a case-control study of Campylobacter infection in France, September 2002June 2004.
Controls
matched with
cases with
susceptible
strains,
n/N (%)

Infection

Cases with
resistant
strains,
n/N (%)

Controls
matched
with cases
with resistant
strains,
n/N (%)

ORa (95% CI)

Cases with
susceptible
strains,
n/N (%)

All Campylobacter
All species
C. jejuni

10/60 (16.7)
9/42 (21.4)

1/60 (1.7)
0/42

10.0 (1.278.1)
UDd

19/164 (11.6)

1.5 (0.73.5)

24/164 (14.6)

0.75 (0.41.5)

15/142 (10.6)

2.3 (0.95.8)

19/142 (13.4)

0.75 (0.41.6)

Indigenous
Campylobacter
All species
C. jejuni

9/53 (17.0)
8/35 (22.9)

1/53 (1.9)
0/35

9 (1.5 199)
UDe

17/159 (10.7)
13/137 (9.5 )

1.9 (0.84.6)
3.2 (1.28.4)

25/159 (15.7)
3/137 (2.2 )

0.65 (0.31.3)
0.62 (0.31.4)

ORb (95% CI)

ORc (95%) CI

NOTE. CI, confidence interval; n, no. of cases (with either resistant or susceptible strains) or matched control subjects who received antibiotics during the
month before onset of disease in the case; N, no. of cases (with either resistant or susceptible strains) or matched control subjects who answered the question.
OR, odds ratio; UD, undefined.
a
b
c
d
e

OR for the comparison of cases with ciprofloxacin-resistant strains with their matched controls.
OR for the comparison of cases with ciprofloxacin-resistant strains with cases with ciprofloxacin-susceptible strains (unmatched analysis).
OR for the comparison of cases with ciprofloxacin-susceptible strains with their matched controls.
P .003.
P .004.

Risk Factors for Campylobacteriosis, France

JID 2008:197 (15 May)

1481

lobacter infection. Receipt of antibiotic treatment within the


month before onset of illness increased the risk of developing a
ciprofloxacin-resistant C. jejuni infection.
The most important food-specific risk factor was consumption of undercooked (raw, rare, or pink) beef. Few studies have
shown that beef was a food vehicle for Campylobacter infection.
In the United States, the fact that riding in a shopping cart next to
meat or poultry has been identified as risk factor in children
suggests that contamination may occur through direct contact.
Investigators discussed the risk of cross-contamination through
indirect exposurethat is, via the hands of caretakers as a result
of the external contamination of retail meat packages [28]. In
other studies, ate red meat at barbecue/open fire, ate other
raw or undercooked meat or fish, and ate nonpoultry meat
prepared at restaurant were identified as independent risk factors, without specification as to whether the meat could be pork,
veal, or beef [5, 7, 9]. Our finding may reflect a different food
habit in France or in southern European countries. Most casecontrol studies have been conducted in northern European
countries, and results may not reflect the food habits of individuals in southern Europe. The lack of association between consumption of beef and development of Campylobacter infection
in studies performed in the northern European countries could
be due to the less frequent consumption of undercooked beef in
those countries. Beef ranks third among the animal products
consumed in France, following pork and poultry in popularity
[29], and it is often eaten undercooked (rare or pink) or even
raw. In the present study, 59.3% of cases and 36.5% of controls
ate undercooked beef. Campylobacter organisms are known to
contaminate the gut and carcass of cattle [30, 31]. However, the
interpretation of this finding is complex, because Campylobacter
organisms are present only on the outside of beef. Eating undercooked beef may not reflect a direct mode of transmission but,
rather, may be a marker of cross-contamination when foods are
prepared in the kitchen. Eating at a restaurant, which has also
been identified as a risk factor in other studies, may be related to
consumption of undercooked, contaminated meat or to poor
hygiene practices used in the kitchen.
In this study, several food exposures identified as risk factors
in other studies were not found to increase the risk of Campylobacter infection. Although many studies identified consumption of chicken or poultryand, more specifically, consumption
of undercooked chicken [310]as a risk factor [5, 7, 9, 11, 32],
this was not the case in the present study. However, the lack of an
increased risk associated with poultry or chicken consumption
has been previously reported in several studies [13, 3335], and
one study even found that eating chicken prepared at home was
protective [14]. Several reasons may explain these divergent results. In France, 80% of all broilers are colonized by Campylobacter species [36, 37]. Because chicken is widely consumed in
France, it is very likely that many people have immunity to
Campylobacter species, and those who are the most often ex1482

JID 2008:197 (15 May)

Gallay et al.

posed may have the highest immunity. Therefore, identifying


chicken as a risk factor for Campylobacter infection is often difficult. Furthermore, eating undercooked chicken may play a major role through cross-contamination from the juice of raw
chicken rather than through the direct risk associated with consumption of undercooked chicken. A social desirability bias
could have also hidden the association, with cases being less
likely than controls to report consumption of undercooked
poultry. However, this is unlikely, because cases were more likely
than controls to report poor hygiene in the kitchen, an exposure
for which social desirability bias may play a greater role.
Eating raw vegetables was associated with a decreased risk of
Campylobacter infection. Several hypotheses have been proposed to explain this association, including artifacts, bias, or
confounding associated with lifestyle and food habits not explored in the study, as well as a causal effect [12, 32, 38].
The use of poor utensils hygiene in the kitchen when handling
raw meat and other foods was an independent risk factor for
infection. Although previous studies explored hygiene practices
in the kitchen during food preparation, to our knowledge, no
study has been able to show an independent increased risk for
Campylobacter infection [57, 9, 1113]. Hygiene practices perceived to be acceptable are not sufficient to prevent crosscontamination between a contaminated source (i.e., chicken)
and a vehicle (i.e., other food), which is the direct route of infection [12, 39]. Vehicles with low-level contamination are sufficient to cause Campylobacter infection [40]. Drying utensils or
hands with a dish towel in between handling meat or poultry and
other foods may be wrongly perceived as an acceptable measure,
although it does not prevent cross-contamination.
Person-to-person transmission of Campylobacter organisms
is thought to be rare. Other pathogens, like Salmonella organisms, that are mainly transmitted through food consumption
can be transmitted from person to person, particularly among
children [41]. For more susceptible hosts, this mode of transmission may occur more frequently in association with poor hygiene conditions, and for Campylobacter organisms, it may be
facilitated by its low infective dose. In the present study, contact
with a person who had diarrhea in the 8 days before onset was an
independent risk factor. Most contacts with a person with diarrhea occurred in the family household or with children who had
diarrhea outside the home. Our design did not allow differentiation of whether more frequent diarrhea among contacts before
the onset of infection was related to a common source of infection or truly revealed person-to-person transmission. However,
Campylobacter organisms may account for a large number of
household foodborne outbreaks that are unreported [42].
Like other studies, our study shows an association between
travel abroad and acquisition of fluoroquinolone-resistant
Campylobacter infection. Africa and Asia are the more common
destinations for French travelers, whereas, in northern European countries (Sweden, Finland, and Norway), France and

other European Mediterranean countries are at risk for foreign


travellers [43, 44]. However, traveling abroad accounted for a
low proportion of cases of Campylobacter infection.
An increased risk for acquiring ciprofloxacin-resistant C. jejuni infection and Salmonella infection after receipt of any antibiotic treatment has been reported in few studies [45, 46]. This
increased risk was observed when cases infected with a resistant
strain were compared with healthy controls, as well when
they were compared with cases infected with a susceptible
strain, thereby suggesting that antibiotic use may facilitate
ciprofloxacin-resistant C. jejuni infection. Such an effect is likely
related to disruption of the normal flora in a person taking antibiotics for another reason, and it may be also related to the
selection of a resistant strain related to the antibiotic used. If so,
in addition to their use in veterinary medicine, antibiotics used
in human medicine may contribute to the occurrence of
ciprofloxacin-resistant C. jejuni infections in humans. However,
we were not able to document precisely the antibiotics used, and
we cannot assess whether this increased risk is more related to
the use of a particular class of antibiotics [45]. Also, the limited
number of cases for which the analysis was done according to
Campylobacter species and antibiotic resistance profile reduced
our ability to explore this association in detail.
Our results need to be interpreted with caution, however. The
fact that this exploratory study assessed many exposures could
have led to several random findings. Two factors reduced the
statistical power of the study: (1) the planned sample size was not
attained, and (2) data on specific exposures were missing. However, in comparison with complete-case analysis, the multiple
imputation method increased the statistical power, allowing 2
additional risks factors to be identified and more-precise estimates of the odds ratios to be obtained.
Although we made important efforts to reduce the delay between the time of onset of the disease and the time when cases
and controls were interviewed, memory effects cannot be excluded, particularly when many factors, including food consumption and cooking behaviors, were explored retrospectively.
These memory effects could lead to recall bias. In the present
study, such bias may more likely be nondifferential than differential, which tends to bias toward the nil rather than create a
biased association. Missing data may be generated by the same
memory effects, and a nonresponse bias could occur when the
proportion of missing data differs between cases and controls for
each exposure variable [47, 48]. In the present study, the proportion of data that were missing was similar for cases and controls. Because the results obtained using CC and MI analyses
were similar, and because the assumptions made during the use
of the MI analysis were met, the nonresponse bias was probably
negligible. When many factors contribute to the disease, as for
Campylobacter infection, we may also miss interaction or confounding variables for which the analysis cannot account. We
also need to be cautious regarding the external validity of our

results, because cases enrolled in the case group were not completely representative of those identified by the surveillance system (i.e., they were younger and represented a smaller proportion of cases that occur in summer). Cases were also recruited
from laboratories and could, therefore, differ from cases with
Campylobacter infection not diagnosed microbiologically.
Despite these limitations, the present study identifies important risk factors that are modifiable through changes in behavior,
particularly when they relates to cooking habits and hygiene
practices that favor cross-contamination during the preparation
of food in the kitchen. However, prevention of transmission of
Campylobacter organisms should be considered at each stage of
the food chain transformation, from animal feed to food that is
ready to eat. Efforts are needed to decrease contamination; in
particular, poultry and meat (including beef) have to be considered as a potential source of contamination. The present study
also strongly suggests that antibiotics used in humans have an
influence on the risk of Campylobacter infection and may contribute to select infection with antibiotic-resistant strains.
Acknowledgments
We thank the private community and the public hospital laboratories that
participated in the national surveillance of Campylobacter infections in human by sending their isolates to the National Reference Center for Campylobacter and Helicobacter and by notifying cases to the French Institute for
Public Health Surveillance. We also thank the general practitioners who
agreed to contact cases and controls.

References
1. Frost JA. Current epidemiological issues in human campylobacteriosis.
Symp Ser Soc Appl Microbiol 2001; 90:85S95S.
2. Allos BM, Blaser MJ. Campylobacter jejuni and the expanding spectrum
of related infections. Clin Infect Dis 1995; 20:10929.
3. Saeed AM, Harris NV, DiGiacomo RF. The role of exposure to animals
in the etiology of Campylobacter jejuni/coli enteritis. Am J Epidemiol
1993; 137:108 14.
4. Ikram R, Chambers S, Mitchell P, Brieseman MA, Ikam OH. A case
control study to determine risk factors for campylobacter infection in
Christchurch in the summer of 19923. N Z Med J 1994; 107:430 2.
5. Eberhart-Phillips J, Walker N, Garrett N, et al. Campylobacteriosis in
New Zealand: results of a case-control study. J Epidemiol Community
Health 1997; 51:686 91.
6. Studahl A, Andersson Y. Risk factors for indigenous Campylobacter infection: a Swedish case-control study. Epidemiol Infect 2000; 125:269
75.
7. Neimann J, Engberg J, Mlbak K, Wegener HC. A case-control study of
risk factors for sporadic Campylobacter infections in Denmark. Epidemiol Infect 2003; 130:353 66.
8. Schnberg-Norio D, Takkinen J, Hnninen ML, et al. Swimming and
Campylobacter infections. Emerg Infect Dis 2004; 10:1474 7.
9. Friedman CR, Hoekstra RM, Samuel M, et al. Risk factors for sporadic
Campylobacter infection in the United States: a case-control study in
FoodNet sites. Clin Infect Dis 2004; 38(Suppl 3):S28596.
10. Michaud S, Mnard S, Arbeit RD. Campylobacteriosis, Eastern Townships, Quebec. Emerg Infect Dis 2004; 10:1844 7.
11. Kapperud G, Skjerve E, Bean NH, Ostroff SM, Lassen J. Risk factors for
sporadic Campylobacter infections: results of a case-control study in
southeastern Norway. J Clin Microbiol 1992; 30:311721.

Risk Factors for Campylobacteriosis, France

JID 2008:197 (15 May)

1483

12. Rodrigues LC, Cowden JM, Wheeler JG, et al. The study of infectious
intestinal disease in England: risk factors for cases of infectious intestinal
disease with Campylobacter jejuni infection. Epidemiol Infect 2001; 127:
18593.
13. Tenkate TD, Stafford RJ. Risk factors for campylobacter infection in
infants and young children: a matched case-control study. Epidemiol
Infect 2001; 127:399 404.
14. Adak GK, Cowden JM, Nicholas S, Evans HS. The Public Health Laboratory Service national case-control study of primary indigenous sporadic cases of campylobacter infection. Epidemiol Infect 1995; 115:15
22.
15. Scott DA, Tribble DR. Protection against Campylobacter infection and
vaccine development. In: Nachamkin I, Blaser MJ, eds. Campylobacter.
2nd ed. ASM Press, 2000:303 48.
16. Frost JA, Gillespie IA, OBrien SJ. Public health implications of Campylobacter outbreaks in England and Wales, 19959: epidemiological and
microbiological investigations. Epidemiol Infect 2002; 128:111 8.
17. Kirk M, Waddell R, Dalton C, Creaser A, Rose N. A prolonged outbreak
of Campylobacter infection at a training facility. Commun Dis Intell
1997; 21:57 61.
18. Mazick A, Ethelberg S, Nielsen EM, Mlbak K, Lisby M. An outbreak of
Campylobacter jejuni associated with consumption of chicken, Copenhagen, 2005. Euro Surveill 2006; 11:1379.
19. Gallay A, de Valk H, Cournot M, Ladeuil B, et al. A large multi-pathogen
waterborne community outbreak linked to faecal contamination of a
groundwater system, France, 2000. Clin Microbiol Infect 2006; 12:561
70.
20. Engberg J, Aarestrup FM, Taylor DE, Gerner-Smidt P, Nachamkin I.
Quinolone and macrolide resistance in Campylobacter jejuni and C. coli:
resistance mechanisms and trends in human isolates. Emerg Infect Dis
2001; 7:24 34.
21. Luber P, Wagner J, Hahn H, Bartelt E. Antimicrobial resistance in
Campylobacter jejuni and Campylobacter coli strains isolated in 1991 and
20012002 from poultry and humans in Berlin, Germany. Antimicrob
Agents Chemother 2003; 47:382530.
22. Gupta A, Nelson JM, Barrett TJ, et al. Antimicrobial resistance among
Campylobacter strains, United States, 19972001. Emerg Infect Dis
2004; 10:11029.
23. Vaillant V, de Valk H, Baron E, et al. Foodborne infections in France.
Foodborne Pathog Dis 2005; 2:22132.
24. Gallay A, Simon F, Mgraud F. Surveillance of human Campylobacter
infections in Francepart 2implementation of national surveillance.
Euro Surveill 2003; 8:218.
25. Socit Franaise de Microbiologie (SFMG). Recommendations du Comite de lAntibiogramme de la Socit Franaise de Microbiologie.
Available at: http://www.sfm.asso.fr/nouv/general.php?pa2. Accessed
January 2005.
26. Rubin DB. Multiple imputation after 18 years. Am Stat Assoc 1996;
91:473 89.
27. Royston P. Multiple imputation of missing values: update. Stata Journal
2005; 5:188 201.
28. Fullerton KE, Ingram LA, Jones TF, et al. Sporadic campylobacter infection in infants a population-based surveillance case-control study. Pediatr Infect Dis J 2007; 26:19 24.
29. Office National Interprofessionnel des Viandes. Consommation des
produits carns en 2003. Available at: http://www.office-elevage.fr/
publications/cahier/conso03/conso03.htm. Accessed 14 March 2008.

1484

JID 2008:197 (15 May)

Gallay et al.

30. Hrau V. Risque sanitaires microbiologiques li aux effluents


dabattoirs: comparaison dune synthse bibliographique avec une tude
de terrain. Toulouse, France: Thse-Universit Paul Sabatier, 2003.
31. Agence Franaise de Scurit Sanitaire des Aliments. Apprciation des
risques alimentaires lis aux campylobacters: application au couple poulet/Campylobacter jejuni. Available at: http://www.afssa.fr/Documents/
MIC-Ra-campylobacter.pdf. Accessed 14 March 2008.
32. Kapperud G, Espeland G, Wahl E, et al. Factors associated with increased
and decreased risk of Campylobacter infection: a prospective casecontrol study in Norway. Am J Epidemiol 2003; 158:234 42.
33. Cameron S, Ried K, Worsley A, Topping D. Consumption of foods by
young children with diagnosed Campylobacter infectiona pilot casecontrol study. Public Health Nutr 2004; 7:859.
34. Potter RC, Kaneene JB, Hall WN. Risk factors for sporadic Campylobacter jejuni infections in rural Michigan: a prospective case-control
study. Am J Public Health 2003; 93:2118 23.
35. Carrique-Mas J, Andersson Y, Hjertqvist M, Svensson A, Torner A,
Giesecke J. Risk factors for domestic sporadic campylobacteriosis
among young children in Sweden. Scand J Infect Dis 2005; 37:10110.
36. Agence Franaise de Scurit Sanitaire des Aliments. Farm 2003-2004
French antibiotic resistance monitoring in bacteria of animal origin.
Available at: http://www.afssa.fr/Documents/SANT-Ra-FARM.pdf. Accessed 14 March 2008.
37. Moore JE, Barton MD, Blair IS, et al. The epidemiology of antibiotic
resistance in Campylobacter. Microbes Infect 2006; 8:1955 66.
38. Swift L, Hunter PR. What do negative associations between potential
risk factors and illness in analytical epidemiological studies of infectious
disease really mean? Eur J Epidemiol 2004; 19:219 23.
39. Cowden J. Campylobacter: epidemiological paradoxes. BMJ 1992; 305:
1323.
40. Black RE, Levine MM, Clements ML, Hughes TP, Blaser MJ. Experimental Campylobacter jejuni infection in humans. J Infect Dis 1988; 157:
4729.
41. Delarocque-Astagneau E, Desenclos JC, Bouvet P, Grimont PA. Risk
factors for the occurrence of sporadic Salmonella enterica serotype enteritidis infections in children in France: a national case-control study.
Epidemiol Infect 1998; 121:5617.
42. Ethelberg S, Olsen KE, Gerner-Smidt P, Mlbak K. Household outbreaks among culture-confirmed cases of bacterial gastrointestinal disease. Am J Epidemiol 2004; 159:406 12.
43. Hakanen A, Jousimies-Somer H, Siitonen A, Huovinen P, Kotilainen P.
Fluoroquinolone resistance in Campylobacter jejuni isolates in travelers
returning to Finland: association of ciprofloxacin resistance to travel
destination. Emerg Infect Dis 2003; 9:26770.
44. Ekdahl K, Giesecke J. Travellers returning to Sweden as sentinels for
comparative disease incidence in other European countries, campylobacter and giardia infection as examples. Euro Surveill 2004; 9:6 9.
45. Smith KE, Besser JM, Hedberg CW, et al. Quinolone-resistant Campylobacter jejuni infections in Minnesota, 19921998. Investigation Team.
N Engl J Med 1999; 340:152532.
46. Effler P, Ieong MC, Kimura A, et al. Sporadic Campylobacter jejuni infections in Hawaii: associations with prior antibiotic use and commercially prepared chicken. J Infect Dis 2001; 183:11525.
47. Vach W, Blettner M. Biased estimation of the odds ratio in case-control
studies due to the use of ad hoc methods of correcting for missing values
for confounding variables. Am J Epidemiol 1991; 134:895907.
48. Chavance M, Manfredi R. Modeling incomplete observations [in
French]. Rev Epidemiol Sante Publique 2000; 48:389 400.

Annexe 3
A three-source capture-recapture estimate of the number of new HIV diagnoses
in children in France during 2003-2006 with multiple imputation of a variable
of heterogeneous catchability.

A three-source capture-recapture estimate of the number of new HIV diagnoses in


children in France during 2003-2006 with multiple imputation of a variable of
heterogeneous catchability.

Corresponding author:
Vanina Hraud-Bousquet
email: v.bousquet@invs.sante.fr
Tel: 00 33 1 41 79 66 76
Fax: 00 33 1 41 79 68 02

Authors:
Vanina Hraud-Bousquet : Institut de Veille Sanitaire, Dpartement des maladies infectieuses,
St Maurice.
Florence Lot : Institut de Veille Sanitaire, Dpartement des Maladies Infectieuses, St Maurice.
Maxime Esvan : Institut de Veille Sanitaire, Rennes.
Franoise Cazein : Institut de Veille Sanitaire, Dpartement des Maladies Infectieuses, St
Maurice.
Josiane Warszawski : Inserm CESP U1018, Le Kremlin-Bictre. Universit Paris-Sud, Le
Kremlin Bictre. AP-HP, Public Health Department.
Corinne Laurent : Inserm CESP U1018, Le Kremlin-Bictre. AP-HP, Public Health Department.
Pascale Bernillon : Institut de Veille Sanitaire, Dpartement des Maladies Infectieuses, St
Maurice.
Anne Gallay : Institut de Veille Sanitaire, Dpartement de Coordinations des Alertes et des
Rgions, St Maurice.

ABSTRACT
Background: Nearly all HIV infections in children worldwide are acquired through mother-tochild transmission (MTCT) during pregnancy, labour, delivery or breastfeeding. The objective of
our study was to estimate the number of new HIV diagnoses in children under 13 years of age
in mainland France during 2003-2006.
Methods: We performed a capture-recapture analysis based on three sources of information:
the mandatory HIV case reporting (DOVIH), the French Perinatal Cohort (ANRS-EPF) and a
laboratory based surveillance of HIV (LaboVIH). Missing values of a variable of heterogenous
catchability were estimated through multiple imputation. Log-linear modelling provided
estimates of the number of new HIV infections in children, taking into account dependencies
between sources and variables of heterogeneous catchability.
Results: The three sources reported 216 new HIV diagnoses. The number of new HIV
diagnoses in children was estimated at 387 (95%CI 271-503) during 2003-2006, among whom
60% were born abroad. The estimated rate of new HIV diagnoses in children in mainland
France was 9.1 per million in 2006 and was 38 times higher in children born abroad than those
born in France. The estimated completeness of the three sources combined was 55.8% (CI
95% [42.9 79.7]) and varied according to the source : completeness of DOVIH (28.4%) and
EPF (26.1%) were lower than LaboVIH (33.3%).
Conclusion: Our study provided for the first time an estimated annual rate of new HIV
diagnoses in children under 13 years old in mainland France. A more systematic HIV screening
of pregnant women, repeated during pregnancy among women likely to engage in risky
behavior, is needed to optimize prevention of MTCT. The high prevalence of HIV infection in
some regions of the world justifies the proposal of a screening test to children who migrate to
France. Thus, children diagnosed as HIV infected would benefit from an early and appropriate
treatment.

INTRODUCTION
Nearly all HIV infections in children worldwide are acquired through mother-to-child
transmission (MTCT) during pregnancy, labour, delivery or breastfeeding. Worldwide, it has
been estimated that there were 430 000 new pediatric infections in 2008 [1]. Nearly all such
infections can be avoided by MTCT prevention programmes.

In France, the risk of HIV transmission from mother to child has been dramatically reduced
since the end of the eighties by the prophylactic use of antiretroviral therapy (ART) during
pregnancy and the administration of these drugs to the baby during the first weeks of life and is
now only around 1% [2]. Early diagnosis of HIV infection during pregnancy and early treatment
of the mother allow an effective prevention of mother-to-child HIV transmission. In France, the
national policy since 1993 is to offer universal voluntary HIV testing in the first trimester of
pregnancy.

It is estimated that about 1,500 children are living with HIV in France among a total of 150,000
people HIV positive and that 10 to 15 new HIV infections are diagnosed in newborns each year
[3]. In addition, new cases of HIV-infection are regularly diagnosed in children born abroad (in
high endemic HIV countries), after arrival in France, for whom no estimates are currently
available.

In this paper we estimate the total number of new HIV diagnoses in children under 13 years old
in mainland France during the 2003-2006 period using capture-recapture methods. We used
three data sources: the mandatory HIV case reporting (DOVIH), the French perinatal cohort
(ANRS-EPF) and the HIV laboratory surveillance system (LaboVIH). We also assessed the
completeness of the mandatory reporting of HIV in children and the French perinatal cohort.

METHODS
The capture-recapture method allows to estimate the total number of cases of a disease by
matching cases reported in at least two sources [4].

Case definition
Cases were defined as new HIV diagnoses in children under 13 years old, according to
biological criteria [3], in mainland France during the 2003-2006 period.

Description of the three data sources


The mandatory HIV case reporting (DOVIH)
The mandatory HIV case reporting was implemented in 2003 by the French Institute for Public
Health Surveillance (InVS) to follow the epidemic trends and to describe characteristics of HIV
infections newly diagnosed [5]. Any HIV positive diagnosis confirmed for the first time by a
microbiologist has to be notified with a unique anonymous code for each person allowing the
detection of duplicates. Clinicians complete a notification form with epidemiological and clinical
data. For children under 13 years old, the case reporting is based on pediatricians. Notifications
are sent to the district health authorities and then transmitted to the InVS. All information are
entered into a national database. To take into account reporting delays, cases were selected in
the data set including notifications up to the 31st March 2010.

The ANRS French Perinatal Cohort (ANRS-EPF CO1/CO10/CO11)


The French perinatal cohort, supported by the French National Agency for AIDS Research
(ANRS) has prospectively collected data on HIV-infected pregnant women and their children in
around one hundred centers throughout France since 1984 [2]. Informed consent is obtained
from all mothers. Inclusion criteria were extended since 2005 to all children <13 years old
recently diagnosed for HIV in the pediatric sites borne to mothers not included in the EPF, with
parental consent. Semestrial clinical and biological examinations are collected since birth to 18
4

years for infected children and to 24 months for non infected children. Duplicates are deleted.
The objectives of this cohort are to identify factors associated with HIV MTCT, to evaluate
tolerance to ART prophylaxis among pregnant women and their babies, and to assess the
prognosis of pediatric HIV infection. Cases meeting the inclusion criteria were selected in the
database updated in April 2008.

The laboratory surveillance (LaboVIH)


Since 2001, the InVS has implemented a national surveillance of the HIV testing activity in
France. The number of HIV tests performed and the number of HIV positive confirmed
diagnoses for the first time are collected from the 4,200 French microbiological laboratories
each year [6].
Among the participating laboratories (85% response rate), those who reported at least one new
HIV diagnosis in children under 15 years old from 2003 to 2006 were included in our survey.
Those 137 laboratories were asked to complete a questionnaire in order to collect individual
information for each pediatric diagnosis. Among these 137 laboratories, 113 reported pediatric
HIV cases. Duplicate notifications were identified and deleted.

Identification of common cases between sources


Because no common identification code was available among the three sources, algorithms
were set up using variables common to all three sources in order to detect common cases. Date
of birth, sex, reference hospital (or district number) and date of diagnosis (or date of the first
medical care) were available in all three sources. The algorithm detecting common cases
between the sources DOVIH and EPF included also the maternity of birth for children born in
France or the country of birth for others, the mothers country of origin and the vital status of the
children.

The identification of common cases between sources was performed with the SQL
procedure in SAS 9.1 version and was completed by a manual verification of matched
records.

Imputation of the variable country of birth in the source LaboVIH


We wanted to estimate the total number of new HIV diagnoses according to the place of birth:
born in France or born abroad. This binary variable was not collected in the source LaboVIH.
However it was partly available for cases of LaboVIH that matched the two others sources of
information (DOVIH and the EPF) in which this information had been collected. The overall
proportion of missing values for this variable was around 30% (66/216) globally and varied
according to sources: 59.6% (64/129) in LaboVIH, 1.8% (2/110) in DOVIH and 0.0 % in EPF.
We estimated missing values through a multiple imputation (MI) method, which consists in using
the distribution of the observed data to estimate a set of plausible values for the missing
observations [7]. Multiple data sets were created and an estimate was calculated for each
imputed data set. The estimates were then combined to obtain overall estimates, variances and
confidence intervals.

The MI method applied was multiple imputation by chained equations using Stata's user written
program ice (STATA 11.0, Stata Corporation, College Station, Texas, USA) {Royston, 2009
169 /id;Van Buuren S., 1999 20 /id}. The variables age (continuous), region of diagnosis
(categorical) and year of diagnosis (categorical) were completely observed and used as
predictors in the imputation model. As the variable place of birth contained 30% of missing
values, we chose to generate 100 imputed data sets.

Capture-recapture estimates
The reliability of the estimates depends on the respect of conditions including (1) the absence of
false positive cases, (2) a closed population, (3) identification of all and only true common
6

cases, (4) independence between sources and (5) capture homogeneity [4]. Two sources are
independent when the probability for a case to be reported in a source does not depend on the
probability to be reported in the other source. For three or more sources analyses, the
independence assumption is not any more required as interaction terms can be incorporated
into regression models to adjust for source dependencies. Homogeneity of capture is fulfilled
when the probability for a case to be reported in a source is the same for all cases, that is to say
the probability of notification does not depend on its characteristics (i.e., age, sex, place of birth
etc.). This probability may vary from one source to another or be constant overall [4].

Dependence between sources was first assessed by comparing the estimates provided by each
pair of sources [10, 11] and by calculating the odds ratio between two sources among cases
notified to the other one (and its 95 %CI) as proposed by Wittes [4].

A preliminary three-source analysis was performed by fitting 8 log-linear models to the data
arranged in a 23 contingency table according to case presence or absence in each source. The
dependent variable for each model is the logarithm of the number of cases in each of the 7 nonempty cells of the contingency table. These preliminary analyses assumed homogeneity of
capture within each source and were performed using the Statas user written program recap
[12]. The latter is a STATA module providing standard three-source capture-recapture analyses
without covariates. Confidence interval estimates for the population size are computed
according to a goodness-of-fit based method proposed by Regal et Hook [13].
Then, three variables of potential heterogeneous catchability were considered: place of birth
(born in France; born abroad), region of diagnosis (Paris area; other regions), and year of
diagnosis (2003 to 2006). Data were then arranged in a 23x2x2x4 contingency table. Log-linear
models were fitted via the STATA glm command specifying a logarithmic link and a Poisson
distribution. A manual backward stepwise variable selection procedure was performed starting
with the model including all two-way interactions between sources, between sources and
7

variables of catchability, and between variables of catchability. Log-linear modelling was jointly
performed for the 100 imputed data sets using the Stata 11.0 analysis module mi estimate
applying Rubins rules.

Population size estimates, calculated as a sum of exponentiated regression coefficients, were


obtained through commands specific to MI. Their respective variances were estimated using the
delta method. Confidence intervals were computed using Students t statistics with degrees of
freedom specific to each coefficient depending both on the number of imputations and on the
proportion of missing values.

Classically, in capture-recapture studies, the choice of the final model is based on the likelihood
ratio test statistic (G2), the Akaike Information Criterion (AIC) and the Bayesian Information
Criterion adapted by Draper (DIC) which are functions of the likelihood ratio statistic [14, 15].
AIC and DIC criteria were derived for each imputed data set according to the following formulas:
AIC = G 2 2(df ) and DIC = G 2 (ln ( N obs 2 )) (df ) where df is the number of degrees of
freedom associated with any model.

The nave approach averaging the likelihood ratio statistic over the imputed data sets does not
provide accurate p-values [16]. The pooled likelihood ratio test statistic and its corresponding pvalue were calculated using the Meng and Rubin approach [17], recently illustrated by Marshall
et al. [18]. Each log-linear model was constrained to the regression coefficients obtained from
the joint analysis (i.e. the average over the 100 imputed data sets according to Rubins rules).
The AIC and DIC estimates were the average of the 100 AICs and DICs. We selected the most
parcimonious model among models with a goodness-of-fit p-value >0.05, and with the lowest
AIC and DIC values.

This method, by selecting a single model, ignores the issue of model uncertainty [15]. We
calculated a composite estimate derived from all the K models involved in the stepwise
procedure as suggested by Draper [14]. We retained the DIC weighted estimate (Weighted
K

DIC) which is expressed as N WDIC = N i e ( DICi / 2 )


i =1

e (

DICi / 2 )

, where N i is the estimate

i =1

associated with the model i, and DICi is the DIC associated with the model i (i=1,,K).

Source completenesses were estimated by dividing the number of new HIV diagnoses reported
in each source by the total number estimated by the final log-linear model. The completeness
was also calculated for each stratum of place of birth, year of diagnosis and region of
diagnosis.

The annual rate of new HIV diagnoses was the estimated number of new HIV diagnoses divided
by the size of the population of children under 13 years old living in mainland France up to
December 2007 [19]. The rate was also calculated according to the place of birth, knowing the
number of children less than 13 born in France or abroad.

RESULTS
Cross-matches
The three sources reported 216 new HIV diagnoses in children under 13 years old, in mainland
France, between January the 1st, 2003 and December the 31st, 2006 (Figure 1). After
imputation of the variable place of birth, 60% of the children newly diagnosed were born
abroad (Table 1). The distribution of new HIV diagnoses according to the place of birth and the
age group varied between sources. The proportion of children born abroad in children aged
over 1 year was greater in the source DOVIH and in EPF cohort than in LaboVIH.

Capture-recapture estimates
When performing two-source capture-recapture analysis, the estimate of the number of new
HIV diagnoses provided by matching sources DOVIH and EPF (Nest = 188; 95%CI [171 206])
was lower than the estimate provided by matching LaboVIH and EPF (Nest = 261; 95%CI [224297]) and LaboVIH and DOVIH (Nest = 330; 95%CI 272-389), suggesting a positive dependence
between the sources DOVIH and EPF. The Wittes odds ratio confirmed the dependence
between the sources DOVIH and EPF (OR = 5,4 ; 95%CI [2,5-12,1]) and suggested a positive
dependence between LaboVIH and EPF (OR = 2,2 ; 95%CI [1.0-4,8]).

Preliminary log-linear modelling using the three sources and including the dependencies
between sources provided an estimate of 369 (95%CI [294-521] new HIV diagnoses during the
2003-2006 period (Table 2). This model took into account two dependencies between sources
(DOVIH*EPF and EPF*LaboVIH).

When considering the dependencies with variables of catchability, the model with the lowest
AIC and a likelihood ratio test with p>0.05 provided an estimate of 387 (95%CI [271-503]) new
HIV diagnoses during the same period (Table 3). This model (model 8) included two interactions
between sources, interactions between sources and variable of catchability (DO*place of birth,
EPF*place of birth, DO*region of diagnosis, EPF*region of diagnosis, LaboVIH* region of
diagnosis, and EPF*year of diagnosis). The corresponding weighted estimate was 384 new HIV
diagnoses. The estimated annual number of new HIV diagnoses decreased over time from 108
in 2003 to 89 in 2006 (Table 4).

The estimated completeness of the three sources combined was 55.8% (CI 95% [42.9 79.7])
but varied according to the source (Table 4). Completeness of DOVIH (28.4%) and EPF(26.1%)
were lower than LaboVIH (33.3%). Completeness slightly decreased in both DOVIH and EPF
since 2004, and particularly during the last year (2006). Completeness was greater in the Paris

10

area than in other regions in the three sources, and was greater for children born in France
rather than abroad in the sources EPF and LaboVIH.

Based on the estimated number of new diagnosis obtained in table 4, the rate of new HIV
diagnoses in children under 13 years old in mainland France was 9.1 per million (CI 95% [5.7
12.5]) in 2006. This annual rate was 38 times higher in children born abroad (161.1 per million)
than in children born in France (4.2 per million).

DISCUSSION
Our study provided for the first time an estimate of the total number of new HIV diagnoses in
children under 13 years old in mainland France, during the 2003-2006 period (n = 387). The
three sources combined reported more than two-thirds of cases. Nonetheless, the
completeness of the mandatory notification system (DOVIH) and the French perinatal cohort
(EPF) were low (<30%).

Estimating missing values


The variable place of birth was not recorded in the source LaboVIH but was nearly complete
for the other two sources. Usually, the standard approach in capture-recapture is to ignore
variables not available in every source, which often leads to biased estimates of the population
size [20]. One approach commonly used to analyze incomplete data sets is to fill in each
missing data with an imputed value and analyze the data set as if it were complete. Such
methods of single imputation are not statistically valid, may yield biased estimates, and lead to
underestimated variances [21]. Two methods are currently recommended to handle missing
values adequately, maximum likelihood estimation and multiple imputation (MI). These methods
are asymptotically equivalent and require the same assumption that the data are missing at
random (MAR), meaning that the missing data mechanism depends on observed values only [7,

11

22]. In our study, the variable place of birth was missing by design in the source LaboVIH. As
a result, the missingness provides no information about the underlying process, implying that
the MAR assumption is met.

Only few studies reported imputation of unobserved values in capture-recapture applications


[20, 23, 24], and maximum likelihood estimation using an Expectation Maximisation (EM)
algorithm was applied. Van der Heidjen et al. [24] estimated missing values for variables of
heterogeneous catchability that were not collected in all sources such as gender and region of
residence. The authors stressed that the Expectation Maximization (EM) algorithm often
involves complex numerical integration (step E) and that multiple imputation has the advantage
of being computationally much simpler for most practical situations (specially for incomplete
continuous variables) [25].

Model selection and estimation


The final model selection in the stepwise selection analysis including variables of catchability
was based on the AIC and DIC, provided the goodness of fit of this model is correct according
to the likelihood ratio test. The approach proposed by Meng et Rubin was applied to carry out
the likelihood ratio test, and provided p-values slightly lower than the nave approach (data not
shown). A limitation of our study is that AIC/DIC criteria have been obtained by averaging their
values over the imputed data sets and should be interpreted with caution [16]. Differences
between models according to these criteria may be overestimated, and may lead to select a
model too complex. Nevertheless, in our application, the model selected according to the
AIC/DIC (model 9) was simpler than the one selected according to the likelihood ratio statistic
(model 8), and the overall estimates provided by these two models were identical (387.0). We
retained the less parcimonious model (model 8) to ensure that the adequacy of the model was
correct according to the likelihood ratio statistic (p=0.07). Moreover, model 8 included an
interaction between EPF and year of diagnosis, which appeared sensible.

12

An advantage of MI is that standard errors and CI of the estimates are directly available as part
of the model estimation. A parametric bootstrap approach has been recommended to calculate
CI for the final estimate [26, 27]. This method yields asymetrical CI, and allows one to take
model uncertainty into account. Future research should adress the possibility to combine this
approach with multiple imputation.

Capture-recapture method conditions of application


Our estimates should be considered with caution, since all the conditions of application of the
capture-recapture method have not been met [4]. The algorithms of identification of the common
cases between sources combined several criteria. Thus, false positive or false negative
matches might have been induced, leading respectively to an under- or overestimated number
of new HIV diagnoses. However, because of the small number of common cases, we were able
to validate all identified matches by checking all other available variables, minimising the
number of false positive. Cross-match with the source LaboVIH was performed according to a
set of few variables which could generate false-negative matches. The complementary
investigation for the source LaboVIH was performed only among laboratories participating to the
LaboVIH surveillance and may have missed HIV diagnoses in non participating laboratories
(15%). Moreover, only the participating laboratories which reported HIV diagnoses in children
were required to give details on each case, assuming the other laboratories had not done any
diagnosis in children. Finally, 20% of the laboratories did not answer the complementary
investigation.

The study period and the geographic area were the same for all the sources. However, it was
estimated that the EPF cohort covered 70% of the HIV-positive pregnant women which could
have introduced a bias in the estimation. However, if such a bias did exist, it would be difficult to
surmise its direction (towards an over or under-estimation).

13

The positive dependence between the sources DOVIH and EPF may be explained by the
heightened paediatricians awareness that participate in the EPF cohort for several years, to
report to the mandatory notification implemented in 2003. Two large laboratories participated to
both the EPF cohort and the laboratory survey which could result in a positive dependence
between the sources EPF and LaboVIH.

Estimates of number of new HIV diagnoses


Among the 89 estimated new HIV diagnoses in children under 13 years old in 2006, about 40
occurred in children born in France. This estimate is more than the double of the number of
about 15 commonly reported [3]. The latter estimate is based on the following reasoning: 1,500
HIV-positive pregnant women deliver each year with a MTCT rate of 1% if the pregnant woman
is known as HIV-positive. However, this calculation does not take into account women who are
not tested for HIV during pregnancy, and women who seroconvert during pregnancy following a
first negative test, with a much higher risk of transmission. In absence of any prevention
strategy, the HIV MTCT rate was around 20% in France before 1994 [28]. Such situations were
identified in a retrospective analysis of children diagnosed with HIV infection at Necker Hospital
in Paris [29].

Our capture-recapture findings allowed us to estimate the rate of new HIV diagnoses in children
in mainland France at 9.1 per million in 2006. This rate was 38 times greater for children born
abroad than those born in France. This ratio is higher than that observed in adults (6,0 per
million in adults born abroad versus 0,6 in those born in France) [6] and could be explained by
lower access to HIV screening and to prevention of MTCT during pregnancy in HIV-endemic
countries.

14

Our results can be compared to data of the United Kingdom as both countries have similar
sized populations (around 60 millions of whom 10 millions of children), similar concentrated HIV
epidemics and similar sized foreign born populations (around 8% of the total population and
around 0.5 million from sub-Saharan Africa). The rate of new HIV diagnoses in children under
15 in UK in 2006 was close but greater (10.1 per million) than our estimate in France. This is
likely to be due to different HIV prevalence rates within countries of origin (Eastern or Southern
Africa versus Western or Central African countries where HIV prevalence is lower). The number
of new diagnoses has decreased in UK from 2003 to 2006 (from 148 to 117) as in France and
has continued to decline since [30]. As in France, two-thirds of children diagnosed as HIVinfected in the UK were born abroad [31].

Completenesses
The completeness of the mandatory notification of new HIV diagnoses in children was low
(28%) compared to the estimated completeness of the overall system (62% in 2004) [6]. This
difference might be due to the participation of biologists to the mandatory notification of HIV
diagnoses adults only, allowing the recall of clinicians who have not reported the cases. The
notification system of HIV infection in children was modified in 2007: biologists have also to
report new HIV diagnoses in children. However, low completeness and modification of the
surveillance system make it difficult to assess trends in new HIV diagnoses since 2007.

Several hypotheses may explain the low completeness for HIV diagnoses in children in EPF
(26%) as well as the capture heterogeneity according to the place of birth (children born abroad
less reported than children born in France). As mentioned above, around 70% of HIV pregnant
women are included in the EPF cohort. The EPF cohort has prospectively collected data on
HIV-infected children until 2004 only if they were born from mothers known as HIV-infected at
delivery in EPF sites. Data on infected children born from mothers not included in EPF, that is
who delivered abroad or who have not been diagnosed as HIV-infected during pregnancy, have

15

been collected retrospectively for 2003 and 2004, and prospectively since 2005. Thus, cases
may have been missed. Moreover, obtaining parental consent after HIV diagnosis in children
requires more time and motivation from paediatricians than asking consent to pregnant women.

CONCLUSION
Our study provided for the first time an estimated annual rate of new HIV diagnoses in children
under 13 years old in mainland France. A more systematic HIV screening of pregnant women,
repeated during pregnancy among women likely to engage in risky behavior, is needed to
optimize prevention of MTCT. The high prevalence of HIV infection in some regions of the
world, especially in sub-Saharan Africa, justifies the proposal of a screening test to children who
migrate to France. Thus, children diagnosed as HIV infected would benefit from an early and
appropriate treatment. Notification of new HIV diagnoses in children should also be improved in
order to better describe the evolving epidemiology of HIV infection in children.

16

Competing interests
The authors declare that they have no competing interests.
Authors contributions
VHB contributed to study conception, carried out the statistical analysis and prepared the final
draft of the manuscript. AG conceived and supervised the study, and helped to draft the
manuscript. FL participated in the design of the study and coordination, and helped to draft the
manuscript. FC, JW, and CL participated to the data gathering and contributed to interpretation
of the study. ME participated in the design of the study, contributed to the acquisition of data,
and helped performing the statistical analysis. PB supervised the statistical analysis and helped
to draft the manuscript. All authors critically revised and approved the final manuscript.
Acknowledgements
We thank all the laboratories which participate in LaboVIH surveillance, all the paediatricians
who report notifications of HIV diagnoses in children, and all the investigators and participating
centers of the ANRS French Perinatal Cohort.
The French Institute for Public Health Surveillance conducted this study as part of his
surveillance activities and is funded by the French Ministry of Health. The French perinatal
cohort is funded by the French National Agency for AIDS Research (ANRS). Vanina HraudBousquet is funded by a doctoral grant by the French National Agency for AIDS Research [n
NM/DF/1754 ].

17

Reference List
1. UNAIDS, WHO. AIDS epidemic update. December 2009.
2. Warszawski J, Tubiana R, Le Chenadec J, Blanche S, Teglas JP, Dollfus C, Faye A,
Burgard M, Rouzioux C, Mandelbrot L: Mother-to-child HIV transmission despite
antiretroviral therapy in the ANRS French Perinatal Cohort. AIDS 2008, 22:289-299.
3. Yeni P: Prise en charge mdicale des personnes infectes par le VIH: MdecineSciences Flammarion; 2010.
4. Hook EB, Regal RR: Capture-recapture methods in epidemiology: methods and
limitations. Epidemiol Rev 1995, 17:243-264.
5. Lot F, Semaille C, Cazein F, Barin F, Pinget R, Pillonel J, Desenclos JC: Preliminary
results from the new HIV surveillance system in France. Euro Surveill 2004, 9:34-37.
6. Cazein F, Le Vu S, Pillonel J, Le Strat Y, Couturier S, Basselier B, Lot F, Semaille C:
Dpistage de l'infection par le VIH en France, 2003-2009. Bulletin Epidemiologique
Hebdomadaire 2010, 45-46:451-454.
7. Little RJA, Rubin DB: Statistical analysis with missing data. 2nd ed. New York: Wiley;
2002.
8. Royston P: Multiple imputation of missing values: further update of ice, with an
emphasis on categorical variables. Stata J 2009, 9:466-477.
9. Van Buuren S., Boshuizen HC, Knook DL: Multiple imputation of missing blood
pressure covariates in survival analysis. Stat Med 1999, 18:681-694.
10. Chapman DG: Some properties of the hypergeometric distribution. University of
California 1951, 1:131-160.
11. Seber GA: The effects of trap response on tag recapture estimates. Biometrics
1970:13-22.
12. van der Heiden M: Stata module to perform capture-recapture analysis for three
sources with goodness-of-fit based confidence intervals. Available from
http://ideas.repec.org/c/boc/bocode/s456859.html.; 2007.
13. Regal RR, Hook EB: Goodness-of-fit based confidence intervals for estimates of the
size of a closed population. Stat Med 1984, 3:287-291.
14. Draper D: Assessment and propagation of model uncertainty. J R Stat Soc [B] 1995,
57:45-70.
15. Hook EB, Regal RR: Validity of methods for model selection, weighting for model
uncertainty, and small sample adjustment in capture-recapture estimation. Am J
Epidemiol 1997, 145:1138-1144.
16. White IR, Royston P, Wood AM: Multiple imputation using chained equations: Issues
and guidance for practice. Stat Med 2011, 30:377-399.

18

17. Meng X, Rubin D: Performing likelihood ratio tests with multiply-imputed data sets.
Biometrika 1992, 79:103-111.
18. Marshall A, Altman DG, Holder RL, Royston P: Combining estimates of interest in
prognostic modelling studies after multiple imputation: current practice and guidelines.
BMC Med Res Methodol 2009, 9:57.
19. National Institute of Statistics and Economic Studies. National population census.
http://www.insee.fr/fr/themes/detail.asp?reg_id=0&ref_id=irsd2008&page=irweb/sd2008/dd/sd2008_population.htm (accessed Mai 10, 2011).; 2011.
20. Zwane EN, van der Heijden PG: Analysing capture--recapture data when some
variables of heterogeneous catchability are not collected or asked in all registrations.
Stat Med 2007, 26:1069-1089.
21. Allison PD: Missing data. Iowa City: Sage Publication; 2002.
22. Schafer JL, Graham JW: Missing data: our view of the state of the art. Psychol
Methods 2002, 7:147-177.
23. Robb ML, Bohning D: Imputing unobserved values with the EM algorithm under left
and right-truncation, and interval censoring for estimating the size of hidden
populations. Biom J 2011, 53:75-87.
24. van der Heijden PG, Zwane E, Hessen E: Structurally missing data problems in
multiple list capture-recapture data. A StA Adv Stat Anal 2009, 93:5-21.
25. Zwane E, van der Heijden PG: Capture-recapture studies with incomplete mixed
categorical and continuous covariates. J Data Sci 2008, 6:557-572.
26. Buckland ST, Burnham KP, Augustin NH: Model selection: an integral part of inference.
Biometrics 2009, 53:603-618.
27. Sutherland JM, Schwarz CJ, Rivest LP: Multilist population estimation with incomplete
and partial stratification. Biometrics 2007, 63:910-916.
28. Mayaux MJ, Blanche S, Rouzioux C, Le CJ, Chambrin V, Firtion G, Allemon MC, Vilmer E,
Vigneron NC, Tricoire J, .: Maternal factors associated with perinatal HIV-1 transmission:
the French Cohort Study: 7 years of follow-up observation. The French Pediatric HIV
Infection Study Group. J Acquir Immune Defic Syndr Hum Retrovirol 1995, 8:188-194.
29. Macassa E, Burgard M, Veber F, Picard C, Neven B, Malhaoui N, Rouzioux C, Blanche S:
Characteristics of HIV-infected children recently diagnosed in Paris, France. Eur J Pediatr
2006, 165:684-687.
30. Health Public Agency. United Kingdom. New HIV diagnoses data to end December
2010. Tables N2; 2010.
31. Health Public Agency. HIV in the United Kingdom:2010. Health protection report. 4(47)
edition; 2010.

19

Figures legend
Figure 1. Distribution of new HIV diagnoses in children identified by the three sources (N=216).

20

Table 1. Distribution of new HIV diagnoses after multiple imputation according to place of birth
and age.
Total

Born abroad
Born in France

DOVIH

EPF

LaboVIH

< 1 year

1 year

< 1 year

1 year

< 1 year

1 year

130
(60.2%)
86
(39.8%)

1
(12.5%)
7
(87.5%)

24
(85.8%)
4
(14.3%)

1
(12.5%)
7
(87.5%)

9
(75%)
3
(25%)

4
(33.3%)
8
(66.7%)

37
(71.2%)
15
(28.8%)

216

28

12

12

52

DOVIH : Mandatory notification system for HIV; EPF: French peri-natal survey; LaboVIH : Survey evaluating the
screening activity for HIV in laboratories

21

Table 2. Preliminary log-linear analyses assuming homogeneity of capture within each source.

Log-linear models
Dependencies between
sources
LaboVIH*DOVIH,
LaboVIH*EPF, DOVIH*EPF
LaboVIH*DOVIH,
LaboVIH*EPF
LaboVIH*DOVIH, DOVIH*EPF
LaboVIH*EPF, DOVIH*EPF
LaboVIH*DOVIH, EPF
LaboVIH*EPF, DOVIH
DOVIH*EPF, LaboVIH
LaboVIH, DOVIH, EPF

95% CI

df

G2

AIC

DIC

126

342

259,573

23

239

225,263

18.83

<10-4

16.83

16.89

58
153
29
51
85
49

274
369
249
267
301
265

243,331
294,521
234,272
245,300
268,349
246,292

1
1
2
2
2
3

3.78
0.24
18.49
30.12
5.96
30.2

0.05
0.63
<10-4
<10-4
0.05
<10-4

1.78
-1.76
14.49
26.12
1.96
24.20

1.84
-1.71
14.6
26.23
2.07
24.36

DOVIH : Mandatory HIV case reporting; EPF: French perinatal cohort; LaboVIH : Survey evaluating the screening
activity for HIV in laboratories

n : Estimate of the number of diagnoses not reported to any source; N : Estimate of the number of diagnoses;
95% CI : 95% confidence interval for N ; df: number of degrees of freedom; G : deviance statistic; p: p-value of
the deviance goodness-of-fit test; AIC : Akaike Information Criterion; DIC : Draper Information Criterion

22

Table 3. Log-linear analyses incorporating variables of potential heterogeneous catchability.

)
95% CI ( N

df

AIC

DIC

Model 1: DO*LABO, DO*EPF,


LABO*EPF,DO*place, Labo*place,
EPF*place, DO*region, Labo*region,
EPF*region, DO*year, Labo*year, EPF*year,
place*region, place*year, region*year.

108.3

324.3

210.9,437.6

78

93.84

0.07

-62.16

-130.85

Model 2: DO*LABO, DO*EPF,


LABO*EPF,DO*place, EPF*place,
DO*region, Labo*region, EPF*region,
DO*year, Labo*year, EPF*year,
place*region, place*year, region*year.

106.9

322.9

211.2,434.5

79

93.95

0.08

-64.05

-133.62

Model 3: DO*LABO, DO*EPF,


LABO*EPF,DO*place, EPF*place,
DO*region, Labo*region, EPF*region,
DO*year, Labo*year, EPF*year,
place*region, place*year.

108.6

324.6

211.7,437.5

82

96.17

0.10

-67.83

-140.05

Model 4: DO*EPF, LABO*EPF,DO*place,


EPF*place, DO*region, Labo*region,
EPF*region, DO*year, Labo*year, EPF*year,
place*region, place*year.

148.0

364.0

257.9,470.1

83

96.82

0.10

-69.18

-142.27

Model 5: DO*EPF, LABO*EPF,DO*place,


EPF*place, DO*region, Labo*region,
EPF*region, DO*year, Labo*year, EPF*year,
place*year.

152.3

368.3

259.9,476.7

84

98.31

0.10

-69.69

-143.66

Model 6: DO*EPF, LABO*EPF,DO*place,


EPF*place, DO*region, Labo*region,
EPF*region, Labo*year, EPF*year,
place*year.

143.3

359.3

259.1,459.6

87

102.28

0.09

-71.72

-148.34

Model 7: DO*EPF, LABO*EPF,DO*place,


EPF*place, DO*region, Labo*region,
EPF*region, EPF*year, place*year.

140.8

356.8

258.0,455.6

90

105.54

0.09

-72.46

-153.71

Model 8: DO*EPF, LABO*EPF,DO*place,


EPF*place, DO*region, Labo*region,
EPF*region, EPF*year.

171.0

387.0

271.0,502.9

93

112.72

0.07

-73.28

-155.17

Model 9: DO*EPF, LABO*EPF,DO*place,


EPF*place, DO*region, Labo*region,
EPF*region.

171.0

387.0

271.0,502.9

96

118.48

0.05

-73.52

-158.06

Log-linear models

Weighted DIC

384.26

DOVIH : Mandatory HIV case reporting; EPF: French perinatal cohort; LaboVIH : Survey evaluating the screening activity for
HIV in laboratories

: Estimate of the number of diagnoses; 95% CI : 95%


: Estimate of the number of diagnoses not reported to any source; N

df: number of degrees of freedom; G : deviance statistic; p: p-value of the deviance goodness-of-fit
confidence interval for N
;
test; AIC : Akaike Information Criterion; DIC : Draper Information Criterion
) provided by each model (p>0.05)
Weighted DIC estimate: weighted average of all estimates ( N

23

188.9

387

other regions

Total

(271;503)

(101.0;276.8)

216

77

55.8

40.8

70.2

55.5

130

139

56.4

49.7

57.8

59.5

55.8

Compl(%)

86

44

53

59

60

N obs

Total

(42.9;79.7)

(27.8;76.2)

(57.6;89.9)

(42.0;81.8)

(42.0;85.7)

(36.1;79.4)

(43.8;85.0)

(45.6;85.7)

(42.0:82.9)

(95% CI)

110

31

79

73

37

18

27

35

30

N obs

28.4

16.4

39.9

31.1

24.2

20.3

29.5

35.3

27.9

Compl(%)

DOVIH

(21.9;40.1)

(11.2;30.7)

(32.7;51.1)

(23.6;45.9)

(18.1;36.9)

(14.8;32.5)

(22.3;43.3)

(27.0;50.8)

(21.0;41.4)

(95% CI)

101

22

79

54

47

14

27

32

28

N obs

26.1

11.6

39.9

23.0

30.8

15.8

29.5

32.3

26.0

Compl(%)

EPF

(20.1;37.3)

(7.9;21.8)

(32.7;51.1)

(17.4;34.0)

(22.9;46.8)

(11.5;25.3)

(22.3;43.3)

(24.7;46.5)

(19.6:38.7)

(95% CI)

129

47

82

74

55

30

34

35

30

N obs

33.3

24.9

41.4

31.6

36.0

33.9

37.1

35.3

27.9

Compl(%)

LaboVIH

24

: Estimate of the number of diagnoses;

N obs

(25.6;47.6)

(17.0;46.5)

(34.0;53.0)

(23.9;46.6)

(26.8;54.8)

(24.6;54.2)

(28.1;54.5)

(27.0;50.8)

(21.0;41.4)

(95% CI)

: Number of diagnoses observed; Compl : Completeness; 95% CI : 95% confidence interval for completeness

DOVIH : Mandatory notification system for HIV; EPF: French peri-natal survey; LaboVIH : Survey evaluating the screening activity for HIV in laboratories

198.1

Paris area

(154.7;241.4)

(158.9;309.9)

Region of diagnosis

France
foreign
country

(55.4;121.8)

234.4

88.6

2006

(62.4;120.9)

(100.3;204.9)

91.7

2005

(68.9;129.4)

(72.4;142.7)

(95% CI)

152.6

99.1

Place of birth

107.6

2004

2003

Year of diagnosis

Strata

Table 4. Estimates of completeness of each source (model 8).

Figure 1
EPF
101

DOVIH
110

20

31

36

28
22

15

64

LaboVIH
129

DOVIH : Mandatory notification system for HIV


EPF : French peri-natal survey
LaboVIH : Survey evaluating the screening activity for HIV in laboratories

Figure 1

Annexe 4
Hepatitis C virus genotype 3 and the risk of severe liver disease in a large
population of drug users in France.

Journal of Medical Virology 82:16471654 (2010)

Hepatitis C Virus Genotype 3 and the Risk of


Severe Liver Disease in a Large Population of
Drug Users in France
Christine Larsen,1* Vanina Bousquet,1 Elisabeth Delarocque-Astagneau,1,2
Corinne Pioche,1 Francoise Roudot-Thoraval,3 the HCV surveillance steering committee,
the HCV surveillance group and Jean-Claude Desenclos
1

Institut de veille sanitaire (InVS), Saint-Maurice, France


Institut Pasteur, Unite depidemiologie des maladies emergentes, Paris, France
3
Centre hospitalier universitaire, APHP-Henri Mondor, Creteil, France
2

Although risk factors for cirrhosis in chronic


hepatitis C virus (HCV) infection have been
identified, the role of HCV-genotype 3 remains
controversial, and limited data are available in
drug users. The aim of the study was to assess risk
factors for severe liver disease (cirrhosis/hepatocellular carcinoma) in HCV-infected drug users
between 2001 and 2007 in France. Patients who
reported drug use and who had been referred for
HCV infection to hepatology centers from a
national surveillance system were identified. The
severity of liver disease was assessed clinically
and histologically (Metavir score). Factors associated with severe liver disease were analyzed
after estimating missing values by multiple imputation (MI). Of the 4,065 drug users naive to
anti-HCV treatment who were referred to the
26 participating centers, 8.0% had severe liver
disease, 25.7% were infected with HCV-genotype
3. Factors associated independently with an
increased risk of severe liver disease were HCVgenotype 3 (adjusted odds ratio, multiple imputation (aORMI) 1.6, [95% confidence interval, 95%
CI: 1.22.1]), HIV infection (aORMI 1.8, [1.22.8]),
male sex (aORMI 2.0, [1.42.8]), age over 40 years
(aORMI 2.1, [1.62.9]), history of excessive alcohol consumption (aORMI 2.8, [2.13.7]), and
duration of infection 18 years (aORMI 2.9,
[2.04.3]). This analysis shows that HCV-genotype
3 is associated with severe liver disease in drug
users, independently of age, sex, duration of
infection, alcohol consumption, and co-infection
with HIV. These results are in favor of earlier treatment for drug users infected with HCV- genotype 3
and confirm the need for concomitant care for
excessive alcohol consumption. J. Med. Virol.
82:16471654, 2010. 2010 Wiley-Liss, Inc.
KEY WORDS: alcohol; cirrhosis; drug users;
HCV genotype 3; HIV

2010 WILEY-LISS, INC.

INTRODUCTION
In France, the prevalence of anti-hepatitis C virus
(HCV) in injecting drug users ranges from 55% to 60%
[Jauffret-Roustide et al., 2009; Meffre et al., 2010]. In
addition, injecting drug users accounted for more than
two-thirds of the patients co-infected with HIV and HCV
[Larsen et al., 2008].
Factors associated with progression of liver fibrosis
have been well established, and are related to host
factors (age at contamination, male sex), comorbidities
(co-infection with HIV, heavy alcohol consumption),
metabolic conditions (obesity, steatosis, and diabetes
mellitus), and duration of infection [Massard et al.,

Christine Larsen, Vanina Bousquet, Elisabeth DelarocqueAstagneau have contributed equally.


The Hepatitis C surveillance steering committee (France): P.
Couzigou (Bordeaux), P. Marcellin (Clichy), F. Roudot-Thoraval
(Creteil), P. Hillon (Dijon), JP. Zarski (Grenoble), JP. Bronowicki
(Nancy), E. Delarocque-Astagneau (Paris), C. Sylvain (Poitiers),
D. Guyader (Rennes), O. Goria (Rouen).
The Hepatitis C surveillance group (France): D. Capron
(Amiens); P. Cales, I. Hubert-Fouchard (Angers); V. Di Martino
(Besancon); J. Foucher (Bordeaux); C. Guillemard (Caen); A.
Abergel (Clermont-Ferrand); MP. Ripault (Clichy); D. Dhumeaux
(Creteil); A. Minello (Dijon); A. Edouard (Fort de France); MN.
Hilleret (Grenoble); V. Canva (Lille), V. Loustaud-Rati (Limoges);
P. Pradat, C. Trepo (Lyon); JJ. Raabe (Metz); D. Larrey
(Montpellier); J. Gournay (Nantes); E. Marine-Barjoan, A. Tran
(Nice); X. Causse (Orleans); B. Nalpas, S. Pol (Paris); G. Thiefin
(Reims); H. Danielou (Rennes); K. Barange (Toulouse); L.
DAlteroche, EH. Metman (Tours).
Grant sponsor: Institut de veille sanitaire (French Ministry of
Health); Grant sponsor: Agence Nationale de Recherches sur le
Sida et les hepatites virales (ANRS).
*Correspondence to: Christine Larsen, Institut de veille
sanitaire, Departement des maladies infectieuses, 12 rue du Val
dOsne, 94415 Saint-Maurice Cedex, France.
E-mail: c.larsen@invs.sante.fr
Accepted 20 April 2010
DOI 10.1002/jmv.21850
Published online in Wiley Online Library
(wileyonlinelibrary.com)

1648

Larsen et al.

2006; Mallat et al., 2008]. Furthermore, co-infection


with HIV and a history of excessive alcohol consumption
are linked to death at an earlier age in patients infected
chronically with HCV as shown in a recent study on
mortality related to chronic hepatitis C in France
[Marcellin et al., 2008]. Viral induced steatosis linked
to HCV genotype 3 has also emerged as a cofactor for
progression of liver fibrosis in patients infected with
HCV [Rubbia-Brandt et al., 2004]. HCV genotype 3 is
also the most frequent genotype found among drug users
infected with HCV in France, accounting for more
than one third [Payan et al., 2005]. Excessive alcohol
consumption is common in this population, too [Campbell et al., 2006]. However, limited data are available on
factors associated with progression to liver fibrosis in
former or current injecting drug users infected by HCV.
In addition, with new antiviral treatment options and
efficacy, recommendations on antiviral treatment of
drug users infected with HCV have been expanded in
France [Dhumeaux et al., 2003] since the 2002 consensus conference on treatment of HCV infection.
In France, a surveillance system was set up to monitor
changes over time of the epidemiologic and clinical
characteristics of patients infected with HCV at the first
referral to hepatology reference centers; nearly 3,900
cases of chronic hepatitis C, of whom 35% acknowledged
drug use, have been recorded each year since 2001 by
this system. The aim of the present study was to assess
risk factors associated with severe liver disease in
patients infected with HCV who had reported drug use
using the data collected by this surveillance system.
METHODS
Study Population and Inclusion Criteria
Details of the methods have been described previously
[Delarocque-Astagneau et al., 2005]. Briefly, this
surveillance system based on voluntary participation
of 26 of the 30 existing hepatology reference centers was
set up in 2000 to monitor changes over time of the
epidemiologic and clinical characteristics of patients
infected with HCV at the time of their first referral.
Hepatology reference centers are located in University
hospitals throughout France. To be included, a case was
defined as a patient with anti-HCV antibodies who was
referred (first contact as an in- or out-patient) to any
participating reference center. Patients can be referred
by their general practitioner, by a specialist or by selfreferral. Patients included in the analysis were those
who reported having injected or snorted drugs at least
once in their lifetime. To ascertain the first referral,
patients with no prior histologic evaluation of their liver
disease at referral were selected for the analysis. The
surveillance system obtained ethical approval from the
French data protection authority (CNIL).

for HCV transmission, year of the last HCV negative test


(if available), date and the reasons for anti-HCV testing,
HCV RNA serum status, HCV genotype, co-infections
with HIV (anti-HIV serostatus) and hepatitis B virus
(hepatitis B surface antigen serostatus), history of
excessive alcohol consumption defined as more than
210 g of pure ethanol per week for women and 280 g for
men, and the number of years with excessive consumption. The severity of liver disease was assessed either by
liver biopsy (Metavir score [Bedossa and Poynard,
1996]) and/or by clinical evaluation including clinical
examination, biochemical tests, and imaging (mainly
abdominal ultrasound). The clinical evaluation was
graded as follows: repeated normal ALT values defined
as ALT levels below the upper limit of normal at three
consecutive tests within six months, chronic hepatitis
C, cirrhosis (compensated or not), and hepatocellular
carcinoma. Cirrhosis at clinical evaluation was defined
by the fibrosis Metavir score F4 when a liver biopsy was
carried out or by the association of clinical signs,
laboratory findings and ultrasound images used by all
participating centers [Schuppan and Afdhal, 2008]. The
diagnostic criteria used for hepatocellular carcinoma
were those established during the Barcelona-2000
EASL Conference [Bruix et al., 2001].
The form was modified in 2004 to include data on noninvasive assessment of liver fibrosis and on antiviral
therapy.
HCV genotyping was carried out by the referral
laboratories of the participating centers. Most of these
laboratories were involved in the French ANRS panel
quality control study in 2000 [Lefrere et al., 2004] and
the same standardized genotyping assays (Inno LiPA
assay) or other methods (sequencing, primer-specific
PCR) during the study period were used.
The database was checked regularly for duplicate
reporting in and between participating reference
centers.
The suspected year of HCV infection was defined by
the year of the last HCV negative test performed during
the drug-use period or year of first drug injection. Time
from the suspected year of infection to the year of
referral to the reference center was used as a surrogate
of the duration of HCV infection. The median duration
of infection was used to create a qualitative variable
(18 years; <18 years) in the univariate and multivariate analysis.
Patients included in the analysis were drug users with
HCV RNA in the serum who were naive to anti-HCV
treatment.
The outcome of severe liver disease was defined
as cirrhosis (compensated or not) or hepatocellular
carcinoma at the first referral, based on the clinical
assessment.
Statistical Analysis

Data Collection
A standardized notification form was used in all
centers to collect data routinely, including risk factors
J. Med. Virol. DOI 10.1002/jmv

Factors associated with severe liver disease. Univariate analysis was carried out to assess the characteristics associated with severe liver disease at clinical

HCV Genotype 3 and Cirrhosis in Drug Users

evaluation. Variables with P values <0.2 in univariate


analysis were entered into the multivariate analysis.
STATA1 9.2 statistical package was used for the analysis
(Stata Corporation, College Station, TX).
First, the general approach for multivariate analysis
was used including only patients who had no missing
data in any of the variables (complete case analysis).
However, six out of the eight variables included in the
multivariate model comprised 1027% of missing
values resulting in a loss of power and precision,
complication in data handling and analysis and potentially biased odds ratios (OR) due to differences between
the observed and unobserved data [Little and Rubin,
2002]. Therefore, missing values were estimated from
the observed values using multiple imputation (MI)
(imputation by chained equations, ice procedure
STATA1 9.2) [Royston, 2007]. Several complete data
sets (m 30) were created. Each data set was analyzed
separately, and the results were combined to obtain the
OR [Little and Rubin, 2002]. The sensitivity of the OR to
departures from the assumed missing mechanism was
tested for three variables (alcohol consumption, coinfection with HIV, and HCV genotype 3) using a
weighting approach developed by Carpenter et al.
[2007].
RESULTS
Of the 5,004 drug users who were referred for HCV
infection between 2001 and 2007 and who were naive to
anti-HCV treatment, 4,236 were HCV RNA positive and
were included in the analysis. The remaining 768 had
either a negative (n 455) or an unspecified (n 313)
result for HCV RNA.
Characteristics of the Study Population
Of the 4,236 patients positive for HCV RNA, 77% were
male; the median age was 39 years and the median
estimated duration of HCV infection was 18 years
(Table I). Co-infections with HBV and HIV were
diagnosed in 2% and 6%, respectively. A history of
excessive alcohol consumption was reported for 43%.
Among the 1,154 patients who reported heavy drinking
in the past with an available duration of excessive
consumption, 67% had drunk heavily for more than
5 years. HCV genotypes were mainly genotype 1 (36%)
and 3 (25%), the distribution of HCV genotypes remained stable over the study period.
A liver biopsy was carried out in 53.6% of the drug
users included in 20012003 and in 27.1% of those
included in 20042007. In the latter period, 29.2% had
an evaluation of fibrosis by non-invasive methods only.
A clinical evaluation of liver disease was available for
4,065 (96%) patients with HCV RNA, and severe liver
disease was diagnosed in 8% of the patients. Cirrhosis
was diagnosed in 301 patients and hepatocellular
carcinoma in 10 patients. Of these 311 patients,
236 (76%) had an available HCV genotyping result:
HCV genotypes 1 and 3 were found in 48% and 42%,
respectively. Of the 164 patients with severe liver

1649

disease at clinical evaluation who underwent a liver


biopsy, the Metavir score F4 was diagnosed for 94%
including three out of the four patients with hepatocellular carcinoma (F3 for the remaining patient).
In univariate analysis the following variables were
associated with a severe liver disease at referral
(Table II): inclusion after 2003, male sex, age >40 years
at referral, estimated duration of infection 18 years,
history of excessive alcohol intake, and co-infections
with HBV, HIV, and HCV genotype 3. Time between the
first HCV positive test and referral was not significant.
In both the complete-case and the MI analyses, the
independent factors associated with severe liver disease
at clinical evaluation were male sex (adjusted ORMI
(aORMI): 2.0; 95% confidence interval, 95% CI, 1.42.8),
age >40 years at referral (aORMI: 2.1; 95% CI, 1.62.9),
duration of HCV infection 18 years (aORMI: 2.9; 95%
CI, 2.04.3), history of excessive alcohol consumption
(aORMI: 2.8; 95% CI, 2.1-3.7), and HCV genotype 3
(aORMI: 1.6; 95% CI, 1.22.1) (Table III). In the MI
analysis, co-infection with HIV (aORMI: 1.8; 95% CI,
1.22.8) was associated significantly with severe liver
disease. No significant interactions were found.
The univariate analysis for the factors associated with
the F4 Metavir score, limited to the patients who had a
liver biopsy (n 1,725), showed similar results although
the 95% CI were wider. However, co-infections with HIV
and HBV were not significant statistically (P > 0.2; data
not shown).
DISCUSSION
This multi-site study documents factors associated
with severe liver disease in a large group of patients
infected with HCV who reported drug use. The findings
confirm the role of excessive alcohol consumption and
co-infection with HIV and suggest that HCV genotype 3
is associated with an increased risk of severe liver
disease independently of age, sex, duration of infection,
and excessive alcohol consumption. To our knowledge
this is the first study to address the risk factors of severe
liver disease in a population of drug users infected with
HCV at first referral.
Clinical studies have demonstrated a significant
association between HCV genotype 3 infection and the
presence of steatosis [Hui et al., 2002; Rubbia-Brandt
et al., 2004; Cross et al., 2009]. In patients infected with
HCV genotype 3, fat accumulation in the liver is
correlated with the level of HCV replication [Adinolfi
et al., 2001] and disappears following successful antiviral therapy [Castera et al., 2004]. Although there have
been several studies providing evidence for the influence
of steatosis on the progression of fibrosis regardless of
the HCV genotype [Hu et al., 2004; Fartoux et al., 2005;
Cross et al., 2009] or in patients infected with HCV
genotype 3 [Castera et al., 2003, 2004; Rubbia-Brandt
et al., 2004], the issue remains controversial. Indeed,
other studies failed to show any association between
steatosis and liver fibrosis [Asselah et al., 2003; Ryder
et al., 2004; Perumalswami et al., 2006], including one
J. Med. Virol. DOI 10.1002/jmv

1650

Larsen et al.

TABLE I. Main Characteristics of HCV RNA Positive Drug Users at First Referral to Hepatology Reference Centers in France,
20012007
Characteristics
Sex ratio (female/male)
Age, years
Duration of HCV infectiona, years
ALT levelb, xULN
History of excessive alcohol intakec
Missing
No
Yes
HIV serostatus
Missing
Negative
Positive
HBsAg serostatus
Missing
Negative
Positive
HCV genotype
Missing
1 non a, b
1a
1b
2
3 non a
3a
4
5
Clinical stage at 1st referral
Missing
Normal ALT values
Chronic hepatitis
Cirrhosisd
Hepatocellular carcinoma
Acute hepatitis
Liver biopsy at 1st referral
Fibrosis Metavir score at liver biopsy
[Bedossa and Poynard, 1996]
F0
F1
F2
F3
F4

All patients
(n 4,236)

HCV genotype 3
(n 1,077)

Other HCV genotypes


(n 1,986)

1/3
39 (10)
18 (12)
1.5 (1.5)

1/3
39 (11)
18 (12)
2.0 (1.9)

1/3
40 (10)
19 (12)
1.5 (1.2)

467 (11.0)
1,952 (46.1)
1,817 (42.9)

119 (11.1)
499 (46.3)
459 (46.3)

212 (10.7)
908 (45.7)
866 (43.6)

702 (16.6)
3,284 (77.5)
250 (5.9)

162 (15.0)
868 (80.6)
47 (4.4)

289 (14.6)
1,557 (78.4)
140 (7.0)

685 (16.2)
3,466 (81.8)
85 (2.0)

150 (13.9)
906 (84.1)
21 (2.0)

285 (14.3)
1,660 (83.6)
41 (2.1)

171 (4.1)
713 (16.8)
3,000 (70.8)
301 (7.1)
10 (0.2)
41 (1.0)
1,765 (41.7)
1,725

31 (2.9)
116 (10.8)
815 (75.6)
97 (9.0)
3 (0.3)
15 (1.4)
405 (37.6)
396

58 (2.9)
356 (17.9)
1,419 (71.4)
132 (6.7)
4 (0.2)
17 (0.9)
992 (49.9)
976

138 (8.0)
735 (42.6)
480 (27.8)
195 (11.3)
177 (10.3)

25 (6.3)
136 (34.3)
112 (28.3)
62 (15.7)
61 (15.4)

1,173 (27.7)
407 (9.6)
694 (16.4)
439 (10.3)
117 (2.8)
317 (7.5)
760 (17.9)
325 (7.7)
4 (0.1)

81
455
264
94
82

(8.3)
(46.6)
(27.1)
(9.6)
(8.4)

HCV, hepatitis C virus; IQR, interquartile range; SD, standard deviation; ALT, alanine aminotransferase; ULN, upper limit of normal; HIV,
human immunodeficiency virus; HBsAg, hepatitis B surface antigen.
Data are no. (%) of patients or median values (interquartile range), unless otherwise indicated.
a
Available for 3,626 (85.6%) HCV RNA drug users, for 932 (86.5%) infected with genotype 3, for 1,673 (84.2%) infected with other genotypes.
b
Available for 3,938 (93.0%) HCV RNA drug users, for 1,023 (95.0%) infected with genotype 3, for 1,906 (96.0%) infected with other genotypes.
c
>210 g/week for women and >280 g/week for men (g, gram of ethanol).
d
Including decompensated cirrhosis.

study on a large cohort of patients infected with


HCV [Perumalswami et al., 2006]. However, the comparability of the studies is questionable, as there were
differences in the study populations and the risk factors
studied. Furthermore, another study showed that
steatosis had no association with fibrosis in patients
infected with HCV genotype 3 [Bugianesi et al., 2006]
suggesting other causes for the progression of
fibrosis such as insulin resistance or viral induced liver
inflammation.
Numerous studies have shown that a past or
present history of excessive alcohol consumption was
associated with more rapid progression to fibrosis
[Westin et al., 2002; Tolstrup et al., 2009]. As expected
J. Med. Virol. DOI 10.1002/jmv

in this particular population of patients who reported


drug use, cirrhosis at the time of first referral was
associated strongly with excessive alcohol consumption
in the past. The definition of excessive alcohol consumption used in this study corresponds to more than
30 g/day for women and 40 g/day for men compared with
50 g/day for both sexes in many other studies. Of those
who acknowledged excessive alcohol consumption in the
past, more than half reported that the period lasted at
least 5 years, allowing the development of fibrosis. In
addition, more than one third of the patients who
reported excessive alcohol consumption in the past,
acknowledged current excessive consumption. This is
consistent with the results reported by Campbell et al.

HCV Genotype 3 and Cirrhosis in Drug Users

1651

TABLE II. Factors Associated With Severe Liver Disease at Clinical Evaluation in HCV RNA Positive Drug Users at First
Referral to Hepatology Reference Centers in France, 20012007
Univariate analysis
Factors
Period of inclusion
20012003
20042007
Sex
Female
Male
Age
40 years
>40 years
Time between 1st HCV test and referral
<1 year
1 year
Missing
Duration of HCV infection at referrala
<18 years
18 years
Missing
History of excessive alcohol intakeb
No
Yes
Missing
HBsAg
Negative
Positive
Missing
HIV
Negative
Positive
Missing
HCV genotype 3
No
Yes
Missing

Patients (n 4,065)

% SLD

OR (95% CI)

2,211
1,854

6.8
8.7

1
1.3 (1.01.6)

0.02

929
3,136

4.0
8.7

1
2.3 (1.63.3)

<0.001

2,302
1,763

3.7
12.8

1
3.8 (2.94.9)

<0.001

1,683
1,987
395

6.8
7.7
10.6

1
1.1 (0.91.5)

0.3

1,636
1,843
586

3.0
12.5
7.7

1
4.7 (3.46.5)

<0.001

1,881
1,740
444

4.1
12.5
3.6

1
3.3 (2.54.3)

<0.001

3,366
83
616

7.8
13.2
6.0

1
1.8 (0.93.4)

0.07

3,180
240
645

7.7
12.9
5.6

1
1.8 (1.22.7)

0.004

1,928
1,046
1,091

7.0
9.6
6.9

1
1.4 (1.11.8)

0.02

SLD, severe liver disease (cirrhosis, hepatocellular carcinoma); aOR, odds ratio; CI, confidence interval; HCV, hepatitis C virus; HBsAg, hepatitis
B surface antigen; HIV, human immunodeficiency virus.
a
Time from suspected year of infection to year of referral to the reference center. Suspected year of HCV infection is defined as year of the last HCV
negative test performed during the drug-use period or year of first drug injection.
b
>210 g/week for women and >280 g/week for men (g, gram of ethanol).

[2006], who found that in a population of drug users


infected with HCV, knowledge about the detrimental
effects of alcohol consumption related to HCV infection
did not appear to influence alcohol use.
The analysis of the mortality data in the Swiss
hepatitis C cohort showed recently that mortality was
increased for individuals who reported drinking
more than 40 g alcohol per day. HCV genotype 3 was
associated also with a higher mortality although it did
not remain significant in the multivariate analysis
[Prasad et al., 2009].
HIV infection is known to modify the natural history
of HCV by accelerating the rate of progression of fibrosis
and the development of advanced fibrosis both before
[Poynard et al., 2003] and since [Thein et al., 2008] the
highly active antiretroviral therapy era. Interestingly, a
study has shown advanced liver fibrosis to be associated
with HCV genotype 3 in a population of patients
co-infected with HIV and HCV [Barreiro et al., 2006].
Surprisingly, in the study by Barreiro et al. [2006],
neither past nor current excessive alcohol consumption

remained associated significantly with advanced liver


fibrosis. However, the assessment of liver fibrosis in this
study was based on a non-invasive method (elastometry)
only.
Among the limitations of the present study is its
cross-sectional design. Indeed, it is difficult to use crosssectional data to estimate longitudinal parameters.
However, although collected at the same time as the
outcome of interest (severe liver disease), most of
the variables assessed in this study reflect exposures
that occurred prior to the outcome. Therefore, this study
could be considered as a retrospective cohort, which is
less subject to bias than a purely cross-sectional study
[Rothman and Greenland, 1998]. Other factors shown
to be associated with progression of fibrosis were not
collected, such as daily cannabis smoking [Hezode et al.,
2005] and insulin resistance related to the patient
characteristics such as obesity and type 2 diabetes
mellitus, and to the virus [Cua et al., 2008; Moucari
et al., 2008; Petta et al., 2008]. However, Moucari et al.
[2008] provided evidence that insulin resistance was
J. Med. Virol. DOI 10.1002/jmv

1652

Larsen et al.

TABLE III. Factors Independently Associated With Severe Liver Disease at Clinical Evaluation in HCV RNA Positive Drug
Users at First Referral to Hepatology Reference Centers in France, 20012007
Multivariate analysis
Complete case (n 2,294)
Factors
Sex
Female
Male
Age
40 years
>40 years
Duration of HCV infection at referrala
<18 years
18 years
History of excessive alcohol intakeb
No
Yes
HCV genotype 3
No
Yes
HIV serostatusc
Negative
Positive

Multiple imputation (n 4,065)

aOR (95% CI)

aOR (95% CI)

1
2.0 (1.23.1)

0.005

1
2.0 (1.42.8)

<0.001

1
2.4 (1.63.6)

<0.001

1
2.1 (1.62.9)

<0.001

1
2.9 (1.84.6)

<0.001

1
2.9 (2.04.3)

<0.001

1
2.6 (1.83.6)

<0.001

1
2.8 (2.13.7)

<0.001

1
1.4 (1.01.9)

0.05

1
1.6 (1.22.1)

0.003

1
1.8 (1.22.8)

0.005

aOR, adjusted odds ratio; CI, confidence interval; HCV, hepatitis C virus; HBsAg, hepatitis B surface antigen; HIV, human immunodeficiency
virus.
Severe liver disease (cirrhosis, hepatocellular carcinoma).
a
Time from suspected year of infection to year of referral to the reference center. Suspected year of HCV infection is defined as year of the last HCV
negative test performed during the drug-use period or year of first drug injection.
b
>210 g/week for women and >280 g/week for men (g, gram of ethanol).
c
HIV serostatus did not remain significant in the complete case analysis.

associated with HCV genotypes 1 and 4 in contrast to


patients with HCV genotypes 2 and 3. This lower rate of
insulin resistance in patients with HCV genotype 3 was
shown also in another study [Hui et al., 2003]. The
validity of the method used in the present study for
assessing the severity of liver disease could be called into
question since it was not based on histology. However,
the classification used for clinical evaluation of the liver
disease is likely to be homogeneous within the participating reference centers. Furthermore, as the indication for liver biopsy may be related to certain risk factors
or the intention to begin a course of antiviral therapy,
the use of the clinical stage for assessment of severe
liver disease appeared more suited to the purpose of
the study objectives. Also, the proportion of patients
managed in a reference center who had a liver biopsy
decreased dramatically from 45% in 2001 to 18% in 2006
[Delarocque-Astagneau et al., 2010]. Indeed, since 2002,
physicians in France have been treating patients
infected with HCV genotypes 2 and 3 or with HIV
co-infection without performing a liver biopsy, in
accordance with the 2002 French recommendations on
HCV treatment [Dhumeaux et al., 2003]. The univariate
analysis of the factors associated with the F4 Metavir
score limited to patients who had a liver biopsy
showed similar results, but the 95% CI were wider and
co-infection with HIV was not significant statistically.
The present analysis was confronted with missing
values as it was based on surveillance data. In order to
J. Med. Virol. DOI 10.1002/jmv

keep all cases in the analysis, a MI method was applied


to the data. MI is a well-established method for
the analysis of data sets with missing values. As the
multivariate analysis will include all cases, MI provides
consistency in results [Little and Rubin, 2002]. Thus,
the association between HCV genotype 3 and severe
liver disease found in the complete case analysis was
reinforced by the MI analysis. Also, HIV infection
was associated significantly with severe liver disease
after MI analysis. In addition, the sensitivity analysis
performed on HCV genotype 3, co-infection with HIV
and alcohol consumption allowed to be confident of
the robustness of the estimations [Carpenter et al.,
2007][data not shown]. A recent analysis of the data
from the Swiss hepatitis C cohort found HCV genotype 3
as a factor associated with progression of liver fibrosis,
which reinforced the validity of the results [Bochud
et al., 2009].
These results suggest that in patients infected chronically with HCV who reported drug use, early therapeutic
intervention should be recommended for those patients
who are infected with HCV genotype 3 and who
acknowledge excessive alcohol consumption in the past,
since progression to cirrhosis may be more rapid.
Therefore, integrated treatment of HCV and alcohol
addiction is essential. Thus, collaboration between
healthcare providers who specialize in the management
of addictions and those who specialize in the management of HCV infection should be promoted.

HCV Genotype 3 and Cirrhosis in Drug Users

ACKNOWLEDGMENTS
We thank the clinicians and patients from all
the participating hepatology reference centers and
Dr. Elisabeth Couturier for her critical reviews of the
manuscript.
REFERENCES
Adinolfi LE, Utili R, Andreana A, Tripodi MF, Marracino M,
Gambardella M, Giordano M, Ruggiero G. 2001. Serum HCV RNA
levels correlate with histological liver damage and concur with
steatosis in progression of chronic hepatitis C. Dig Dis Sci 46:1677
1683.
Asselah T, Boyer N, Guimont MC, Cazals-Hatem D, Tubach F, Nahon
K, Daikha H, Vidaud D, Martinot M, Vidaud M, Degott C, Valla D,
Marcellin P. 2003. Liver fibrosis is not associated with steatosis but
with necroinflammation in French patients with chronic hepatitis
C. Gut 52:16381643.
Barreiro P, Martin-Carbonero L, Nunez M, Rivas P, Morente A,
Simarro N, Labarga P, Gonzalez-Lahoz J, Soriano V. 2006.
Predictors of liver fibrosis in HIV-infected patients with chronic
hepatitis C virus (HCV) infection: Assessment using transient
elastometry and the role of HCV genotype 3. Clin Infect Dis 42:
10321039.
Bedossa P, Poynard T. 1996. An algorithm for the grading of activity in
chronic hepatitis C. The METAVIR Cooperative Study Group.
Hepatology 24:289293.
Bochud PY, Cai T, Overbeck K, Bochud M, Dufour JF, Mullhaupt B,
Borovicka J, Heim M, Moradpour D, Cerny A, Malinverni R,
Francioli P, Negro F. 2009. Genotype 3 is associated with
accelerated fibrosis progression in chronic hepatitis C. J Hepatol
51:655666.
Bruix J, Sherman M, Llovet JM, Beaugrand M, Lencioni R, Burroughs
AK, Christensen E, Pagliaro L, Colombo M, Rodes J. 2001. Clinical
management of hepatocellular carcinoma. Conclusions of the
Barcelona-2000 EASL conference. European Association for the
Study of the Liver. J Hepatol 35:421430.
Bugianesi E, Marchesini G, Gentilcore E, Cua IH, Vanni E, Rizzetto M,
George J. 2006. Fibrosis in genotype 3 chronic hepatitis C and
nonalcoholic fatty liver disease: Role of insulin resistance and
hepatic steatosis. Hepatology 44:16481655.
Campbell JV, Hagan H, Latka MH, Garfein RS, Golub ET, Coady MH,
Thomas DL, Strathdee SA. 2006. High prevalence of alcohol use
among hepatitis C virus antibody positive injection drug users in
three US cities. Drug Alcohol Depend 81:259265.
Carpenter JR, Kenward MG, White IR. 2007. Sensitivity analysis after
multiple imputation under missing at random: A weighting
approach. Stat Methods Med Res 16:259275.
Castera L, Hezode C, Roudot-Thoraval F, Bastie A, Zafrani ES,
Pawlotsky JM, Dhumeaux D. 2003. Worsening of steatosis is an
independent factor of fibrosis progression in untreated patients
with chronic hepatitis C and paired liver biopsies. Gut 52:288292.
Castera L, Hezode C, Roudot-Thoraval F, Lonjon I, Zafrani ES,
Pawlotsky JM, Dhumeaux D. 2004. Effect of antiviral treatment
on evolution of liver steatosis in patients with chronic hepatitis C:
Indirect evidence of a role of hepatitis C virus genotype 3 in
steatosis. Gut 53:420424.
Cross TJ, Quaglia A, Hughes S, Joshi D, Harrison PM. 2009. The
impact of hepatic steatosis on the natural history of chronic
hepatitis C infection. J Viral Hepat 16:492499.
Cua IH, Hui JM, Kench JG, George J. 2008. Genotype-specific
interactions of insulin resistance, steatosis, and fibrosis in chronic
hepatitis C. Hepatology 48:723731.
Delarocque-Astagneau E, Roudot-Thoraval F, Campese C, Desenclos
JC, The Hepatitis CSSS. 2005. Past excessive alcohol consumption:
A major determinant of severe liver disease among newly referred
hepatitis C virus infected patients in hepatology reference centers,
France, 2001. Ann Epidemiol 15:551557.
Delarocque-Astagneau E, Meffre C, Dubois C, Pioche C, Le Strat Y,
Roudot-Thoraval F, Hillon P, Silvain C, Dhumeaux D, Desenclos
JC. 2010. The impact of the prevention programme of hepatitis C
over more than a decade: The French experience. J Viral Hepat 17:
435443.
Dhumeaux D, Marcellin P, Lerebours E. 2003. Treatment of hepatitis
C. The 2002 French consensus. Gut 52:17841787.

1653
Fartoux L, Chazouilleres O, Wendum D, Poupon R, Serfaty L. 2005.
Impact of steatosis on progression of fibrosis in patients with mild
hepatitis C. Hepatology 41:8287.
Hezode C, Roudot-Thoraval F, Nguyen S, Grenard P, Julien B, Zafrani
ES, Pawlotsky JM, Dhumeaux D, Lotersztajn S, Mallat A. 2005.
Daily cannabis smoking as a risk factor for progression of fibrosis in
chronic hepatitis C. Hepatology 42:6371.
Hu KQ, Kyulo NL, Esrailian E, Thompson K, Chase R, Hillebrand DJ,
Runyon BA. 2004. Overweight and obesity, hepatic steatosis,
and progression of chronic hepatitis C: A retrospective study on a
large cohort of patients in the United States. J Hepatol 40:147
154.
Hui JM, Kench J, Farrell GC, Lin R, Samarasinghe D, Liddle C, Byth K,
George J. 2002. Genotype-specific mechanisms for hepatic steatosis
in chronic hepatitis C infection. J Gastroenterol Hepatol 17:873
881.
Hui JM, Sud A, Farrell GC, Bandara P, Byth K, Kench JG, McCaughan
GW, George J. 2003. Insulin resistance is associated with chronic
hepatitis C virus infection and fibrosis progression [corrected].
Gastroenterology 125:16951704.
Jauffret-Roustide M, Le SY, Couturier E, Thierry D, Rondy M, Quaglia
M, Razafandratsima N, Emmanuelli J, Guibert G, Barin F,
Desenclos JC. 2009. A national cross-sectional study among drugusers in France: Epidemiology of HCV and highlight on practical
and statistical aspects of the design. BMC Infect Dis 9:113.
Larsen C, Pialoux G, Salmon D, Antona D, Le SY, Piroth L, Pol S,
Rosenthal E, Neau D, Semaille C, Delarocque-Astagneau E. 2008.
Prevalence of hepatitis C and hepatitis B infection in the HIVinfected population of France, 2004. Euro Surveill 13.
Lefrere JJ, Roudot-Thoraval F, Lunel F, Alain S, Chaix ML, Dussaix E,
Gassin M, Izopet J, Pawlotsky JM, Payan C, Stoll-Keller F, Thibault
V, Trabaud MA, Bettinger D, Bogard M, Branger M, BuffetJanvresse C, Charrois A, Defer C, Laffont C, Lerable J, Levayer T,
Martinot-Peignoux M, Mercier B, Rosenberg AR. 2004. Expertise of
French laboratories in detection, genotyping, and quantification of
hepatitis C virus RNA in serum. J Clin Microbiol 42:20272030.
Little RJ, Rubin DB. 2002. Statistical analysis with missing data.
2nd edition. Hoboken, NJ: John Wiley & Sons, Inc.
Mallat A, Hezode C, Lotersztajn S. 2008. Environmental factors as
disease accelerators during chronic hepatitis C. J Hepatol 48:657
665.
Marcellin P, Pequignot F, Delarocque-Astagneau E, Zarski JP, Ganne
N, Hillon P, Antona D, Bovet M, Mechain M, Asselah T, Desenclos
JC, Jougla E. 2008. Mortality related to chronic hepatitis B and
chronic hepatitis C in France: Evidence for the role of HIV
coinfection and alcohol consumption. J Hepatol 48:200207.
Massard J, Ratziu V, Thabut D, Moussalli J, Lebray P, Benhamou Y,
Poynard T. 2006. Natural history and predictors of disease severity
in chronic hepatitis C. J Hepatol 44:S19S24.
Meffre C, Le Strat Y, Delarocque-Astagneau E, Dubois F, Antona D,
Lemasson JM, Warszawski J, Steinmetz J, Coste D, Meyer JF,
Leiser S, Giordanella JP, Gueguen R, Desenclos JC. 2010.
Prevalence of hepatitis B and hepatitis C virus infections in France
in 2004: Social factors are important predictors after adjusting for
known risk factors. J Med Virol 82:546555.
Moucari R, Asselah T, Cazals-Hatem D, Voitot H, Boyer N, Ripault MP,
Sobesky R, Martinot-Peignoux M, Maylin S, Nicolas-Chanoine MH,
Paradis V, Vidaud M, Valla D, Bedossa P, Marcellin P. 2008. Insulin
resistance in chronic hepatitis C: Association with genotypes 1 and
4, serum HCV RNA level, and liver fibrosis. Gastroenterology 134:
416423.
Payan C, Roudot-Thoraval F, Marcellin P, Bled N, Duverlie G,
Fouchard-Hubert I, Trimoulet P, Couzigou P, Cointe D, Chaput
C, Henquell C, Abergel A, Pawlotsky JM, Hezode C, Coude M,
Blanchi A, Alain S, Loustaud-Ratti V, Chevallier P, Trepo C,
Gerolami V, Portal I, Halfon P, Bourliere M, Bogard M, Plouvier E,
Laffont C, Agius G, Silvain C, Brodard V, Thiefin G, BuffetJanvresse C, Riachi G, Grattard F, Bourlet T, Stoll-Keller F, Doffoel
M, Izopet J, Barange K, Martinot-Peignoux M, Branger M,
Rosenberg A, Sogni P, Chaix ML, Pol S, Thibault V, Opolon P,
Charrois A, Serfaty L, Fouqueray B, Grange JD, Lefrere JJ, LunelFabiani F. 2005. Changing of hepatitis C virus genotype patterns in
France at the beginning of the third millenium: The GEMHEP
GenoCII Study. J Viral Hepat 12:405413.
Perumalswami P, Kleiner DE, Lutchman G, Heller T, Borg B, Park Y,
Liang TJ, Hoofnagle JH, Ghany MG. 2006. Steatosis and progression of fibrosis in untreated patients with chronic hepatitis C
infection. Hepatology 43:780787.

J. Med. Virol. DOI 10.1002/jmv

1654
Petta S, Camma C, Di M V, Alessi N, Cabibi D, Caldarella R, Licata A,
Massenti F, Tarantino G, Marchesini G, Craxi A. 2008. Insulin
resistance and diabetes increase fibrosis in the liver of patients with
genotype 1 HCV infection. Am J Gastroenterol 103:11361144.
Poynard T, Mathurin P, Lai CL, Guyader D, Poupon R, Tainturier MH,
Myers RP, Muntenau M, Ratziu V, Manns M, Vogel A, Capron F,
Chedid A, Bedossa P. 2003. A comparison of fibrosis progression in
chronic liver diseases. J Hepatol 38:257265.
Prasad L, Spicher VM, Negro F, Rickenbach M, Zwahlen M. 2009. Little
evidence that hepatitis C virus leads to a higher risk of mortality in
the absence of cirrhosis and excess alcohol intake: The Swiss
Hepatitis C Cohort Study. J Viral Hepat 16:644649.
Rothman K, Greenland S. 1998. Types of epidemiologic studies. In:
Modern epidemiology. Philadelphia: Lippincott Raven. pp. 6778.
Royston P. 2007. Multiple imputation of missing values: Further
update of ice, with an emphasis on interval censoring. Stata Journal
7:445464.
Rubbia-Brandt L, Fabris P, Paganin S, Leandro G, Male PJ, Giostra E,
Carlotto A, Bozzola L, Smedile A, Negro F. 2004. Steatosis affects

J. Med. Virol. DOI 10.1002/jmv

Larsen et al.
chronic hepatitis C progression in a genotype specific way. Gut 53:
406412.
Ryder SD, Irving WL, Jones DA, Neal KR, Underwood JC. 2004.
Progression of hepatic fibrosis in patients with hepatitis C: A
prospective repeat liver biopsy study. Gut 53:451455.
Schuppan D, Afdhal NH. 2008. Liver cirrhosis. Lancet 371:838
851.
Thein HH, Yi Q, Dore GJ, Krahn MD. 2008. Natural history of hepatitis
C virus infection in HIV-infected individuals and the impact of HIV
in the era of highly active antiretroviral therapy: A meta-analysis.
AIDS 22:19791991.
Tolstrup JS, Gronbaek M, Tybjaerg-Hansen A, Nordestgaard BG.
2009. Alcohol intake, alcohol dehydrogenase genotypes, and liver
damage and disease in the Danish general population. Am
J Gastroenterol 104:21822188.
Westin J, Lagging LM, Spak F, Aires N, Svensson E, Lindh M, Dhillon
AP, Norkrans G, Wejstal R. 2002. Moderate alcohol intake increases
fibrosis progression in untreated patients with hepatitis C virus
infection. J Viral Hepat 9:235241.

Annexe 5
Practical considerations for sensitivity analysis after multiple imputation
applied to epidemiological studies with incomplete data.

Practical considerations for sensitivity analysis after multiple imputation applied to


epidemiological studies with incomplete data.

Soumis BMC Medical Research & Methodology

Authors:
Christine Larsen, Institut de Veille Sanitaire, Dpartement des Maladies Infectieuses.
James Carpenter, London School of Hygiene & Tropical Medicine, Medical Statistics Unit.
Jean-Claude Desenclos, Institut de Veille Sanitaire, Direction Scientifique.
Yann Le Strat, Institut de Veille Sanitaire, Dpartement des Maladies Infectieuses.
Corresponding author:
Dr. Vanina Heraud-Bousquet
Mail: Institut de Veille Sanitaire, Dpartement des maladies infectieuses,12 rue du Val
dOsne, 94415 St Maurice, France.
Email: v.bousquet@invs.sante.fr
Telephone: 00 33 1 41 79 69 76
Fax: 00 33 1 41 79 68 02

Running head: Sensitivity analysis after multiple imputation


Financial support: This work was supported by the Agence Nationale de Recherches sur le
Sida et les Hpatites Virales (ANRS) (grant number NM/DF/1754).

ABSTRACT
Background
Multiple Imputation as usually implemented assumes that data are Missing At Random
(MAR), meaning that the underlying missing data mechanism, given the observed data, is
independent of the unobserved data. To explore the sensitivity of the inferences to departures
from the MAR assumption, we applied the method proposed by Carpenter et al. (2007).
This approach aims to approximate inferences under a Missing Not At random (MNAR)
mechanism by reweighting estimates obtained after multiple imputation where the weights
depend on the assumed degree of departure from the MAR assumption.
Methods
The method is illustrated with epidemiological data from a surveillance system of hepatitis C
virus (HCV) infection in France during the 2001-2007 period. The subpopulation studied
included 4343 HCV infected patients who reported drug use. Risk factors for severe liver
disease were assessed. After performing complete-case and multiple imputation analyses, we
applied the sensitivity analysis to 3 risk factors of severe liver disease: past excessive alcohol
consumption, HIV co-infection and infection with HCV genotype 3.
Results
In these data, the association between severe liver disease and HIV was underestimated, if
given the observed data the chance of observing HIV status is high when this is positive.
Inference for two other risk factors were robust to plausible local departures from the MAR
assumption.
Conclusions
We have demonstrated the practical utility of, and advocate, a pragmatic widely applicable
approach to exploring plausible departures from the MAR assumption post multiple
imputation. We have developed guidelines for applying this approach to epidemiological
studies.

BACKGROUND
Missing data are ubiquitous in epidemiological and clinical research, and in consequence
there is increasing interest in appropriate statistical methods, principally multiple imputation
(MI) [1, 2]. Multiple imputation techniques available in standard statistical software [3, 4]
enable parameter estimation under the assumption that missing data are missing at random
(MAR), meaning that the missingness mechanism depends on observed data only, and given
these no longer on the missing data [5].
Incomplete datasets are usually addressed by a complete-case (CC) analysis restricted to
individuals that have no missing data in any of the variables required for the analysis. For
etiologic analyses, a complete-case approach leads to a loss in power, but gives valid results if
the probability of being a complete-case is independent of the outcome, given the covariates
in the model [5, 6]. However, if the missingness mechanism depends on the outcome, given
the covariates, a complete-case analysis will be systematically biased, even under the MAR
assumption [7, 8]. Conversely, MI allows individuals with incomplete data to be included in
the analysis. It yields valid and efficient inferences under the MAR assumption, even if the
missingness mechanism is related to the outcome, provided the imputation model is
appropriate [5].
Missing data may also be due to a Missing Not At Random (MNAR) mechanism, also
termed non-ignorable, meaning that, given the observed data (including the outcome), the
missingness mechanism depends on unobserved data. In practice, it is impossible to
distinguish between MAR and MNAR data [9]. When performing multiple imputation under
MAR, the estimate of the regression coefficient of a covariate with missing values can be
subject to bias when the missingness mechanism of the covariate is MNAR, whether this
MNAR mechanism depends on the outcome variable or not [6, 7]. The extend of this bias is
often greater the stronger the dependence of the missingness mechanism on the outcome [10].
Sensitivity analysis is useful in such cases.

Specifically, where the missingness mechanism for one or more of the covariates depends
on the response in the model of interest, a MI analysis assuming MAR is preferable to a CC
analysis, especially if additional variables, not in the model of interest, can be included in the
imputation model to increase the plausibility of the MAR assumption [11-14]. Nevertheless,
the missingness mechanism may additionally depend on unseen values of a covariate, and the
estimates of the coefficient of this covariate may be sensitive to this.
Knowledge of the direction and extent of this sensitivity is important when drawing
conclusions from an analysis. The method we present here allows such sensitivity analysis to
be performed rapidly after MI under MAR.
In the statistical literature, both selection models [15] and pattern-mixture models [16]
have been proposed for the analysis of data under MNAR assumptions [17, 18]. Here, our
focus is on selection models, which describe assumptions about the mechanisms causing the
missing data and then work through the consequences for inference from the model of
interest. Unfortunately, methods for such sensitivity analysis are not implemented in standard
statistical software and in their full generality are computationally complex. Thus they are
little used in practice [1].
However, a computationally much more straightforward approach to local sensitivity
analysis, following MI under MAR, has been proposed by Carpenter et al. [19, 20].This
selection-based approach explores the robustness of inference under local departures from
the MAR assumption, meaning that the sensitivity to departure from the MAR assumption can
be calculated from the observed data without estimating a full non-ignorable model [21].
Parameter estimates obtained from the imputed datasets assuming MAR are reweighted to
represent the distribution of imputations under a MNAR mechanism. Consequently,
inferences obtained under the MAR and MNAR assumptions can be compared to assess the
robustness of inferences to local departures from the MAR hypothesis.

This method is attractive as it is easy to implement after performing MI, and it has not
been reported for observational data to our knowledge. We have therefore applied this method
to surveillance data for hepatitis C viral infection collected in France [22]. As a result of this,
we further propose guidelines on the use of the method for observational data.

METHODS
The hepatitis C virus (HCV) surveillance system is based on 26 participating hepatology
reference centers out of the 31 located in university hospitals throughout France [23]. Since
2000, it has enrolled patients at first referral with HCV chronic infection to monitor changes
in characteristics of HCV infection. A standardized questionnaire is used to collect
epidemiological (date of first referral and last HCV negative test, circumstance of HCV
antibody testing, and risk factors), clinical, biological (HCV RNA serum status, HIV and
HBV co-infection), and history of excessive alcohol consumption data.
Among the 4,343 cases that reported having injected or snorted drugs at least once in their
whole life, we assessed risk factors associated with severe liver disease (SLD) at first referral
by multivariate logistic regression. The outcome of interest (SLD) was defined as cirrhosis or
hepatocellular carcinoma at first referral, as assessed by biochemical tests and morphological
evaluation [24].

PRELIMINARY ANALYSES
Details of the study design and the initial analyses have already been described [22, 23].
Six out of the 9 variables retained for the multivariate analysis were incomplete, with a range
of missing values from 10 to 26% (Table 1). In the CC analysis, multivariate logistic analysis
was reduced to 1,858 individuals (43% of total cases) having no missing data in any of the 9
variables of the analysis. Consequently, we estimated missing values through multiple
imputation by chained equations using Stata'
s user written program ice [4] (STATA 9.2,

Stata Corporation, College Station, Texas, USA). This computationally convenient method is
being increasingly used in epidemiology, and does not require any direct assumption on the
joint distribution of the variables [25, 26]. The imputation algorithm is based on a set of
univariate imputation models which, in turn, regress one variable on all the other covariates
and the outcome [27].
The variables in the imputation model were limited to the 9 variables retained after the
univariate analysis. No additional (auxiliary) variables were included because they had either
too many missing values or were insufficiently related to the missingness mechanism. A total
of 30 imputed datasets were generated. The initial study exploring the risk factors of SLD was
performed using a joint analysis of these 30 imputed datasets [22]. Further imputations were
performed subsequently for the sensitivity analysis.

SENSITIVITY ANALYSIS METHOD


Consider a variable (covariate or response) Y with missing values. We denote by Yi the
value of Y for the individual i. Let Ri be an observation indicator variable equal to 1 if Yi is
observed and 0 if otherwise. We assume a logistic model relating the probability of observing

Y to the underlying (but potentially unseen) value of Y itself, adjusted for a vector X of
covariates:
logit Pr( Ri = 1) = + X i + Yi .

(1)

Under this parametric form assumption, if = 0 , given the fully observed data, the
mechanism causing the missing data of Y does not depend on Y, so that the missing data are
MAR. On the contrary, if 0 , the missingness mechanism depends on the potentially
missing Y, even taking into account the information in the observed data. Thus the data are
MNAR.
In practice, the above logistic regression cannot be performed since, by definition, we do
not observe Yi when Ri =0. This implies that a value for must be chosen, and its effect on
6

inferences from the model of interest explored. With the method we investigate, this can be
done using weights which are a simple function of and the imputed data. We next give an
intuitive explanation of the approach.
Suppose M datasets are created by a MI method assuming MAR. For each dataset, we
denote by m the estimate of the parameter of interest (e.g. a regression coefficient). Multiple
imputation assuming MAR results in several point estimates which, under Rubins rules, are
simply averaged for final inference. Thus, the usual MI estimate of is expressed by:

MAR =

1
M

M
m =1

m (see Appendix for its estimated variance).

Carpenters approach works by replacing this simple average by a weighted average,


where estimates arising from imputations that are more likely under MNAR are upweighted
relative to the others. Under the logistic model for the missingness mechanism described in
(1), Carpenter et al. show the weights take a particularly simple form [20].
The model (1) hypothesises that, after adjusting for other observed variables, the chance
~ ( ) for
of observing Y per unit change in Y has log-odds ratio . Then the weight, noted w
m
imputation m, (m=1,,M), is equal to exp
iI Y

Yi m , where Yi m (i I Y ) is the imputed

value of Y for the individual i in the dataset m, and IY is the set of individuals with Y
unobserved. The exponential form of the weights comes from the logistic link in equation (1).
Normalized weights calculated for each imputed dataset are expressed by wm ( ) =

~ ( )
w
m
M
k =1

The MNAR estimate of is defined by MNAR ( ) =

M
m =1

~ ( )
w
k

wm ( ) m (see Appendix for its

estimated variance).
Note that if data are MAR, then = 0 , and all imputations are equally weighted as in
Rubins original rules.

To gain an intuition for these weights, if is positive the chance of observing Y is greater
for more positive Y. Thus in the data after imputation under MAR, imputations with small Y
will be under-represented. The weights correct this by up-weighting (relative to the other
imputed data sets) estimates from imputed data sets where the sum of the imputed values of Y
is small.
Below, we present MAR estimates for the HCV dataset and explore their robustness to
MNAR as moves away from zero. We further propose practical guidelines for selecting a

value where possible (or at least a plausible range of values for ).

FRAMEWORK FOR SENSITIVITY ANALYSIS


Among variables retained in the multivariate analysis (Table 1), we focused on the
missingness mechanisms of 3 binary variables. We now discuss epidemiological hypotheses
about these mechanisms for each variable in turn.

Alcohol consumption: Reporting alcohol consumption may be prone to a social


desirability effect, even when past consumption is accounted for. We hypothesized that
former heavy drinkers were less likely to report their past alcohol consumption.

HIV infection: HIV serostatus could be assessed either by a previous HIV test, where
available, or by a test at first referral. Since the prevalence of HCV-HIV co-infection in
hepatology reference centers is ~8% and HIV testing is quite systematic, the physician may
consider that patients are mainly HCV mono-infected when no positive HIV test is available.
We hypothesized that HIV testing is less often reported when patients are HIV negative.

HCV genotype 3: HCV genotypes are tested by the referral laboratories of the
participating centers. Genotyping might depend on the physicians attitudes, but probably not
on the unobserved values of the genotype. We nevertheless explored the MNAR assumption.

Consequently, we focused the sensitivity analysis on these 3 variables to assess the


robustness of estimates obtained after MI using Carpenters method [20]. The sensitivity
analysis was applied to each variable separately in turn.

PRACTICAL CONSIDERATIONS FOR SENSITIVITY ANALYSIS


Although it is recommended to impute at least 50 datasets [20], we chose to impute 1000
datasets using the Stata ice program to illustrate the features of the method. This is double the
number used by Carpenter et al. [19] in a simulation study to test the method; although
imputations are computationally cheap, beyond 1000 the gain, in terms of increased range of
the imputation estimates m , is small.
One way to select a value for is to formally elicit plausible values from experts [28].
An alternative is to explore a range of values consistent with hypotheses concerning the
missing data mechanism, such as those outlined above.
We propose the following 4-step approach for choosing an appropriate value for , and
illustrate this using the HCV genotype 3 variable, before applying it to the other variables.
Our focus is sensitivity analysis for the parameter of interest i.e. the coefficient of genotype 3
in the post MI multivariate logistic regression explaining SLD (Table 1, rightmost column).
Using previous notation, m is the MAR estimated logistic regression coefficient of genotype
3 in the imputed dataset m=1,,M.

Procedure for choosing


Step 1: Logistic regression to explore the missingness mechanism
Generate an indicator variable for the covariate in question being missing, and use logistic
regression to assess association with the outcome and other covariates.
Illustrating with genotype 3, we generate a missing indicator equal to 1 if genotype 3 is
observed and 0 otherwise. Using imputed values, we then fit a multivariate logistic regression
9

model to explain the genotype 3 missing indicator; in this model we include the outcome
(SLD) and all the covariates included in the initial analysis model, genotype 3 excepted.
The results, shown in Table 2, suggest the missingness mechanism for genotype 3
depends on age and disease duration, but given these is independent of SLD, the outcome in
the analysis model.

Step 2: Graphical determination of a delta value


The theoretical justification of the method rests on importance sampling [29]. When using
importance sampling, it is not recommended to put all the weight on one, or very few values.
The implication is that we should restrict the range of . Consistent with this, we recommend
the following criteria: values of should be such that the maximum normalized weight is
around 0.5, and at least 5 normalized weights are above 1/M (the weight when = 0 )[20].
Thus our MNAR estimate will draw on information from at least 5 imputations, the minimum
typically advised in practice. It also reflects practically relevant, yet appropriately local,
departures from MAR.
In practice, we recommend presenting this information in a graph such as Figure 1. The
left panel shows a histogram of the sum of the imputed values for genotype 3. Extreme values
are 340 in imputed dataset n921 and 480 in dataset n771. The right panel indicates
normalized weights for each of the M=1000 datasets by value. The maximum normalized
weight corresponds to the dataset(s) in which the sum of imputed values of Y is minimal
(dataset n921) when >0 or maximal (dataset n771) when <0. When =0, the
~ (0 ) are equal to 1.
normalized weight is equal to 1/M because all the w
m
Figure 2 shows the central part of the right panel of Figure 1. Following our recommendation
above, we retain positive or negative values that correspond to a maximum normalized
weight of ~0.5. This gives a range of [-0.2 to 0.15]. Even at the end of this range, more than 5
normalized weights are > 0.001. The central part of the hatched zone (defined subjectively,
10

although an objective criteria could be set down a-priori if desired) corresponds to departures
from MAR for which the weights are still approximately equal, so that MAR and MNAR
inferences are essentially the same.

Step 3: Choice of sign of


Here, we choose to be either the upper or lower end of the range identified in step 2.
For HCV genotype, equation (1) shows the relation between the sign of and the assumed
missingness mechanism: for positive , the adjusted odds for observing genotype increases if
a persons HCV is of genotype 3; for negative the converse. In this instance, consistent
with the results from step 1 (Table 2), we selected = 0.15 . This means that the adjusted
odds of missing data for genotype 3 is 1.2 (exp(0.15)) times greater for individuals infected
by a genotype 3 strain than for those infected by other genotypes. For this variable,
experience does not strongly suggest a positive or negative , and results for both are
presented below.

Step 4: Graphical diagnostic


The re-weighting method is for local sensitivity analysis, which means that the distributions
of the parameter of interest under MAR and MNAR should overlap (albeit they have different
means). This will not generally hold for non-local sensitivity analysis. The range of such
local sensitivity analyses will depend on the between imputation variance of the estimator,
which is indirectly related to the proportion of missing observations. To assess whether, at the
chosen value of , this holds we propose (i) a plot of normalized weight wm against m ,
m=1,,M and (ii) a plot of the estimate under MNAR as the number of imputations
increases. In both plots, if the method is to give reliable results, MNAR estimates should be
supported within the distribution of m obtained by MI under MAR. If all the weight is

11

accruing to estimates at the end of the range of m , this is consistent with the mean of the
MNAR distribution lying outside the range of MAR estimates, i.e. a non-local departure
from MAR.
For the HCV genotype variable the results are shown in Figure 3. The left-hand panel plots
the normalized weights versus m for each imputed data, using =0.15 (recall m is the
regression coefficient estimate obtained under the MAR assumption for each imputed
dataset). The right panel plots the MNAR estimate calculated using n imputations against the
number of imputed datasets noted n (n=10,,M) and defined by:
n

MNAR ( , n ) =

m =1

wm ( ) m
n

m =1

wm ( )

In this case we see that (i) the MNAR estimate appears to settle down as the number of
imputations increases and (ii) the MNAR estimates distribution seems to be well supported by
the MAR distribution (indicated by the rug on the right side of the plot).

RESULTS
The complete-case and MI (assuming MAR) analysis are shown in Table 3. Here we also
give the results of sensitivity analysis for the following three variables: HCV genotype 3, HIV
serostatus and history of excessive alcohol consumption.
For HCV genotype 3, we derived the value of the sensitivity parameter above, to
illustrate our four step approach. We applied the same approach to HIV serostatus and alcohol
consumption.
For alcohol consumption, step 1 showed the probability of observing this depends on the
outcome (SLD status). Step 2 identified the range for of [-0.4;0.4] (left panel of Figure 4).
Consistent with step 1 and experience, the odds of observing alcohol intake is higher if it is
not excessive, we chose = -0.4. The interpretation is that, after adjustment for other
12

variables, the odds of observing alcohol history is reduced among those with a history of
excessive intake by 0.7=exp(-0.4).
For HIV serostatus, step 1 showed the probability of observing this depends on the
outcome (SLD status). Step 2 identified a range of [-0.4;0.7] (right panel of Figure 4). Taking
the results from step 1, and given that in similar contexts the chance of observing HIV
infection is higher for HIV positive individuals, we chose = 0.7. The interpretation is that,
after adjustment for other variables, the odds of observing HIV serostatus is 2.0=exp(0.7)
times higher if HIV serostatus is positive.
For these three variables, the diagnostic in step 4 was acceptable. Adjusted odds ratios
(OR) are shown in Table 3. Note the same multivariate model including sex, age, duration of
HCV infection, alcohol consumption, genotype 3, and HIV serostatus, was applied for each
analysis. The sensitivity analysis was applied to each of the 3 variables in turn.
Two criteria are useful to interpret the adjusted odds ratios in the 3 analyses:
(1) The coefficient of variation (CV) of the OR gives its normalized measure of dispersion.
For the 3 variables, it is clearly reduced after MI and remains stable after reweighting.
(2) The variation rate (VR) assesses the relative change between the OR MNAR and the OR MAR ,
and is defined by VRSA = 100 (OR MNAR OR MAR ) / OR MAR . Similarly, we define a variation
rate named VRMI that displays the relative variation of the OR obtained after CC and MI
analyses. VRMI varies from 9.7% for genotype 3 to 15.5% for HIV and 22% for alcohol. VRSA
is given for the value of selected for each variable. Its value is relatively small for alcohol
(1.3%) and genotype 3 (3.5%) but larger for HIV at 6.6%. The VRSA is relatively stable as
varies in [-1;1] for alcohol and genotype 3, but continues to increase for HIV (Figure 5).

13

DISCUSSION
With missing data, all analyses and corresponding inferences rest on inherently untestable
assumptions about the missingness mechanism. Therefore, sensitivity analyses, where we
explore the robustness of inferences as assumptions change, are important.
The method presented here enables rapid local sensitivity analysis to inferences obtained
via MI under MAR. It works by upweighting imputations which are more plausible under
MNAR; under a logistic model for the missingness mechanism, these weights take a
particularly simple form.
While the sensitivity analysis is local, it nevertheless provides important information on
the duration and impact of departures from MAR on inference, while avoiding the
computational complexity of full joint modeling. Its accuracy for local sensitivity analysis has
been confirmed elsewhere [20, 30].
Here, we have developed and illustrated the practical utility of the approach, proposing a
4-step process for choosing a value for the sensitivity parameter. We now discuss the results.
Note that all three variables are binary, so the scale for delta is the same.
For genotype 3, step 1 of our process shows that among individual with complete records
on variables apart from genotype 3, the probability of observing this variable does not appear
to be related to the outcome in the model of interest (severe liver disease) (Table 2). The
sensitivity analysis allows this probability additionally to depend on the underlying value of
genotype 3 (present or absent). Table 3 and Figure 5 show inference is insensitive to this,
indeed for plausible delta the estimate moves back towards the complete case estimate,
consistent with what would be expected if the additional MNAR dependence does not
materially change the lack of dependence of the chance of observing genotype 3 on severe
liver disease.
Regarding alcohol consumption, our hypothesis was that patients will be less willing to
report past excessive alcohol consumption because of the associated social stigma. However,

14

the literature is not unanimous on this [31-34]. Reporting alcohol consumption is strongly
related to the sociodemographic characteristics [35] that can be included in the imputation
model in order to reduce non-response bias. We only included age and sex in the imputation
model because other sociodemographic variables were not related to the missingness
mechanism. Our step 1 showed that the probability of observing alcohol does depend on the
outcome, after taking into account other covariates. This is consistent with the relatively large
change in the alcohol covariate under MAR (Table 3). The sensitivity analysis allows this
probability additionally to depend on the alcohol value. Table 3 and Figure 5 show inference
is relatively insensitive to this, which is consistent with what would be expected if the
additional MNAR dependence does not materially change the dependence of the chance of
observing alcohol consumption on severe liver disease.
For HIV co-infection, hepatologists in reference centers tend to consider their patients as
being HCV mono-infected because HCV-HIV co-infected patients are usually referred to
infectious diseases departments in France. Under the default assumption of mono-infection,
there would thus usually be less impetus to test for or record HIV status. Thus we felt it was
more likely to be observed if it was present, i.e. serostatus was positive, hence our positive
value for . Step 1 showed that the probability of observing HIV status does depend on
outcome, after taking into account other covariates. This is consistent with the relatively large
change in the coefficient under MAR. The sensitivity analysis allows this probability
additionally to depend on the HIV status. Table 3 and Figure 5 show inference is sensitive to
this, suggesting that if the mechanism is MNAR with increased chance of observing HIV
status for those who are positive, the association in the model of interest is stronger and more
significant than analysis under MAR would suggest.
In summary, for these data collected from a French surveillance system for hepatitis C
infection, CC analysis is plausibly biased, as the data suggest dependence of the chance of
observing values on the outcome, even given the covariates. Thus analysis under MAR, via

15

MI, is preferable. Our sensitivity analysis shows that for local departures from MAR,
inference for the genotype 3 and alcohol consumption is little changed, while the effect of
HIV status is underestimated if, given the observed data, the chance of observing HIV status
is higher when this is positive.
The approach we have described here can also be applied to explore the situation when
there is an interaction between, say, the response (disease status) and the chance of a risk
factor being observed. In this case we may have two sensitivity parameters, one for each
group, or possibly a single parameter representing the difference between these. Since
evidence for this has been found [36] this is a natural area for future work.

CONCLUSION
This sensitivity analysis provides a fast, albeit approximate, way to assess the robustness
of inferences to the MAR assumption, avoiding the need for further imputation and model
fitting to the imputed datasets. In this paper we have proposed a 4-step process for using this
method in practice. We have demonstrated the application of this method and the
interpretation of the results. Faced with non-trivial proportions of missing data, we encourage
readers to apply the method in their own analyses.

16

Appendix
Let M the number of imputed datasets, m the estimated parameter of interest in the imputed
dataset m, m=1,,M, and m2 its associated variance estimate. The estimated MAR variance
of MAR is:

( )

( )

( )

( )

1
1
VMAR MAR = VW MAR + 1 +
VB MAR , where VW MAR =
M
M

( )

VB MAR =

M
m =1

m2 and

).

1 M
m MAR
M 1 m =1

The estimated MNAR variance of MNAR for a chosen value is:

M
1
VMNAR MNAR ( ) VW MNAR ( ) + (1 + ) VB MNAR ( ) , where VW MNAR ( ) = wm ( ) m2
M
m=1

and VB MNAR ( ) =

M
m =1

2
wm ( ) m MNAR ( ) .

17

Reference List
1. Sterne JA, White IR, Carlin JB, Spratt M, Royston P, Kenward MG, Wood AM, Carpenter JR: Multiple
imputation for missing data in epidemiological and clinical research: potential and pitfalls.
BMJ 2009, 338:b2393.
2. Kenward MG, Carpenter J: Multiple imputation: current perspectives. Stat Methods Med Res 2007,
16:199-218.
3. Horton NJ, Kleinman KP: Much ado about nothing: A comparison of missing data methods and
software to fit incomplete data regression models. Am Stat 2007, 61:79-90.
4. Royston P: Multiple imputation of missing values: furter update of ice, with an emphasis on categorical
variables. Stata J 2009, 9:466-477.
5. Little RJA, Rubin DB: Statistical analysis with missing data. 2nd ed. New York: Wiley; 2002.
6. Spratt M, Carpenter J, Sterne JA, Carlin JB, Heron J, Henderson J, Tilling K: Strategies for multiple
imputation in longitudinal studies. Am J Epidemiol 2010, 172:478-487.
7. Allison PD: Missing data. Iowa City: Sage Publication; 2002.
8. Vach W, Blettner M: Biased estimation of the odds ratio in case-control studies due to the use of ad hoc
methods of correcting for missing values for confounding variables. Am J Epidemiol 1991,
134:895-907.
9. Potthoff RF, Tudor GE, Pieper KS, Hasselblad V: Can one assess whether missing data are missing at
random in medical studies? Stat Methods Med Res 2006, 15:213-234.
10. White IR, Carlin JB: Bias and efficiency of multiple imputation compared with complete-case analysis
for missing covariate values. Stat Med 2010, 29:2920-2931.
11. Collins LM, Schafer JL, Kam CM: A comparison of inclusive and restrictive strategies in modern
missing data procedures. Psychol Methods 2001, 6:330-351.
12. Raghunathan TE: What do we do with missing data? Some options for analysis of incomplete data. Annu
Rev Public Health 2004, 25:99-117.
13. Schafer JL: Multiple imputation in multivariate problems when the imputation and analysis model
differ. Stat Neer 2003, 57:19-35.
14. Wood AM, White IR, Royston P: How should variable selection be performed with multiply imputed
data? Stat Med 2008, 27:3227-3246.
15. Diggle MG, Kenward MG: Informative drop-out in longitudinal data analysis. Appl Statist 1994, 43:4993.
16. Hogan JW, Laird NM: Mixture models for the joint distribution of repeated measures and event times.
Stat Med 1997, 16:239-257.
17. Curran D, Molenberghs G, Thijs H, Verbeke G: Sensitivity analysis for pattern mixture models. J
Biopharm Stat 2004, 14:125-143.
18. Molenberghs G, Verbeke G: Models for discrete longitudinal data. New York: Springer; 2005.

18

19. Carpenter J, Rucker G, Schwarzer G: Assessing the Sensitivity of Meta-analysis to Selection Bias: A
Multiple Imputation Approach. Biometrics 2011, 67:1066-1072.
20. Carpenter JR, Kenward MG, White IR: Sensitivity analysis after multiple imputation under missing at
random: a weighting approach. Stat Methods Med Res 2007, 16:259-275.
21. Troxel AB, Ma G, Heitjan DF: An index of local sensitivity to nonignorability. Stat Sin 2004, 14:12211237.
22. Larsen C, Bousquet V, Delarocque-Astagneau E, Pioche C, Roudot-Thoraval F, Desenclos JC: Hepatitis C
virus genotype 3 and the risk of severe liver disease in a large population of drug users in
France. J Med Virol 2010, 82:1647-1654.
23. Delarocque-Astagneau E, Roudot-Thoraval F, Campese C, Desenclos JC, The Hepatitis CSSS: Past
excessive alcohol consumption: a major determinant of severe liver disease among newly
referred hepatitis C virus infected patients in hepatology reference centers, France, 2001. Ann
Epidemiol 2005, 15:551-557.
24. Schuppan D, Afdhal NH: Liver cirrhosis. Lancet 2008, 371:838-851.
25. Lee KJ, Carlin JB: Multiple imputation for missing data: fully conditional specification versus
multivariate normal imputation. Am J Epidemiol 2010, 171:624-632.
26. Van Buuren S., Boshuizen HC, Knook DL: Multiple imputation of missing blood pressure covariates in
survival analysis. Stat Med 1999, 18:681-694.
27. Van Buuren S: Multiple imputation of discrete and continuous data by fully conditional specification.
Stat Methods Med Res 2007, 16:219-242.
28. White IR, Carpenter J, Evans S, Schroter S: Eliciting and using expert opinions about dropout bias in
randomized controlled trials. Clin Trials 2007, 4:125-139.
29. Rubin DB: The calculation of posterior distributions by data augmentation (in discussion of Tanner
MA, Wong WH). J Am Stat Assoc 1987, 82:543-546.
30. Carpenter JR, Kenward MG: Missing data in randomised clinical trials-a practical guide. Methodology
Portfolio, Public Health, Epidemiology & Biostatistics, University of Birmingham, Edgbaston,
Birmingham, UK.; 2007.
31. Pernanen K: Validity of survey data on alcohol use. New York: Wiley; 1974.
32. Knibbe R: Measuring drinking context. Alcohol Clin Exp Res 1998, 22:15S-20S.
33. Lemmens PH, Tan ES, Knibbe RA: Bias due to non-response in a Dutch survey on alcohol consumption.
Br J Addict 1988, 83:1069-1077.
34. Lahaut VM, Jansen HA, van de MD, Garretsen HF: Non-response bias in a sample survey on alcohol
consumption. Alcohol Alcohol 2002, 37:256-260.
35. Van Oers JA, Bongers IM, van de Goor LA, Garretsen HF: Alcohol consumption, alcohol-related
problems, problem drinking, and socioeconomic status. Alcohol Alcohol 1999, 34:78-88.
36. Lewden C, Jacqmin-Gadda H, Vilde JL, Bricaire F, Waldner-Combernoux A, May T, Cuzin L, Lang JM,
Leport C, Chene G: An example of nonrandom missing data for hepatitis C virus status in a
prognostic study among HIV-infected patients. HIV Clin Trials 2004, 5:224-231.

19

Table 1: Multivariate logistic regression of factors associated with severe liver disease.
Complete case and multiple imputation analyses were applied to a population of HCV-RNA positive drug users
newly referred in hepatology reference centres in France, 2001-2007.

Multivariate analysis
Patients
(n = 4 343)

%
SLD

2330
2013

7.0
9.5

993
3350

%
missing
data

Complete Case (n = 2 130)


aOR* (95% CI*)

Multiple Imputation (n = 4 343)


aOR* (95% CI*)
M=30 imputed datasets

4.2
9.3

1.0
1.8 [1.1,3.0]

1.0
2.0 [1.4,2.9]

2435
1908

3.9
13.6

1.0
2.2 [1.5,3.3]

1.0
2.3 [1.7,3.1]

1728
2163
452

6.7
8.7
11.5

1709
2002
632

3.0
12.5
8.2

1.0
3.1 [2.0,5.1]

1.0
2.6 [1.8,3.7]

2015
1847
481

4.5
13.2
4.4

1.0
2.6 [1.8,3.7]

1.0
2.8 [2.2,3.7]

3570
89
684

8.3
13.5
6.7

3342
294
707

8.2
14.0
5.7

Factors
Period of inclusion
2001-2003
2004-2007
Sex
Female
Male
Age
40 years
> 40 years
Time between 1st HCV+ test and
referral
< 1 year
1 year
Missing
Duration of HCV infection at
referral
< 18 years
18 years
Missing
History of excessive alcohol intake
No
Yes
Missing
HbsAg status
Negative
Positive
Missing
HIV serostatus
Negative
Positive
Missing
HCV genotype 3
No
Yes
Missing

2083

7.2

1117

10.3

1143

7.8

10.4

14.6

11.1
1.0
2.4 [1.0,5.9]
15.7
1.0
1.8 [1.2,2.6]
16.3
1.0

1.0

1.5 [1.1,2.0]

1.6 [1.3,2.1]

26.3

*aOR, adjusted Odds Ratio; CI, confidence interval;


SLD, severe liver disease (cirrhosis, hepatocellular carcinoma); HCV, hepatitis C virus; HBsAg, hepatitis B surface antigen; HIV, human
immunodeficiency virus
Time from suspected year of infection to year of referral to the reference centre. Suspected year of HCV infection is defined as year of the last HCV
negative test performed during the drug-use period or year of first drug injection
>210g/week for women and >280g/week for men

20

Table 2: Multivariate regression to explain the missing indicator of genotype 3 using covariates.
Genotype 3 missing indicator
Severe liver disease
Age
Sex
Disease duration
Delay of referral 4
Alcohol consumption 5
HIV serostatus
HbsAg status

Regression coefficients
-0.05
0.16
0.04
0.19
0.05
-0.005
0.02
-0.14

SE*
0.13
0.09
0.08
0.08
0.08
0.07
0.14
0.23

P*
0.72
0.06
0.63
0.04
0.53
0.94
0.90
0.52

* P, pvalue; SE, standard error.


Cirrhosis or hepatocellular carcinoma
Time from suspected year of infection to year of referral to the reference centre. Suspected year of HCV infection is defined as year of the last HCV negative
test performed during the drug-use period or year of first drug injection
4
Time between testing and first referral
5
>210g/week for women and >280g/week for men

Table 3: Multivariate analysis for the complete case, multiple imputation and sensitivity analysis, with
M=1000 imputed data sets.
Covariates included in the model were: sex, age, duration of HCV infection, alcohol consumption, genotype 3 and
HIV serostatus. Sensitivity analysis: the weighting process was applied to alcohol consumption, genotype 3 and
HIV serostatus indepedently.
Complete Case (CC)

Alcohol
consumption
Genotype3

Missing
values
%

aOR
95% CI

SE

CV
(%)

Multiple Imputation (MI)


aOR
95% CI

SE

CV
(%)

VRMI
(MI vs CC)
(%)

Sensitivity Analysis (SA)


aOR*
95% CI

SE

CV
(%)

VRSA
(SA vs MI)
(%)

2.32
2.82
2.86
0.39
17
0.37
13
21.86
-0.40
0.37
13
1.29
[1.66,3.23]
[2.18,3.66]
[2.21,3.70]
1.51
1.66
1.60
26.3
0.24
16
0.23
14
9.70
0.15
0.21
13
3.56
[1.10,2.07]
[1.27,2.16]
[1.23,2.06]
HIV
1.56
1.80
1.91
16.3
0.41
27
0.34
19
15.52
0.70
0.36
19
6.12
[0.92,2.62]
[1.24,2.61]
[1.32,2.76]
serostatus
*
Note. aOR, odds ratio adjusted on sex, age, duration of HCV infection, alcohol consumption and HIV serostatus; aOR , odds ratio obtained from the MI
adjusted odds ratio estimates
CI, confidence interval; CV, coefficient of variation of the aOR; VRMI , variation rate of the aOR for CC and MI analyses; VRSA , variation rate of the aOR for
MI and senstitivity analyses.
11.1

21

Figure 1:

1.0

Graphical determination of a delta value for the variable genotype 3.


Left panel: histogram of the sum of genotype 3 imputed values for each data set and for M = 1000
bases ; extreme values of this sum are 340 in imputed dataset n921 and 480 in imputed dataset n771.
Right panel: normalized weights (wm) for each imputed dataset according to .

Imputed
data set
n921

Imputed
data set
n771

Imputed
data set
n921

0.0

0.2

10

0.4

15

wm

0.6

20

25

0.8

30

Imputed
data set
n771

340

360

380

400

420

440

460

480

-1.0

-0.5

0.0

22

0.5

1.0

Figure 2:

0.0

0.1

0.2

wm

0.3

0.4

0.5

Normalized weights (wm) for each imputed dataset according to for the variable genotype 3.
The hatched zone delineates values of corresponding to maximum normalized weights equal to 0.5.

-0.4

-0.3

-0.2

-0.1

23

0.0

0.1

0.2

Figure 3:
Analysis of the variable genotype 3 with = 0.15.
Left panel: normalized weights (wm) versus m (estimated logistic regression coefficient of genotype 3
in the imputed dataset m), for each imputed data set. The dash line represents MAR (mean of m over
the 1000 imputed datasets).

Right panel: running estimate, calculated as the moving average of the MNAR according to the number
of imputed datasets. On the right axis is plotted the rug of the 1000 estimates m for each imputed

0.0

0.5
0.3

0.2

0.4

0.4

wm

^MNAR(, n )

0.6

0.6

0.8

0.7

1.0

dataset. The dash line represents MAR (mean of m over the 1000 imputed datasets).

0.3

0.4

0.5

0.6

0.7

^
m

200

400

600

800

Number of imputations (n)

24

1000

Figure 4:
Normalized weights (wm) for each imputed dataset according to for the variables alcohol
consumption and HIV serostatus.
Left panel: the interval for is restrained to [-0.4;0.4].
Right panel: the interval for is [-0.4;0.7].

HIV

0.8
0.6
0.0

0.2

0.4

wm
0.0

0.2

0.4

wm

0.6

0.8

1.0

Alcohol

1.0

-1.0

-0.5

0.0

0.5

1.0

-1.0

-0.5

0.0

25

0.5

1.0

Figure 5:
Variation rate according to
after sensitivity analysis (VRSA) for genotype 3, alcohol
consumption and HIV serostatus.
The black points correspond to the VRSA calculated for the value of retained for each variable
(genotype 3 =0.15, alcohol =-0.4 and HIV =0.7).

HIV

Alcohol
0

Alcohol

HIV

Genotype 3

-5

VRSA (%)

Genotype 3

-1.0

-0.5

0.0

26

0.5

1.0