Explorer les Livres électroniques
Catégories
Explorer les Livres audio
Catégories
Explorer les Magazines
Catégories
Explorer les Documents
Catégories
Université Versailles-Saint-Quentin
THÈSE DE DOCTORAT
Discipline : Santé Publique
Spécialité : Biostatistiques
A mes parents,
Remerciements
beau projet sur lequel tu m'as permis de travailler, pour lequel j'ai eu envie de faire
À Didier Guillemot. Pour ces presque 7 années passées au sein de l'unité. Depuis
mes premiers pas, mon diplôme sous le bras, jusqu'à ma soutenance de thèse. Merci
À toute l'équipe du PhEMI. Avec un clin d'÷il particulier à Anne Thiébaut qui m'a
accompagnée, depuis mes premiers pas dans l'unité. Aux thésards, bon courage pour
la suite. A Lulla, pour son aide précieuse et son soutien. A Anne Paris. A Bich-Tram,
Elizabeth et Annick. A tous ceux qui ont déjà quitté l'équipe, Zélie, Odile, Claire,
Laure, Julie, Fanny, Marga et Matthieu. Aux stagiaires de passage, mais qui m'ont
laissé un bon souvenir, Elodie, Hélène, Adeline. A tous les nouveaux arrivants, dont
l'équipe de Pascale Tubert, que je ne connais pas ou peu. A tous, je souhaite bonne
v
À toute l'unité de Santé Publique de Garches. Les Christelles, Jérôme, qui me connaissent
depuis longtemps eux-aussi, avec qui nous allions courir le midi quand Jean-Claude
ne nous laissait pas le choix. Pour leur joie de vivre, leurs inlassables et tellement
dans leurs locaux, mais aussi pour leur écoute, leur soutien inestimable. L'équipe EA
est un milieu où il fait bon travailler. A Myriam, pour sa joie de vivre, son écoute, son
soutien, et surtout son amitié. A Etienne et Yohann pour leur écoute, leurs conseils
et leur soutien. Aux doctorants à qui je souhaite une bonne réussite. A toutes celles
qui ont relu une partie de ma thèse. A l'équipe des coureurs. A l'équipe des nageuses.
pendant dix-huit mois. J'y ai fait de très belles rencontres dont certaines résistent
À tous les membres de l'ENSAI, mon école d'ingénieur dans laquelle je ne pensais
pas revenir un jour du côté enseignant. Mais ça a été avec un très grand plaisir que je
me suis levée bien (trop) tôt le matin pour courir prendre mon train éternellement en
retard direction Rennes. Et ça en valait la peine. Merci à François Coquet à qui je dois
beaucoup, mais aussi à Myriam et Jocelyn, mes référents statisticiens, à Lise, Momo
et Julie, mes grands acolytes de TD, à Nicolas, Guillaume et Brigitte, pour les midis
À tous, merci.
Table des matières
Glossaire 1
1 Introduction 5
1.1 Contexte de santé publique . . . . . . . . . . . . . . . . . . . . . . . . 5
1.3 Objectifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
vii
viii TABLE DES MATIÈRES
2.4.2 Qualité du système de surveillance . . . . . . . . . . . . . . . 30
2.5 Bilan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3 Bases méthodologiques 33
3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
faiblement stationnaires . . . . . . . . . . . . . . . . 43
3.2.2.2 Stationnarisation . . . . . . . . . . . . . . . . . . . . 51
3.3.1.2 Estimations . . . . . . . . . . . . . . . . . . . . . . . 55
duelle . . . . . . . . . . . . . . . . . . . . . . . . . . 58
3.3.2.2 Estimations . . . . . . . . . . . . . . . . . . . . . . . 59
3.3.3.2 Estimation . . . . . . . . . . . . . . . . . . . . . . . 61
4 Introduction 69
4.1 Motivations épidémiologiques . . . . . . . . . . . . . . . . . . . . . . 69
4.3 Objectifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
5 Matériel et Méthodes 73
5.1 Matériel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
5.2 Méthodes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
5.3 Logiciels . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
6 Résultats 79
6.1 Identication du délai d'impact . . . . . . . . . . . . . . . . . . . . . 79
7.3 Résultats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
7.3.1 Scénarios 1 et 2 . . . . . . . . . . . . . . . . . . . . . . . . . . 97
8 Discussion 115
11 Résultats 129
13 Discussion 153
xii TABLE DES MATIÈRES
III Étude de la relation entre infections invasives à pneu-
mocoque et exposition aux anti-infectieux 157
14 Étude de la relation temporelle entre infections invasives à pneumo-
coque et exposition aux anti-infectieux en France 159
14.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 159
mocoque . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 164
d'antibiotiques . . . . . . . . . . . . . . . . . . . . . . . . . . 167
16 Conclusion 183
V Annexes 185
A Production scientique 187
de 2008" de l'INVS. . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
pour 100 000 habitants en France entre 2002 et 2009 par tranche d'âge
xiii
xiv TABLE DES FIGURES
2.2 Incidence des hospitalisations pour infections invasives à pneumocoques
pour 100 000 habitants en France entre 2002 et 2009 par tranche d'âge
ningites à pneumocoque. . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.4 Incidence pour 100 000 habitants des remboursements pour prescription
3.1 Extrait de l'article de Hubert et al., 1992. Evolution des t-ratios issus
trigonométriques), S2 (T2) quand les deux séries sont ajustées par des
ne sont pas ajustées mais que le modèle inclut une fonction trigonomé-
trigonométriques), S2 (T2) quand les deux séries sont ajustées par des
ne sont pas ajustées mais que le modèle inclut une fonction trigonomé-
(en vert). Pour toutes ces séries, T= 72, Min = 0 and R = 50. . . . . 91
xvi TABLE DES FIGURES
7.3 Exemples de simulation de Xt (courbe bleu) et Yt associé à ce Xt
pour diérentes valeurs de β1 (0.2 (courbe noire), 0.6 (courbe verte), 1
(courbe rouge)) (1) dans le scénario 1, (2) dans le scénario 2, (3) dans
trigonométrique (en vert) et les splines de régression (en rouge), sur des
séries simulées (en bleu) présentant un motif (1) linéaire, (2) cycloïdal,
pour 100 000 habitants en France entre juillet 2000 et juin 2009. Les
10.2 Schéma du calcul de l'excès de ATBt du à SGt . eInft = êt − t1−α/2 σˆ1 ,
eSupt = êt + t1−α/2 σˆ1 . . . . . . . . . . . . . . . . . . . . . . . . . . . 127
(courbe verte, axe de droite) pour 100 000 habitants en France entre
juillet 2000 et juin 2009. Les zones grisées correspondent aux épidémies
tection sur cinq années successives puis détection des épidémies sur les
sering (courbe bleue). (Yt ) est en noir, (Xt ) en vert, les zones grisées
confondues) pour 100 000 habitants par tranche d'âge en France entre
haut, les pneumonies. Au milieu, les septicémies. En bas, les méningites. 166
B.1 Évolution de l'AIC moyen suivant les trois motifs saisonniers : linéaire,
cycloïdal et épidémique. Les AIC moyens sont calculés à partir des AIC
2009 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
des syndromes grippaux pour 100 habitants en France entre juillet 2002
et juin 2009. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
xix
xx LISTE DES TABLEAUX
∗
7.6 Biais relatif (%) (RBiais) pour les stratégies suivantes : 0 quand la sai-
S2 (T2) quand la série explicative est ajustée par des splines de régres-
T4 quand les séries ne sont pas ajustées mais que le modèle inclut une
∗
7.7 Rapport de variances (RV) pour les stratégies suivantes : 0 quand la
triques), S2 (T2) quand la série explicative est ajustée par des splines de
et T4 quand les séries ne sont pas ajustées mais que le modèle inclut
∗
7.8 Taux de recouvrement (%) (TR) pour les stratégies suivantes : 0 quand
triques), S2 (T2) quand la série explicative est ajustée par des splines de
et T4 quand les séries ne sont pas ajustées mais que le modèle inclut
∗
7.9 Biais relatif (%) (RBiais) pour les stratégies suivantes : 0 quand la sai-
S2 (T2) quand la série explicative est ajustée par des splines de régres-
T4 quand les séries ne sont pas ajustées mais que le modèle inclut une
∗
7.10 Rapport de variances (%) pour les stratégies suivantes : 0 quand la sai-
S2 (T2) quand la série explicative est ajustée par des splines de régres-
T4 quand les séries ne sont pas ajustées mais que le modèle inclut une
∗
7.11 Taux de recouvrement (%) pour les stratégies suivantes : 0 quand la
triques), S2 (T2) quand la série explicative est ajustée par des splines de
et T4 quand les séries ne sont pas ajustées mais que le modèle inclut
Sering. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147
12.4 Biais relatif (en %) calculé à partir des modèles M1 à M4 basés sur la
et par classe d'âge en France entre janvier 2002 et décembre 2009 . . 165
Notation Description
A403 Code de la CIM 10 correspondant à une septicémie à pneumocoque
AR Processus autorégressif
DA Diagnostic associé
DP Diagnostic principal
DR Diagnostic relié
MP Méningites à pneumocoque
autocorrelation function)
PP Pneumonies à pneumocoque
Liste des tableaux 3
Notation Description
RBiais Biais relatif (de l'anglais Relative bias)
RV Rapport de variances
SG Syndromes grippaux
SP Septicémies à pneumocoque
TR Taux de recouvrement
Variable dépendante ou à expliquer : variable d'intérêt qui dépend des autres va-
Variable indépendante ou explicative : variable qui ne dépend pas des autres variables
Introduction
Streptococcus pneumoniae (le pneumocoque) est une bactérie responsable d'un grand
nombre d'infections dans le monde entier et à tout âge, et est associé à une morta-
lité et une morbidité non négligeables (environ un million de morts par an dans le
monde) [2]. Les principales infections provoquées par le pneumocoque sont les otites,
les sinusites, les pneumonies, les méningites et les bactériémies. Ces infections sont
gorge d'un porteur. Les bactéries peuvent également se propager par des microgoutte-
lettes aérosolisées projetées lors de la toux ou des éternuements, ou encore par contact
oral d'une personne à l'autre [3]. La transmission est fréquente mais l'infection est in-
habituelle car des personnes en bonne santé peuvent être porteuses de pneumocoque
sans en être infectées [4]. Jusqu'à 40 % des individus en sont porteurs dès la pre-
mière année de leur vie. Le pneumocoque touche principalement les enfants de moins
de deux ans, les personnes âgées et les personnes immuno-décientes [3]. À l'échelle
mondiale, cette bactérie cause chaque année environ un demi million de décès chez
5
6 1.1. Contexte de santé publique
Figure 1.1 Estimation annuelle de l'incidence des infections invasives communautaires à pneu-
mocoque en France par groupe d'âge entre 1998 et 2008 (source EpiBAC). Extrait du document
Impact de la vaccination par le vaccin antipneumococcique conjugué heptavalent sur l'incidence des
infections invasives à pneumocoques en France, Analyse des données de 2008" de l'INVS.
comme les méningites, les bactériémies et les pneumonies. Le caractère invasif signie
un certain niveau de gravité, impliquant le passage de la batérie dans l'un des milieux
stériles tels que le sang et la plèvre. Aux États-Unis, cette vaccination, introduite dès
l'année 2000, conduit à une diminution des IICP chez les jeunes enfants comme chez
ans présentant des risques d'IICP. En 2006, les recommandations pour ce vaccin ont
été élargies à l'ensemble des enfants âgés de moins de 2 ans. La gure 1.1 présente l'in-
cidence des IICP en France par tranche d'âge de 1998 à 2008 mise en ligne par l'InVS
en 2010 [6]. Les deux populations principalement touchées par ces infections sont les
enfants de moins de deux ans et les personnes âgées de plus de 65 ans. L'incidence
des IICP chez les jeunes enfants, population cible de la vaccination, diminue depuis
2000 et plus particulièrement depuis 2003. Cependant, pour les autres classes d'âge,
l'augmentation initiée avant 2003 ne semble pas être modiée par la vaccination [6].
ritable problème de santé publique dans le monde entier, et ce quel que soit le niveau
de développement des pays [7, 8]. L'émergence des bactéries multi-résistantes, comme
multi-résistantes sont pour une grande part naturels et inévitables, mais également
liés à de multiples facteurs. Le facteur le plus admis à ce jour est l'exposition aux anti-
gence et la sélection de souches résistantes. Goossens et al. ont montré une corrélation
lement utilisées contre le pneumocoque) étaient les plus élevées d'Europe [11] (Figures
1.2, 1.3). Aussi, au début des années 2000, la population française était l'une des po-
pulations européennes les plus exposées aux antibiotiques (Figure 1.4). La population
des enfants de moins de 7 ans constituait la population la plus exposée, avec une
exposition trois fois plus importante que celle de l'ensemble de la population fran-
çaise [12].
français a lancé en 2001 un plan national visant à réduire l'usage des antibiotiques
an de préserver leur ecacité. Les diérentes actions menées ont ciblé à la fois les
audiovisuelle dont l'un des slogans phares était Les antibiotiques, c'est pas automa-
tique !". Cette campagne amorcée en 2002 était reconduite chaque année avec pour
période cible la période hivernale (période pendant laquelle la consommation est maxi-
pendant les périodes hivernales sur la période de 2002 à 2007 avait diminuée de près
de 30% par rapport aux années pré-campagne (2000-2002) [13]. Cependant, depuis
notamment aux infections respiratoires, qui dans la plupart des cas sont d'origine
virale et ne nécessite pas l'usage des antibiotiques. Ces infections constituent l'un des
De plus, il existe une relation étroite entre les virus grippaux et certaines bactéries
virulentes comme le pneumocoque [18, 19]. De nombreuses études montrent une re-
de ces infections était attendue chez les enfants de moins de 2 ans. Cependant, alors
qu'aux États-Unis, Lexau et al. [5] ont montré une diminution des infections à pneu-
un tel constat n'est pas visible. En eet, le graphique de l'InVS montre que ces in-
Chapitre 1. Introduction 9
Figure 1.4 Consommation communautaire d'antibiotiques dans 26 pays européens en 2002. Extrait
de l'article de Goossens 2005 [1]
10 1.1. Contexte de santé publique
Q
Q
Q
Indicateur d'exposition 1
9
Q
Q
Q
Exposition XX Q
XXX
aux antibiotiques XXX Q
Q
XXX Q
XXX Q
XXX Q
XXX s
Q
Xz Indicateur de santé
X
Infections
:
à pneumocoque
Indicateur d'exposition 2
Indicateur vaccinal
fections augmentent chez les personnes de plus de 2 ans (Figure 1.1). On peut se
demander les raisons d'une telle diérence d'évolution. D'une part, la consommation
d'autre part, cette consommation a diminué, notamment lors des périodes hivernales,
et de la mettre en relation avec les deux interventions de santé publique ainsi que
les infections virales. Ces dernières seraient à la fois associées à un nombre important
peut se faire par une analyse de séries temporelles, par exemple en étudiant le lien
classiquement utilisé à cette n est le modèle de régression linéaire adapté aux sé-
saisonnalité marquée avec une augmentation hivernale. Lors de l'étude du lien entre
tion des indicateurs temporels pose problème. C'est le cas de l'indicateur des infections
nières peuvent créer un eet de confusion dans l'analyse du lien entre ces deux séries.
lité. La question est le choix de la méthode à utiliser an de retirer cette saison, en
séries temporelles lors de l'étude du lien entre deux séries saisonnières. A l'aide de
Les modèles de régression linéaire supposent une association linéaire entre les séries
étudiées. Cependant, dans certains cas, cette hypothèse est trop restrictive. Ceci est
prol épidémique, c'est à dire, présente un faible nombre de cas tout au long de l'année
sauf sur une courte période, comme par exemple l'indicateur des syndromes grippaux
qui présente de faibles cas sauf lors de l'épidémie de grippe. L'association entre une
telle série et une autre pourrait ne pas être linéaire. En eet, cette association pour-
de simulations, la capacité du modèle linéaire à estimer le lien entre deux séries est
évalué dans des cas où justement ce lien n'est pas simulé sous l'hypothèse linéaire.
12 1.3. Objectifs
Ces études de simulations permettent de dénir des méthodes ad hoc pour l'analyse
du lien entre deux séries saisonnières et ainsi, l'étude nale des données est abordée
1.3 Objectifs
Le premier objectif de cette thèse est un objectif de santé publique. Il s'agit d'étudier
avec les deux interventions de santé publique, la campagne nationale visant à réduire
rales.
Le second objectif est à visée méthodologique. Il s'agit, dans un premier temps, d'éva-
en évidence les associations potentielles entre deux séries temporelles. Pour illustrer
ce point, nous avons étudié le lien entre l'indicateur des infections invasives à pneu-
linéaire sur une association qui ne l'est pas forcément. C'est le cas notamment de
infections virales.
tion du lien entre les infections à pneumocoque et deux facteurs environnementaux, les
Chapitre 1. Introduction 13
de la prise en compte de la saisonnalité lors de l'étude du lien entre deux séries sai-
lors des épidémies grippales. La question de la linéarité du lien dans le cas d'une série
explicative à prol épidémique est soulevée. Enn, la troisième partie présente l'évo-
lution des infections invasives à pneumocoque entre 2002 et 2009 en France et évalue
le lien entre ces infections et trois facteurs environnementaux : les syndromes grip-
schématisé Figure 1.5. Les méthodes statistiques mises en ÷uvre dans cette partie
Avant toute étude de données temporelles, il est important de bien connaitre le sys-
tème de recueil qui a permis d'obtenir ces données. En eet, si un indicateur de santé
été stable sur cette période, car cette augmentation pourrait simplement venir d'une
préférable.
Après avoir résumé les modalités de fonctionnement général d'un réseau de sur-
veillance, les principales qualités requises pour qu'un système soit ecace sont listées.
Le cas des diérents indicateurs de santé utilisés dans la suite de ce mémoire sont
15
16 2.1. Les clés de la surveillance en épidémiologie
évènements de santé. Les données de surveillance peuvent également être utilisées an
décrire l'histoire naturelle d'évènements de santé dans une communauté. C'est à par-
tir de ces informations que des hypothèses sont générées et que des actions de santé
publique sont mises en ÷uvre [26, 27]. L'exemple le plus connu de l'utilisation d'un
aux décideurs de mener de façon éclairée et ecace leurs actions de santé. La rapidité
An de travailler dans de bonnes conditions sur des données issues d'un réseau de sur-
La dénition des cas est l'étape la plus importante qui doit aboutir à une déni-
tion consensuelle et opérationnelle des cas de l'évènement surveillé. Cette dénition
doit rester homogène au cours du temps de l'étude et utilisable par tous les agents
impliqués.
d'informations est limité. Ces modalités doivent permettre de valider les cas déclarés
phiques. Les sources d'informations sont souvent multiples, dénies selon l'évènement
centres nationaux des bactéries qui sont informés par les laboratoires d'analyse), et
La sensibilité est la capacité du système de surveillance à détecter tous les cas réels.
La sensibilité correspond au nombre de cas réels détectés par le système de surveillance
tème.
pour des cas qui ne sont pas réels (faux positifs) ou détecte des fausses épidémies.
La stabilité. Ce n'est pas réellement un critère mais il est important de vérier que
le système de recueil est stable dans le temps, c'est-à-dire que la dénition des cas,
la population cible et les modalités de recueil restent les mêmes tout au long de la
période d'étude.
D'autres critères tels que l'acceptabilité, la réactivité et l'utilité sont des critères im-
18 2.2. Indicateurs des infections invasives communautaires à pneumocoque
des cas hospitalisés pour infection à pneumocoque permet de reéter le nombre d'in-
tous les établissements de santé français, publics comme privés, est un outil médico-
de plus en plus utilisées par les épidémiologistes. Par exemple, pour chaque hospita-
lisation, le diagnostique principal ainsi que des diagnostiques secondaires sont codés
ont vocation à être des bases exhaustives de l'activité hospitalière. Avec l'accord de
de ces bases nous ont été transmises par l'ATIH an de comptabiliser le nombre de
séjours liés à une infection à pneumocoque en France entre janvier 2002 et décembre
2009.
de dénir l'activité des établissements de santé et d'en calculer leur allocation budgé-
juillet 1991, les établissements de santé français, publics et privés, doivent procéder à
chirurgie et obstétrique, cette analyse est fondée sur le recueil systématique et le traite-
l'activité, nouveau système de tarication des établissements basé sur l'activité, est
∗
entrée en vigueur progressivement jusqu'en 2008 .
Un certain nombre d'informations sont codées en routine par les soignants, dont les
diagnostics et les actes médicaux. Dans cette étude, nous ne nous intéressons qu'aux
Le diagnostic principal (DP) : Avant 2009, le diagnostic principal est le motif de prise
jour. Depuis 2009, le DP est réduit au problème de santé qui a motivé l'admission du
Le diagnostic relié (DR) : Dans certain cas, le DP ne sut pas seul à caractériser la
tion. C'est notamment le cas des prises en charge pour bilan ou surveillance, pour
lesquelles les règles de codage imposent souvent l'utilisation des codes Z en DP.
Les diagnostics associés (DA) : Ces sont les aections associées au diagnostic principal,
ningite à pneumocoque (code G001). Une pneumonie bactérienne est une infection des
poumons, une septicémie est la propagation des bactéries par le sang provoquant une
Enn une méningite est une inammation des méninges. Elle sera codée si la ponction
∗
Sources : Présentation du PMSI par Jean-Claude Buzzi, médecin du département de l'information
médical, Hôpital Bichat, Paris
20 2.2. Indicateurs des infections invasives communautaires à pneumocoque
A partir des RSS pour lesquels le diagnostic principal ou le diagnostic relié ou encore
chaque personne un numéro unique d'identication ici anonymisé, basé entre autres
d'un même individu au cours de la période d'étude. Dans 4% des cas, ce numéro
anonymisé était manquant. Pour ces cas là, seule une recherche par établissement
un même individu. Les patients ayant plusieurs hospitalisations liées au même évène-
ment ne sont comptabilisés qu'une seule fois, lors de la première hospitalisation. Les
sation (par exemple son age). Un patient ré-hospitalisé pour une infection invasive à
pneumocoque au-moins six mois après une première hospitalisation est comptabilisé
comme un nouveau cas d'infection à pneumocoque. Les séjours liés à une infection
telle hospitalisation n'est comptabilisée qu'une seule fois lors du décompte des IICP
totales, par contre, elle est comptabilisée dans chacun des décomptes par pathologie
par l'INSEE) ainsi que la population en transit sur le territoire. Cependant, pour
française résidente pour laquelle les données sont disponibles. Nous supposons que
France pour une infection à pneumocoque est stable sur la période d'étude, de façon à
avoir un biais certes inconnu mais constant. De plus, la population d'étude est limitée
La période d'étude. Les données sont recueillies de janvier 2002 à décembre 2009.
Les modalités d'enregistrements et d'extraction. Pour des raisons d'anonymat,
seules les informations suivantes nous ont été transmises pour chaque séjour, le nu-
séjour (numéro unique par année et par établissement), le numéro anonymisé du pa-
Les IICP sont classées par tranche d'âge en faisant référence à l'âge de la première
hospitalisation.
censée être bonne. Le diagnostic des infections à pneumocoque, basé sur la clinique,
pour assurer une sélection de cas réels d'infection à pneumocoque, mais non nécessai-
rement invasive. Cependant, ces deux critères, sensibilité et spécicité, sont diciles à
évaluer et ne sont pas connus dans le cadre spécique des infections à pneumocoque.
Représentativité
L'acquisition d'infections nosocomiales à pneumocoque est très faible [32] conduisant
Cependant, les pneumonies à pneumocoque hospitalisées ne sont pas toutes des in-
fections invasives. En eet, les pneumonies ne présentent pas toutes une hémoculture
positive, soit parce que les bactéries ne sont pas présentes dans le sang, soit parce que
les bactéries ont été décapitées avant l'arrivée à l'hôpital par une prise d'antibiotiques
22 2.2. Indicateurs des infections invasives communautaires à pneumocoque
pose l'hospitalisation que de 15 à 20% des patients [33]. Ce pourcentage est supposé
constant sur la période d'étude. Ainsi, cet indicateur sur-estime les IICP réellement
invasives, en incluant les pneumonies à pneumocoque les plus graves non nécessaire-
ment invasives.
Depuis le début des années 2002, il existe un test de dépistage des infections à pneumo-
coque basé sur la présence de l'antigène pneumococcique dans les urines. Cependant,
ce test de faible sensibilité notamment chez les enfants reste peu utilisé en pratique.
Ainsi, l'introduction d'un tel test ne semblerait pas avoir inuencé le codage des hos-
Avant janvier 2004, les établissements privés étaient remboursés par la tarication
partir de janvier 2004, le remboursement des frais des établissements de santé pu-
blics comme privés est lié à la tarication à l'activité (T2A). Cette modication des
secondaires pour des pathologies multiples par exemple et des actes qu'ils ne codaient
pas auparavant an de facturer les actes réellement eectués. Cette modication de
la pratique est très dicile à mesurer, cependant, il est vraisemblable que pour des
grandement évolué entre la CIM version 10 et la CIM version 11. En eet, dans la
CIM version 10, ces pathologies étaient déjà considérées comme des complications ou
3 ou 4. Ainsi, du point de vue du groupage, le poids de ces codes n'a pas évolué d'une
Chapitre 2. Construction des indicateurs de santé publique 23
Au bilan, les modalités de recueil ont été modiées. Ces données sont donc à prendre
avec précaution dans la mesure où la stabilité du recueil n'a pas été attestée.
chez les enfants de moins de 15 ans. Pour les adultes de plus de 15 ans, la collecte
ne corresponde qu'à un échantillon d'une souche sur six parmi les souches isolées de
coque par tranche d'âge issue des données publiées de l'InVS [6] présentée dans le
chapitre précédent, Figure 1.1, est comparable à l'évolution de cette même incidence
Hormis chez les enfants de moins de deux ans, les évolutions des incidences issues des
PMSI par rapport à celle estimée à partir des données de l'InVS est notable. Comme
ce qui n'est pas le cas des données publiées par l'InVS en 2010. Ainsi, l'indicateur des
Cependant, il existe une diérence d'évolution chez les enfants de moins de deux ans.
L'incidence présentée par l'InVS diminue à partir de 2003, ce qui ne se retrouve pas
d'age par pathologie, présentée Figure 2.2, montre que ce sont les pneumonies à pneu-
24 2.3. Indicateur de l'exposition aux anti-infectieux
50
40
30
20
●
●
● ●
10 ● ●
●
●
Jan 2002 Jan 2003 Jan 2004 Jan 2005 Jan 2006 Jan 2007 Jan 2008 Jan 2009
Temps (mois)
Source : ATIH 2011
Figure 2.1 Incidence des hospitalisations pour infections invasives à pneumocoques pour 100 000
habitants en France entre 2002 et 2009 par tranche d'âge (issue des données des PMSI).
publiés par l'InVS en 2010. Seul l'indicateur des pneumonies à pneumocoque issu des
PMSI, infections qui ne sont pas nécessairement invasives, ne présente pas la même
évolution que les deux autres indicateurs. Cette diérence pourrait s'expliquer par le
fait que l'indicateur des IICP n'est pas spécique des infections invasives, notamment
lorsqu'il s'agit de pneumonie, alors que ceux issus d'Epibac et de l'Invs le sont. Cet
des pneumocoques, une lutte curative à l'aide d'antibiotiques et une lutte préventive
infectieux est une exposition majoritairement communautaire car on estime que 80%
Introduction de la vaccination
50 antipneumococcique
Incidence pour 100 000 habitants
25
Jan 2002 Jan 2003 Jan 2004 Jan 2005 Jan 2006 Jan 2007 Jan 2008 Jan 2009
Temps (année)
15
Incidence pour 100 000 habitants
10
5
●
●
● ● ●
● ● ●
Jan 2002 Jan 2003 Jan 2004 Jan 2005 Jan 2006 Jan 2007 Jan 2008 Jan 2009
Temps (mois)
10 < 2 ans
Incidence pour 100 000 habitants
2−15 ans
● 16−64 ans
65 ans et +
Jan 2002 Jan 2003 Jan 2004 Jan 2005 Jan 2006 Jan 2007 Jan 2008 Jan 2009
Source : ATIH 2011
Figure 2.2 Incidence des hospitalisations pour infections invasives à pneumocoques pour 100 000
habitants en France entre 2002 et 2009 par tranche d'âge et par pathologie (issue des données du
PMSI). En haut, les hospitalisations pour pneumonies à pneumocoque. Au milieu, les hospitalisations
pour septicémies à pneumocoque. En bas, les hospitalisations pour méningites à pneumocoque.
dants (RSI). Ces deux bases médico-administratives, collectées avant tout à des ns
des soins, ainsi que des informations concernant les soins remboursés. Seuls les soins
correspondants aux familles des macrolides et des β -lactamines sont considérés car
26 2.3. Indicateur de l'exposition aux anti-infectieux
population bénéciaire) par ces deux régimes sociaux, soit à eux-deux 90% de la po-
période d'étude, évoluant de 90% en 2003 à 91% en 2006 (source CNAMTS et RNIAM,
La période d'étude. Les données sont disponibles de juillet 2000 à mars 2010. Ces
données sont principalement utilisées sur la période de janvier 2002 à décembre 2009,
période compatible à celle de l'indicateur des IICP, mais elles sont également utilisées
extractions issues de leurs bases. Cependant, alors que la CNAMTS utilise sa propre
†
liste des codes CIP correspondant aux antibiotiques systémiques et aux vaccins
‡ §
anti-pneumococciques , le RSI requête sur les codes ATC correspondant à la caté-
An d'harmoniser ces extractions, seules les données issues des deux bases corres-
pondantes à un des codes CIP de la liste de la CNAMTS sont conservées (ce qui
de remboursements pour prescription d'antibiotique caractérisé par son code CIP est
†
Le code CIP (Club InterPharmaceutique) est un code français à 13 chires correspondant à
l'autorisation de mise sur le marché d'une présentation d'un médicament en France
‡
liste considérée comme exhaustive et régulièrement mise à jour en fonction des nouvelles autori-
sations de mise sur le marché (AMM) et des retraits des ces AMM
§
La classication ATC (Anatomical Therapeutical Chemical) est une classication internationale
des médicaments réalisée par l'OMS.
Chapitre 2. Construction des indicateurs de santé publique 27
qu'en pharmacie de ville à partir d'une ordonnance d'un médecin (on estime à 2%
l'achat d'antibiotiques sans prescriptions [35]). De plus, les antibiotiques et les vac-
Rendu majeur, ils sont donc tous pris en charge à 65% par la sécurité sociale. Ainsi,
tout achat d'antibiotique en France correspond à une ligne dans la base des rem-
boursements de l'assurance maladie. Pour ces médicaments faisant l'objet d'un rem-
boursement, la grande majorité des achats est directement notiée au régime social
place de la carte Vitale a permis de limiter les échanges d'informations par courrier et
leur intégralité. Il est fort probable que les individus qui achètent des antibiotiques les
consomment au moins en partie. Nous n'avons pas d'information sur la quantité d'an-
de traitement par antibiotiques. En eet, une personne pourrait être traitée par plu-
de long terme et revenir à la pharmacie pour acheter une nouvelle boite de médica-
ments. Dans ces deux cas, ces consommations sont comptabilisées deux fois. De plus
les quantités associées à chaque remboursement ne sont pas prises en compte. Cepen-
dant, généralement, les prescriptions pour antibiotique se font sur de courtes périodes
usage des antibiotiques a débuté à l'automne 2002. Sabuncu et al. ont montré que la
28 2.3. Indicateur de l'exposition aux anti-infectieux
En France, tout individu a droit à une couverture sociale. Il existe trois principaux
population française). Il est dit (source interne de la MSA) que la population couverte
par la MSA consomme nettement moins d'antibiotiques (environ 10 fois moins) que
mation moyen français est celui estimé à partir des données de la CNAMTS et du RSI.
tion d'antibiotiques (ATB) a été étudié et validé [13]. Dans la suite, seules les classes
utilisées an d'estimer le taux d'enfants de moins de deux ans vaccinés. Le nombre
de doses de vaccin remboursés par la CNAMTS est comptabilisé par mois. La pro-
portion d'enfants nés en 2007, ayant complété leur primo-vaccination (3 doses) entre
2007 et juin 2010 est estimée à 84% à partir de ces données, alors que la proportion
d'enfants nés en 2008, ayant complété leur primo-vaccination (2 doses) entre 2008 et
juin 2010 est estimée à 87%. D'après l'InVS, la proportion d'enfants ayant débutés
une vaccination par la vaccin pneumocoque conjugué à l'âge de 6 mois est passée de
60% pour les enfants nés 2004 à 95% pour ceux nés en 2010 [37].
Chapitre 2. Construction des indicateurs de santé publique 29
qui ont pour organe-cible habituel et principal l'arbre respiratoire. Il peut s'agir de
basse (bronchite, pneumonie). La plupart des infections à virus respiratoires sont des
et n'allant pas plus loin, de sorte que porte d'entrée et organe cible sont confondus
et que l'incubation de la maladie, courte, n'est que de quelques jours, ce qui favorise
nelles est un réseau de 1300 médecins généralistes libéraux, volontaires, répartis sur
Les modalités de recueil sont les suivantes : les individus infectés par un virus
ont la liberté de déclarer le nombre de cas qu'il ont diagnostiqués dans la semaine
précédent leur déclaration. A partir de ces données, il est possible d'estimer le taux
leur participation et leur répartition géographique) est multiplié par le nombre total
française pour obtenir un taux d'incidence. Deux hypothèses sont nécessaires à cette
de l'ensemble des médecins du territoire français, le fait que les médecins déclarent en
Représentativité
La dénition des syndromes grippaux est assez spécique pour ne détecter que des cas
al. [38]. Cependant, il s'agit uniquement de cas déclarés et non de l'ensemble des cas
réels. En eet, tous les patients infectés par la grippe ne consultent pas et donc ne sont
pas comptabilisés par ce système de surveillance. De plus, aucun test virologique n'est
demandé an de conrmer les cas déclaré. Il peut s'agir également de faux positifs.
même si la grippe AH1N1 a conduit à une sur-estimation des cas par ce réseau [39].
répartis sur le territoire français, pour le lieu d'exercice et la distribution par âge
fréquemment des hommes, plus âgés et exercent plus rarement une activité de soins
salariée à temps partiel. Ils ont également un plus grand volume de consultations que
la moyenne.
Stabilité : Sur la période d'étude, de janvier 2000 à juin 2010 (et à fortiori de janvier
2002 à décembre 2009), il n'y a eu aucune modication dans la dénition des cas, ni
2.5 Bilan
Les trois indicateurs de santé présentés précédemment, l'indicateur des ATB, l'indica-
teur des SG sont issus de systèmes de recueil relativement stables dans sur la période
paux) de ces indicateurs est utilisée. La gure 2.3 présente l'évolution de l'indicateur
des IICP entre janvier 2002 et décembre 2009. La gure 2.4 présente l'évolution des
indicateurs des ATB et des SG de janvier 2000 à mars 2010. D'après ces graphiques,
dicateur des IICP présente une saisonnalité très nette, avec une augmentation hiver-
nale atteignant un pic autour du mois de janvier et un creux au mois d'aout. Cet
indicateur montre également une tendance à la hausse. L'indicateur des ATB est éga-
lement marqué par une saisonnalité avec la encore une augmentation hivernale avec
plusieurs pics et un creux au mois d'aout. Cet indicateur présente des changements de
niveau moyen suivant les périodes suivantes, juillet 2000 à juin 2002, juillet 2002 à juin
2005, juillet 2005 à juin 2008, juillet 2008 à mars 2010, comme décrit par Sabuncu et
al. [13] et Bernier et al. [14]. Nous parlerons alors de variation par palier. L'indicateur
des SG apparait là encore avec une saisonnalité marquée mais diérente de celle des
se produit seulement sur deux à trois mois. De plus, le début de l'épidémique varie
grandement dans le temps, avec un panel de mois compris entre septembre et mars.
32 2.5. Bilan
Pneumonies
3 Introduction de la T2A 3
2 2
1 1
0 0
Jan 2002 Jan 2003 Jan 2004 Jan 2005 Jan 2006 Jan 2007 Jan 2008 Jan 2009 Jan 2010
Temps (mois)
Source : ATIH 2011
Figure 2.3 Incidence mensuelle des hospitalisations pour infections invasives à pneumocoques
pour 100 000 habitants en France entre 2002 et 2009 par pathologie (issue des données des PMSI).
500
400 4000
300 3000
200 2000
100 1000
0 0
Jan 2001 Jan 2002 Jan 2003 Jan 2004 Jan 2005 Jan 2006 Jan 2007 Jan 2008 Jan 2009 Jan 2010
Temps (mois)
Data : CNAMTS, RSI and Sentiweb
Figure 2.4 Incidence pour 100 000 habitants des remboursements pour prescription d'antibiotique
(en noir) et des syndromes grippaux (en bleu) en France entre 2000 et 2010.
Chapitre 3
Bases méthodologiques
3.1 Introduction
Une série temporelle est une suite d'observations qui se distinguent par le rôle im-
portant que joue l'ordre dans lequel elles ont été recueillies. L'indice temporel peut
être la minute, le jour, le mois, etc. Ainsi, tout indicateur de santé recueilli à pas
de temps régulier peut être considéré comme une série temporelle, par exemple, la
température d'un lieu chaque jour à la même heure [40]. Une série temporelle peut
également être une information agrégée sur une unité de temps, comme le nombre de
Modéliser des indicateurs de santé par des méthodes dites de séries temporelles c'est
33
34 3.1. Introduction
La première diculté des séries temporelles tient au fait qu'on n'observe qu'une seule
servations à un temps donné. Si N est susamment grand, il est possible de faire des
variable aléatoire dont sont issues les observations. Or, ici, il est en eet impossible
d'obtenir plusieurs observations pour un même espace géographique, une même unité
de temps et une même population. En eet, dès qu'un de ces critères varie, le proces-
sus générateur des données varie. Les séries temporelles sont liées à la conjoncture de
La seconde grande diculté des séries temporelles provient du fait que les données
sont corrélées entre-elles. En eet, il n'y a pas indépendance entre les observations
successives d'un indicateur temporel, l'analyse statistique classique ne peut pas être
est remplacée, dans l'analyse temporelle, par la notion de stationnarité qui implique,
permet de supposer que les inférences faites à partir de données observées sont va-
donne le détail. Bien entendu, dans la réalité les séries temporelles étudiées ne sont
pas stationnaires. Une des grandes questions est de savoir par quelles méthodes elles
seront le mieux stationnarisées. Certaines de ces méthodes sont exposées dans la suite.
ou plusieurs séries temporelles quand les erreurs sont supposées gaussiennes. Le pre-
Chapitre 3. Bases méthodologiques 35
mier type de modèles, développé par Box & Jenkins [43], correspond à la régression
d'une variable aléatoire et les eets de variables explicatives. Une telle régression est
vations) pour supporter un modèle avec une structure de corrélation interne. Box et
Jenkins ont étudié l'estimation des paramètres de modèles pour lesquels les observa-
Le second type de modèles correspond aux modèles de régression linéaire avec er-
être facilement estimée. Ce type de modèle est en fait un cas particulier des modèles
linéaires estimés par les moindres carrés généralisés. Judge et al. [25] ont étudié les
modèles supposant que les observations sont générées par la combinaison d'un proces-
être modélisés de diérentes façons, soit par un processus AutoRégressif (AR), soit
un processus moyenne mobile (MA), soit encore par un processus combinant les deux
précédents (ARMA). Cependant, les modèles les plus couramment utilisés en pratique
sont les modèles supposant des erreurs autorégressives (AR) car plus faciles à implé-
aux praticiens les outils nécessaires pour faire un choix éclairé sur le modèle adéquat.
Il est à noter que les outils d'analyse de séries temporelles ont été développés dans
spéciques à ces domaines, d'autres plus transversaux. Cependant, ces deux écoles de
des modèles de régression linéaire, alors que dans le domaine de l'industrie, les mo-
dèles de Box et Jenkins seront préférés. Dans le domaine de la santé, ces deux grandes
nous ne nous intéressons qu'aux modèles de régression linéaire avec erreurs autoré-
Dans cette partie, les outils nécessaires à l'étude d'une série temporelle sont expo-
sés dans un premier temps. Ensuite, l'étude de l'association entre deux ou plusieurs
séries temporelles est abordée. Enn, des notions de causalité sont introduites.
lations ainsi que leurs estimations et présente certains processus stationnaires particu-
liers. Cette partie est en bonne partie tirée du cours de séries temporelles enseigné par
en 2005-2006.
(Xt )t∈T . Dans ce mémoire, les séries prennent des valeurs réelles et T est dénombrable,
est telle que, ω∈Ω et ∀B ∈ B(R) : X −1 (B) ∈ A, avec B(R), la tribu des boréliens
est telle que, pour tout t ∈ T xé, Xt est une variable aléatoire dénie sur
N
(Ω, A, P ) T .
nir la relation entre la loi d'un processus et les lois de ses marginales, et notamment
Condition de projectivité
Soient T1 et T2 deux parties nies de T, telle que T2 ⊂ T1 . Soit ΠT1 ,T2 , la projection
que la loi de (Xt )t∈T2 peut être déterminée comme loi marginale à partir de la loi du
processus (Xt )t∈T ou à partir de la loi de n'importe quelle sous famille la contenant
((Xt )t∈T2 où T2 ⊂ T1 ).
Théorème de Kolmogorov
N
T1
Soit PT1 une loi de probabilité sur (R, B(R)) , T1 étant une partie nie de T.
La condition de projectivité est nécessaire et susante pour qu'il existe un processus
(Xt )t∈T dont la loi de (Xt )t∈T1 soit PT1 , pour toute famille T1 ⊂ T . La loi du processus
38 3.2. Étude d'une série temporelle
sera noté T directement. Ainsi, le processus pourra être noté X = (Xt )t=1,...,T . Il
Dans de nombreux cas, on ne peut pas renouveler la suite de mesures dans des condi-
tions identiques. Alors, pour que le modèle déduit à partir d'une suite d'observations
ait un sens, il faut que toute portion de trajectoire observée fournisse des informa-
tions sur la loi de X et que les diérentes portions de même longueur fournissent les
Un processus (Xt )t∈T est du second ordre si, pour tout t ∈ T, l'espérance de Xt2
existe (si E(Xt2 ) < ∞).
Un processus du second ordre (Xt )t∈T est faiblement stationnaire si son espérance
E(Xt ) est constante et ses autocovariances Cov(Xr , Xs ) sont invariantes par transla-
tion. Soit si :
∀t ∈ T, E(Xt ) = µ
∀(r, s, r + h, s + h) ∈ T 4 : Cov(Xr , Xs ) = Cov(Xr+h , Xs+h )
cessus stationnaires.
Chapitre 3. Bases méthodologiques 39
∞
X
γh < ∞
h=0
. Alors, (Xt )t∈N est un processus ergodique pour la moyenne si ∀f : R → R telle que
T
1 X
(Xt − µ)(Xt−h − µ) −→ γh
T − h t=h+1 T →∞
C'est une sorte d'extension de la loi des grands nombres. La notion d'ergodicité fait
le pont entre moments temporels (estimés à partir de la série des T observations
du même processus à des temps diérents) et moments statistiques usuellement
Remarquons qu'un processus stationnaire gaussien est ergodique pour tous ses mo-
ments.
Fonction d'autocovariance :
Soit (Xt )t=1,...,T un processus stochastique faiblement stationnaire. On appelle fonc-
40 3.2. Étude d'une série temporelle
Propriétés :
Si γ est une fonction d'autocovariance, alors elle vérie les propriétés suivantes :
1. γ(0) ≥ 0
2. |γ(h)| ≤ γ(0)
3. γ(−h) = γ(h)
4. γ est une fonction dénie positive i.e.
Pn Pn
∀n ∈ [(1, T )], ∀(at )t∈{1,...,n} : t=1 t0 =1 at at0 γ(t − t0 ) ≥ 0
Pn Pn Pn
Le point 4. s'explique par le fait que V( t=1 at Xt ) = t=1 t0 =1 at at0 γ(t − t0 ).
Et réciproquement, si γ est une fonction qui vérie :
1. γ(−h) = γ(h)
Pn Pn
2. ∀n ∈ [(1, T )], ∀(at )t∈{1,...,n} : t=1 t0 =1 at at0 γ(t − t0 ) ≥ 0
suivante :
1 ρ(1) ... ρ(h − 1)
ρ(1) 1 ... ...
R(h) =
(3.1)
... ... ... ρ(1)
ρ(h − 1) ... ρ(1) 1
C'est une matrice de Toeplitz (symétrique avec égalité des termes diagonaux).
dépendances.
mais que cette corrélation ne soit pas due à un fort lien mais à un facteur commun
abstraction de l'inuence des observations xt+1 , ..., xt+k−1 . C'est ce qu'on appelle l'au-
tocorrélation partielle.
Xt−1 , ..., Xt−h+1 : EL(Xt−h |Xt−1 , ..., Xt−h+1 ). Cette dernière régression de Xt−h sur
Cov(Xt − EL(Xt |Xt−1 , ..., Xt−h+1 ), Xt−h − EL(Xt−h |Xt−1 , ..., Xt−h+1 ))
=
V(Xt − EL(Xt |Xt−1 , ..., Xt−h+1 ))
Théorème
Soit (Xt )t∈T un processus faiblement stationnaire centré. Soit la régression linéaire de
42 3.2. Étude d'une série temporelle
h
X
Xt = ai (h)Xt−i + t = EL(Xt |Xt−1 , ..., Xt−h ) + t
i=1
Propriété
Ph
A partir de Xt = i=1 ai (h)Xt−i + t , et en multipliant par Xt−k , k ≥ 0, chaque
h
X
E(Xt Xt−k ) = ai (h)E(Xt−i Xt−k ) + E(t Xt−k )
i=1
Comme t est non-corrélé aux valeurs antérieures du processus, E(t Xt−k ) = 0, alors
h
X
γ(k) = E(Xt Xt−k ) = ai (h)γ(k − i)
i=1
h
X
ρ(k) = ai (h)ρ(k − i)
i=1
On obtient alors :
ρ(1) a1 (h)
ρ(2) a (h)
= R(h) 2
... ...
ρ(h) ah (h)
Avec R(h) dénie en 3.1. Ainsi, si on a une estimation de (ρ(1), ..., ρ(h)) alors on est
capable d'estimer (a1 (h), ..., ah (h)), et donc à en déduire une estimation de r(h) à
travers les ah . Il sut pour cela d'inverser R(h), la matrice d'autocorrélation. L'al-
Soit (Xt )t∈N un processus stationnaire du second ordre et ergodique de fonction d'au-
tocovariance γ.
On appelle densité spectrale de X la fonction f suivante :
+∞
1 X
f (ω) = γ(h)e−ihω
2π h=−∞
γ(h) = f (ω)eihω dω
T
1 X −itω 2
IT (ω) = | xt e |
T t=1
pondante.
Nous avons vu que la loi d'un processus est déterminée de manière unique à partir de
ses lois de dimension nie. De plus, un processus stationnaire est déni par son espé-
à partir d'un échantillon d'observations, (x1 , ..., xT ), il est possible de construire des
estimateurs sans biais des deux premiers moments statistiques du processus généra-
44 3.2. Étude d'une série temporelle
il sut de calculer les moments temporels à partir de l'échantillon pour estimer les
Soit (Xt )t=[(1,T )] un processus stationnaire et ergodique et (x1 , ..., xT ) les observations
Dans l'étude de séries temporelles, la médiane n'est pas utilisée. En eet, la médiane
T
1 X
γ̂(h) = (xt − x̄T )(xt−h − x̄T )
T − 1 t=h+1
PT
t=h+1 (xt − x̄T )(xt−h − x̄T )
∀h ∈ {1, ..., T − 1}, ρ̂(h) = PT 2
t=1 (xt − x̄T )
A nouveau, γ̂(h) converge presque surement vers γ(h) et ρ̂(h) converge presque sur-
Ces calculs sont réalisables même si le processus n'est pas stationnaire. Les estimations
cessus générateur des données est possible. Il s'agit ensuite de comparer l'ACF et la
PACF estimées à partir de l'échantillon, (x1 , ..., xT ), aux ACF et PACF des processus
stationnaires connus. Dans cette section, deux des principaux processus stationnaires
comparable aux erreurs indépendantes dans l'analyse classique. Le second est le seul
existe des processus moyenne mobile (MA) et des processus combinant les deux pré-
Il existe deux dénitions d'un bruit blanc cependant, dans la pratique, seule la dé-
Un bruit blanc est donc une réalisation d'aléas successifs. Un bruit blanc faible est
faiblement stationnaire.
signicativement diérente de 0.
Dans cette section, seuls les tests utilisés dans la suite du mémoire sont présentés. Soit
H : ( ) est un bruit blanc
0 t t∈{1,...,T }
H : ( ) n'est pas un bruit blanc
1 t t∈{1,...,T }
Le test de Ljung-Box [47] est l'un des tests de Pormanteau couramment utilisé. Il
façon suivante :
K
X ρ̂2 (k) T A∞ 2
QLB = T (T + 2) −−−A χK
k=1
T − k
Chapitre 3. Bases méthodologiques 47
Une trop grande valeur de QLB indique que les autocorrélations sont trop impor-
tantes pour être celles d'un bruit blanc. Asymptotiquement QLB suit une loi du Khi-2
p
à k degré de liberté : A χ2K .
QLB − On rejette donc l'hypothèse H0 au niveau α si
à K degré de liberté.
Test de normalité
Si de plus, le processus (t )t∈{1,...,T } est supposé gaussien alors le test de Shapiro-
Wilk peut s'appliquer :
H0 : un échantillon de taille T, (1 , ..., T ), est issue d'une population normalement
distribuée.
( Ti=1 ai (i) )2
P
W = PT
i=1 (i − ¯)2
où, (i) désigne la ième statistique d'ordre et les ai sont tels que :
m0 V −1
(a1 , ..., aT ) =
(m0 V −1 V −1 m)1/2
avec m1 , ..., mT les espérances des statistiques d'ordre d'un échantillon de variables
de déterminer si un échantillon suit une loi connue par sa fonction de répartition, par
n
1X
Fn (x) = δx ≤x
n i=1 i
48 3.2. Étude d'une série temporelle
La fonction de répartition empirique est un processus qui prend ses valeurs dans
+∞
c nA∞ X
P [sup|Fn (x) − F (x)| ≤ √ ] −−−A 2 (−1)r−1 exp(−2r2 c2 )
n r=1
Le terme α(c) vaut 0.05 quand c=1.36. Il est ainsi facile de proposer un test d'hypo-
Ce test suppose que la loi F est connue, or dans la pratique, F est estimée à partir
suit pas la loi de Kolmogorov-Smirnov. Ce test n'est donc pas adéquate et pourtant
variance σ2.
Si un processus (νt )t∈Z est un processus AR d'ordre p qui a toutes les racines de son
polynôme Φ à l'extérieur du cercle unité, alors on dit que la représentation est cano-
nique.
Si un processus (νt )t∈Z est un processus AR d'ordre p canonique, Φ(B)Xt = t . alors
+∞
νt = Φ−1 (B)t = t + i=1 ψi t−i . Pour des
P
il admet une écriture appelée MA(∞),
p
X
∀t ∈ Z, νt = φi νt−i + t
i=1
Le système liant les autocorrélations simples aux paramètres autoregressifs (φi )i∈{1,...,p} ,
appelé équations de Yule-Walker [48, 49], est le suivant :
ρ(1) 1 ρ(1) ... ρ(p − 1) φ1
ρ(2) ρ(1) 1 ... ... φ2
=
... ... ... ... ρ(1) ...
ρ(p) ρ(p − 1) ... ρ(1) 1 φp
ρ = R(p)φ
gressifs (φ̂i )i∈{1,...,p} en inversant la matrice R(p), qui est de plein rang et symétrique
bin permet de déterminer les autocorrélations partielles de manière plus simple que
l'inversion de R(p).
On peut également remarquer que les autocorrélations simples sont solution d'une
Autocorrélations partielles
Si (νt )t∈Z un processus AR(p) canonique, alors ses autocorrélations partielles s'an-
50 3.2. Étude d'une série temporelle
Étude graphique : Dans toute étude de série temporelle, il est important de com-
mencer par observer sa représentation sur un graphique portant en abscisse le temps
ractéristiques de l'évolution de cette série peuvent s'y lire comme la présence d'une
saisonnalité ou d'une tendance. Par exemple, sur les gures 2.3 et 2.4, la saisonnalité
avons vu qu'un processus stationnaire et ergodique peut être étudié à partir de l'es-
spectrale également peut être menée. Une grande valeur du périodogramme suggère
Ces trois études sont complémentaires. L'étude des ACF et PACF permet de conr-
série. L'analyse spectrale, plus ne que les deux autres, peut permettre de déceler
des caractéristiques non visibles à partir des autres méthodes. Il existe des tests de
stationnarité, tel que le test de Dickey et Fuller [50], mais dans la pratique, nous
préférons les tests empiriques présentés précédemment (étude graphique, l'étude des
3.2.2.2 Stationnarisation
Une série temporelle, (Xt ){t=1,...,T } , peut être décomposée en diérents termes : Tt ,
une tendance, St une composante saisonnière et t un résidu aléatoire. Ainsi, sous
saison par régression linéaire à l'aide des moindres carrés ordinaires (MCO), méthode
préconisée par Thomas et Wallis [51]. Les résidus de cette régression linéaire sont alors
lisée.
ces variations par les MCO à l'aide d'une fonction trigonométrique se présente comme
l'option la plus naturelle. Les autres méthodes de lissage sont également envisagées et
a. Lissages paramétriques
mer une évolution moyenne de long terme. Si la série temporelle étudiée présente un
cycle annuel, la régression périodique estime un cycle moyen sur la période d'étude.
Cette méthode suppose que le pic saisonnier ainsi que son amplitude restent constants
X
α1,θ cos θ + α2,θ sin θ (3.2)
θ
avec θ une fonction de t (par exemple θ = 2 π k t/12 pour des données mensuelles,
θ = 2 π k t/52 pour des données hebdomadaires, etc.) [5355]. Les paramètres α1,θ et
nombre est important, meilleure est l'adéquation aux données, mais plus le nombre
b. Lissages semi-paramétriques
Les splines cubiques de régression présentent une approche alternative intéressante car
plus souple que la précédente [57]. Dans ce cas, les données temporelles sont réparties
en intervalles sur lesquels un polynôme d'ordre 3 est estimé par régression, avec une
condition sur les bornes des intervalles. La souplesse des splines permet de capter l'évo-
lution des données de façon plus ne. La nesse de cette estimation dépend à la fois
sont les plus souvent implémentés car ils orent un bon compromis entre souplesse
théoriques. Plus le nombre d'intervalles est important, meilleur est l'ajustement aux
3
X n X
X K
i
γ0i t + γkj3 (t − ξkj )3+ (3.3)
i=0 j=1 k=1
n le nombre d'années considérées et ξkj le k ième n÷ud de la j ième année. (.)+ désigne
i = 0, ..., 3 et γkj3 pour k = 1, ..., K et j = 1, ..., n sont estimés par les MCO.
Cette modélisation permet à la fois une estimation moyenne de la saison et une estima-
servations.
c. Lissages non-paramétriques
période P, on peut également estimer un eet moyen des P unités de temps consti-
tuant cette période. Par exemple, s'il s'agit d'une série mensuelle, la périodicité sera
P
X
ζi Sit
i=1
avec
1 si t≡i mod [P ]
Sit =
0 sinon
dans un premier temps an de comprendre l'extension faite notamment pour le cas des
Y = Xβ +
Yt = Xt0 β + t
3. E(Xs t ) = 0 pour s ≤ t.
Dans ce cadre, le vecteur des valeurs résiduelles, , est un processus bruit blanc ,
3.3.1.2 Estimations
L'estimation des paramètres du modèle par les moindres carrés ordinaires (MCO) est
β̂M CO = (X 0 X)−1 X 0 Y
Soit H , la matrice de projection sur le sous-espace engendré par les vecteurs colonnes
de la matrice X.
Sous les hypothèses précédentes et si tous les éléments diagonaux de H tendent vers
par :
Var(β̂M CO ) = σ 2 (X 0 X)−1
Le modèle ajusté s'écrit alors Ŷt = Xt0 β̂M CO , pour t = 1, ..., T , avec ˆt = Yt − Ŷt =
Yt − Xt0 β̂M CO . De même, sous les hypothèses précédentes et si tous les éléments dia-
gonaux de H tendent vers 0, on montre que Ŷt est non biaisé, convergent et asympto-
tiquement gaussien.
Si de plus, les résidus suivent une loi gaussienne, alors β̂M CO et Ŷt suivent aussi une
loi gaussienne.
1
2
σ̂M CO = ˆ0 ˆ.
T −k−1
2 2
On montre que E(σ̂M CO ) = σ .
Les écarts-types des β̂j,M CO , j = 1, ...k + 1 sont les racines carrées des éléments
2
diagonaux de la matrice Var(β̂M CO ) en remplaçant σM CO par son estimation. On les
q
2 0 −1
note ŝj = σ̂M CO (X X)jj . Le théorème de Gauss-Markov dénit l'estimateur des
MCO comme l'estimateur sans biais de variance minimale parmi les estimateurs sans
biais du paramètre β.
1
F = 2
[(R(β̂M CO − β)0 )(R(X 0 X)−1 R0 )−1 (R(β̂M CO − β))] ∼ Fq,T −k (3.6)
qσ̂M CO
Snedecor d'ordre 1 − α.
Coecient de détermination
Le coecient de détermination donne une information sur la part de la variance de
PT 2
2 T −1 ˆt
Rajusté =1− PT t=1
T − k t=1 (Yt − Ȳ )2
2
avec Ȳ , la moyenne temporelle de Y . Rajusté est proche de 1 si l'ajustement aux
Critère de comparaison
Le critère la plus classiquement utilisé est le critère de Akaike (AIC). Le meilleur des
de covariables explicatives).
Test de blancheur
Le modèle suppose que les résidus proviennent d'un processus bruit blanc. Pour le
vérier, il faut utiliser les tests présentés à la section consacrée aux bruits blancs
58 3.3. Étude du lien entre deux ou plusieurs séries temporelles
Dans ce modèle, les résidus sont supposés indépendants (ou non-corrélés). Cependant,
la présence d'autocorrélation est caractéristique des séries temporelles. Ainsi, les ré-
sidus de la régression linéaire sont eux aussi très souvent autocorrélés ce qui implique
Considérons maintenant qu'il n'y a pas indépendance entre les résidus. Cov() =
E(0 ) = σ 2 V 6= σ 2 IT . Dans ce cas, l'estimateur des MCO reste sans biais mais n'est
théorème de Gauss-Markov ne sont plus vériées. Ainsi, les écarts-types associés sont
Supposons V connue, alors l'estimateur des moindres carrés est toujours sans biais et
déni par :
β̂M CO = (X 0 X)−1 X 0 Y
2 0 −1
Ainsi, σ̂M CO (X X) est un estimateur biaisé de la variance de β̂M CO . Et donc, β̂M CO
n'est plus un estimateur de variance minimale parmi les estimateurs linéaires sans
biais.
Le modèle de régression estimé par les moindres carrés généralisés (MCG) est adapté,
Y = Xβ + ν (3.7)
3. E(Xs νt ) = 0 ∀s ≤ t.
Dans ce cadre, le vecteur de valeurs résiduelles, ν, n'est pas un bruit blanc, mais
3.3.2.2 Estimations
donc symétrique dénie positive, il existe alors une matrice P inversible de rang T
telle que V = P P 0. Posons, Y ∗ = P −1 Y , l'équation (3.7) devient,
P −1 Y = P −1 Xβ + P −1 ν
Y ∗ = X ∗β + ν ∗ (3.8)
des MCO du modèle (3.8) correspond à l'estimateur des MCG du modèle (3.7) et
vaut :
∗ 0∗ ∗ −1 0∗ ∗ 0 −1
β̂M CO = (X X ) X Y = (X V X)−1 X 0 V −1 Y = β̂M CG (3.9)
60 3.3. Étude du lien entre deux ou plusieurs séries temporelles
et sa variance :
∗ 0∗ ∗ −1
V(β̂M 2
CO ) = σ (X X ) = σ 2 (X 0 V −1 X)−1 = V(β̂M CG ) (3.10)
Le théorème de Gauss-Markov montre que β̂M CG est un estimateur linéaire sans biais
1
2
σ̂M CG = (Y − X β̂M CG )0 V −1 (Y − X β̂M CG ) (3.11)
T −k
Supposons de plus que les résidus suivent une loi normale de moyenne nulle et de
ŝ = σ 2 (X 0 V −1 X)−1 (3.12)
2 2 2
2. σ̂M CG vérie (T − k)σ̂M CG ∼ χT −k
2
3. β̂M CG et σ̂M CG sont indépendants
Ainsi, les tests de Student (équation 3.5) et de Fisher (équation 3.6) sont applicables.
Dans la plupart des cas, V est inconnue. Il faut donc l'estimer puis remplacer V
par son estimation dans les calculs précédents. Cependant, si nous n'avons aucune in-
formation sur la matrice V, il est impossible d'estimer les termes de V car il faudrait
estimer T (T −1)/2 termes non diagonaux et T termes diagonaux. C'est pourquoi nous
nous plaçons dans des cas particuliers. V peut être diagonale ayant ainsi seulement
seulement quelques paramètres à estimer. Dans la suite, nous allons étudier unique-
Chapitre 3. Bases méthodologiques 61
ment le cas où V est dénie par une matrice de Toeplitz ayant seulement p ≤ T
paramètres à estimer.
Y = X 0β + ν
t t t
(3.13)
ν = φ ν + ... + φ ν +
t 1 t−1 p t−p t
Choix du paramètre p
p le nombre de paramètres autorégressifs peut être xé a priori ou estimé. Dans la
suite, nous xons un nombre de paramètres maximum parmi lesquels les coecients
signicatifs sont sélectionnés par une méthode de sélection descendante, basée sur la
3.3.3.2 Estimation
Pour p xé, la méthode consiste à estimer en premier lieu β par les MCO, puis,
les estimations de β corrigées pour l'autocorrélation sont réalisées par MCG, à partir
d'autocorrélation.
s'écrit :
1 1 1
L= p T exp(− 2 (y − Xβ)0 V −1 (y − Xβ))
(2πσ 2 ) det(V )
2 2σ
estimateurs β̂M CG et V(β̂M CG ) donnés respectivement par les équations 3.9 et 3.10.
plexe. Dans la pratique, les coecients des paramètres autorégressifs sont estimés par
2
Dans ces deux cas, l'estimation de la variance, σ̂M CG , est la somme des erreurs de
la dernière application des MCG au carré divisée par le degré de liberté des erreurs
de cet estimateur est donnée par l'équation 3.11. Ainsi, l'estimation de la matrice de
Chapitre 3. Bases méthodologiques 63
0 −1
variance-covariance de β̂M CG est
2
σ̂M CG (X V X)−1 .
(équation 3.6) sont applicables. Par contre, le coecient R2 n'est plus utilisé. En ef-
fet, Granger et Newbold insistent sur les précautions à prendre dans le cas de séries
des données déterministes, alors que l'ajustement de la partie stochastique (la partie
AR(p)) n'y est pas représentée. Or cette partie peut jouer un grand rôle dans l'ex-
plication de la variable à expliquer. Dans le cadre d'une régression linéaire entre des
séries temporelles, l'étude des résidus est la plus importante an d'attester de la qua-
lité de la modélisation. Ceci est fait par les tests de blancheur détaillés au Chapitre
3, section 3.2.1.6.
Critère de comparaison
Dans le cadre de régression avec erreurs autorégressives, l'AIC prend la forme sui-
les modèles de régression linéaire, car en eet ces derniers sont souvent fondés sur
une intuition de type causale. Dans cette section, la causalité est dénie au sens de
Susser [60].
critères permettant de déterminer la causalité sont depuis longtemps au c÷ur d'un dé-
bat contentieux. Hill [61] a établi, en 1965, une liste de critères dénissant la causalité
64 3.4. Notion de causalité
dans le cadre de la relation entre une exposition et une infection. D'après Rothman
déterminer une relation de cause à eet. Susser [60], quant à lui, a regroupé les cri-
la direction.
putative est présente, l'eet doit être plus important que si la cause était absente.
doit être présente avant l'eet. Enn, la direction réfère au fait que, supposant l'as-
l'eet ne doit pas arriver avant le changement au niveau de la cause. En somme, que
l'association entre la cause putative et l'eet n'est pas dérivée d'un troisième facteur
Dans la suite, seules l'association et la priorité temporelle sont vériées, car la direc-
tion reste dicile à montrer avec des études de séries temporelles. Pour cela, il est
naires passe traditionnellement par l'étude des corrélations croisées. Ces corrélations
décrivent la force d'association entre les deux séries [63] et indiquent dans quelle me-
ce coecient est grand, plus il est tentant de suggérer que la relation liant les deux
Cov(Yt , Xt+h )
Corr(Yt , Xt+h ) = p
Var(Yt )Var(Xt+h )
Lors de l'étude de la liaison entre deux séries temporelles, l'observation des t-ratios
Figure 3.1 Extrait de l'article de Hubert et al., 1992. Evolution des t-ratios issus des régressions
retardées" entre le nombre de cas de méningite à la semaine w et les syndromes grippaux à la
semaine w + k , −7 ≤ k ≤ 7. Les lignes horizontales correspondent aux seuils de signicativité du test
de Student bilatère au risque de premier espèce de 5%.
∀h ∈ Z,
β̂h
t-ratio(Yt , Xt+h ) =q
Var(β̂h )
indépendante. h peut aussi être interprété comme le délai d'impact entre les deux
séries étudiées. Sous l'hypothèse nulle, le t-ratio suit une Student à T −k −1 degrés de
liberté. Pour T susamment grand, la loi de Student est comparable à la loi normale.
Ainsi, la relation entre Yt et Xt+h est signicative au délai h si le t-ratio associé est
fonction des t-ratios en fonction des délais d'impact (positifs et négatifs) peut per-
mettre de déterminer le type de la relation [40, 64]. Si cette fonction présente une
asymétrie par rapport au délai nul, consistante avec un eet antérieur de la cause
putative vers l'eet, la causalité peut être suggérée. D'un autre coté, une fonction des
corrélations croisées manifestant une symétrie par rapport au délai nul indique une
3.1 présente un exemple de fonction de t-ratios avec une asymétrie en faveur d'un
67
Chapitre 4
Introduction
santé publique dans le monde entier [2]. Les infections invasives communautaires à
pneumocoque (IICP) ont une évolution saisonnière très marquée avec une augmen-
tation en hiver, mais ce phénomène saisonnier n'est pas encore bien expliqué [65].
conjointe des espèces telles que le virus de la grippe a probablement une inuence
sur la dynamique des IICP. Il existe une relation étroite entre les virus grippaux et
certaines bactéries virulentes comme le pneumocoque [18, 19]. Sur un plan clinique
rend le traitement de ces infections dicile. La France, l'un des pays les plus consom-
mateurs au monde, a mis en place la campagne visant à réduire l'usage des antibio-
A partir des données françaises, la relation entre les indicateurs français des IICP et
69
70 4.2. Questionnements méthodologiques
circulation de virus respiratoires, d'autre part, est étudiée entre 2002 et 2009.
des variations saisonnières [41, 67], comme par exemple, l'évolution du nombre de cas
de maladies infectieuses telles que la rougeole, les infections à salmonelles, les pneumo-
pollution atmosphérique [13, 69, 70]. Cependant, la présence de ces variations pose un
problème lors de l'étude du lien notamment lorsque les deux séries étudiées partagent
une même saisonnalité. En eet, cette saisonnalité agit comme un facteur de confusion
en créant une fausse association entre ces séries. En 1981, Bowie et Prothero ont étudié
d'oranges importées en Angleterre [63]. Comme les deux séries temporelles présentent
des variations saisonnières communes, ils auraient conclu à tort à une association signi-
cative si la saisonnalité n'avait pas été prise en compte dans l'analyse. En conclusion,
an étudier l'association entre deux séries temporelles, il est nécessaire de prendre en
compte leur saisonnalité soit en la retirant (désaisonnalisation) [41, 52, 56, 63, 64], soit
3. Thomas et Wallis (1971) ont comparé le modèle de régression sur séries non désai-
dèle de régression sur séries désaisonnalisées [51]. Ils n'ont considéré que l'ajustement
non paramétrique (présenté au chapitre 3) et concluent que les résultats de ces deux
approches sont similaires quel que soit le modèle utilisé pourvu que l'ajustement sai-
sonnier soit estimé par les MCO. Cependant, ils recommandent l'usage du modèle
Dans ce travail, nous ne nous intéressons qu'aux deux autres méthodes d'ajustement
Chapitre 4. Introduction 71
basées sur la régression MCO : le lissage paramétrique avec les fonctions trigonomé-
triques [52, 66, 72] et le lissage semi-paramétrique, avec les splines de régression [71].
D'après Schwartz et al. (1996), l'usage de ces méthodes est équivalent [56]. Cepen-
dant, bien que les splines de régression semblent présenter un meilleur ajustement
local sur les données, un risque de sur-ajustement existe et de ce fait, le lien estimé
pourrait être réduit par rapport à sa vraie valeur, voire même totalement disparaitre.
ajustement, et de fait le lien estimé pourrait être augmenté par rapport à sa vraie
valeur. Alors que l'ajustement saisonnier choisi peut aecter l'étude de la relation
entre deux séries [74], l'impact du choix de la méthode d'ajustement, parmi les deux
n'est pas discuté dans la littérature à ma connaissance. Il est certes plus commun de
à ma connaissance, aucune étude ne prouve qu'une de ces méthodes vaut moins bien
que l'autre. Dans le cas particulier des séries à prol épidémique, par exemple, l'ajus-
tement par fonction trigonométrique ne semble pas être adéquat du fait des grandes
variations des épidémies d'une année sur l'autre alors que les splines de régression
grand. Aujourd'hui, aucun consensus n'a été publié sur l'existence d'un ajustement
saisonnier optimal.
Dans la pratique, certains auteurs n'ajustent que la série à expliquer [64], d'autres
n'ajustent que la série explicative [40, 52, 66, 75], d'autres, les deux [63, 76]. Cette
travailler ainsi uniquement sur des séries non désaisonnalisées [7173]. Bien que cer-
taines stratégie semblent être préférées, notamment les deux dernières, aujourd'hui, il
n'existe pas non plus de consensus sur l'existence d'une stratégie optimale.
72 4.3. Objectifs
4.3 Objectifs
L'objectif de ce travail est d'étudier le lien entre les infections invasives communau-
taires à pneumocoque et d'une part, l'exposition aux antibiotiques, et d'autre part, les
syndromes grippaux. An d'estimer ce lien, nous mettons en ÷uvre les deux méthodes
d'ajustement saisonnier citées ci-dessus, la régression linéaire sur une fonction trigo-
nométrique et la régression sur splines cubiques de régression, ainsi que les diérentes
deux séries. Enn, nous testons le modèle basé sur les séries non désaisonnalisées et
An de départager les diérentes résultats obtenus et ainsi de pouvoir conclure, nous
lien entre deux ou plusieurs séries temporelles saisonnières. Dans cette étude sur don-
nées mensuelles, nous comparons l'utilisation d'une désaisonnalisation très simple par
par des splines cubiques de régression avec un grand nombre de n÷uds. Bien qu'un
nombre de données observées, nous avons fait ce choix consciemment an de tester
épidémiologique initiale.
Chapitre 5
Matériel et Méthodes
5.1 Matériel
La période d'étude est restreinte à la période de juillet 2002 à juin 2009 an de
travailler sur des hivers complets. Ainsi, sept années consécutives, et sept hivers,
l'indicateur mensuel des IICP pour 100 000 habitants est issu des données PMSI
des β -lactamines et des macrolides) pour 100 habitants (ATB) provient des données de
remboursement de la CNAMTS et du RSI. Enn, l'indicateur mensuel des infections
virales est le nombre de cas de syndromes grippaux pour 100 habitants (SG) estimé par
le réseau Sentinelles. La gure 5.1 présente l'évolution des trois indicateurs étudiés
qui partagent une même saisonnalité hivernale. Comme discuté dans le chapitre 2,
l'indicateur des IICP a une tendance et l'indicateur des ATB des changements de
niveau moyen.
5.2 Méthodes
5.2.1 Modèle générique d'estimation du lien
Le lien entre deux ou plusieurs séries temporelle peut être estimé par un modèle de
73
74 5.2. Méthodes
7 7
6 6
5 5
4 4
3 3
2 2
1 1
0 0
Juil 2002 Juil 2003 Juil 2004 Juil 2005 Juil 2006 Juil 2007 Juil 2008 Juil 2009
Temps (mois)
Sources: PMSI, CNAMTS, RSI et Sentiweb
Figure 5.1 Incidence de l'indicateur des infections invasives communautaires à pneumocoque (en
noir), de l'indicateur de la consommation d'antibiotiques (en bleu) et de l'indicateur des syndromes
grippaux (en vert) en France de juillet 2002 à juin 2009.
série à expliquer est IICPt pour t= juillet 2002 à juin 2009. D'après l'équation (3.13)
et dans le cas d'une relation entre deux séries temporelles uniquement, le modèle de
IICPt = X̃t0 β̃ + νt = β0 + β1 t + β2 Xt+h + νt
(5.1)
ν = φ ν + ... + φ ν +
t 1 t−1 p t−p t
avec X̃t0 le vecteur colonne (1, t, Xt+h ), β̃ 0 =(β0 , β1 , β2 ). En notant ν le vecteur des
tions dénie au chapitre 3, aux section 3.3.2 et 3.3.3. Enn, (t ){t=1,...,T } ∼ N (0, σ2 )
indépendants et identiquement distribués. ∀t ∈ N, E(νt ) = 0 et Cov(Xt+h , νt ) = 0.
Un terme de tendance (β1 ) est intégré au modèle an de tenir compte de l'augmen-
la valeur de h identiant le délai d'impact de ATBt ou SGt sur IICPt plusieurs modèles
de régression linéaire comme déni par l'équation 5.1 sont estimés séparément avec h
variant de -3 à 3. h=0 correspond à la régression entre les séries sans décalage, donc
au même mois. k≤0 correspondent aux cas où la relation lie les IICPt aux valeurs
Chapitre 5. Matériel et Méthodes 75
passées de Xt . h≥0 correspondent aux cas où la relation lie les IICPt aux valeurs
futures de Xt . Pour des données mensuelles, nous supposons que les séries explicatives
ne peuvent pas avoir d'impact sur la série à expliquer qu'au plus avec un décalage de
dire correspondant au plus grand t-ratio (voir chapitre 3), est retenu pour le modèle
séries observées [40]. Ici, T = 86 et le quantile de la loi de Student vaut 1.96 en valeur
absolue.
∗
démarrant avec les 24 premiers paramètres et en utilisant un seuil de signicativité
de 5%.
Les paramètres {φi , i = 1, ..., p} sont estimés par les équations de Yule-Walker. En-
suite, supposant connus ces paramètres, les paramètres β0 et β1 sont estimés par
des résidus est testée par le test de Ljung-Box et la normalité par les tests de Shapiro
Dans ce modèle générique, la saisonnalité des séries temporelles n'est pas prise en
à l'aide d'une régression linéaire estimée par les MCO, comme expliqué au chapitre
L'ajustement par une fonction trigonométrique avec une seule fréquence :2 π t/12 pour
t= juillet 2002 à juin 2009. Comme vu au Chapitre 2, l'indicateur des IICP présente
une tendance de type linéaire, alors que l'indicateur des ATB varie par palier entre les
périodes suivantes : juillet 2002 et juin 2005, juillet 2005 et juin 2008, juillet 2008 et
∗
Choix issu d'une étude préalable détaillée en annexes B
76 5.2. Méthodes
juin 2009. Ces caractéristiques doivent être intégrées an de désaisonnaliser les séries.
4
X
0
ATBt = α0j 1{t∈ période j }
+ α20 cos(2 π t/12) + α30 sin(2 π t/12) + RATBTt
j=1
(5.3)
SGt = α000 + α200 cos(2 π t/12) + α300 sin(2 π t/12) + RSGTt (5.4)
RIICPTt , RATBTt et RSGTt correspondent aux résidus des régressions linéaires estimées
par les MCO. Le modèle des IICP inclut un terme de tendance et contient ainsi quatre
00
(α0 , α200 et α300 ), comme l'indicateur des SG ne présente qu'une saisonnalité.
L'ajustement par splines cubiques de régression avec 6 n÷uds par an pour t= janvier
3
X 7 X
X 6
IICPt = γ0i ti + γkj3 (t − ξkj )3+ + RIICPSt (5.5)
i=0 j=1 k=1
3
X 7 X
X 6
0 i 0
ATBt = γ0i t + γkj3 (t − ξkj )3+ + RATBSt (5.6)
i=0 j=1 k=1
3
X 7 X
X 6
00 i 00
SGt = γ0i t + γkj3 (t − ξkj )3+ + RSGSt (5.7)
i=0 j=1 k=1
u≤0 comme décrit dans . RIICPSt , RATBSt et RSGSt correspondent aux résidus des
L'ajustement par splines de régression prend en compte la tendance des IICP ainsi que
les changements de niveau moyen des ATB. Il n'est donc pas nécessaire d'introduire
davantage de termes.
Le nombre de n÷uds de la spline a été déterminé par une analyse détaillée en annexes
B, comme étant le nombre de n÷uds réduisant l'AIC dans la grande majorité des cas.
Chapitre 5. Matériel et Méthodes 77
d'ajustement.
rélées présenté en 2.2.1 sont envisagées et listées dans le tableau 5.1. La stratégie dans
laquelle la saisonnalité n'est pas prise en compte (Stratégie 0) est conservée dans cette
étude bien qu'elle ne soit pas recommandée, pour avoir une référence. Les stratégies
basées sur un ajustement par une fonction trigonométrique sont symbolisées par la
lettre T, celles basées sur l'ajustement par splines de régression par la lettre S. Aucune
stratégie basée à la fois sur un ajustement par fonction trigonométrique et par splines
de régression n'est étudié. Nous considérons six désaisonnalisations diérées, i.e. an-
des deux séries (S3 et T3). Une huitième stratégie (T4) dans laquelle la saisonnalité
est directement prise en compte dans le modèle en intégrant une fonction trigonomé-
trique comme covariable et dans lequel les séries sont non désaisonnalisées.
Au nal, ces stratégies mesurent une quantité β2 qui semble être diérente, cepen-
indicateurs des IICPt et de Xt après avoir ajuster sur la saisonnalité de ces deux
indicateurs.
5.3 Logiciels
r
Les analyses statistiques sont réalisées à l'aide du logiciel SAS version 9.3 [77] avec
r
à l'aide du logiciel R version 3.1.0.
78 5.3. Logiciels
Table 5.1 Stratégies d'ajustement saisonnier utilisés lors de l'estimation du lien entre l'indicateur
des infections invasives à pneumocoque pris au mois t et la série Xt+h qui représente alternativement
l'indicateur de la consommation d'antibiotiques et l'indicateur des syndromes grippaux.
Résultats
pact, s'il existe, de la série explicative sur la série à expliquer. Pour cela, les t-ratios
sont calculés pour les huit stratégies listées dans le tableau 5.1 avec h=-3 à 3.
6.1 par les courbes des t-ratios en fonction du délai h. Seule la stratégie S1 n'identi-
signicatif, en h=0 et h=-1. Les valeurs de t-ratios sont proches, mais la plus grande
est prise en h=-1. Ce résultat est retrouvé par la stratégie T1. Les stratégies S2 et
S3 s'accordent sur le décalage lié à la plus grande valeur des t-ratios, en h=-2. Ces
valeurs sont négatives. La seconde plus grande valeur associée au délai h = 0 est quant
à elle positive. Enn, les stratégies T2, T3 et T4 s'accordent entre-elles mais livrent
un message confus. La plus grande valeur est atteinte en pour h=-2 et h=0.
par les courbes des t-ratios en fonction du délai h. La stratégie 0 conduit à l'estimation
79
80 6.2. Vérication de la priorité temporelle
de deux liens signicativement diérentes de 0, pour les décalages h=0 et h=-1. Les
stratégies S1 et S2 semblent indiquer une absence de lien entre IICP et SG, alors
T4 s'accordent à montrer que les décalages h=0 et h=-1 sont associés aux valeur de
a b
10 15 S1
0
10 S2
5 S3
5
0 0
−3 −2 −1 1 2 3 −3 −2 −1 −5 1 2 3
−5
−10
−10 −15
h h
10 T1
T2
5 T3
T4
0
−3 −2 −1 1 2 3
−5
−10
Figure 6.1 T-ratios estimés à partir de la régression de IICPt sur ATBt+h suivant la stratégie
d'ajustement associée : 0 quand la saisonnalité n'est pas prise en compte, S1 (T1) quand la série
à expliquer est ajustée par des splines de régression (fonctions trigonométriques), S2 (T2) quand
la série explicative est ajustée par des splines de régression (fonctions trigonométriques), S2 (T2)
quand les deux séries sont ajustées par des splines de régression (fonctions trigonométriques) et T4
quand les séries ne sont pas ajustées mais que le modèle inclut une fonction trigonométrique comme
covariable.
les courbes présentent une asymétrie par rapport à l'axe des ordonnées en faveur d'un
eet antérieur des ATB sur les IICP. Seule la stratégie S1 semblent ne pas conrmer
cette hypothèse.
Chapitre 6. Résultats 81
gies T2, T3, T4 et 0 semblent montrer une asymétrie par rapport à l'axe des ordonnées,
suggérant une relation de type causal". Ceci n'est pas vérié par les stratégies basées
sur les splines de régression qui, elles, ne relèvent aucune association signicative entre
a b S1
S2
10 5 S3
0
5
0 0
−3 −2 −1 1 2 3 −3 −2 −1 1 2 3
−5
−10 −5
h h
c
T1
10 T2
T3
5 T4
−3 −2 −1 1 2 3
−5
−10
Figure 6.2 T-ratios estimés à partir de la régression de IICPt sur SGt+h suivant la stratégie
d'ajustement associée : 0 quand la saisonnalité n'est pas prise en compte, S1 (T1) quand la série
à expliquer est ajustée par des splines de régression (fonctions trigonométriques), S2 (T2) quand
la série explicative est ajustée par des splines de régression (fonctions trigonométriques), S2 (T2)
quand les deux séries sont ajustées par des splines de régression (fonctions trigonométriques) et T4
quand les séries ne sont pas ajustées mais que le modèle inclut une fonction trigonométrique comme
covariable.
régression, les variables ATBt , ATBt−1 et ATBt−2 . Seuls les coecients signicatifs
sont conservés dans le modèle nal. Les principaux résultats sont présentés dans le
signicative entre les IICP et ATB au seuil 5%. Les stratégies S2 et S3 s'accordent sur
82 6.3. Estimation de l'association
l'existence d'un lien signicatif (p-values ≤ 0.01) et négatif avec des valeurs s'échelon-
nant entre -0.15 et -0.07 pour le décalage h=-1 et entre -0.4 et -0.27 pour le décalage
D'un autre côté, les stratégies T1 à T4 s'accordent sur l'existence d'un lien signicatif
(p-values ≤ 0.0001) et positif avec des valeurs proches variant de 0.26 à 0.30 pour le
décalage nul (h=0), variant de 0.20 à 0.24 pour le décalage h=-1. Le décalage h=-2
n'apparait plus signicatif dans les modèles naux correspondant aux stratégies T1 à
T4.
Table 6.1 Estimation du lien entre l'incidence des infections invasives à pneumocoque pour 100
000 habitantes et l'incidences de la consommation d'antibiotiques pour 100 habitants en France entre
juillet 2002 et juin 2009
Stratégies d'estimation
Décalage h = 0
Coecient 0.29 - - - 0.26 0.29 0.30 0.27
Écart-type 0.03 - - - 0.03 0.03 0.03 0.03
p-value **** - - - **** **** **** ****
Décalage h = -1
Coecient 0.24 - -0.15 -0.07 0.20 0.23 0.24 0.22
Écart-type 0.03 - 0.05 0.03 0.03 0.03 0.03 0.03
p-value **** - 0.004 0.009 **** **** **** ****
Décalage h = -2 -
Coecient - - -0.40 -0.27 - - - -
Écart-type - - 0.05 0.03 - - - -
p-value - - **** **** - - - -
régression, les variables SGt et SGt−1 . Seuls les coecients signicatifs sont conservés
Chapitre 6. Résultats 83
dans le modèle nal. Le tableau 6.2 présente les diérentes valeurs des estimations de
lien ainsi que leur écart-types. Ces résultats sont ceux lus sur les courbes des t-ratios
présentées gure 6.2. Les stratégies S1 et S2 ne présentent pas de lien signicatifs entre
IICP et SG. La stratégie S3 n'identie qu'une seule estimation signicative pour h=0.
Les estimations basées sur l'ajustement par fonctions trigonométriques, T1 à T4,
présentent des estimations proches et signicatives pour les décalages h=0 et h=-
1. A nouveau, la stratégie S3 comporte là encore un grand nombre de paramètres
autorégressifs.
Table 6.2 Estimation de l'association entre l'incidence des infections invasives communautaires à
pneumocoque pour 100 000 habitants et l'incidence des syndromes grippaux pour 100 habitants en
France entre juillet 2002 et juin 2009.
Stratégies d'estimation
Décalage h = 0
Coecient 0.14 - - 0.07 0.13 0.11 0.11 0.13
Écart-type 0.03 - - 0.03 0.03 0.03 0.03 0.03
p-value **** - - 0.03 **** *** *** ****
Décalage h = -1
Coecient 0.11 - - - 0.09 0.11 0.10 0.09
Écart-type 0.03 - - - 0.03 0.03 0.03 0.03
p-value *** - - - *** *** 0.0014 ***
férentes stratégies utilisées. En eet, alors qu'une stratégie semble indiquer l'absence
de lien, les autres stratégies conduisent à une conclusion inverse. D'un autre côté, les
84 6.4. Motivation des simulations
stratégies basées sur l'ajustement par fonction trigonométrique semblent montrer une
association positive entre l'indicateur des IICP et celui de ATB alors que les stratégies
basées sur l'ajustement par splines de régression présentent une association négative
entre ces deux indicateurs. A ce stade, tout conclusion concernant l'association entre
en est de même pour l'étude de l'association entre les indicateurs des IICP et des SG.
An de nous donner les moyens de choisir la méthode d'ajustement saisonnier, nous
avons réalisé une étude de simulations. Cette étude a pour but d'étudier l'impact des
posée.
Chapitre 7
Étude de simulations
7.1 Objectifs
tement saisonnier sur l'estimation du lien entre deux séries saisonnières et d'identier
de régression ne comportant qu'un faible nombre de n÷uds par année ajustent les
séries de la même façon que les fonctions trigonométriques. En revanche, les splines
tement mieux en terme d'AIC les séries saisonnières. Ainsi, les splines de régression
optimale du lien. Les stratégies sont les suivantes : (Stratégie 1) ajuster la série dépen-
3) ajuster les deux séries (également appelé blanchiment ou prewhitening"). Ces trois
stratégies sont appliquées avec les deux méthodes d'ajustement citées précédemment.
Enn, une dernière stratégie est comparée aux autres, (Stratégie 4) la régression de
Nous avons réalisé une étude de simulations an de comparer à la fois les méthodes
85
86 7.2. Matériel et Méthodes
1. Leur capacité à estimer le lien simulé entre deux séries saisonnières mensuelles.
2. Leur capacité à identier le vrai délai d'impact (aussi appelé décalage) de la série
indépendante sur la série dépendante. L'inuence d'une série sur une autre peut ne
pas être immédiat et donc avoir un délai temporel d'impact. An d'étudier le lien
entre deux séries temporelles, les t-ratios, rapport du lien estimé sur son écart-type,
sont utilisées an d'identier ce délai [64]. La plus grande valeur des corrélations croi-
3. La propriété d'ordre temporel. Lors de l'étude d'une association entre deux indica-
teurs temporels, une interprétation de type causal peut être renforcée par l'étude de
la priorité temporelle [60] dénie dans le chapitre 3. En eet, si la cause putative est
présente avant l'eet, alors, c'est une preuve supplémentaire de lien de causalité entre
avons simulé des couples de séries temporelles mensuelles suivant diérents scénarios
et autres paramètres de simulations. Pour cela, nous avons développé une méthode
originale de simulation des séries saisonnières. Pour simplier cette étude de simu-
niveau moyen.
simulées. Soient (Yt ){t=1,...,T } la série à expliquer (ou dépendante), (Xt ){t=1,...,T } la
série explicative (ou indépendante). (Yt ){t=1,...,T } est simulé sous l'hypothèse d'une
inuence linéaire de (Xt ){t=1,...,T } retardée d'un mois selon l'équation suivante [78] :
Yt = β0 + β1 Xt−1 + Zt (7.1)
Chapitre 7. Étude de simulations 87
est détaillée dans la suite. Zt est une série non-observable qui représente ce que serait
celle de Xt . Ainsi en l'absence de lien entre Yt et Xt (β1 = 0), Yt reste bien une série
à partir de données collectées par des systèmes de surveillance, sont positifs, car issus
d'un processus de comptage. Ils présentent souvent un cycle annuel facilement iden-
de santé entre deux creux successifs, appelé ici motif saisonnier, constitue une ca-
ractéristique de la saisonnalité de l'indicateur.
Trois motifs diérents ont été recensés : le motif linéaire, comportant une augmenta-
tion presque linéaire suivie d'une décroissance presque linéaire, c'est le cas des infec-
à la trajectoire d'un point sur une roue de vélo, c'est le cas de l'indicateur de la
correspondant à une succession de très faibles valeurs soudainement suivies par deux
ou trois très grandes valeurs (on parle aussi dans ce cas d'évolution exponentielle),
c'est le cas de l'indicateur des syndromes grippaux communautaires [38, 79]. Alors
que les deux premiers motifs présentent une grande similarité dans leur régularité,
les pics et les creux interviennent environ aux mêmes mois d'une année sur l'autre,
le motif épidémique présente un prol nettement moins régulier. Dans la suite, nous
La gure 1.1 présente trois indicateurs de santé publique ayant chacun l'un de ces
des SG a un motif épidémique. Ces trois indicateurs partage une même saisonnalité
Ainsi, chaque série temporelle saisonnière est simulée à partir de trois caractéris-
de la série, les deux suivantes, l'éventail des valeurs possibles de la série suivant un
schéma conçu pour ces simulations et expliqué ci-dessous. Dans le cas du motif épi-
peut également uctuer sur une période de 3 mois, et enn, le seuil épidémique au-
delà duquel la série entre dans la période épidémique est xé arbitrairement à Min
+R/10.
Soient T la longueur des séries temporelles et (Wt ){t=1,...,T } une série saisonnière dénie
par ces trois caractéristiques. Wt est simulée suivant le modèle additif suivant :
12
X
Wt = Sit + Ut (7.2)
i=1
S
i si t≡i mod [12] avec Si ∼ Unif[ai , bi ]
Sit =
0 sinon
∗
Ut = φ∗1 Ut−1 + φ∗2 Ut−2 + et − θ12 et−12
tirées d'une loi uniforme Si si t correspond au mois i. Les supports [ai , bi ] des lois
uniformes Si pour i = 1, ..., 12 sont dénis par les bornes des segments présentés
gure 7.1. Les bornes inférieures de ces segments correspondent aux ai , les bornes
supérieures correspondent aux bi . Ces bornes ont été dénies arbitrairement à partir
La partie stationnaire, Ut , est un processus stationnaire dont les paramètres sont xés
suivant le motif saisonnier de la série et listés dans le tableau 7.1. Ce processus permet
Chapitre 7. Étude de simulations 89
premiers paramètres autorégressifs φ∗1 et φ∗2 , ainsi que de l'autocorrélation à plus long
∗
terme avec le paramètre θ12 . (et ) est un processus bruit blanc gaussien dont la variance
est σe .
Ainsi, les séries saisonnières sont simulées d'une part, à partir d'un tirage uniforme sur
l'un des intervalles déni sur le schéma 7.1, suivant le motif saisonnier choisi, la valeur
court terme.
Un exemple de simulation de séries saisonnières est présenté gure 7.2 pour chaque
type de motif saisonnier. La saisonnalité de ces séries est conrmée par l'étude de
des pics de diérentes amplitude, le mois de début d'épidémie varie également. Les
deux autres séries ont un motif plus rigide autorisant une certaine uctuation.
rentes valeurs de ces paramètres sont listées dans les tableaux 7.2 et 7.3 suivant le
saisonnier de Zt est choisi suivant le tableau 7.4. Quatre scénarios sont considérés,
Figure 7.1 Séquence de segments déterminant le support [ai , bi ] des lois uniformes Si pour
i = 1, ..., 12. Les bornes inférieures de ces segments correspondent aux ai , les bornes supérieures
correspondent aux bi . A. Motif linéaire, B. Motif cycloïdal, C. Motif épidémique. Pour ce dernier
cas, il s'agit d'un exemple de deux années consécutives.
Chapitre 7. Étude de simulations 91
60
50
40
Valeurs
30
20
10
Temps (mois)
Figure 7.2 Exemple de simulation de séries temporelles saisonnière avec un motif linéaire (en
bleu), un motif cycloïdal (en rouge) et un motif épidémique (en vert). Pour toutes ces séries, T= 72,
Min = 0 and R = 50.
2 2
par celle de Xt (RX ) et par le ratio des variances (σZ /σX ). Le ratio de variances
prend les valeurs 0.5, 1 and 1.5, ainsi pour satisfaire cette contrainte, l'étendue de Zt
est respectivement xée comme suit : RZ = RX − RX /4, RZ = RX , RZ = RX + RX /4.
Dans cette étude, l'impact de la longueur des séries n'est pas étudiée ; T, la longueur
des séries ne varie pas. Ainsi dans la suite, nous parlerons uniquement des quatre
du paramètre β1 (gure 7.3). Dans le cas des scénarios 1 et 2, pour les faibles valeurs
de β1 , Yt a le même motif saisonnier que Zt , alors que pour les grandes valeurs de β1
(β1 ≥ 0.6), Yt a le même motif saisonnier que Xt . Dans le cas des scénarios 3 et 4, Yt
a le même motif saisonnier que Zt avec un pic qui s'accentue avec l'augmentation du
paramètre β1 .
nières est envisagé par l'ajustement à l'aide d'une régression linéaire estimée par les
1. L'ajustement par une fonction trigonométrique avec une seule fréquence :2 π t/12
pour t = 1, ...144.
1 2
100 100
values
50 50
0 0
Année 1 Année 2 Année 3 Année 4 Année 5 Année 6 Année 1 Année 2 Année 3 Année 4 Année 5 Année 6
3 4 Time (Month)
200 200
150 150
100 100
50 50
0 0
Année 1 Année 2 Année 3 Année 4 Année 5 Année 6 Année 1 Année 2 Année 3 Année 4 Année 5 Année 6
RYTt et RXTt correspondent aux résidus des régressions linéaires estimées par les MCO.
3
X n X
X 6
Yt = i
γ0i t + γkj3 (t − ξkj )3+ + RYSt
i=0 j=1 k=1
3
X n X
X 6
0 i 0