Vous êtes sur la page 1sur 234

UNIVERSITÉ PARIS-SUD XI

ÉCOLE DOCTORALE 420


SANTÉ PUBLIQUE PARIS SUD 11, PARIS DESCARTES

LABORATOIRE : Unité PhEMI, Institut Pasteur / U657, Inserm / EA 4499,

Université Versailles-Saint-Quentin

THÈSE DE DOCTORAT
Discipline : Santé Publique

Spécialité : Biostatistiques

Usage des anti-infectieux et infections


invasives à pneumocoque en France
Étude d'associations temporelles
Présentée et soutenue publiquement par
Marie-Anne VIBET
le 19 décembre 2014, devant le jury ci-dessous,

Président M. Jean Bouyer, Directeur de recherche, Inserm, le Kremlin Bicêtre


Rapporteur Mme Catherine Huber-Carol, Professeur émérite, CNRS/Université Paris Descartes
Rapporteur M. Pascal Astagneau, Professeur des universités - Praticien hospitalier,
EHESP/Universités Sorbonne Paris Cité
Examinateur M. Daniel Levy-Bruhl, Médecin épidémiologiste, InVS, Saint-Maurice
Directrice de thèse Mme Laurence Watier, Chargée de recherche, Inserm, Paris
A Ewen et Steven,

A mes parents,
Remerciements

À Laurence Watier. Pour ton encadrement, ta disponibilité et tes conseils. Pour ce

beau projet sur lequel tu m'as permis de travailler, pour lequel j'ai eu envie de faire

une thèse. Pour ces trois très belles premières années.

À Mme Catherine Huber Carol et M. Pascal Astagneau. Vous me faîtes l'honneur

d'être rapporteurs de ma thèse. Je remercie également M. Daniel Levy-Bruhl et M.

Jean Bouyer d'avoir accepté de participer à mon jury de thèse.

À Didier Guillemot. Pour ces presque 7 années passées au sein de l'unité. Depuis

mes premiers pas, mon diplôme sous le bras, jusqu'à ma soutenance de thèse. Merci

de m'avoir toujours poussée à me former.

À Pascale Tubert qui a bien contribué à ma rédaction d'article et de thèse quand

le besoin s'en est fait ressentir.

À toute l'équipe du PhEMI. Avec un clin d'÷il particulier à Anne Thiébaut qui m'a

accompagnée, depuis mes premiers pas dans l'unité. Aux thésards, bon courage pour

la suite. A Lulla, pour son aide précieuse et son soutien. A Anne Paris. A Bich-Tram,

Elizabeth et Annick. A tous ceux qui ont déjà quitté l'équipe, Zélie, Odile, Claire,

Laure, Julie, Fanny, Marga et Matthieu. Aux stagiaires de passage, mais qui m'ont

laissé un bon souvenir, Elodie, Hélène, Adeline. A tous les nouveaux arrivants, dont

l'équipe de Pascale Tubert, que je ne connais pas ou peu. A tous, je souhaite bonne

route et au plaisir de vous revoir.

v
À toute l'unité de Santé Publique de Garches. Les Christelles, Jérôme, qui me connaissent

depuis longtemps eux-aussi, avec qui nous allions courir le midi quand Jean-Claude

ne nous laissait pas le choix. Pour leur joie de vivre, leurs inlassables et tellement

agréables pauses-café. A Loïc et Stéphane, pour leur gentillesse.

À l'ensemble de l'équipe EA 4275, mon équipe nantaise d'adoption. A Véronique

et Jean-Benoit, à qui je dois beaucoup et notamment d'avoir accepté de m'accueillir

dans leurs locaux, mais aussi pour leur écoute, leur soutien inestimable. L'équipe EA

est un milieu où il fait bon travailler. A Myriam, pour sa joie de vivre, son écoute, son

soutien, et surtout son amitié. A Etienne et Yohann pour leur écoute, leurs conseils

et leur soutien. Aux doctorants à qui je souhaite une bonne réussite. A toutes celles

qui ont relu une partie de ma thèse. A l'équipe des coureurs. A l'équipe des nageuses.

Sans oublier l'équipe des pauses-café.

À l'ensemble de l'équipe du PIMESP, deuxième équipe nantaise qui m'a hébergée"

pendant dix-huit mois. J'y ai fait de très belles rencontres dont certaines résistent

déjà au temps passé depuis mon départ.

À tous les membres de l'ENSAI, mon école d'ingénieur dans laquelle je ne pensais

pas revenir un jour du côté enseignant. Mais ça a été avec un très grand plaisir que je

me suis levée bien (trop) tôt le matin pour courir prendre mon train éternellement en

retard direction Rennes. Et ça en valait la peine. Merci à François Coquet à qui je dois

beaucoup, mais aussi à Myriam et Jocelyn, mes référents statisticiens, à Lise, Momo

et Julie, mes grands acolytes de TD, à Nicolas, Guillaume et Brigitte, pour les midis

Galette-Saucisses, à Valentin Patiléa pour son inlassable soutien, aux personnels de

la bibliothèque qui m'ont transmis un bon nombre d'articles scientiques pendant ma

thèse, à tous ceux que j'ai eu le plaisir de revoir ou de rencontrer.

À tous, merci.
Table des matières

Table des gures xiii

Liste des tableaux xix

Glossaire 1

1 Introduction 5
1.1 Contexte de santé publique . . . . . . . . . . . . . . . . . . . . . . . . 5

1.2 Les analyses statistiques . . . . . . . . . . . . . . . . . . . . . . . . . 11

1.3 Objectifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

1.4 Plan général . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

2 Construction des indicateurs de santé publique 15


2.1 Les clés de la surveillance en épidémiologie . . . . . . . . . . . . . . . 15

2.1.1 Mise en place d'un système de surveillance . . . . . . . . . . . 16

2.1.2 Qualités d'un système de surveillance . . . . . . . . . . . . . . 17

2.2 Indicateurs des infections invasives communautaires à pneumocoque . 18

2.2.1 Historique du PMSI . . . . . . . . . . . . . . . . . . . . . . . 18

2.2.2 Dénitions du système de recueil . . . . . . . . . . . . . . . . 19

2.2.3 Qualités du système de recueil . . . . . . . . . . . . . . . . . . 21

2.3 Indicateur de l'exposition aux anti-infectieux . . . . . . . . . . . . . . 24

2.3.1 Dénitions du système de surveillance . . . . . . . . . . . . . . 25

2.3.2 Qualités du système de surveillance . . . . . . . . . . . . . . . 26

2.4 Indicateur des infections virales respiratoires . . . . . . . . . . . . . . 29

2.4.1 Dénition du système de surveillance . . . . . . . . . . . . . . 29

vii
viii TABLE DES MATIÈRES
2.4.2 Qualité du système de surveillance . . . . . . . . . . . . . . . 30

2.5 Bilan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

3 Bases méthodologiques 33
3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

3.1.1 Notions de base des séries temporelles . . . . . . . . . . . . . . 34

3.1.2 Régression entre plusieurs séries temporelles . . . . . . . . . . 34

3.2 Étude d'une série temporelle . . . . . . . . . . . . . . . . . . . . . . . 36

3.2.1 Processus stationnaire . . . . . . . . . . . . . . . . . . . . . . 36

3.2.1.1 Processus stochastique . . . . . . . . . . . . . . . . . 36

3.2.1.2 Processus stationnaire . . . . . . . . . . . . . . . . . 38

3.2.1.3 Processus ergodique . . . . . . . . . . . . . . . . . . 39

3.2.1.4 Autocovariances et autocorrélations . . . . . . . . . . 39

3.2.1.5 Analyse spectrale . . . . . . . . . . . . . . . . . . . . 43

3.2.1.6 Estimation empirique des moments pour les processus

faiblement stationnaires . . . . . . . . . . . . . . . . 43

3.2.1.7 Exemples de processus stationnaires et ergodiques . . 45

3.2.2 Processus non stationnaires . . . . . . . . . . . . . . . . . . . 50

3.2.2.1 Détection de la non stationnarité . . . . . . . . . . . 50

3.2.2.2 Stationnarisation . . . . . . . . . . . . . . . . . . . . 51

3.3 Étude du lien entre deux ou plusieurs séries temporelles . . . . . . . . 54

3.3.1 Les moindres carrés ordinaires . . . . . . . . . . . . . . . . . . 54

3.3.1.1 Modèle de régression linéaire . . . . . . . . . . . . . 54

3.3.1.2 Estimations . . . . . . . . . . . . . . . . . . . . . . . 55

3.3.1.3 Validité du modèle . . . . . . . . . . . . . . . . . . . 56

3.3.1.4 Erreur d'hypothèse : présence d'autocorrélation rési-

duelle . . . . . . . . . . . . . . . . . . . . . . . . . . 58

3.3.2 Les moindres carrés généralisés . . . . . . . . . . . . . . . . . 58

3.3.2.1 Modèle de régression linéaire . . . . . . . . . . . . . 59

3.3.2.2 Estimations . . . . . . . . . . . . . . . . . . . . . . . 59

3.3.2.3 Validité du modèle . . . . . . . . . . . . . . . . . . . 60


TABLE DES MATIÈRES ix

3.3.3 La régression linéaire avec erreurs autorégressives . . . . . . . 61

3.3.3.1 Modèle de régression linéaire . . . . . . . . . . . . . 61

3.3.3.2 Estimation . . . . . . . . . . . . . . . . . . . . . . . 61

3.3.3.3 Validité du modèle . . . . . . . . . . . . . . . . . . . 63

3.4 Notion de causalité . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

3.4.1 Qu'est-ce qu'une cause ? . . . . . . . . . . . . . . . . . . . . . 63

3.4.2 Étude de la causalité en pratique . . . . . . . . . . . . . . . . 64

I Étude du lien entre les infections invasives à pneumocoque


et deux facteurs environnementaux.
Prise en compte de la saisonnalité lors de l'estimation du lien
entre deux séries saisonnières 67

4 Introduction 69
4.1 Motivations épidémiologiques . . . . . . . . . . . . . . . . . . . . . . 69

4.2 Questionnements méthodologiques . . . . . . . . . . . . . . . . . . . . 70

4.3 Objectifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72

5 Matériel et Méthodes 73
5.1 Matériel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73

5.2 Méthodes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73

5.2.1 Modèle générique d'estimation du lien . . . . . . . . . . . . . 73

5.2.2 Méthodes d'ajustement saisonnier . . . . . . . . . . . . . . . . 75

5.2.3 Stratégies d'ajustement . . . . . . . . . . . . . . . . . . . . . . 77

5.3 Logiciels . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77

6 Résultats 79
6.1 Identication du délai d'impact . . . . . . . . . . . . . . . . . . . . . 79

6.2 Vérication de la priorité temporelle . . . . . . . . . . . . . . . . . . 80

6.3 Estimation de l'association . . . . . . . . . . . . . . . . . . . . . . . . 81

6.4 Motivation des simulations . . . . . . . . . . . . . . . . . . . . . . . . 83


x TABLE DES MATIÈRES
7 Étude de simulations 85
7.1 Objectifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85

7.2 Matériel et Méthodes . . . . . . . . . . . . . . . . . . . . . . . . . . . 86

7.2.1 Simulation des données . . . . . . . . . . . . . . . . . . . . . . 86

7.2.1.1 Modèle de simulation . . . . . . . . . . . . . . . . . . 86

7.2.1.2 Simulation des séries saisonnières mensuelles . . . . . 87

7.2.1.3 Paramètres de simulation . . . . . . . . . . . . . . . 89

7.2.2 Méthodes d'ajustement saisonnier . . . . . . . . . . . . . . . . 92

7.2.3 Stratégies d'ajustement comparées . . . . . . . . . . . . . . . 94

7.2.4 Critères d'évaluation . . . . . . . . . . . . . . . . . . . . . . . 94

7.3 Résultats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97

7.3.1 Scénarios 1 et 2 . . . . . . . . . . . . . . . . . . . . . . . . . . 97

7.3.1.1 Estimation de l'association . . . . . . . . . . . . . . 97

7.3.1.2 Identication du délai d'impact et vérication de la

priorité temporelle . . . . . . . . . . . . . . . . . . . 102

7.3.2 Scénarios 3 et 4 . . . . . . . . . . . . . . . . . . . . . . . . . . 104

7.3.2.1 Estimation de l'association . . . . . . . . . . . . . . 104

7.3.2.2 Identication du délai d'impact et vérication de la

priorité temporelle . . . . . . . . . . . . . . . . . . . 105

7.4 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109

7.4.1 Bilan des résultats . . . . . . . . . . . . . . . . . . . . . . . . 109

7.4.2 Limites . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112

7.4.3 Conclusions . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113

8 Discussion 115

II Modélisation d'une association en présence d'une épidé-


mie. Estimation d'une proportion attribuable à une épidémie.
Question de l'hypothèse de linéarité du lien 117
9 Introduction 119
TABLE DES MATIÈRES xi

9.1 Motivations épidémiologiques . . . . . . . . . . . . . . . . . . . . . . 119

9.2 Questionnement méthodologique . . . . . . . . . . . . . . . . . . . . . 120

9.3 Objectifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121

10 Matériel et Méthodes 123


10.1 Matériel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123

10.2 Méthodes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123

10.2.1 Estimation du lien . . . . . . . . . . . . . . . . . . . . . . . . 123

10.2.2 Estimation d'une proportion attribuable . . . . . . . . . . . . 126

10.2.3 Comparaison avec la méthode de Sering . . . . . . . . . . . . 127

10.3 Logiciels . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128

11 Résultats 129

12 Étude de simulations 133


12.1 Objectifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133

12.2 Matériel et Méthodes . . . . . . . . . . . . . . . . . . . . . . . . . . . 133

12.2.1 Simulations des données . . . . . . . . . . . . . . . . . . . . . 133

12.2.1.1 Modèle de simulation . . . . . . . . . . . . . . . . . . 134

12.2.1.2 Paramètres de simulation . . . . . . . . . . . . . . . 134

12.2.1.3 Simulation d'une série hebdomadaire à prol épidémique135

12.2.1.4 Détection des périodes épidémiques . . . . . . . . . . 137

12.2.1.5 Simulation d'une série hebdomadaire saisonnière . . 139

12.2.2 Méthodes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141

12.2.2.1 Estimation du lien entre (Yt ) et (Xt ) . . . . . . . . . 141

12.2.2.2 Estimation d'une proportion attribuable . . . . . . . 143

12.2.2.3 Comparaison avec la méthode de Sering . . . . . . . 144

12.2.3 Critères d'évaluation . . . . . . . . . . . . . . . . . . . . . . . 146

12.3 Résultats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147

12.4 Discussion de l'étude de simulation . . . . . . . . . . . . . . . . . . . 150

13 Discussion 153
xii TABLE DES MATIÈRES
III Étude de la relation entre infections invasives à pneu-
mocoque et exposition aux anti-infectieux 157
14 Étude de la relation temporelle entre infections invasives à pneumo-
coque et exposition aux anti-infectieux en France 159
14.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 159

14.2 Matériel et Méthodes . . . . . . . . . . . . . . . . . . . . . . . . . . . 161

14.2.1 Données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161

14.2.2 Méthodes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162

14.2.3 Logiciels . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163

14.3 Résultats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 164

14.3.1 Évolution de l'incidence annuelle des infections invasives à pneu-

mocoque . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 164

14.3.2 Impact de l'introduction de la vaccination . . . . . . . . . . . 166

14.3.3 Association avec les syndromes grippaux et la consommation

d'antibiotiques . . . . . . . . . . . . . . . . . . . . . . . . . . 167

14.4 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 168

IV Discussion générale, perspectives et conclusion 173


15 Discussion générale et perspectives 175

16 Conclusion 183

V Annexes 185
A Production scientique 187

B Annexes relatives à la Partie I 189

C Annexes relatives la Partie II 195


Table des gures

1.1 Estimation annuelle de l'incidence des infections invasives communau-

taires à pneumocoque en France par groupe d'âge entre 1998 et 2008

(source EpiBAC). Extrait du document Impact de la vaccination par

le vaccin antipneumococcique conjugué heptavalent sur l'incidence des

infections invasives à pneumocoques en France, Analyse des données

de 2008" de l'INVS. . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

1.2 Proportion d'isolements invasifs de Streptococcus pneumoniae résis-

tants à la péniciliine (marqueur de la famille des β -lactamines). Extrait


du rapport de l'EARSS 2002. . . . . . . . . . . . . . . . . . . . . . . 8

1.3 Proportion d'isolements invasifs de Streptococcus pneumoniae résis-

tants à l'érythromycine (marqueur de la famille des macrolides). Extrait

du rapport de l'EARSS 2002. . . . . . . . . . . . . . . . . . . . . . . 9

1.4 Consommation communautaire d'antibiotiques dans 26 pays européens

en 2002. Extrait de l'article de Goossens 2005 [1] . . . . . . . . . . . 9

1.5 Problématique de thèse schématisée. . . . . . . . . . . . . . . . . . . 10

2.1 Incidence des hospitalisations pour infections invasives à pneumocoques

pour 100 000 habitants en France entre 2002 et 2009 par tranche d'âge

(issue des données des PMSI). . . . . . . . . . . . . . . . . . . . . . . 24

xiii
xiv TABLE DES FIGURES
2.2 Incidence des hospitalisations pour infections invasives à pneumocoques

pour 100 000 habitants en France entre 2002 et 2009 par tranche d'âge

et par pathologie (issue des données du PMSI). En haut, les hospitalisa-

tions pour pneumonies à pneumocoque. Au milieu, les hospitalisations

pour septicémies à pneumocoque. En bas, les hospitalisations pour mé-

ningites à pneumocoque. . . . . . . . . . . . . . . . . . . . . . . . . . 25

2.3 Incidence mensuelle des hospitalisations pour infections invasives à

pneumocoques pour 100 000 habitants en France entre 2002 et 2009

par pathologie (issue des données des PMSI). . . . . . . . . . . . . . 32

2.4 Incidence pour 100 000 habitants des remboursements pour prescription

d'antibiotique (en noir) et des syndromes grippaux (en bleu) en France

entre 2000 et 2010. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

3.1 Extrait de l'article de Hubert et al., 1992. Evolution des t-ratios issus

des régressions retardées" entre le nombre de cas de méningite à la

semaine w et les syndromes grippaux à la semaine w + k , −7 ≤ k ≤ 7.


Les lignes horizontales correspondent aux seuils de signicativité du

test de Student bilatère au risque de premier espèce de 5%. . . . . . 65

5.1 Incidence de l'indicateur des infections invasives communautaires à

pneumocoque (en noir), de l'indicateur de la consommation d'antibio-

tiques (en bleu) et de l'indicateur des syndromes grippaux (en vert) en

France de juillet 2002 à juin 2009. . . . . . . . . . . . . . . . . . . . 74


TABLE DES FIGURES xv

6.1 T-ratios estimés à partir de la régression de IICPt sur ATBt+h suivant

la stratégie d'ajustement associée : 0 quand la saisonnalité n'est pas

prise en compte, S1 (T1) quand la série à expliquer est ajustée par

des splines de régression (fonctions trigonométriques), S2 (T2) quand

la série explicative est ajustée par des splines de régression (fonctions

trigonométriques), S2 (T2) quand les deux séries sont ajustées par des

splines de régression (fonctions trigonométriques) et T4 quand les séries

ne sont pas ajustées mais que le modèle inclut une fonction trigonomé-

trique comme covariable. . . . . . . . . . . . . . . . . . . . . . . . . 80

6.2 T-ratios estimés à partir de la régression de IICPt sur SGt+h suivant

la stratégie d'ajustement associée : 0 quand la saisonnalité n'est pas

prise en compte, S1 (T1) quand la série à expliquer est ajustée par

des splines de régression (fonctions trigonométriques), S2 (T2) quand

la série explicative est ajustée par des splines de régression (fonctions

trigonométriques), S2 (T2) quand les deux séries sont ajustées par des

splines de régression (fonctions trigonométriques) et T4 quand les séries

ne sont pas ajustées mais que le modèle inclut une fonction trigonomé-

trique comme covariable. . . . . . . . . . . . . . . . . . . . . . . . . 81

7.1 Séquence de segments déterminant le support [ai , bi ] des lois uniformes

Si pour i = 1, ..., 12. Les bornes inférieures de ces segments corres-

pondent aux ai , les bornes supérieures correspondent aux bi . A. Motif

linéaire, B. Motif cycloïdal, C. Motif épidémique. Pour ce dernier cas,

il s'agit d'un exemple de deux années consécutives. . . . . . . . . . . 90

7.2 Exemple de simulation de séries temporelles saisonnière avec un motif

linéaire (en bleu), un motif cycloïdal (en rouge) et un motif épidémique

(en vert). Pour toutes ces séries, T= 72, Min = 0 and R = 50. . . . . 91
xvi TABLE DES FIGURES
7.3 Exemples de simulation de Xt (courbe bleu) et Yt associé à ce Xt
pour diérentes valeurs de β1 (0.2 (courbe noire), 0.6 (courbe verte), 1
(courbe rouge)) (1) dans le scénario 1, (2) dans le scénario 2, (3) dans

le scénario 3, (4) dans le scénario 4. Les séries Xt et Zt sont simulées

avec les paramètres suivants : σZ2 /σX


2
= 0.5, MinX = 0 et RX = 50

pour les scénarios 1 et 2, RX = 100 pour les scénarios 3 et 4. . . . . 93

7.4 Exemple de l'ajustement des deux méthodes comparées, la fonction

trigonométrique (en vert) et les splines de régression (en rouge), sur des

séries simulées (en bleu) présentant un motif (1) linéaire, (2) cycloïdal,

(3) épidémique. Seulement 6 années sont simulées. . . . . . . . . . . 95

7.5 T-ratios estimés à partir de la régression de Yt sur Rj Xt+h , pour h =

-3 à 3, avec j =T pour l'ajustement par fonctions trigonométriques,

et j=S pour l'ajustement par splines de régression, dans le cas où Xt


a un motif linéaire, et Zt , un motif cycloïdal (scénario 1) suivant les

valeurs de β1 . Les estimations issues de la régression de Yt sur RS Xt+h


sont représentée par la ligne plaine (stratégie S2), celles issues de la

régression de Yt sur RT Xt+h sont représentée par la ligne en pointillé

(stratégie T2). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103

7.6 T-ratios estimés à partir de la régression de Yt sur Rj Xt+k , pour h =

-3 à 3, avec j =T pour l'ajustement par fonctions trigonométriques,

et j=S pour l'ajustement par splines de régression, dans le cas où Xt


a un motif cycloïdal, et Zt , un motif linéaire (scénario 2) suivant les

valeurs de β1 . Les estimations issues de la régression de Yt sur RS Xt+h


sont représentée par la ligne plaine (stratégie S2), celles issues de la

régression de Yt sur RT Xt+h sont représentée par la ligne en pointillé

(stratégie T2). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103


TABLE DES FIGURES xvii

7.7 T-ratios estimés à partir de la régression de Yt sur Ri Xt+h , pour h =

-3 à 3, avec i=T pour l'ajustement par fonctions trigonométriques, et

i=S pour l'ajustement par splines de régression, dans le cas où Xt a

un motif épidémique, et Zt , un motif linéaire ( scénario 3) suivant les


valeurs de β1 . Les estimations issues de la régression de Yt sur RS Xt+h
sont représentée par la ligne pleine (stratégie S2), celles issues de la

régression de Yt sur RT Xt+h sont représentée par la ligne en pointillé

(stratégie T2). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109

7.8 T-ratios estimés à partir de la régression de Yt sur Ri Xt+h , pour h =

-3 à 3, avec i=T pour l'ajustement par fonctions trigonométriques, et

i=S pour l'ajustement par splines de régression, dans le cas où Xt a

un motif épidémique, et Zt , un motif cycloïdal (scénario 4) suivant les


valeurs de β1 . Les estimations issues de la régression de Yt sur RS Xt+h
sont représentée par la ligne pleine (stratégie S2), celles issues de la

régression de Yt sur RT Xt+h sont représentée par la ligne en pointillé

(stratégie T2). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110

10.1 Evolution du nombre de remboursements pour achat d'antibiotique

(courbe bleue) et du nombre de syndromes grippaux (courbe verte)

pour 100 000 habitants en France entre juillet 2000 et juin 2009. Les

zones grisées correspondent aux épidémies de grippe. . . . . . . . . . 124

10.2 Schéma du calcul de l'excès de ATBt du à SGt . eInft = êt − t1−α/2 σˆ1 ,
eSupt = êt + t1−α/2 σˆ1 . . . . . . . . . . . . . . . . . . . . . . . . . . . 127

11.1 Evolution du nombre de remboursements pour achat d'antibiotique

(courbe noire, axe de gauche) et du nombre de syndromes grippaux

(courbe verte, axe de droite) pour 100 000 habitants en France entre

juillet 2000 et juin 2009. Les zones grisées correspondent aux épidémies

de grippe. 1. Estimation de la ligne de base à l'aide de la régression li-

néaire par le modèle M 3. 2. Estimation de la ligne de base par le modèle


de régression de Sering, M 5. . . . . . . . . . . . . . . . . . . . . . . 129
xviii TABLE DES FIGURES
12.1 Schéma du modèle SIR - Figure issue du cours de Lulla Opatowski

2012-2013 à l'Université de Versailles Saint-Quentin . . . . . . . . . . 136

12.2 Détection des épidémies en deux temps. Construction du seuil de dé-

tection sur cinq années successives puis détection des épidémies sur les

cinq années suivantes. . . . . . . . . . . . . . . . . . . . . . . . . . . . 140

12.3 Canevas du motif cycloidal hebdomadaire . . . . . . . . . . . . . . . 141

12.4 Estimation de la ligne de base de (Yt ) en l'hypothétique absence de (Xt )


par la méthode de régression linéaire (courbe rouge) et la méthode de

sering (courbe bleue). (Yt ) est en noir, (Xt ) en vert, les zones grisées

représentent les périodes épidémiques. . . . . . . . . . . . . . . . . . . 144

12.5 Schéma du calcul de l'excès de Y. . . . . . . . . . . . . . . . . . . . . 145

14.1 Incidence mensuelle des infections invasives à pneumocoque (toutes

confondues) pour 100 000 habitants par tranche d'âge en France entre

janvier 2002 et décembre 2009 (données issues des PMSI). . . . . . . 164

14.2 Incidence mensuelle des infections invasives à pneumocoque pour 100

000 habitants par catégorie d'infections et par tranche d'âge en France

entre janvier 2002 et décembre 2009 (données issues des PMSI). En

haut, les pneumonies. Au milieu, les septicémies. En bas, les méningites. 166

B.1 Évolution de l'AIC moyen suivant les trois motifs saisonniers : linéaire,

cycloïdal et épidémique. Les AIC moyens sont calculés à partir des AIC

de 100 séries simulées avec un minimum égal à 0, une étendue de 50

pour les séries linéaire et cycloïdal et de 100 pour la série ayant un

motif épidémique. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 193


Liste des tableaux

5.1 Stratégies d'ajustement saisonnier utilisés lors de l'estimation du lien

entre l'indicateur des infections invasives à pneumocoque pris au mois

t et la série Xt+h qui représente alternativement l'indicateur de la

consommation d'antibiotiques et l'indicateur des syndromes grippaux. 78

6.1 Estimation du lien entre l'incidence des infections invasives à pneu-

mocoque pour 100 000 habitantes et l'incidences de la consommation

d'antibiotiques pour 100 habitants en France entre juillet 2002 et juin

2009 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82

6.2 Estimation de l'association entre l'incidence des infections invasives

communautaires à pneumocoque pour 100 000 habitants et l'incidence

des syndromes grippaux pour 100 habitants en France entre juillet 2002

et juin 2009. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83

7.1 Valeurs des paramètres du processus stationnaire. . . . . . . . . . . . 89

7.2 Paramètres de simulation des séries à motif linéaire ou cycloïdal. . . . 91

7.3 Paramètres de simulation à motif épidémique. . . . . . . . . . . . . . 92

7.4 Motifs saisonniers de Zt . . . . . . . . . . . . . . . . . . . . . . . . . 92

7.5 Stratégies d'ajustement saisonnier utilisés lors de l'estimation du lien

entre Yt pris au mois t et la série Xt+h pris au mois t + h. . . . . . . 96

xix
xx LISTE DES TABLEAUX

7.6 Biais relatif (%) (RBiais) pour les stratégies suivantes : 0 quand la sai-

sonnalité n'est pas prise en compte, S1 (T1) quand la série à expliquer

est ajustée par des splines de régression (fonctions trigonométriques),

S2 (T2) quand la série explicative est ajustée par des splines de régres-

sion (fonctions trigonométriques), S2 (T2) quand les deux séries sont

ajustées par des splines de régression (fonctions trigonométriques) et

T4 quand les séries ne sont pas ajustées mais que le modèle inclut une

fonction trigonométrique comme covariable. . . . . . . . . . . . . . . 99


7.7 Rapport de variances (RV) pour les stratégies suivantes : 0 quand la

saisonnalité n'est pas prise en compte, S1 (T1) quand la série à ex-

pliquer est ajustée par des splines de régression (fonctions trigonomé-

triques), S2 (T2) quand la série explicative est ajustée par des splines de

régression (fonctions trigonométriques), S2 (T2) quand les deux séries

sont ajustées par des splines de régression (fonctions trigonométriques)

et T4 quand les séries ne sont pas ajustées mais que le modèle inclut

une fonction trigonométrique comme covariable. . . . . . . . . . . . . 100


7.8 Taux de recouvrement (%) (TR) pour les stratégies suivantes : 0 quand

la saisonnalité n'est pas prise en compte, S1 (T1) quand la série à ex-

pliquer est ajustée par des splines de régression (fonctions trigonomé-

triques), S2 (T2) quand la série explicative est ajustée par des splines de

régression (fonctions trigonométriques), S2 (T2) quand les deux séries

sont ajustées par des splines de régression (fonctions trigonométriques)

et T4 quand les séries ne sont pas ajustées mais que le modèle inclut

une fonction trigonométrique comme covariable. . . . . . . . . . . . . 101


LISTE DES TABLEAUX xxi


7.9 Biais relatif (%) (RBiais) pour les stratégies suivantes : 0 quand la sai-

sonnalité n'est pas prise en compte, S1 (T1) quand la série à expliquer

est ajustée par des splines de régression (fonctions trigonométriques),

S2 (T2) quand la série explicative est ajustée par des splines de régres-

sion (fonctions trigonométriques), S3 (T3) quand les deux séries sont

ajustées par des splines de régression (fonctions trigonométriques) et

T4 quand les séries ne sont pas ajustées mais que le modèle inclut une

fonction trigonométrique comme covariable. . . . . . . . . . . . . . . 106


7.10 Rapport de variances (%) pour les stratégies suivantes : 0 quand la sai-

sonnalité n'est pas prise en compte, S1 (T1) quand la série à expliquer

est ajustée par des splines de régression (fonctions trigonométriques),

S2 (T2) quand la série explicative est ajustée par des splines de régres-

sion (fonctions trigonométriques), S3 (T3) quand les deux séries sont

ajustées par des splines de régression (fonctions trigonométriques) et

T4 quand les séries ne sont pas ajustées mais que le modèle inclut une

fonction trigonométrique comme covariable. . . . . . . . . . . . . . . 107


7.11 Taux de recouvrement (%) pour les stratégies suivantes : 0 quand la

saisonnalité n'est pas prise en compte, S1 (T1) quand la série à ex-

pliquer est ajustée par des splines de régression (fonctions trigonomé-

triques), S2 (T2) quand la série explicative est ajustée par des splines de

régression (fonctions trigonométriques), S3 (T3) quand les deux séries

sont ajustées par des splines de régression (fonctions trigonométriques)

et T4 quand les séries ne sont pas ajustées mais que le modèle inclut

une fonction trigonométrique comme covariable. . . . . . . . . . . . . 108

11.1 Estimation du lien entre prescriptions d'antibitiques due à l'épidémie

grippale suivant les diérents modèles d'estimation de la ligne de base

en France de juillet 2000 à juin 2009. . . . . . . . . . . . . . . . . . . 131

11.2 Estimation de la proportion de prescriptions pour antibitiques due à

l'épidémie grippale suivant les diérents modèles d'estimation de la

ligne de base en France de juillet 2000 à juin 2009. . . . . . . . . . . 132


xxii LISTE DES TABLEAUX
12.1 Paramètres de simulation. . . . . . . . . . . . . . . . . . . . . . . . . 137

12.2 Paramètres de simulation des séries de type cycloïdal. . . . . . . . . . 141

12.3 Proportion attribuable moyenne (%) calculée à partir des modèles M1


à M4 basés sur la régression linéaire et M5 basé sur la régression de

Sering. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147

12.4 Biais relatif (en %) calculé à partir des modèles M1 à M4 basés sur la

régression linéaire et M5 basé sur la régression de Sering. . . . . . . 148

12.5 Variance empirique calculée à partir des modèles M1 à M4 basés sur

la régression linéaire et M5 basé sur la régression de Sering. . . . . 149

12.6 Taux de recouvrement (en %) calculé à partir des modèles M1 à M4


basés sur la régression linéaire et M5 basé sur la régression de Sering. 151

14.1 Incidence annuelle des infections invasives à pneumocoque par catégorie

et par classe d'âge en France entre janvier 2002 et décembre 2009 . . 165

14.2 Estimation de la tendance de l'incidence mensuelle des infections in-

vasives à pneumocoque par catégorie en France entre janvier 2002 et

décembre 2009 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167

14.3 Estimation de l'association entre l'incidence des infections invasives à

pneumocoque pour 100 000 habitants, l'incidence de la consommation

d'antibiotiques et l'incidence des syndromes grippaux pour 100 habi-

tants en France entre janvier 2002 et décembre 2009 . . . . . . . . . . 168

B.1 Critères d'évaluation pour β1 = 0 . . . . . . . . . . . . . . . . . . . . 191

B.2 Critères d'évaluation pour β1 6= 0 . . . . . . . . . . . . . . . . . . . . 191


Liste des tableaux 1
2 Liste des tableaux

Notation Description
A403 Code de la CIM 10 correspondant à une septicémie à pneumocoque

ACF Fonction d'autocorrélation (de l'anglais, autocorrelation function)

AIC Critère de Akaike

AR Processus autorégressif

ARMA Processus autorégressif et moyenne mobile

ARMAX Processus ARMA exogène

ATB Exposition aux antibiobitiques

ATC Classication anatomique, thérapeutique et chimique

ATIH Agence technique de l'information sur l'hospitalisation

CIM 10 Classication internationale des maladies version 10

CIP (code) Club interpharmaceutique

CNAMTS Caisse nationale d'assurance maladie des travailleurs salariés

CNRP Centre national de référence des pneumocoques

DDJ Dose dénie journalière

DA Diagnostic associé

DP Diagnostic principal

DR Diagnostic relié

i.i.d. Indépendant et identiquement distribuée

IICP Infections invasives communautaires à pneumocoque

INSEE Institut national des statistiques et études économiques

InVS Institut national de veille sanitaire

G001 Code de la CIM 10 correspondant à une méningite à pneumocoque

J13 Code de la CIM 10 correspondant à une pneumonie à pneumocoque

MA Processus Moyenne mobile (de l'anglais, moving average)

MCO Moindres carrés ordinaires

MCG Moindres carrés généralisés

MP Méningites à pneumocoque

MSA Mutuelle sociale agricole

PACF Fonction d'autocorrélation partielle (de l'anglais, partial

autocorrelation function)

PMSI Programme de médicalisation des systèmes d'information

PP Pneumonies à pneumocoque
Liste des tableaux 3

Notation Description
RBiais Biais relatif (de l'anglais Relative bias)

RSI Régime des salariés indépendants

RSS Résumé de sortie standardisé

RV Rapport de variances

SG Syndromes grippaux

SP Septicémies à pneumocoque

TR Taux de recouvrement

VRS Virus respiratoire syncytial

Variable dépendante ou à expliquer : variable d'intérêt qui dépend des autres va-

riables du modèle (variables explicatives).

Variable indépendante ou explicative : variable qui ne dépend pas des autres variables

du modèle et dont le lien avec le série dépendante est testé.


4 Liste des tableaux
Chapitre 1

Introduction

1.1 Contexte de santé publique

Streptococcus pneumoniae (le pneumocoque) est une bactérie responsable d'un grand

nombre d'infections dans le monde entier et à tout âge, et est associé à une morta-

lité et une morbidité non négligeables (environ un million de morts par an dans le

monde) [2]. Les principales infections provoquées par le pneumocoque sont les otites,

les sinusites, les pneumonies, les méningites et les bactériémies. Ces infections sont

principalement communautaires, c'est-à-dire liées aux échanges de la population au

sein de la communauté par opposition aux échanges hospitaliers.

Le pneumocoque se transmet par contact direct avec les sécrétions du nez ou de la

gorge d'un porteur. Les bactéries peuvent également se propager par des microgoutte-

lettes aérosolisées projetées lors de la toux ou des éternuements, ou encore par contact

oral d'une personne à l'autre [3]. La transmission est fréquente mais l'infection est in-

habituelle car des personnes en bonne santé peuvent être porteuses de pneumocoque

sans en être infectées [4]. Jusqu'à 40 % des individus en sont porteurs dès la pre-

mière année de leur vie. Le pneumocoque touche principalement les enfants de moins

de deux ans, les personnes âgées et les personnes immuno-décientes [3]. À l'échelle

mondiale, cette bactérie cause chaque année environ un demi million de décès chez

les enfants de moins de 5 ans [2].

La vaccination anti-pneumococcique a été introduite à partir des années 2000 an

5
6 1.1. Contexte de santé publique

Figure 1.1  Estimation annuelle de l'incidence des infections invasives communautaires à pneu-
mocoque en France par groupe d'âge entre 1998 et 2008 (source EpiBAC). Extrait du document
Impact de la vaccination par le vaccin antipneumococcique conjugué heptavalent sur l'incidence des
infections invasives à pneumocoques en France, Analyse des données de 2008" de l'INVS.

de réduire le nombre d'infections invasives communautaires à pneumocoque (IICP)

comme les méningites, les bactériémies et les pneumonies. Le caractère invasif signie

un certain niveau de gravité, impliquant le passage de la batérie dans l'un des milieux

stériles tels que le sang et la plèvre. Aux États-Unis, cette vaccination, introduite dès

l'année 2000, conduit à une diminution des IICP chez les jeunes enfants comme chez

les personnes âgées [5]. En France, la vaccination anti-pneumococcique par le vaccin

conjugué heptavalent a été recommandée, à partir de 2003, aux enfants de moins de 2

ans présentant des risques d'IICP. En 2006, les recommandations pour ce vaccin ont

été élargies à l'ensemble des enfants âgés de moins de 2 ans. La gure 1.1 présente l'in-

cidence des IICP en France par tranche d'âge de 1998 à 2008 mise en ligne par l'InVS

en 2010 [6]. Les deux populations principalement touchées par ces infections sont les

enfants de moins de deux ans et les personnes âgées de plus de 65 ans. L'incidence

des IICP chez les jeunes enfants, population cible de la vaccination, diminue depuis

2000 et plus particulièrement depuis 2003. Cependant, pour les autres classes d'âge,

l'augmentation initiée avant 2003 ne semble pas être modiée par la vaccination [6].

La résistance bactérienne aux antibiotiques est, depuis plusieurs décennies, un vé-


Chapitre 1. Introduction 7

ritable problème de santé publique dans le monde entier, et ce quel que soit le niveau

de développement des pays [7, 8]. L'émergence des bactéries multi-résistantes, comme

le Staphylococcus aureus résistants à la méticilline ou les entérobactéries productrices

de β -lactamases à spectre étendu conduisent à des dicultés thérapeutiques, pouvant


entraîner le décès des patients faute d'avoir une antibiothérapie adaptée [1, 8, 9]. Le

nombre d'antibiotiques disponibles et ecaces diminue sans perspective de remplace-

ment à cause de la diculté à trouver de nouvelles molécules [7, 10].

Les mécanismes d'acquisition de résistances ainsi que l'émergence de ces bactéries

multi-résistantes sont pour une grande part naturels et inévitables, mais également

liés à de multiples facteurs. Le facteur le plus admis à ce jour est l'exposition aux anti-

biotiques [1, 9]. La consommation trop importante d'antibiotiques favoriserait l'émer-

gence et la sélection de souches résistantes. Goossens et al. ont montré une corrélation

entre l'exposition aux antibiotiques et la proportion de souches bactériennes résis-

tantes au sein d'une même population [1].

En France, en 2002, la proportion d'isolements invasifs de Streptococcus pneumoniae

résistants aux β -lactamines et aux macrolides (deux classes d'antibiotiques principa-

lement utilisées contre le pneumocoque) étaient les plus élevées d'Europe [11] (Figures

1.2, 1.3). Aussi, au début des années 2000, la population française était l'une des po-

pulations européennes les plus exposées aux antibiotiques (Figure 1.4). La population

des enfants de moins de 7 ans constituait la population la plus exposée, avec une

exposition trois fois plus importante que celle de l'ensemble de la population fran-

çaise [12].

Pour lutter contre cette consommation excessive d'antibiotiques, le gouvernement

français a lancé en 2001 un plan national visant à réduire l'usage des antibiotiques

an de préserver leur ecacité. Les diérentes actions menées ont ciblé à la fois les

professionnels de santé et le grand public avec notamment une campagne nationale

audiovisuelle dont l'un des slogans phares était Les antibiotiques, c'est pas automa-

tique !". Cette campagne amorcée en 2002 était reconduite chaque année avec pour

période cible la période hivernale (période pendant laquelle la consommation est maxi-

male). Son évaluation a montré que la consommation communautaire d'antibiotiques


8 1.1. Contexte de santé publique

Figure 1.2  Proportion d'isolements invasifs de Streptococcus pneumoniae résistants à la péniciliine


(marqueur de la famille des β -lactamines). Extrait du rapport de l'EARSS 2002.

pendant les périodes hivernales sur la période de 2002 à 2007 avait diminuée de près

de 30% par rapport aux années pré-campagne (2000-2002) [13]. Cependant, depuis

2008, la consommation d'antibiotiques semble se stabiliser, voir ré-augmenter [14].

Dans de nombreux pays, une surconsommation d'antibiotiques est notée, associée

notamment aux infections respiratoires, qui dans la plupart des cas sont d'origine

virale et ne nécessite pas l'usage des antibiotiques. Ces infections constituent l'un des

principaux motifs de prescription d'antibiotiques en ville [1517].

De plus, il existe une relation étroite entre les virus grippaux et certaines bactéries

virulentes comme le pneumocoque [18, 19]. De nombreuses études montrent une re-

lation chronologique entre infection grippale et surinfection pulmonaire et suggèrent

fortement une relation de causalité [2024].

Les infections invasives communautaires à pneumocoque sont des marqueurs de santé

publique. Avec l'introduction de la vaccination anti-pneumococcique, une réduction

de ces infections était attendue chez les enfants de moins de 2 ans. Cependant, alors

qu'aux États-Unis, Lexau et al. [5] ont montré une diminution des infections à pneu-

mocoque chez les personnes agées depuis l'introduction de la vaccination, en France,

un tel constat n'est pas visible. En eet, le graphique de l'InVS montre que ces in-
Chapitre 1. Introduction 9

Figure 1.3  Proportion d'isolements invasifs de Streptococcus pneumoniae résistants à l'érythro-


mycine (marqueur de la famille des macrolides). Extrait du rapport de l'EARSS 2002.

Figure 1.4  Consommation communautaire d'antibiotiques dans 26 pays européens en 2002. Extrait
de l'article de Goossens 2005 [1]
10 1.1. Contexte de santé publique

Facteur de confusion potentiel


Syndromes grippaux

Q
 Q
  Q
Indicateur d'exposition 1
9
 Q
Q
Q
Exposition XX Q
XXX
aux antibiotiques XXX Q
Q
XXX Q
XXX Q
XXX Q
XXX s
Q
Xz Indicateur de santé
X
Infections
:
 à pneumocoque

 
 
Indicateur d'exposition 2  
Indicateur vaccinal


Figure 1.5  Problématique de thèse schématisée.

fections augmentent chez les personnes de plus de 2 ans (Figure 1.1). On peut se

demander les raisons d'une telle diérence d'évolution. D'une part, la consommation

française d'antibiotiques était particulièrement élevée au début des années 2000, et

d'autre part, cette consommation a diminué, notamment lors des périodes hivernales,

à partir de 2002. L'hypothèse de cette thèse est la suivante : cette modication de

l'usage des antibiotiques en France n'aurait-elle pas eu un eet collatéral conduisant

à une ré-augmentation de ces infections invasives ?

L'objectif de cette thèse est d'étudier la dynamique des infections à pneumocoque

et de la mettre en relation avec les deux interventions de santé publique ainsi que

les infections virales. Ces dernières seraient à la fois associées à un nombre important

de prescriptions d'antibiotiques lors des périodes hivernales et à une augmentation

du nombre d'infections invasives à pneumocoques. La gure 1.5 présente de façon

schématique la problématique de cette thèse.


Chapitre 1. Introduction 11

1.2 Les analyses statistiques

L'étude de la dynamique des infections invasives communautaires à pneumocoque

peut se faire par une analyse de séries temporelles, par exemple en étudiant le lien

entre ces infections et les facteurs environnementaux cités précédemment. Un modèle

classiquement utilisé à cette n est le modèle de régression linéaire adapté aux sé-

ries temporelles, c'est-à-dire intégrant l'autocorrélation des résidus [25]. Cependant,

les infections à pneumocoque comme les facteurs environnementaux présentent une

saisonnalité marquée avec une augmentation hivernale. Lors de l'étude du lien entre

plusieurs indicateurs la présence d'une saisonnalité (commune ou non) dans l'évolu-

tion des indicateurs temporels pose problème. C'est le cas de l'indicateur des infections

invasives à pneumocoque et de l'exposition aux antibiotiques. Ces variations saison-

nières peuvent créer un eet de confusion dans l'analyse du lien entre ces deux séries.

En eet, un lien pourrait indiquer simplement un facteur commun lié à la saisonna-

lité. La question est le choix de la méthode à utiliser an de retirer cette saison, en

eet, plusieurs méthodes sont appliquées en routine. La première étape de ce travail

de thèse repose sur la comparaison de diérentes méthodes de désaisonnalisation de

séries temporelles lors de l'étude du lien entre deux séries saisonnières. A l'aide de

simulations, l'impact du choix de la méthode de désaisonnalisation sur l'estimation

du lien est discuté.

Les modèles de régression linéaire supposent une association linéaire entre les séries

étudiées. Cependant, dans certains cas, cette hypothèse est trop restrictive. Ceci est

particulièrement vrai lorsque la série explicative, série mise en cause, présente un

prol épidémique, c'est à dire, présente un faible nombre de cas tout au long de l'année

sauf sur une courte période, comme par exemple l'indicateur des syndromes grippaux

qui présente de faibles cas sauf lors de l'épidémie de grippe. L'association entre une

telle série et une autre pourrait ne pas être linéaire. En eet, cette association pour-

rait ne dépendre que de la phase ascendante et de la phase descendante de l'épidémie,

ou alors être liée simplement à l'eet médiatique de la période épidémique. A l'aide

de simulations, la capacité du modèle linéaire à estimer le lien entre deux séries est

évalué dans des cas où justement ce lien n'est pas simulé sous l'hypothèse linéaire.
12 1.3. Objectifs

Ces études de simulations permettent de dénir des méthodes ad hoc pour l'analyse

du lien entre deux séries saisonnières et ainsi, l'étude nale des données est abordée

avec les méthodes optimales.

1.3 Objectifs
Le premier objectif de cette thèse est un objectif de santé publique. Il s'agit d'étudier

la dynamique des infections invasives communautaires à pneumocoque en relation

avec les deux interventions de santé publique, la campagne nationale visant à réduire

l'usage des antibiotiques et l'introduction de la vaccination antipneumococcique, tout

en prenant un compte le facteur environnemental que représentent les infections vi-

rales.

Le second objectif est à visée méthodologique. Il s'agit, dans un premier temps, d'éva-

luer les méritent de deux méthodes de désaisonnalisation, l'usage de fonctions trigo-

nométriques et l'usage de splines cubiques, en ce qui concerne leur capacité à mettre

en évidence les associations potentielles entre deux séries temporelles. Pour illustrer

ce point, nous avons étudié le lien entre l'indicateur des infections invasives à pneu-

mocoque et deux indicateurs, celui de la consommation d'antibiotiques, d'une part,

et celui des infections virales d'autres part.

Le second travail méthodologique vise à évaluer l'impact d'un modèle de régression

linéaire sur une association qui ne l'est pas forcément. C'est le cas notamment de

l'association entre l'indicateur de la consommation d'antibiotiques et l'indicateur des

infections virales.

1.4 Plan général


Les données utilisées dans ce mémoire sont détaillées au chapitre 2. Le chapitre 3

expose l'état des connaissances méthodologiques. La première partie explore l'estima-

tion du lien entre les infections à pneumocoque et deux facteurs environnementaux, les
Chapitre 1. Introduction 13

syndromes grippaux et la consommation d'antibiotiques. Dans cette partie, la question

de la prise en compte de la saisonnalité lors de l'étude du lien entre deux séries sai-

sonnières est étudiée. La deuxième partie s'intéresse à l'excès d'antibiotiques prescrits

lors des épidémies grippales. La question de la linéarité du lien dans le cas d'une série

explicative à prol épidémique est soulevée. Enn, la troisième partie présente l'évo-

lution des infections invasives à pneumocoque entre 2002 et 2009 en France et évalue

le lien entre ces infections et trois facteurs environnementaux : les syndromes grip-

paux, l'exposition aux antibiotiques et la vaccination anti-pneumococcique, comme

schématisé Figure 1.5. Les méthodes statistiques mises en ÷uvre dans cette partie

sont choisies d'après les études méthodologiques des parties 1 et 2.


14 1.4. Plan général
Chapitre 2

Construction des indicateurs de santé


publique

Avant toute étude de données temporelles, il est important de bien connaitre le sys-

tème de recueil qui a permis d'obtenir ces données. En eet, si un indicateur de santé

augmente au cours de la période d'étude, il est important de s'assurer que le recueil a

été stable sur cette période, car cette augmentation pourrait simplement venir d'une

modication de la structure du système de recueil. L'augmentation de la fréquence

d'un évènement de santé peut être simplement due à l'augmentation de la popula-

tion d'étude et non pas à l'évènement de santé en lui-même. An de se prémunir de

conclusions erronées, une bonne connaissance du système de recueil de données est

préférable.

Après avoir résumé les modalités de fonctionnement général d'un réseau de sur-

veillance, les principales qualités requises pour qu'un système soit ecace sont listées.

Le cas des diérents indicateurs de santé utilisés dans la suite de ce mémoire sont

ensuite présentés et la qualité de leur recueil est étudiée.

2.1 Les clés de la surveillance en épidémiologie


La surveillance épidémiologique est une méthode d'observation fondée sur la collecte

continue et systématique de données de santé permettant d'estimer l'étendue et l'am-

pleur d'un problème, ainsi que la répartition géographique et démographique de ces

15
16 2.1. Les clés de la surveillance en épidémiologie

évènements de santé. Les données de surveillance peuvent également être utilisées an

de détecter des modications de pratiques, d'enregistrer l'évolution d'agents infectieux

ou environnementaux, d'évaluer l'impact d'une intervention de santé publique et de

décrire l'histoire naturelle d'évènements de santé dans une communauté. C'est à par-

tir de ces informations que des hypothèses sont générées et que des actions de santé

publique sont mises en ÷uvre [26, 27]. L'exemple le plus connu de l'utilisation d'un

système de recueil est la détection d'épidémies en temps réel [28, 29].

En résumé, la surveillance épidémiologique est la base de la prise de décision dans le

domaine de la santé publique et permet aux chercheurs d'émettre des hypothèses et

aux décideurs de mener de façon éclairée et ecace leurs actions de santé. La rapidité

et la pertinence des décisions sanitaires dépendent de la abilité du système de sur-

veillance. Assurer ecacement la détection et le suivi des menaces sanitaires constitue

donc un pré-requis à toute lutte ecace [27].

An de travailler dans de bonnes conditions sur des données issues d'un réseau de sur-

veillance, il est important de connaitre les modalités de fonctionnement de ce réseau

ainsi que les qualités et les limites de ce réseau.

2.1.1 Mise en place d'un système de surveillance


La mise en place d'un système de surveillance s'articule autour de trois grands axes :
la dénition des cas retenus, la dénition de la population surveillée et la dénition

des modalités d'enregistrement.

La dénition des cas est l'étape la plus importante qui doit aboutir à une déni-
tion consensuelle et opérationnelle des cas de l'évènement surveillé. Cette dénition

doit rester homogène au cours du temps de l'étude et utilisable par tous les agents

impliqués.

La dénition de la population surveillée (ou population cible) permet de déli-


miter le nombre de cas potentiels et de calculer des fréquences de l'évènement.

La dénition des modalités d'enregistrement sont inévitables, car le stockage

d'informations est limité. Ces modalités doivent permettre de valider les cas déclarés

et de décrire ces cas à partir de caractéristiques individuelles, temporelles et géogra-


Chapitre 2. Construction des indicateurs de santé publique 17

phiques. Les sources d'informations sont souvent multiples, dénies selon l'évènement

étudié et le contexte, et en fonction du système de soins. Il est important de standar-

diser la collecte des données de façon à rendre ces informations comparables.

On distingue deux grands types de surveillance : la surveillance passive, pour la-


quelle les agents de collecte informent la structure de centralisation (c'est le cas des

centres nationaux des bactéries qui sont informés par les laboratoires d'analyse), et

la surveillance active, pour laquelle la structure collecte elle-même les informations


auprès des sources (par exemple, les registres de cancers qui envoient des agents pour

récupérer des cas et les valider).

2.1.2 Qualités d'un système de surveillance


Plusieurs critères permettent d'apprécier les performances d'un système de surveillance,

les suivants font parties des principaux [30, 31].

La sensibilité est la capacité du système de surveillance à détecter tous les cas réels.
La sensibilité correspond au nombre de cas réels détectés par le système de surveillance

rapportés au nombre total d'évènements eectivement survenus au cours de la période

de surveillance dans la population concernée. On parle souvent d'exhaustivité du sys-

tème.

La valeur prédictive positive (VPP) représente la proportion de cas réels parmi


les cas rapportés au système de surveillance. Si elle est faible, on peut craindre que

le système de surveillance entraine fréquemment des investigations complémentaires

pour des cas qui ne sont pas réels (faux positifs) ou détecte des fausses épidémies.

La représentativité. En cas de sensibilité imparfaite du système de surveillance, on


cherchera à estimer s'il décrit correctement l'évènement étudié en fonction des carac-

téristiques des sujets, du temps et du lieu.

La stabilité. Ce n'est pas réellement un critère mais il est important de vérier que
le système de recueil est stable dans le temps, c'est-à-dire que la dénition des cas,

la population cible et les modalités de recueil restent les mêmes tout au long de la

période d'étude.

D'autres critères tels que l'acceptabilité, la réactivité et l'utilité sont des critères im-
18 2.2. Indicateurs des infections invasives communautaires à pneumocoque

portants, mais ne sont pas cités ici car non adaptés.

2.2 Indicateurs des infections invasives communau-


taires à pneumocoque
Les infections invasives sont les plus graves parmi les infections à pneumocoque. Le

caractère invasif (passage de la bactérie dans un milieu stérile comme le sang ou la

plèvre) conduit généralement à consulter un hôpital ou une clinique. Ainsi, le décompte

des cas hospitalisés pour infection à pneumocoque permet de reéter le nombre d'in-

fections invasives communautaires à pneumocoque (IICP) en France.

Le programme de médicalisation des systèmes d'information (PMSI) mis en place dans

tous les établissements de santé français, publics comme privés, est un outil médico-

administratif permettant aux établissements de santé de tarifer les soins prodigués et

d'être nancés en retour par l'Assurance Maladie. Ce programme collecte en routine et

au quotidien une quantité importante d'informations cliniques mais aussi biologiques

de plus en plus utilisées par les épidémiologistes. Par exemple, pour chaque hospita-

lisation, le diagnostique principal ainsi que des diagnostiques secondaires sont codés

à partir de la Classication Internationale des Maladies (CIM). Ces bases de données

ont vocation à être des bases exhaustives de l'activité hospitalière. Avec l'accord de

la Commission Nationale Informatique et Liberté (numéro 909 514), des extractions

de ces bases nous ont été transmises par l'ATIH an de comptabiliser le nombre de

séjours liés à une infection à pneumocoque en France entre janvier 2002 et décembre

2009.

2.2.1 Historique du PMSI


En 1982, le responsable de la direction des Hôpitaux, Jean de Kervasdoué, propose

de dénir l'activité des établissements de santé et d'en calculer leur allocation budgé-

taire. Ce système existait déjà aux Etats-Unis et en Angleterre. Depuis la loi du 31

juillet 1991, les établissements de santé français, publics et privés, doivent procéder à

l'évaluation et à l'analyse de leur activité. Pour les séjours hospitaliers de médecine,


Chapitre 2. Construction des indicateurs de santé publique 19

chirurgie et obstétrique, cette analyse est fondée sur le recueil systématique et le traite-

ment automatisé d'une information médico-administrative minimale et standardisée,

contenue dans le Résumé de sortie standardisé (RSS). Depuis 2004, la tarication à

l'activité, nouveau système de tarication des établissements basé sur l'activité, est


entrée en vigueur progressivement jusqu'en 2008 .

Un certain nombre d'informations sont codées en routine par les soignants, dont les

diagnostics et les actes médicaux. Dans cette étude, nous ne nous intéressons qu'aux

diérents diagnostics dont voici les dénitions :

Le diagnostic principal (DP) : Avant 2009, le diagnostic principal est le motif de prise

en charge qui a mobilisé l'essentielle de l'eort médical et soignant au cours du sé-

jour. Depuis 2009, le DP est réduit au problème de santé qui a motivé l'admission du

patient dans l'unité de soins.

Le diagnostic relié (DR) : Dans certain cas, le DP ne sut pas seul à caractériser la

prise en charge. Le DR correspond à une aection permettant d'éclairer le contexte

médico-économique, essentiellement lorsque le DP n'est pas en lui-même une aec-

tion. C'est notamment le cas des prises en charge pour bilan ou surveillance, pour

lesquelles les règles de codage imposent souvent l'utilisation des codes Z en DP.

Les diagnostics associés (DA) : Ces sont les aections associées au diagnostic principal,

les complications de celui-ci ou de son traitement.

2.2.2 Dénitions du système de recueil


Les cas. Les pathologies dénies comme invasives dans cette étude sont les suivantes :
pneumonie à pneumocoque (code J13), septicémie à pneumocoque (code A403) et mé-

ningite à pneumocoque (code G001). Une pneumonie bactérienne est une infection des

poumons, une septicémie est la propagation des bactéries par le sang provoquant une

inammation systémique. Le codage pour septicémie est associé à une hémoculture

positive, signiant la présence de bactéries dans le sang. On parle aussi de bactériémie.

Enn une méningite est une inammation des méninges. Elle sera codée si la ponction

lombaire prouve la présence de bactéries dans le liquide céphalo-rachiden.


Sources : Présentation du PMSI par Jean-Claude Buzzi, médecin du département de l'information
médical, Hôpital Bichat, Paris
20 2.2. Indicateurs des infections invasives communautaires à pneumocoque

A partir des RSS pour lesquels le diagnostic principal ou le diagnostic relié ou encore

un diagnostic associé correspond à un code d'infection à pneumocoque, le nombre

de nouvelles hospitalisations liées à une infection invasive à pneumocoque est cal-

culé, sans distinction du code d'infection à pneumocoque. En France, il existe pour

chaque personne un numéro unique d'identication ici anonymisé, basé entre autres

sur le numéro INSEE. Ce numéro permet de chainer les diérentes hospitalisations

d'un même individu au cours de la période d'étude. Dans 4% des cas, ce numéro

anonymisé était manquant. Pour ces cas là, seule une recherche par établissement

de santé, année d'hospitalisation, la région de résidence du patient a pu être réalisée

an de regrouper les diérentes hospitalisations dans un même établissement pour

un même individu. Les patients ayant plusieurs hospitalisations liées au même évène-

ment ne sont comptabilisés qu'une seule fois, lors de la première hospitalisation. Les

informations concernant ce patient sont celles correspondant à sa première hospitali-

sation (par exemple son age). Un patient ré-hospitalisé pour une infection invasive à

pneumocoque au-moins six mois après une première hospitalisation est comptabilisé

comme un nouveau cas d'infection à pneumocoque. Les séjours liés à une infection

associée au VIH ne sont pas pris en compte.

Une hospitalisation, ou un ensemble d'hospitalisations d'un même patient, peut être

associée à plusieurs pathologies à la fois (pneumonie, septicémie ou méningite). Une

telle hospitalisation n'est comptabilisée qu'une seule fois lors du décompte des IICP

totales, par contre, elle est comptabilisée dans chacun des décomptes par pathologie

concernée (pneumonie, septicémie ou méningite).

La population d'étude. La population concernée est la population ayant accès aux


hôpitaux et cliniques françaises, soit la population française résidente (comptabilisée

par l'INSEE) ainsi que la population en transit sur le territoire. Cependant, pour

des raisons pratiques, la population d'étude considérée est restreinte à la population

française résidente pour laquelle les données sont disponibles. Nous supposons que

le nombre de non-résidents français hospitalisés dans un établissement de santé de

France pour une infection à pneumocoque est stable sur la période d'étude, de façon à

avoir un biais certes inconnu mais constant. De plus, la population d'étude est limitée

aux établissements situés en France métropolitaine.


Chapitre 2. Construction des indicateurs de santé publique 21

La période d'étude. Les données sont recueillies de janvier 2002 à décembre 2009.
Les modalités d'enregistrements et d'extraction. Pour des raisons d'anonymat,
seules les informations suivantes nous ont été transmises pour chaque séjour, le nu-

méro de l'établissement de santé, le département de l'établissement, le numéro de

séjour (numéro unique par année et par établissement), le numéro anonymisé du pa-

tient (unique en France), l'année de naissance et la région de résidence du patient, le

diagnostic principal, le diagnostic relié, les diagnostics associées, le mois et l'année de

sortie, et le mode de sortie. Aucune donnée bactériologique n'a été transmise.

Ces restrictions d'information nous imposent de comptabiliser le nombre mensuel

d'hospitalisations indicé sur l'année et le mois de sortie. Les durées de séjours de ce

type d'hospitalisation sont considérées comme stables au cours de la période d'étude.

Les IICP sont classées par tranche d'âge en faisant référence à l'âge de la première

hospitalisation.

2.2.3 Qualités du système de recueil


Sensibilité et spécicité
Le PMSI a pour vocation de recenser de façon exhaustive l'information de l'activité

hospitalière en secteur public comme en secteur privé. La sensibilité de ce recueil est

censée être bonne. Le diagnostic des infections à pneumocoque, basé sur la clinique,

la radiologie et la ponction lombaire pour les méningites, est susamment spécique

pour assurer une sélection de cas réels d'infection à pneumocoque, mais non nécessai-

rement invasive. Cependant, ces deux critères, sensibilité et spécicité, sont diciles à

évaluer et ne sont pas connus dans le cadre spécique des infections à pneumocoque.

Représentativité
L'acquisition d'infections nosocomiales à pneumocoque est très faible [32] conduisant

ainsi à une très légère sur-estimation du nombre de cas d'infections communautaires.

Cependant, les pneumonies à pneumocoque hospitalisées ne sont pas toutes des in-

fections invasives. En eet, les pneumonies ne présentent pas toutes une hémoculture

positive, soit parce que les bactéries ne sont pas présentes dans le sang, soit parce que

les bactéries ont été décapitées avant l'arrivée à l'hôpital par une prise d'antibiotiques
22 2.2. Indicateurs des infections invasives communautaires à pneumocoque

prescrits par le médecin traitant. La gravité symptomatique des pneumonies n'im-

pose l'hospitalisation que de 15 à 20% des patients [33]. Ce pourcentage est supposé

constant sur la période d'étude. Ainsi, cet indicateur sur-estime les IICP réellement

invasives, en incluant les pneumonies à pneumocoque les plus graves non nécessaire-

ment invasives.

Stabilité du système de recueil


Sur la période d'étude, de janvier 2002 à décembre 2009, plusieurs éléments ont conduit

à une modication des modalités de recueil.

Depuis le début des années 2002, il existe un test de dépistage des infections à pneumo-

coque basé sur la présence de l'antigène pneumococcique dans les urines. Cependant,

ce test de faible sensibilité notamment chez les enfants reste peu utilisé en pratique.

Ainsi, l'introduction d'un tel test ne semblerait pas avoir inuencé le codage des hos-

pitalisations pour infection à pneumocoque.

Avant janvier 2004, les établissements privés étaient remboursés par la tarication

à la journée et à l'acte, ceux du secteur publics recevaient une dotation globale. A

partir de janvier 2004, le remboursement des frais des établissements de santé pu-

blics comme privés est lié à la tarication à l'activité (T2A). Cette modication des

modes de remboursements a incité les soignants à coder des diagnostics notamment

secondaires pour des pathologies multiples par exemple et des actes qu'ils ne codaient

pas auparavant an de facturer les actes réellement eectués. Cette modication de

la pratique est très dicile à mesurer, cependant, il est vraisemblable que pour des

pathologies aussi spéciques que les infections invasives à pneumocoques la pratique

n'ait pas grandement évoluée.

En janvier 2009, les établissements de santé ont commencé à utiliser la version 11 de

la CIM. Le codage pour pneumonie, septicémie et méningite à pneumocoque n'a pas

grandement évolué entre la CIM version 10 et la CIM version 11. En eet, dans la

CIM version 10, ces pathologies étaient déjà considérées comme des complications ou

comorbidités associées sévères de niveau 1 ou 2. Dans la version 11, ces pathologies

sont considérées comme des complications ou comorbidités associées sévères de niveau

3 ou 4. Ainsi, du point de vue du groupage, le poids de ces codes n'a pas évolué d'une
Chapitre 2. Construction des indicateurs de santé publique 23

manière importante sur la période d'étude. De plus, la règle de codage du diagnostic

principal a été modiée en 2009.

Au bilan, les modalités de recueil ont été modiées. Ces données sont donc à prendre

avec précaution dans la mesure où la stabilité du recueil n'a pas été attestée.

Comparaison avec d'autres ressources


Le réseau Epibac a pour but d'estimer en France l'incidence des infections bacté-

riennes, le plus souvent communautaires, de suivre leur évolution dans le temps et de

décrire les principales caractéristiques épidémiologiques des patients hospitalisés. Il

contribue à l'évaluation des mesures de prévention mises en place au niveau national.

(Sources : www.invs.sante.fr/surveillance/epibac, consulté le 10 septembre 2014). En

2010, le réseau Epibac est constitué de 305 laboratoires hospitaliers de microbiologie.

Le réseau des observatoires régionaux du pneumocoque collecte l'ensemble des souches

isolées dans le liquide céphalo-rachidien (méningites) ou dans le sang (bactériémies)

chez les enfants de moins de 15 ans. Pour les adultes de plus de 15 ans, la collecte

ne corresponde qu'à un échantillon d'une souche sur six parmi les souches isolées de

bactériémies, une année sur deux.

L'évolution de l'incidence des hospitalisations pour infections invasives à pneumo-

coque par tranche d'âge issue des données publiées de l'InVS [6] présentée dans le

chapitre précédent, Figure 1.1, est comparable à l'évolution de cette même incidence

issue des données des PMSI présentée Figure 2.1.

Hormis chez les enfants de moins de deux ans, les évolutions des incidences issues des

diérents réseaux sont comparables. Une sur-estimation de l'incidence estimée par le

PMSI par rapport à celle estimée à partir des données de l'InVS est notable. Comme

discuté précédemment, le codage du PMSI ne nécessite pas l'isolation de la bactérie,

ce qui n'est pas le cas des données publiées par l'InVS en 2010. Ainsi, l'indicateur des

IICP issu du PMSI sur-estime les IICP réelles.

Cependant, il existe une diérence d'évolution chez les enfants de moins de deux ans.

L'incidence présentée par l'InVS diminue à partir de 2003, ce qui ne se retrouve pas

totalement à partir des données du PMSI. L'évolution de l'incidence dans ce groupe

d'age par pathologie, présentée Figure 2.2, montre que ce sont les pneumonies à pneu-
24 2.3. Indicateur de l'exposition aux anti-infectieux

70 Introduction de la vaccination < 2 ans


2−15 ans
● 16−64 ans
60 65 ans et +
Incidence pour 100 000 habitants

50

40

30

20


● ●
10 ● ●

Jan 2002 Jan 2003 Jan 2004 Jan 2005 Jan 2006 Jan 2007 Jan 2008 Jan 2009

Temps (mois)
Source : ATIH 2011

Figure 2.1  Incidence des hospitalisations pour infections invasives à pneumocoques pour 100 000
habitants en France entre 2002 et 2009 par tranche d'âge (issue des données des PMSI).

mocoque qui augmentent principalement. Les méningites et bactériémies diminuent.

Ainsi, l'indicateur des septicémies et celui des méningites à pneumocoque construits

à partir des données du PMSI semblent comparables et d'évolution similaire à ceux

publiés par l'InVS en 2010. Seul l'indicateur des pneumonies à pneumocoque issu des

PMSI, infections qui ne sont pas nécessairement invasives, ne présente pas la même

évolution que les deux autres indicateurs. Cette diérence pourrait s'expliquer par le

fait que l'indicateur des IICP n'est pas spécique des infections invasives, notamment

lorsqu'il s'agit de pneumonie, alors que ceux issus d'Epibac et de l'Invs le sont. Cet

indicateur est donc à prendre avec précaution.

2.3 Indicateur de l'exposition aux anti-infectieux


En France, il existe deux moyens de lutter contre les infections bactériennes dues à

des pneumocoques, une lutte curative à l'aide d'antibiotiques et une lutte préventive

à l'aide du vaccin anti-pneumococcique conjugué heptavalent. L' exposition aux anti-

infectieux est une exposition majoritairement communautaire car on estime que 80%

des antibiotiques sont consommés en ville contre 20% à l'hôpital [34].


Chapitre 2. Construction des indicateurs de santé publique 25

Introduction de la vaccination
50 antipneumococcique
Incidence pour 100 000 habitants

25

Jan 2002 Jan 2003 Jan 2004 Jan 2005 Jan 2006 Jan 2007 Jan 2008 Jan 2009

Temps (année)
15
Incidence pour 100 000 habitants

10

5


● ● ●
● ● ●

Jan 2002 Jan 2003 Jan 2004 Jan 2005 Jan 2006 Jan 2007 Jan 2008 Jan 2009

Temps (mois)
10 < 2 ans
Incidence pour 100 000 habitants

2−15 ans
● 16−64 ans
65 ans et +

Jan 2002 Jan 2003 Jan 2004 Jan 2005 Jan 2006 Jan 2007 Jan 2008 Jan 2009
Source : ATIH 2011

Figure 2.2  Incidence des hospitalisations pour infections invasives à pneumocoques pour 100 000
habitants en France entre 2002 et 2009 par tranche d'âge et par pathologie (issue des données du
PMSI). En haut, les hospitalisations pour pneumonies à pneumocoque. Au milieu, les hospitalisations
pour septicémies à pneumocoque. En bas, les hospitalisations pour méningites à pneumocoque.

La consommation française d'antibiotiques et de doses de vaccin anti-pneumococcique

est estimée à partir des bases de remboursements de la Caisse Nationale d'Assurance

Maladie des Travailleurs Salariés (CNAMTS) et du Régime des Salariés Indépen-

dants (RSI). Ces deux bases médico-administratives, collectées avant tout à des ns

économiques permettant aux bénéciaires de ces régimes sociaux d'être remboursés

pour leurs soins, rassemblent un ensemble d'informations relatives aux bénéciaires

des soins, ainsi que des informations concernant les soins remboursés. Seuls les soins

faisant l'objet d'un remboursement gurent dans ces bases.

2.3.1 Dénitions du système de surveillance


Les cas. Ici, un cas est un remboursement pour achat d'un antibiotique prescrit par
un médecin et remboursé par la CNAMTS ou le RSI. Pour chaque ligne de rembour-

sement, la date de délivrance, le code CIP du médicament délivré, le département

d'aliation et l'année de naissance du patient sont transmis. Seuls les antibiotiques

correspondants aux familles des macrolides et des β -lactamines sont considérés car
26 2.3. Indicateur de l'exposition aux anti-infectieux

principalement donnés contre une infection à pneumocoque.

La population d'étude. La population concernée est la population couverte (ou

population bénéciaire) par ces deux régimes sociaux, soit à eux-deux 90% de la po-

pulation française métropolitaine. Ce pourcentage est considéré comme stable sur la

période d'étude, évoluant de 90% en 2003 à 91% en 2006 (source CNAMTS et RNIAM,

le répertoire national interrégimes de l'assurance maladie). Comme il y a une légère

sur-estimation de la population par le RNIAM par rapport à la population résidente

recensée par l'INSEE, la CNAM nous transmet le décompte de la population couverte

corrigé de cette diérence.

La période d'étude. Les données sont disponibles de juillet 2000 à mars 2010. Ces
données sont principalement utilisées sur la période de janvier 2002 à décembre 2009,

période compatible à celle de l'indicateur des IICP, mais elles sont également utilisées

dans leur ensemble dans la partie 2 du mémoire.

Les modalités de recueil. La CNAMTS et le RSI transmettent chaque année les

extractions issues de leurs bases. Cependant, alors que la CNAMTS utilise sa propre


liste des codes CIP correspondant aux antibiotiques systémiques et aux vaccins

‡ §
anti-pneumococciques , le RSI requête sur les codes ATC correspondant à la caté-

gorie J01" (antibiotiques systémiques) et J07AL" (vaccins anti-pneumococciques).

An d'harmoniser ces extractions, seules les données issues des deux bases corres-

pondantes à un des codes CIP de la liste de la CNAMTS sont conservées (ce qui

représente la majorité des données). L'indicateur mensuel correspondant au nombre

de remboursements pour prescription d'antibiotique caractérisé par son code CIP est

alors construit à partir de ces données.

2.3.2 Qualités du système de surveillance


Représentativité
En France, toute délivrance d'antibiotique ou de vaccin ne peut se faire légalement


Le code CIP (Club InterPharmaceutique) est un code français à 13 chires correspondant à
l'autorisation de mise sur le marché d'une présentation d'un médicament en France

liste considérée comme exhaustive et régulièrement mise à jour en fonction des nouvelles autori-
sations de mise sur le marché (AMM) et des retraits des ces AMM
§
La classication ATC (Anatomical Therapeutical Chemical) est une classication internationale
des médicaments réalisée par l'OMS.
Chapitre 2. Construction des indicateurs de santé publique 27

qu'en pharmacie de ville à partir d'une ordonnance d'un médecin (on estime à 2%

l'achat d'antibiotiques sans prescriptions [35]). De plus, les antibiotiques et les vac-

cins anti-pneumococciques sont considérés comme des médicaments à Service Médical

Rendu majeur, ils sont donc tous pris en charge à 65% par la sécurité sociale. Ainsi,

tout achat d'antibiotique en France correspond à une ligne dans la base des rem-

boursements de l'assurance maladie. Pour ces médicaments faisant l'objet d'un rem-

boursement, la grande majorité des achats est directement notiée au régime social

de l'individu, ne nécessitant plus l'envoi ultérieur de documents papiers. La mise en

place de la carte Vitale a permis de limiter les échanges d'informations par courrier et

ainsi la perte d'information. La sensibilité du recueil d'information en terme d'achat

d'antibiotique est bonne.

Les antibiotiques achetés ne sont pas nécessairement consommés, ni consommés dans

leur intégralité. Il est fort probable que les individus qui achètent des antibiotiques les

consomment au moins en partie. Nous n'avons pas d'information sur la quantité d'an-

tibiotiques consommés. Ainsi, l'indicateur du nombre de traitement initié sur-estime

probablement mais faiblement la consommation eective d'antibiotiques.

L'indicateur ainsi constitués reètent le nombre de CIP prescrits, et non le nombre

de traitement par antibiotiques. En eet, une personne pourrait être traitée par plu-

sieurs antibiotiques en même temps. Ou alors un individu pourrait avoir un traitement

de long terme et revenir à la pharmacie pour acheter une nouvelle boite de médica-

ments. Dans ces deux cas, ces consommations sont comptabilisées deux fois. De plus

les quantités associées à chaque remboursement ne sont pas prises en compte. Cepen-

dant, généralement, les prescriptions pour antibiotique se font sur de courtes périodes

(environ 7 jours). Le packaging de ces boites de médicaments tient souvent compte

des recommandations de durées de traitement. Le nombre de code CIP vendus et

remboursés semble bien reéter l'exposition aux antibiotiques en France.

Stabilité du système de recueil


Il n'y a pas eu de grandes modications des modalités de recueil de ce système de

surveillance durant la période d'étude. La campagne nationale visant à réduire le més-

usage des antibiotiques a débuté à l'automne 2002. Sabuncu et al. ont montré que la
28 2.3. Indicateur de l'exposition aux anti-infectieux

consommation hivernale d'antibiotiques avait chuté de façon signicative dès l'hiver

2002-2003 [13, 14, 36].

En France, tout individu a droit à une couverture sociale. Il existe trois principaux

régimes sociaux français : la CNAMTS (environ 85%), la mutuelle sociale agricole

(MSA) qui compte environ 7% de la population française et le RSI (environ 5% de la

population française). Il est dit (source interne de la MSA) que la population couverte

par la MSA consomme nettement moins d'antibiotiques (environ 10 fois moins) que

la population de la CNAMTS. Ainsi, l'indicateur constitué uniquement sur les bases

de données de la CNAMTS et du RSI ne sont pas exactement généralisable à la popu-

lation. Cependant, dans la suite du mémoire, l'indicateur du nombre d'antibiotiques

est rapporté à la population nationale en faisant l'hypothèse que le prol de consom-

mation moyen français est celui estimé à partir des données de la CNAMTS et du RSI.

A partir de ces données, le nombre hebdomadaire de remboursements pour prescrip-

tion d'antibiotiques (ATB) a été étudié et validé [13]. Dans la suite, seules les classes

d'antibiotiques majoritairement utilisées contre le pneumocoque, les β -lactamines et

les macrolides, sont considérées.

Les données de remboursements pour prescription du vaccin antipneumococcique sont

utilisées an d'estimer le taux d'enfants de moins de deux ans vaccinés. Le nombre

de doses de vaccin remboursés par la CNAMTS est comptabilisé par mois. La pro-

portion d'enfants nés en 2007, ayant complété leur primo-vaccination (3 doses) entre

2007 et juin 2010 est estimée à 84% à partir de ces données, alors que la proportion

d'enfants nés en 2008, ayant complété leur primo-vaccination (2 doses) entre 2008 et

juin 2010 est estimée à 87%. D'après l'InVS, la proportion d'enfants ayant débutés

une vaccination par la vaccin pneumocoque conjugué à l'âge de 6 mois est passée de

60% pour les enfants nés 2004 à 95% pour ceux nés en 2010 [37].
Chapitre 2. Construction des indicateurs de santé publique 29

2.4 Indicateur des infections virales respiratoires


Les virus respiratoires sont, d'après une convention quelque peu arbitraire, les virus

qui ont pour organe-cible habituel et principal l'arbre respiratoire. Il peut s'agir de

la partie haute de l'arbre respiratoire (rhinite, pharyngite, laryngite) ou de la partie

basse (bronchite, pneumonie). La plupart des infections à virus respiratoires sont des

 infections localisées , c'est à dire établies au niveau de la muqueuse respiratoire

et n'allant pas plus loin, de sorte que porte d'entrée et organe cible sont confondus

et que l'incubation de la maladie, courte, n'est que de quelques jours, ce qui favorise

une diusion rapide de l'infection dans la communauté. C'est le cas de la grippe, de

la bronchiolite ou de la pneumonie à virus respiratoire syncytial (VRS).

En France, depuis 1984, le réseau Sentinelles (INSERM/UPMC, sentiweb.fr) collecte

le nombre de cas de syndromes grippaux tout au long de l'année. Le réseau Senti-

nelles est un réseau de 1300 médecins généralistes libéraux, volontaires, répartis sur

le territoire métropolitain français. Ces données sont librement accessibles depuis le

site sentiweb.fr. Nous utilisons le nombre de syndromes grippaux comme indicateur

des infections dues à un virus respiratoire en France.

2.4.1 Dénition du système de surveillance


Les cas de syndromes grippaux sont dénis par une èvre supérieure à 39 ◦ C, d'ap-
parition brutale, accompagnée de myalgies et de signes respiratoires. Il s'agit des cas

déclarés par un médecin généraliste.

La population d'étude est la population résidente en France sur la période d'étude,


de janvier 2002 à décembre 2009.

Les modalités de recueil sont les suivantes : les individus infectés par un virus

grippal consultent généralement leur médecin généraliste. Les médecins du réseau

ont la liberté de déclarer le nombre de cas qu'il ont diagnostiqués dans la semaine

précédent leur déclaration. A partir de ces données, il est possible d'estimer le taux

d'incidence hebdomadaire pour chaque indicateur et de suivre son évolution dans le

temps et dans l'espace. Pour estimer le taux d'incidence hebdomadaire ou annuelle

nationale, le nombre moyen de cas par médecin du réseau (normalisé en fonction de


30 2.4. Indicateur des infections virales respiratoires

leur participation et leur répartition géographique) est multiplié par le nombre total

de médecins généralistes en France, et le résultat est ensuite divisé par la population

française pour obtenir un taux d'incidence. Deux hypothèses sont nécessaires à cette

extrapolation, le fait que les médecins du réseau constituent un échantillon aléatoire

de l'ensemble des médecins du territoire français, le fait que les médecins déclarent en

général une activité représentative de leur activité hebdomadaire.

2.4.2 Qualité du système de surveillance

Représentativité
La dénition des syndromes grippaux est assez spécique pour ne détecter que des cas

réels. La méthode d'estimation de l'épidémie de grippe a été validée par Costagliola et

al. [38]. Cependant, il s'agit uniquement de cas déclarés et non de l'ensemble des cas

réels. En eet, tous les patients infectés par la grippe ne consultent pas et donc ne sont

pas comptabilisés par ce système de surveillance. De plus, aucun test virologique n'est

demandé an de conrmer les cas déclaré. Il peut s'agir également de faux positifs.

Au niveau national, le réseau Sentinelles est représentatif de la population française

même si la grippe AH1N1 a conduit à une sur-estimation des cas par ce réseau [39].

Les médecins du réseau sont représentatifs de l'ensemble des médecins généralistes

répartis sur le territoire français, pour le lieu d'exercice et la distribution par âge

de leur patientèle. Ils correspondent à 2,2% de la totalité des médecins généralistes

libéraux en France métropolitaine. En revanche, les médecins du réseau sont plus

fréquemment des hommes, plus âgés et exercent plus rarement une activité de soins

salariée à temps partiel. Ils ont également un plus grand volume de consultations que

la moyenne.

Stabilité : Sur la période d'étude, de janvier 2000 à juin 2010 (et à fortiori de janvier
2002 à décembre 2009), il n'y a eu aucune modication dans la dénition des cas, ni

la population d'étude, ni dans les modalités de recueil et d'extrapolation.


Chapitre 2. Construction des indicateurs de santé publique 31

2.5 Bilan
Les trois indicateurs de santé présentés précédemment, l'indicateur des ATB, l'indica-

teur des SG sont issus de systèmes de recueil relativement stables dans sur la période

d'étude et semblent tous avoir une bonne représentativité. Cependant, l'indicateur

des IICP présente une stabilité de recueil moins able.

Dans la suite du mémoire, l'incidence mensuelle ou hebdomadaire (disponible pour

l'indicateur de l'exposition aux antibiotiques et pour l'indicateur des syndromes grip-

paux) de ces indicateurs est utilisée. La gure 2.3 présente l'évolution de l'indicateur

des IICP entre janvier 2002 et décembre 2009. La gure 2.4 présente l'évolution des

indicateurs des ATB et des SG de janvier 2000 à mars 2010. D'après ces graphiques,

certaines grandes caractéristiques de l'évolution de ces indicateurs sont notables. L'in-

dicateur des IICP présente une saisonnalité très nette, avec une augmentation hiver-

nale atteignant un pic autour du mois de janvier et un creux au mois d'aout. Cet

indicateur montre également une tendance à la hausse. L'indicateur des ATB est éga-

lement marqué par une saisonnalité avec la encore une augmentation hivernale avec

plusieurs pics et un creux au mois d'aout. Cet indicateur présente des changements de

niveau moyen suivant les périodes suivantes, juillet 2000 à juin 2002, juillet 2002 à juin

2005, juillet 2005 à juin 2008, juillet 2008 à mars 2010, comme décrit par Sabuncu et

al. [13] et Bernier et al. [14]. Nous parlerons alors de variation par palier. L'indicateur

des SG apparait là encore avec une saisonnalité marquée mais diérente de celle des

indicateurs précédents. En eet, les SG ont un prol épidémique, et cette épidémie

se produit seulement sur deux à trois mois. De plus, le début de l'épidémique varie

grandement dans le temps, avec un panel de mois compris entre septembre et mars.
32 2.5. Bilan

Pneumonies
3 Introduction de la T2A 3

Incidence des méningites pour 1 000 000 habitants


Sépticémies
Méningites
Incidence pour 100 000 habitants

2 2

1 1

0 0

Jan 2002 Jan 2003 Jan 2004 Jan 2005 Jan 2006 Jan 2007 Jan 2008 Jan 2009 Jan 2010

Temps (mois)
Source : ATIH 2011

Figure 2.3  Incidence mensuelle des hospitalisations pour infections invasives à pneumocoques
pour 100 000 habitants en France entre 2002 et 2009 par pathologie (issue des données des PMSI).

Incidence des syndromes grippaux (pour 100 000 habitants)


Début de la campagne nationale
Nombre de remboursements pour antibiotique (x10,000)

500

400 4000

300 3000

200 2000

100 1000

0 0

Jan 2001 Jan 2002 Jan 2003 Jan 2004 Jan 2005 Jan 2006 Jan 2007 Jan 2008 Jan 2009 Jan 2010

Temps (mois)
Data : CNAMTS, RSI and Sentiweb

Figure 2.4  Incidence pour 100 000 habitants des remboursements pour prescription d'antibiotique
(en noir) et des syndromes grippaux (en bleu) en France entre 2000 et 2010.
Chapitre 3

Bases méthodologiques

3.1 Introduction

Une série temporelle est une suite d'observations qui se distinguent par le rôle im-

portant que joue l'ordre dans lequel elles ont été recueillies. L'indice temporel peut

être la minute, le jour, le mois, etc. Ainsi, tout indicateur de santé recueilli à pas

de temps régulier peut être considéré comme une série temporelle, par exemple, la

mesure de la pollution atmosphérique à chaque heure d'une journée, la mesure de la

température d'un lieu chaque jour à la même heure [40]. Une série temporelle peut

également être une information agrégée sur une unité de temps, comme le nombre de

cas hebdomadaires de syndromes grippaux [38], la mesure mensuelle de la consom-

mation d'antibiotiques en France [13]. Ce type de données est fréquemment rencontré

dans le domaine de la surveillance en épidémiologie.

Modéliser des indicateurs de santé par des méthodes dites de séries temporelles c'est

déterminer le processus stochastique sous-jacent, générateur des données observées.

Cette modélisation permet de prévoir l'évolution de ces indicateurs, d'évaluer des

modications de comportement, d'évaluer l'impact d'une intervention ou de lier ces

indicateurs entre-eux [41, 42].

33
34 3.1. Introduction

3.1.1 Notions de base des séries temporelles


L'analyse de séries temporelles est délicate, des notions spéciques ont été développées.

La première diculté des séries temporelles tient au fait qu'on n'observe qu'une seule

et unique valeur à chaque pas de temps. En statistique classique, on observe N ob-

servations à un temps donné. Si N est susamment grand, il est possible de faire des

inférences, c'est-à-dire à partir des observations, estimer les paramètres de la loi de la

variable aléatoire dont sont issues les observations. Or, ici, il est en eet impossible

d'obtenir plusieurs observations pour un même espace géographique, une même unité

de temps et une même population. En eet, dès qu'un de ces critères varie, le proces-

sus générateur des données varie. Les séries temporelles sont liées à la conjoncture de

l'unité de lieu et de temps dans lesquelles elles sont observées.

La seconde grande diculté des séries temporelles provient du fait que les données

sont corrélées entre-elles. En eet, il n'y a pas indépendance entre les observations

successives d'un indicateur temporel, l'analyse statistique classique ne peut pas être

mise en ÷uvre. La notion d'observations indépendantes et identiquement distribuées

est remplacée, dans l'analyse temporelle, par la notion de stationnarité qui implique,

au sens fort, la stabilité en loi du processus stochastique sous-jacent. La stationnarité

permet de supposer que les inférences faites à partir de données observées sont va-

lables pour les réalisations futures du processus générateur des données.

Ainsi, il est possible de modéliser un processus stationnaire, la section suivante en

donne le détail. Bien entendu, dans la réalité les séries temporelles étudiées ne sont

pas stationnaires. Une des grandes questions est de savoir par quelles méthodes elles

seront le mieux stationnarisées. Certaines de ces méthodes sont exposées dans la suite.

3.1.2 Régression entre plusieurs séries temporelles


Il existe deux grands types de méthodes permettant d'étudier l'association entre deux

ou plusieurs séries temporelles quand les erreurs sont supposées gaussiennes. Le pre-
Chapitre 3. Bases méthodologiques 35

mier type de modèles, développé par Box & Jenkins [43], correspond à la régression

dynamique. Le terme de régression dynamique combine à la fois la notion temporelle

d'une variable aléatoire et les eets de variables explicatives. Une telle régression est

utilisable à partir du moment où la série est susamment longue (au-moins 50 obser-

vations) pour supporter un modèle avec une structure de corrélation interne. Box et

Jenkins ont étudié l'estimation des paramètres de modèles pour lesquels les observa-

tions sont supposées être générées par un processus stochastique uniquement.

Le second type de modèles correspond aux modèles de régression linéaire avec er-

reurs autocorrélées. Dans ces modèles, la matrice de variance-covariance des erreurs

est supposée ne comporter qu'un nombre susamment restreint de paramètres pour

être facilement estimée. Ce type de modèle est en fait un cas particulier des modèles

linéaires estimés par les moindres carrés généralisés. Judge et al. [25] ont étudié les

modèles supposant que les observations sont générées par la combinaison d'un proces-

sus déterministe et d'un processus stochastique. Ces processus stochastiques peuvent

être modélisés de diérentes façons, soit par un processus AutoRégressif (AR), soit

un processus moyenne mobile (MA), soit encore par un processus combinant les deux

précédents (ARMA). Cependant, les modèles les plus couramment utilisés en pratique

sont les modèles supposant des erreurs autorégressives (AR) car plus faciles à implé-

menter. Choudhury [44] retrace le développement de ces méthodes et tente de donner

aux praticiens les outils nécessaires pour faire un choix éclairé sur le modèle adéquat.

Il est à noter que les outils d'analyse de séries temporelles ont été développés dans

deux grands domaines, l'économétrie et le secteur industriel (les problématiques -

nancières sont particulièrement diérentes du reste). Certains termes et outils sont

spéciques à ces domaines, d'autres plus transversaux. Cependant, ces deux écoles de

pensée évoluent en parallèle. Dans le domaine de l'économétrie, on verra plus souvent

des modèles de régression linéaire, alors que dans le domaine de l'industrie, les mo-

dèles de Box et Jenkins seront préférés. Dans le domaine de la santé, ces deux grandes

écoles s'y retrouvent représentées avec la méthode de Box et Jenkins particulièrement

employée lorsqu'il s'agit d'étudier des relations hospitalières, et la régression linéaire


36 3.2. Étude d'une série temporelle

préférée lorsqu'il s'agit d'exposition environnementale. Dans ce mémoire de thèse,

nous ne nous intéressons qu'aux modèles de régression linéaire avec erreurs autoré-

gressives car ils sont plus simples à mettre en ÷uvre.

Dans cette partie, les outils nécessaires à l'étude d'une série temporelle sont expo-

sés dans un premier temps. Ensuite, l'étude de l'association entre deux ou plusieurs

séries temporelles est abordée. Enn, des notions de causalité sont introduites.

3.2 Étude d'une série temporelle


Ce chapitre pose les bases de la modélisation probabiliste des séries temporelles. Il

dénit les notions de processus stochastique et stationnaire, les fonctions d'autocorré-

lations ainsi que leurs estimations et présente certains processus stationnaires particu-

liers. Cette partie est en bonne partie tirée du cours de séries temporelles enseigné par

Vincent Leeux à l'Ecole Nationale de la Statistique et de l'Analyse de l'Information

en 2005-2006.

3.2.1 Processus stationnaire


Soit (xt ){t∈T } une famille d'observations d'un phénomène. Chaque observation, xt , est
enregistrée à un temps spécique t∈T et on appelle série temporelle cet ensemble
d'observations. (xt )t∈T est la réalisation d'un processus stochastique (ou aléatoire)

(Xt )t∈T . Dans ce mémoire, les séries prennent des valeurs réelles et T est dénombrable,

en général T ⊂ N. Ainsi, on parle de séries temporelles réelles à temps discret.

3.2.1.1 Processus stochastique


Soit (Ω, A, P ) un espace probabilisé. Ω est l'univers d'expériences, A est l'ensemble

des parties de Ω et P est une mesure de probabilité sur (Ω, A).


X est une variable aléatoire si l'application X suivante :

X : (Ω, A, P ) → (R, B(R))


ω → X(ω)
Chapitre 3. Bases méthodologiques 37

est telle que, ω∈Ω et ∀B ∈ B(R) : X −1 (B) ∈ A, avec B(R), la tribu des boréliens

de R. C'est une application mesurable dénie sur un espace probabilisé.

Un processus X = (Xt )t∈T est dit stochastique si l'application X suivante :


N
T
X : (Ω, A, P ) × T → (R, B(R))
(ω, t) → Xt (ω)

est telle que, pour tout t ∈ T xé, Xt est une variable aléatoire dénie sur
N
(Ω, A, P ) T .

Un processus stochastique peut être considéré comme une variable aléatoire X à


N
T
valeurs dans (R, B(R)) espace probabilisé produit. La loi du processus stochas-
N N
T
tique se dénit comme la loi de X sur (R, B(R)) = ((R)T , (B(R) T ). Les lois des
variables aléatoires (Xt1 , ..., Xtk ) avec (t1 , ..., tk ) ∈ T k (k ∈ N) s'appellent les lois de

dimension nie du processus X.


Il existe un théorème fondamental pour les processus stochastiques qui permet de dé-

nir la relation entre la loi d'un processus et les lois de ses marginales, et notamment

celles de ses marginales de dimension nie.

Condition de projectivité
Soient T1 et T2 deux parties nies de T, telle que T2 ⊂ T1 . Soit ΠT1 ,T2 , la projection

de (R)T1 sur (R)T2 .


La loi de (Xt )t∈T2 est la loi image de (Xt )t∈T1 par l'application ΠT1 ,T2 . Cela signie

que la loi de (Xt )t∈T2 peut être déterminée comme loi marginale à partir de la loi du

processus (Xt )t∈T ou à partir de la loi de n'importe quelle sous famille la contenant

((Xt )t∈T2 où T2 ⊂ T1 ).

Théorème de Kolmogorov
N
T1
Soit PT1 une loi de probabilité sur (R, B(R)) , T1 étant une partie nie de T.
La condition de projectivité est nécessaire et susante pour qu'il existe un processus

(Xt )t∈T dont la loi de (Xt )t∈T1 soit PT1 , pour toute famille T1 ⊂ T . La loi du processus
38 3.2. Étude d'une série temporelle

Cela signie que la loi d'un processus


est alors déterminée de manière unique.

est déterminée de manière unique par ses lois de dimension nie.

Dans la suite, T ⊂ N∗ = N \ 0 et le nombre d'observations du processus observé

sera noté T directement. Ainsi, le processus pourra être noté X = (Xt )t=1,...,T . Il

s'agit d'une simplication de notation.

3.2.1.2 Processus stationnaire

Dans de nombreux cas, on ne peut pas renouveler la suite de mesures dans des condi-

tions identiques. Alors, pour que le modèle déduit à partir d'une suite d'observations

ait un sens, il faut que toute portion de trajectoire observée fournisse des informa-

tions sur la loi de X et que les diérentes portions de même longueur fournissent les

mêmes indications. D'où la notion de stationnarité. Il existe deux dénitions de la


stationnarité, cependant seule la stationnarité faible est vériée en pratique.

Un processus (Xt )t∈T est du second ordre si, pour tout t ∈ T, l'espérance de Xt2
existe (si E(Xt2 ) < ∞).
Un processus du second ordre (Xt )t∈T est faiblement stationnaire si son espérance
E(Xt ) est constante et ses autocovariances Cov(Xr , Xs ) sont invariantes par transla-

tion. Soit si :

∀t ∈ T, E(Xt ) = µ
∀(r, s, r + h, s + h) ∈ T 4 : Cov(Xr , Xs ) = Cov(Xr+h , Xs+h )

Dans ce cas, en posant γ(t, s) = Cov(Xt , Xs ), on a :

γ(t, s) = γ(t + h, s + h) = γ(s, t) = γ(0, t − s) = γ ? (t − s)


Ainsi, l'autocovariance dépend uniquement du décalage t − s. Dans la suite, γ? sera

simplement notée γ. De plus, si le processus vérie la deuxième condition, alors la

variance est constante. V(Xt ) = γ(0).


Dans la suite, les processus faiblement stationnaires seront simplement appelés pro-

cessus stationnaires.
Chapitre 3. Bases méthodologiques 39

3.2.1.3 Processus ergodique


Soit (Xt )t∈N un processus stationnaire du second ordre pour lequel les autocorrélations
s'annulent susamment rapidement, soit


X
γh < ∞
h=0

. Alors, (Xt )t∈N est un processus ergodique pour la moyenne si ∀f : R → R telle que

E(f (X)) existe :


T
1X
f (Xt ) −→ E(f (X))
T t=1 T →∞

Alors, (Xt )t∈N est un processus ergodique pour le moment d'ordre 2 si

T
1 X
(Xt − µ)(Xt−h − µ) −→ γh
T − h t=h+1 T →∞

C'est une sorte d'extension de la loi des grands nombres. La notion d'ergodicité fait
le pont entre moments temporels (estimés à partir de la série des T observations
du même processus à des temps diérents) et moments statistiques usuellement

estimés à partir de plusieurs observations indépendantes du processus à un seul temps

donné. Ainsi, si un processus stationnaire est ergodique alors sa moyenne temporelle

est une estimation de son espérance statistique, sa fonction d'autocovariance tempo-

relle est une estimation de sa fonction d'autocovariance statistique [45].

Remarquons qu'un processus stationnaire gaussien est ergodique pour tous ses mo-

ments.

3.2.1.4 Autocovariances et autocorrélations


Un processus stationnaire et ergodique est principalement caractérisé par son espé-

rance et ses autocorrélations (ou sa fonction d'autocorrélation). Dans cette partie, la

dénition de la fonction d'autocorrélation ainsi que ses propriétés sont exposées.

Fonction d'autocovariance :
Soit (Xt )t=1,...,T un processus stochastique faiblement stationnaire. On appelle fonc-
40 3.2. Étude d'une série temporelle

tion d'autocovariance (de l'anglais, autocorrelation function ou ACF) du processus


X la fonction γ suivante :

∀(t, h) ∈ [(1, T )], γ(h) = Cov(Xt , Xt+h )

Cette fonction caractérise la dépendance du processus avec son passé.

Propriétés :
Si γ est une fonction d'autocovariance, alors elle vérie les propriétés suivantes :

1. γ(0) ≥ 0
2. |γ(h)| ≤ γ(0)
3. γ(−h) = γ(h)
4. γ est une fonction dénie positive i.e.
Pn Pn
∀n ∈ [(1, T )], ∀(at )t∈{1,...,n} : t=1 t0 =1 at at0 γ(t − t0 ) ≥ 0

Pn Pn Pn
Le point 4. s'explique par le fait que V( t=1 at Xt ) = t=1 t0 =1 at at0 γ(t − t0 ).
Et réciproquement, si γ est une fonction qui vérie :

1. γ(−h) = γ(h)
Pn Pn
2. ∀n ∈ [(1, T )], ∀(at )t∈{1,...,n} : t=1 t0 =1 at at0 γ(t − t0 ) ≥ 0

Alors, γ est une fonction d'autocorrélation.

Fonction d'autocorrélation ou autocorrélogramme simple :


Soit (Xt )t∈T un processus faiblement stationnaire. On appelle autocorrélogramme

simple (de l'anglais, partial autocorrelation function ou PACF) du processus X la


fonction ρ suivante :

γ(h) Cov(Xt , Xt+h )


ρ(h) = =
γ(0) V(Xt )

Et on a ρ(0) = 1. La fonction d'autocorrélation correspond à la fonction d'autocova-

riance divisé par la variance du processus.

On appelle matrice d'autocorrélation de (Xt , ..., Xt−h+1 ), avec h ∈ N, la matrice


Chapitre 3. Bases méthodologiques 41

suivante :  
1 ρ(1) ... ρ(h − 1)
 
 
 ρ(1) 1 ... ... 
R(h) = 


 (3.1)
 ... ... ... ρ(1) 
 
ρ(h − 1) ... ρ(1) 1

C'est une matrice de Toeplitz (symétrique avec égalité des termes diagonaux).

Le passage entre autocovariance et autocorrélation fait perdre une information im-

portante, la variance. Cependant, ce sont les autocorrélations qui caractérisent les

dépendances.

Fonction d'autocorrélation partielle :


Il arrive que deux observations espacées dans le temps soient fortement corrélées,

mais que cette corrélation ne soit pas due à un fort lien mais à un facteur commun

extérieur. Il est alors intéressant d'observer la valeur de l'autocorrélation entre deux

observations espacées dans le temps, par exemple xt et xt+k pour k ≥ 0, en faisant

abstraction de l'inuence des observations xt+1 , ..., xt+k−1 . C'est ce qu'on appelle l'au-
tocorrélation partielle.

Soit (Xt )t∈T un processus faiblement stationnaire. Soit la régression linéaire de Xt


sur Xt−1 , ..., Xt−h+1 : EL(Xt |Xt−1 , ..., Xt−h+1 ). Soit la régression linéaire de Xt−h sur

Xt−1 , ..., Xt−h+1 : EL(Xt−h |Xt−1 , ..., Xt−h+1 ). Cette dernière régression de Xt−h sur

des valeurs futures du processus se justie

On appelle autocorrélogramme partiel du processus X la fonction r suivante :

r(h) = ρXt ,Xt−h |Xt−1 ,...,Xt−h+1

Cov(Xt − EL(Xt |Xt−1 , ..., Xt−h+1 ), Xt−h − EL(Xt−h |Xt−1 , ..., Xt−h+1 ))
=
V(Xt − EL(Xt |Xt−1 , ..., Xt−h+1 ))

Théorème
Soit (Xt )t∈T un processus faiblement stationnaire centré. Soit la régression linéaire de
42 3.2. Étude d'une série temporelle

Xt sur Xt−1 , ..., Xt−h :

h
X
Xt = ai (h)Xt−i + t = EL(Xt |Xt−1 , ..., Xt−h ) + t
i=1

avec : E(t ) = 0, E(2t ) = σ 2 et ∀i ∈ N : E(t Xt−i ) = 0.


Alors, le coecient ah (h) vérie ah (h) = r(h).

Propriété
Ph
A partir de Xt = i=1 ai (h)Xt−i + t , et en multipliant par Xt−k , k ≥ 0, chaque

membre de l'équation puis en prenant l'espérance, on a :

h
X
E(Xt Xt−k ) = ai (h)E(Xt−i Xt−k ) + E(t Xt−k )
i=1

Comme t est non-corrélé aux valeurs antérieures du processus, E(t Xt−k ) = 0, alors

on obtient l'expression de l'autocovariance suivante :

h
X
γ(k) = E(Xt Xt−k ) = ai (h)γ(k − i)
i=1

et, en divisant par la variance γ(0), l'expression de l'autocorrélation :

h
X
ρ(k) = ai (h)ρ(k − i)
i=1

On obtient alors :    
ρ(1) a1 (h)
   
   
 ρ(2)   a (h)
 = R(h)  2

 
   
 ...   ... 
   
ρ(h) ah (h)

Avec R(h) dénie en 3.1. Ainsi, si on a une estimation de (ρ(1), ..., ρ(h)) alors on est

capable d'estimer (a1 (h), ..., ah (h)), et donc à en déduire une estimation de r(h) à

travers les ah . Il sut pour cela d'inverser R(h), la matrice d'autocorrélation. L'al-

gorithme de Durbin-Levinson permet de déterminer les autocorrélations partielles de


Chapitre 3. Bases méthodologiques 43

manière plus simple que l'inversion de R(h) [45].

3.2.1.5 Analyse spectrale

Soit (Xt )t∈N un processus stationnaire du second ordre et ergodique de fonction d'au-

tocovariance γ.
On appelle densité spectrale de X la fonction f suivante :

+∞
1 X
f (ω) = γ(h)e−ihω
2π h=−∞

f est continue, positive, paire et 2π -périodique.

Le théorème spectral donne le résultat suivant :

γ(h) = f (ω)eihω dω

On appelle périodogramme de T observations du processus X la fonction IT suivante :

T
1 X −itω 2
IT (ω) = | xt e |
T t=1

Si le processus X est stationnaire et ergodique, alors sa densité spectrale existe et


1
IT (ωi ) est un estimateur sans biais de la densité spectrale. Une grande valeur du

périodogramme suggère que X a une composante saisonnière à la fréquence corres-

pondante.

3.2.1.6 Estimation empirique des moments pour les processus faiblement


stationnaires

Nous avons vu que la loi d'un processus est déterminée de manière unique à partir de

ses lois de dimension nie. De plus, un processus stationnaire est déni par son espé-

rance statistique et sa fonction d'autocorrélation. Maintenant, nous voyons comment

à partir d'un échantillon d'observations, (x1 , ..., xT ), il est possible de construire des

estimateurs sans biais des deux premiers moments statistiques du processus généra-
44 3.2. Étude d'une série temporelle

teur de ces observations. Si ce processus est supposé stationnaire et ergodique, alors

il sut de calculer les moments temporels à partir de l'échantillon pour estimer les

moments statistiques du processus.

Soit (Xt )t=[(1,T )] un processus stationnaire et ergodique et (x1 , ..., xT ) les observations

du processus à diérent temps.

Espérance - Indice de tendance centrale


L'estimateur naturel (sans biais) deE(X) = µ à partir de (x1 , ..., xT ) est la moyenne
1 PT
empirique X̂T = xt . Et (X̂T ) converge presque surement vers µ quand T tend
T t=1
vers ∞.

Dans l'étude de séries temporelles, la médiane n'est pas utilisée. En eet, la médiane

statistique ne trouve pas d'équivalent temporel. Ainsi, simplement à partir de l'échan-

tillon d'observations, il n'est pas possible d'estimer la médiane.

Autocovariance et autocorrélation - Indices de dispersion


On peut considérer l'estimateur de l'autocovariance suivant :

T
1 X
γ̂(h) = (xt − x̄T )(xt−h − x̄T )
T − 1 t=h+1

L'estimateur de la fonction d'autocorrélation est alors :

PT
t=h+1 (xt − x̄T )(xt−h − x̄T )
∀h ∈ {1, ..., T − 1}, ρ̂(h) = PT 2
t=1 (xt − x̄T )

A nouveau, γ̂(h) converge presque surement vers γ(h) et ρ̂(h) converge presque sur-

ement vers ρ(h) quand T tend vers ∞.


En pratique, les autocorrélations ne sont estimées que jusqu'à un certain ordre H.
En eet, plus les observations sont espacées dans le temps, moins leur corrélation est

importante. Ceci est lié à la dénition d'un processus ergodique.

Tests sur les autocorrélations :


Sous l'hypothèse d'indépendance stochastique (absence d'autocorrélation), ρ(h), l'au-
tocorrélation d'un processus (Xt )t∈T faiblement stationnaire évaluée au décalage h
Chapitre 3. Bases méthodologiques 45

suit une distribution asymptotiquement normale de moyenne 0 et de variance estimée

par la formule de Bartlett [46] suivante pour h≥k :

ˆ = 1 [1 + 2ρ̂(1)2 + 2ρ̂(2)2 + ... + 2ρ̂(k)2 ]


s2 (ρ(h))
T

Ces calculs sont réalisables même si le processus n'est pas stationnaire. Les estimations

des autocorrélations partielles se font à partir des estimations des autocorrélations

simples grâce à l'algorithme de Durbin-Levinson.

3.2.1.7 Exemples de processus stationnaires et ergodiques

C'est à partir de l'observation de ces éléments estimés que l'identication du pro-

cessus générateur des données est possible. Il s'agit ensuite de comparer l'ACF et la

PACF estimées à partir de l'échantillon, (x1 , ..., xT ), aux ACF et PACF des processus
stationnaires connus. Dans cette section, deux des principaux processus stationnaires

sont brièvement présentés, le processus bruit blanc et le processus autorégressif. Le

premier joue un rôle important et indispensable dans l'étude de séries temporelles,

comparable aux erreurs indépendantes dans l'analyse classique. Le second est le seul

autre type de processus stationnaire utilisé dans la suite du mémoire. Cependant, il

existe des processus moyenne mobile (MA) et des processus combinant les deux pré-

cédents (ARMA) [45], non discutés ici.

a. Processus bruit blanc


Les processus bruit blanc sont des processus stationnaires et ergodiques.

Il existe deux dénitions d'un bruit blanc cependant, dans la pratique, seule la dé-

nition faible est utilisée.

Un processus (t )t∈T est un bruit blanc faible si :

1. ∀(t, t0 ) ∈ Z2 , Cov(t 0t ) = 0


2. ∀t ∈ Z, E[t ] = 0 et E[2t ] = σ 2
46 3.2. Étude d'une série temporelle

Un bruit blanc est donc une réalisation d'aléas successifs. Un bruit blanc faible est

faiblement stationnaire.

Identication d'un bruit blanc


L'ACF d'un bruit blanc ne présente aucune valeur signicative, à part celle corres-

pondant au décalage nul (h = 0) qui vaut 1. La PACF ne présente aucune valeur

signicativement diérente de 0.

Vérication du bruit blanc ou tests de blancheur


Il existe diérents tests permettant de vérier si un processus est un bruit blanc faible.

Dans cette section, seuls les tests utilisés dans la suite du mémoire sont présentés. Soit

un processus (t )t∈T un processus stochastique, stationnaire et ergodique.

Test de nullité de la moyenne


2 1 PT T →∞
Si le processus (t )t∈{1,...,T } est i.i.d. (0, σ ), on doit avoir : ¯t = t=1 t −−−→ 0.
T
¯t √ L
Par application du théorème Central-Limite, on montre que : T −
→ N (0, 1). Dès
σ
lors, on peut tester la nullité de la moyenne en construisant l'intervalle de conance
−1.96σ 1.96σ
sur ¯t au seuil standard de 95%. P {¯t ∈ [ √ , √ ]} = 0.95.
T T

Test d'indépendance ou de non-corrélation


Le test de Portmanteau ou test d'adéquation globale du modèle repose sur l'idée qu'un

bruit blanc faible ne doit pas révéler d'autocorrélations non nulles.


 H : ( ) est un bruit blanc
0 t t∈{1,...,T }
 H : ( ) n'est pas un bruit blanc
1 t t∈{1,...,T }

Le test de Ljung-Box [47] est l'un des tests de Pormanteau couramment utilisé. Il

propose les hypothèses suivantes : H0 : ρ(h) = 0 ∀h ≤ K et sont construites de la

façon suivante :
K
X ρ̂2 (k) T A∞ 2
QLB = T (T + 2) −−−A χK
k=1
T − k
Chapitre 3. Bases méthodologiques 47

Une trop grande valeur de QLB indique que les autocorrélations sont trop impor-

tantes pour être celles d'un bruit blanc. Asymptotiquement QLB suit une loi du Khi-2
p
à k degré de liberté : A χ2K .
QLB − On rejette donc l'hypothèse H0 au niveau α si

QLB ≥ χ2K (1 − α) où χ2K (1 − α) désigne le quantile d'ordre (1 − α) d'une loi du Khi-2

à K degré de liberté.

Test de normalité
Si de plus, le processus (t )t∈{1,...,T } est supposé gaussien alors le test de Shapiro-
Wilk peut s'appliquer :
H0 : un échantillon de taille T, (1 , ..., T ), est issue d'une population normalement

distribuée.

La statistique de test s'écrit :

( Ti=1 ai (i) )2
P
W = PT
i=1 (i − ¯)2
où, (i) désigne la ième statistique d'ordre et les ai sont tels que :

m0 V −1
(a1 , ..., aT ) =
(m0 V −1 V −1 m)1/2

avec m1 , ..., mT les espérances des statistiques d'ordre d'un échantillon de variables

indépendantes et identiquement distribuée tiré d'une loi normale, et V la matrice de

variance-covariance de ces statistiques d'ordre.

Si la valeur de W est trop faible, l'hypothèse H0 est rejetée.

Un deuxième test peut être utilisé :

Le test de Kolmogorov-Smirnov basé sur la fonction de répartition empirique permet

de déterminer si un échantillon suit une loi connue par sa fonction de répartition, par

exemple la loi normale.

Soit (x1 , ...xn ) un échantillon de n variables aléatoires indépendantes à valeurs réelles,


alors la fonction de répartition empirique de cet échantillon est dénie par :

n
1X
Fn (x) = δx ≤x
n i=1 i
48 3.2. Étude d'une série temporelle

La fonction de répartition empirique est un processus qui prend ses valeurs dans

l'espace des fonctions croissantes comprises entre 0 et 1. Grâce à ses propriétés, on a

la convergence suivante, pour tout c≥0 :

+∞
c nA∞ X
P [sup|Fn (x) − F (x)| ≤ √ ] −−−A 2 (−1)r−1 exp(−2r2 c2 )
n r=1

Le terme α(c) vaut 0.05 quand c=1.36. Il est ainsi facile de proposer un test d'hypo-

thèse pour décider si un échantillon provient bien de la loi normale.

Ce test suppose que la loi F est connue, or dans la pratique, F est estimée à partir

des données. Ainsi, la statistique de test construite à partir d'une estimation de F ne

suit pas la loi de Kolmogorov-Smirnov. Ce test n'est donc pas adéquate et pourtant

il est classiquement encore utilisé.

b. Processus autorégressif d'ordre p

Les processus autorégressifs sont des processus stationnaires et ergodiques.

Un processus (νt )t∈T est un processus autorégressif d'ordre p, noté AR(p), si :

1. (νt )t∈T est faiblement stationnaire


Pp
2. ∀ t ∈ Z, νt = i=1 φi νt−i + t où φp 6= 0 et (t )t∈T est un bruit blanc faible de

variance σ2.

On note généralement ce processus de la façon suivante : Φ(B)νt = t avec Φ(B) =


Pp
I− i=1 φi B i où B est le processus retard (Bνt = νt−1 ). Remarquons que si Φ(B)
admet une racine sur le cercle unité, alors le processus (Xt )t∈Z n'est pas stationnaire.

Si un processus (νt )t∈Z est un processus AR d'ordre p qui a toutes les racines de son

polynôme Φ à l'extérieur du cercle unité, alors on dit que la représentation est cano-
nique.
Si un processus (νt )t∈Z est un processus AR d'ordre p canonique, Φ(B)Xt = t . alors
+∞
νt = Φ−1 (B)t = t + i=1 ψi t−i . Pour des
P
il admet une écriture appelée MA(∞),

plus amples détails, consulter Hamilton, 1994 [45].


Chapitre 3. Bases méthodologiques 49

Identication du processus AR(p) canonique


Autocorrélations simples
Soit (νt )t∈Z un processus AR(p) canonique.

p
X
∀t ∈ Z, νt = φi νt−i + t
i=1

Le système liant les autocorrélations simples aux paramètres autoregressifs (φi )i∈{1,...,p} ,
appelé équations de Yule-Walker [48, 49], est le suivant :
    
ρ(1) 1 ρ(1) ... ρ(p − 1) φ1
    
    
 ρ(2)   ρ(1) 1 ... ...   φ2 
 =  
    
 ...   ... ... ... ρ(1)   ... 
    
ρ(p) ρ(p − 1) ... ρ(1) 1 φp

ρ = R(p)φ

Comme vu précédemment, ce système va permettre d'obtenir les paramètres autoré-

gressifs (φ̂i )i∈{1,...,p} en inversant la matrice R(p), qui est de plein rang et symétrique

(donc inversible) estimée à partir des corrélations empiriques. L'algorithme de Dur-

bin permet de déterminer les autocorrélations partielles de manière plus simple que

l'inversion de R(p).
On peut également remarquer que les autocorrélations simples sont solution d'une

équation de récurrence linéaire simple d'ordre p. Si les racines du polynôme Φ(z),


1
zi = , i ∈ {1, ..., p}, sont réelles et distinctes alors on obtient une solution de la
αi
forme :
p
X
ρ(h) = ci αih
i=1

On constate ainsi une décroissance exponentielle des autocorrélations simples vers 0.

Autocorrélations partielles
Si (νt )t∈Z un processus AR(p) canonique, alors ses autocorrélations partielles s'an-
50 3.2. Étude d'une série temporelle

nulent à partir du rang p + 1.



 r(p) 6= 0
 ∀h ≥ p + 1, r(h) = 0

Réciproquement, il s'agit d'une condition nécessaire et susante pour qu'un processus

(νt )t∈Z soit un AR(p).

Ces caractéristiques vont permettre l'identication d'un processus autorégressif : si

l'ACF présente une décroissance exponentielle vers 0 et la PACF s'annule à partir du

rang p + 1, alors il s'agit d'un AR(p).

Vérication de la modélisation du processus


La vérication de la modélisation passe essentiellement par la vérication que le pro-

cessus de résidu est bien un bruit blanc.

3.2.2 Processus non stationnaires


En réalité, les séries temporelles comportent souvent une tendance et/ou une sai-

sonnalité. Elles ne sont donc pas stationnaires. An de se ramener à un processus

stationnaire, il faut  stationnariser  la série étudiée. Dans cette partie, quelques

méthodes de détection de la non-stationnarité ainsi que diérentes méthodes de sta-

tionnarisation de la tendance et de la saisonnalité sont exposées.

3.2.2.1 Détection de la non stationnarité

Étude graphique : Dans toute étude de série temporelle, il est important de com-
mencer par observer sa représentation sur un graphique portant en abscisse le temps

et en ordonnées, la valeur recueillie à chaque pas de temps. Certaines grandes ca-

ractéristiques de l'évolution de cette série peuvent s'y lire comme la présence d'une

saisonnalité ou d'une tendance. Par exemple, sur les gures 2.3 et 2.4, la saisonnalité

des indicateurs est nettement visible.


Chapitre 3. Bases méthodologiques 51

Étude des autocorrélations : L'ACF et la PACF de la série peuvent permettre

également d'identier une tendance ou une saisonnalité.

Analyse spectrale : L'idée de l'analyse spectrale consiste à utiliser l'hypothèse que


la série temporelle est composée de sinus et de cosinus à diérentes fréquences, et ainsi

l'étude de la saisonnalité d'une série revient à étudier ses diérentes fréquences.

D'après le paragraphe consacré à l'analyse spectrale dans la section précédente, nous

avons vu qu'un processus stationnaire et ergodique peut être étudié à partir de l'es-

timation de sa densité spectrale. Dans le cas de processus non stationnaires, l'étude

spectrale également peut être menée. Une grande valeur du périodogramme suggère

que la série a une composante saisonnière à la fréquence correspondante.

Ces trois études sont complémentaires. L'étude des ACF et PACF permet de conr-

mer la présence des caractéristiques identiées à l'observation du graphique de la

série. L'analyse spectrale, plus ne que les deux autres, peut permettre de déceler

des caractéristiques non visibles à partir des autres méthodes. Il existe des tests de

stationnarité, tel que le test de Dickey et Fuller [50], mais dans la pratique, nous

préférons les tests empiriques présentés précédemment (étude graphique, l'étude des

ACF et PACF, et l'analyse spectrale).

3.2.2.2 Stationnarisation

Une série temporelle, (Xt ){t=1,...,T } , peut être décomposée en diérents termes : Tt ,
une tendance, St une composante saisonnière et t un résidu aléatoire. Ainsi, sous

l'hypothèse d'un modèle additif, Xt = Tt + St + t .


Une possibilité pour rendre (Xt ){t=1,...,T } stationnaire est d'estimer la tendance et la

saison par régression linéaire à l'aide des moindres carrés ordinaires (MCO), méthode

préconisée par Thomas et Wallis [51]. Les résidus de cette régression linéaire sont alors

stationnaires et forment ce qu'on appelle une série temporelle ajustée ou désaisonna-

lisée.

Comme nous l'avons vu précédemment, les séries temporelles rencontrées en santé


52 3.2. Étude d'une série temporelle

publique présentent souvent un cycle de variations annuelles. Dès lors, l'estimation de

ces variations par les MCO à l'aide d'une fonction trigonométrique se présente comme

l'option la plus naturelle. Les autres méthodes de lissage sont également envisagées et

seront discutées plus loin dans ce mémoire.

Série comportant une tendance


Pour estimer une tendance d'une série, on peut ajuster sur les données une fonction
Pa
de la forme i=1 δi Tti .
Ainsi, on peut considérer par exemple, une tendance linéaire (a = 1), une tendance

quadratique (a = 2). Les δi sont estimés par les MCO.

Série comportant une saison


Pour estimer la composante saisonnière, plusieurs options sont possibles : les lissages

paramétriques, semi-paramétriques et non-paramétriques.

a. Lissages paramétriques

La régression périodique, régression sur une fonction trigonométrique, permet d'esti-

mer une évolution moyenne de long terme. Si la série temporelle étudiée présente un

cycle annuel, la régression périodique estime un cycle moyen sur la période d'étude.

Cette méthode suppose que le pic saisonnier ainsi que son amplitude restent constants

dans le temps [52]. L'ajustement peut se faire sur la fonction suivante :

X
α1,θ cos θ + α2,θ sin θ (3.2)
θ

avec θ une fonction de t (par exemple θ = 2 π k t/12 pour des données mensuelles,

θ = 2 π k t/52 pour des données hebdomadaires, etc.) [5355]. Les paramètres α1,θ et

α2,θ , sont estimés par les MCO.

La fonction trigonométrique utilisée peut inclure une ou plusieurs fréquences. Plus ce

nombre est important, meilleure est l'adéquation aux données, mais plus le nombre

de paramètres à estimer est important. Il s'agit donc de trouver un compromis entre

adéquation et nombre de paramètres à estimer [56].


Chapitre 3. Bases méthodologiques 53

b. Lissages semi-paramétriques

Les splines cubiques de régression présentent une approche alternative intéressante car

plus souple que la précédente [57]. Dans ce cas, les données temporelles sont réparties

en intervalles sur lesquels un polynôme d'ordre 3 est estimé par régression, avec une

condition sur les bornes des intervalles. La souplesse des splines permet de capter l'évo-

lution des données de façon plus ne. La nesse de cette estimation dépend à la fois

du nombre d'intervalles déterminés et du degré du polynôme. Les polynômes cubiques

sont les plus souvent implémentés car ils orent un bon compromis entre souplesse

et nombre de paramètres à estimer [58]. Le nombre d'intervalles (ou de n÷uds déli-

mitant ces intervalles) est à déterminer en fonction des données et de considérations

théoriques. Plus le nombre d'intervalles est important, meilleur est l'ajustement aux

données, mais plus il y a de paramètres à estimer. Il existe également des méthodes

permettant de déterminer ce nombre d'intervalles : par exemple, la validation croisée,

ou la comparaison de modèles à l'aide de l'AIC. La règle de parcimonie est d'usage.

L'équation suivante présente une spline cubique de régression comprenant K n÷uds

(K +1 intervalles) par an [57] :

3
X n X
X K
i
γ0i t + γkj3 (t − ξkj )3+ (3.3)
i=0 j=1 k=1

n le nombre d'années considérées et ξkj le k ième n÷ud de la j ième année. (.)+ désigne

la fonction suivante : u+ = u si u≥0 et u+ = 0 si u ≤ 0. Les paramètres γ0i pour

i = 0, ..., 3 et γkj3 pour k = 1, ..., K et j = 1, ..., n sont estimés par les MCO.

Cette modélisation permet à la fois une estimation moyenne de la saison et une estima-

tion propre à chaque intervalle déterminé. Le nombre de paramètres dépend également

de ce nombre d'intervalles. Ici, 4+6×n paramètres sont à estimer pour 12 × n ob-

servations.

c. Lissages non-paramétriques

Le lissage non-paramétrique permet d'estimer un eet moyen par unité de temps

constituant la périodicité de la série [51]. Si (Xt ){t=1,...,T } a une périodicité connue, de


54 3.3. Étude du lien entre deux ou plusieurs séries temporelles

période P, on peut également estimer un eet moyen des P unités de temps consti-

tuant cette période. Par exemple, s'il s'agit d'une série mensuelle, la périodicité sera

de 12 (P = 12), il y aura donc 12 eets moyens à estimer.

P
X
ζi Sit
i=1

avec 
 1 si t≡i mod [P ]
Sit =
 0 sinon

Les paramètres ζi , i = 1, ..., P sont estimés par les MCO.

Cette modélisation suppose également une saisonnalité relativement constante dans

le temps. Le nombre de paramètres à estimer est xé et dépend uniquement de la

périodicité de la série temporelle étudiée.

3.3 Étude du lien entre deux ou plusieurs séries tem-


porelles
Le modèle de régression linéaire estimé par les moindres carrés ordinaires est rappelé

dans un premier temps an de comprendre l'extension faite notamment pour le cas des

erreurs autocorrélées, exposé dans un deuxième temps. Enn, le modèle de régression

linéaire avec erreurs autorégressives est détaillé.

3.3.1 Les moindres carrés ordinaires


3.3.1.1 Modèle de régression linéaire

Sous forme matricielle, le modèle s'écrit :

Y = Xβ + 

où Y et  sont des vecteurs de dimension (T × 1), X est la matrice des covariables de

dimension T × (k + 1) et β est le vecteur de paramètres de dimension (k + 1) × 1.


Chapitre 3. Bases méthodologiques 55

On le rencontre aussi souvent sous la forme suivante, pour t = 1, ..., T ,

Yt = Xt0 β + t

où Xt0 est le vecteur des covariables de dimension 1 × (k + 1) pris au temps t.


Les hypothèses standards sont les suivantes :

1. (Yt , Xt ) sont stationnaires et ergodiques.

2. E() = 0T et Cov() = E(0 ) = σ 2 IT , σ 2 est un paramètre inconnu.

3. E(Xs t ) = 0 pour s ≤ t.

4. ∀t, E(Xt Xt0 ) = ΣX est de plein rang k + 1.

Dans ce cadre, le vecteur des valeurs résiduelles, , est un processus  bruit blanc ,

dont les valeurs sont indépendantes et identiquement distribuées.

Si de plus, les résidus suivent une loi gaussienne, alors Y ∼ N (Xβ, σ 2 IT ).

3.3.1.2 Estimations

L'estimation des paramètres du modèle par les moindres carrés ordinaires (MCO) est

basée sur la minimisation de la somme des carrés des résidus (SCR) :

SCR(β) = (Y − Xβ)0 (Y − Xβ) = 0 

La solution est donnée par l'estimateur des MCO suivant :

β̂M CO = (X 0 X)−1 X 0 Y

Soit H , la matrice de projection sur le sous-espace engendré par les vecteurs colonnes
de la matrice X.

H = X(X 0 X)−1 X 0 (3.4)

Sous les hypothèses précédentes et si tous les éléments diagonaux de H tendent vers

0, on montre que β̂ est non biaisé, convergent et asymptotiquement gaussien. Un


56 3.3. Étude du lien entre deux ou plusieurs séries temporelles

estimateur convergent de la variance asymptotique de l'estimateur β̂M CO est donné

par :

Var(β̂M CO ) = σ 2 (X 0 X)−1

Le modèle ajusté s'écrit alors Ŷt = Xt0 β̂M CO , pour t = 1, ..., T , avec ˆt = Yt − Ŷt =
Yt − Xt0 β̂M CO . De même, sous les hypothèses précédentes et si tous les éléments dia-

gonaux de H tendent vers 0, on montre que Ŷt est non biaisé, convergent et asympto-

tiquement gaussien.

Si de plus, les résidus suivent une loi gaussienne, alors β̂M CO et Ŷt suivent aussi une

loi gaussienne.

La variance de l'erreur est estimée par :

1
2
σ̂M CO = ˆ0 ˆ.
T −k−1

2 2
On montre que E(σ̂M CO ) = σ .

Les écarts-types des β̂j,M CO , j = 1, ...k + 1 sont les racines carrées des éléments

2
diagonaux de la matrice Var(β̂M CO ) en remplaçant σM CO par son estimation. On les
q
2 0 −1
note ŝj = σ̂M CO (X X)jj . Le théorème de Gauss-Markov dénit l'estimateur des

MCO comme l'estimateur sans biais de variance minimale parmi les estimateurs sans

biais du paramètre β.

3.3.1.3 Validité du modèle

Test de signicativité des coecients


On va supposer maintenant que  est un processus bruit blanc gaussien.

L'hypothèse nulle H0 : βi = βi0 , pour i = 1, ..., k + 1, peut être testée en utilisant un

test de Student standard, appelé t − ratio ou t. On note :

β̂M CO,i − βi0


ti = p (3.5)
σ̂M CO (X 0 X)−1 ii
Chapitre 3. Bases méthodologiques 57

qui suit asymptotiquement, sous l'hypothèse nulle, une loi de Student à (T − k − 1)


β̂M CO,i
degrés de liberté. En général, H0 : βi = βi0 = 0 et ti = p .
σ̂M CO (X 0 X)−1
ii

Tests de signicativité globale


Si  est un processus bruit blanc gaussien et q ≤ k, et si R est une matrice de rang q,
alors

1
F = 2
[(R(β̂M CO − β)0 )(R(X 0 X)−1 R0 )−1 (R(β̂M CO − β))] ∼ Fq,T −k (3.6)
qσ̂M CO

Ainsi, sous H0 : rang(Rβ) = k − q , F ∼ Fq,T −k . Cette hypothèse sera repoussée en

faveur de H1 : rang(Rβ) > k−q si F est supérieure au quantile de la loi de Fisher-

Snedecor d'ordre 1 − α.

Coecient de détermination
Le coecient de détermination donne une information sur la part de la variance de

la variable dépendante (Yt ) expliquée par le modèle.

PT 2
2 T −1 ˆt
Rajusté =1− PT t=1
T − k t=1 (Yt − Ȳ )2

2
avec Ȳ , la moyenne temporelle de Y . Rajusté est proche de 1 si l'ajustement aux

données est parfait.

Critère de comparaison
Le critère la plus classiquement utilisé est le critère de Akaike (AIC). Le meilleur des

modèles est celui qui minimise la statistique AIC = T log(L) + 2 × (k + 1) avec L la

vraisemblance du modèle et k+1 le nombre de colonnes de la matrice X (le nombre

de covariables explicatives).

Test de blancheur
Le modèle suppose que les résidus proviennent d'un processus bruit blanc. Pour le

vérier, il faut utiliser les tests présentés à la section consacrée aux bruits blancs
58 3.3. Étude du lien entre deux ou plusieurs séries temporelles

(Section 3.2.1.6 a).

3.3.1.4 Erreur d'hypothèse : présence d'autocorrélation résiduelle

Dans ce modèle, les résidus sont supposés indépendants (ou non-corrélés). Cependant,

la présence d'autocorrélation est caractéristique des séries temporelles. Ainsi, les ré-

sidus de la régression linéaire sont eux aussi très souvent autocorrélés ce qui implique

la violation de l'hypothèse d'indépendance (ou de non corrélation).

Considérons maintenant qu'il n'y a pas indépendance entre les résidus. Cov() =
E(0 ) = σ 2 V 6= σ 2 IT . Dans ce cas, l'estimateur des MCO reste sans biais mais n'est

plus de variance minimale. En eet, en présence d'autocorrélation, les hypothèses du

théorème de Gauss-Markov ne sont plus vériées. Ainsi, les écarts-types associés sont

biaisés et les tests statistiques associés sont non valides.

Supposons V connue, alors l'estimateur des moindres carrés est toujours sans biais et

déni par :

β̂M CO = (X 0 X)−1 X 0 Y

par contre, sa variance vaut :

Var(β̂M CO ) = σ 2 (X 0 X)−1 X 0 V X(X 0 X)−1

2 0 −1
Ainsi, σ̂M CO (X X) est un estimateur biaisé de la variance de β̂M CO . Et donc, β̂M CO
n'est plus un estimateur de variance minimale parmi les estimateurs linéaires sans

biais.

3.3.2 Les moindres carrés généralisés

Le modèle de régression estimé par les moindres carrés généralisés (MCG) est adapté,

entre autres, à la présence d'autocorrélation dans les résidus de la régression linéaire.


Chapitre 3. Bases méthodologiques 59

3.3.2.1 Modèle de régression linéaire

Considérons le modèle suivant :

Y = Xβ + ν (3.7)

avec E(ν 0 ν) = σ 2 V 6= σ 2 IT , il n'y a pas indépendance entre les résidus.

Les hypothèses du modèle des MCG sont alors :

1. (Yt , Xt ) sont stationnaires et ergodiques.

2. E(ν) = 0T , Cov(ν) = E(ν 0 ν) = σ 2 V

3. E(Xs νt ) = 0 ∀s ≤ t.

4. E(Xt Xt0 ) = ΣX est de plein rang k + 1.

Dans ce cadre, le vecteur de valeurs résiduelles, ν, n'est pas un bruit blanc, mais

simplement un processus stationnaire et ergodique.

Si de plus, les résidus suivent une loi gaussienne, alors Y ∼ N (Xβ, σ 2 V ).

3.3.2.2 Estimations

Nous considérons ici la matrice V connue. V est une matrice de variance-covariance,

donc symétrique dénie positive, il existe alors une matrice P inversible de rang T
telle que V = P P 0. Posons, Y ∗ = P −1 Y , l'équation (3.7) devient,

P −1 Y = P −1 Xβ + P −1 ν

Y ∗ = X ∗β + ν ∗ (3.8)

avec X ∗ = P −1 X et ν ∗ = P −1 ν . Ce nouveau modèle (3.8) est un modèle linéaire satis-


0
faisant les hypothèses des MCO, et notamment, E(ν ∗ ν ∗ ) = σ 2 IT . Ainsi, l'estimateur

des MCO du modèle (3.8) correspond à l'estimateur des MCG du modèle (3.7) et

vaut :

∗ 0∗ ∗ −1 0∗ ∗ 0 −1
β̂M CO = (X X ) X Y = (X V X)−1 X 0 V −1 Y = β̂M CG (3.9)
60 3.3. Étude du lien entre deux ou plusieurs séries temporelles

et sa variance :

∗ 0∗ ∗ −1
V(β̂M 2
CO ) = σ (X X ) = σ 2 (X 0 V −1 X)−1 = V(β̂M CG ) (3.10)

Le théorème de Gauss-Markov montre que β̂M CG est un estimateur linéaire sans biais

de variance minimale parmi les estimateurs linéaires sans biais.

L'estimateur de la variance de l'erreur est donné par

1
2
σ̂M CG = (Y − X β̂M CG )0 V −1 (Y − X β̂M CG ) (3.11)
T −k

Cet estimateur est un estimateur sans biais de σ2.

3.3.2.3 Validité du modèle

Supposons de plus que les résidus suivent une loi normale de moyenne nulle et de

variance σ2V . Alors, les propriétés suivantes s'appliquent :

1. β̂M CG est un vecteur gaussien de moyenne β et de variance

ŝ = σ 2 (X 0 V −1 X)−1 (3.12)

2 2 2
2. σ̂M CG vérie (T − k)σ̂M CG ∼ χT −k

2
3. β̂M CG et σ̂M CG sont indépendants

Ainsi, les tests de Student (équation 3.5) et de Fisher (équation 3.6) sont applicables.

Dans la plupart des cas, V est inconnue. Il faut donc l'estimer puis remplacer V
par son estimation dans les calculs précédents. Cependant, si nous n'avons aucune in-

formation sur la matrice V, il est impossible d'estimer les termes de V car il faudrait

estimer T (T −1)/2 termes non diagonaux et T termes diagonaux. C'est pourquoi nous

nous plaçons dans des cas particuliers. V peut être diagonale ayant ainsi seulement

T paramètres à estimer. V peut aussi admettre une expression paramétrisable avec

seulement quelques paramètres à estimer. Dans la suite, nous allons étudier unique-
Chapitre 3. Bases méthodologiques 61

ment le cas où V est dénie par une matrice de Toeplitz ayant seulement p ≤ T
paramètres à estimer.

3.3.3 La régression linéaire avec erreurs autorégressives


Le modèle de régression linéaire avec erreurs autorégressives est un cas particulier

du modèle (3.7) dans lequel le processus d'erreurs, νt , est un processus autorégressif

d'ordre p, p << T . Dans ce cas, la matrice V ne dépend que de p valeurs.

3.3.3.1 Modèle de régression linéaire

Dans cette partie, le processus d'erreurs, νt , est un processus autorégressif d'ordre p.


Le modèle s'écrit ainsi pour t = 1, ...T :


 Y = X 0β + ν
t t t
(3.13)
 ν = φ ν + ... + φ ν + 
t 1 t−1 p t−p t

avec t ∼ N (0, σ 2 ) indépendants et identiquement distribués, c'est en fait un bruit

blanc gaussien. β le vecteur de paramètres, p le nombre de paramètres autorégres-

sifs. ∀t ∈ N, E(νt ) = 0 et Cov(Xt+h , νt ) = 0. Enn, en notant ν le vecteur des erreurs

autocorrélées (ν1 , ..., νT ), E(ν 0 ν) = σ 2 V , avec V la matrice de covariance du vecteur ν.

Choix du paramètre p
p le nombre de paramètres autorégressifs peut être xé a priori ou estimé. Dans la

suite, nous xons un nombre de paramètres maximum parmi lesquels les coecients

signicatifs sont sélectionnés par une méthode de sélection descendante, basée sur la

signicativité des paramètres.

3.3.3.2 Estimation

Le problème consiste à estimer simultanément les paramètres β de la régression et les

paramètres φ = {φ1 , ..., φp } de la partie autorégressive des erreurs. Il existe plusieurs

méthodes d'estimation du modèle de régression avec erreurs autorégressives, entre

autres, les équations de Yule-Walker, qui ont un avantage de rapidité de calcul, et la


62 3.3. Étude du lien entre deux ou plusieurs séries temporelles

méthode du maximum de vraisemblance.

Pour p xé, la méthode consiste à estimer en premier lieu β par les MCO, puis,

φ à partir de la fonction d'autocorrélation empirique des résidus des MCO et utili-

sant les équations de Yule-Walker. Enn, V est estimée à partir de l'estimation de

φ, et Σ à partir des estimations de V et de l'estimation de σ2 par MCO. Ensuite,

les estimations de β corrigées pour l'autocorrélation sont réalisées par MCG, à partir

de l'estimation de Σ = σ2V , V supposée connue. Cette procédure est itérée jusqu'à

convergence. Ainsi, la méthode de Yule-Walker alterne entre l'estimation de β par

MCG et l'estimation de φ par les équations de Yule-Walker appliquées à la fonction

d'autocorrélation.

Méthode du maximum de vraisemblance pour un processus autorégres-


sif d'ordre p
Si les t suivent une loi normale, alors l'estimateur des MCG est l'estimateur du

maximum de vraisemblance. En posant ν = (ν1 , ..., νp )0 , la vraisemblance du modèle

s'écrit :
1 1 1
L= p T exp(− 2 (y − Xβ)0 V −1 (y − Xβ))
(2πσ 2 ) det(V )
2 2σ

Pour V xée, la maximisation de la vraisemblance permet d'obtenir l'expression des

estimateurs β̂M CG et V(β̂M CG ) donnés respectivement par les équations 3.9 et 3.10.

La maximisation de cette vraisemblance n'est pas simple et nécessite l'utilisation

d'algorithmes d'optimisation comme celui de Newton-Raphson ou la méthode du sim-

plexe. Dans la pratique, les coecients des paramètres autorégressifs sont estimés par

les équations de Yule-Walker, puis les paramètres de la partie déterministe de la ré-

gression sont estimés par maximum de vraisemblance.

2
Dans ces deux cas, l'estimation de la variance, σ̂M CG , est la somme des erreurs de

la dernière application des MCG au carré divisée par le degré de liberté des erreurs

(soit le nombre d'observations moins le nombre de paramètres estimés). L'écriture

de cet estimateur est donnée par l'équation 3.11. Ainsi, l'estimation de la matrice de
Chapitre 3. Bases méthodologiques 63

0 −1
variance-covariance de β̂M CG est
2
σ̂M CG (X V X)−1 .

3.3.3.3 Validité du modèle


Comme vu à la section précédente, les tests de Student (équation 3.5) et de Fisher

(équation 3.6) sont applicables. Par contre, le coecient R2 n'est plus utilisé. En ef-

fet, Granger et Newbold insistent sur les précautions à prendre dans le cas de séries

temporelles, et notamment sur l'intérêt du R2 [59]. Le R2 correspond à l'ajustement

des données déterministes, alors que l'ajustement de la partie stochastique (la partie

AR(p)) n'y est pas représentée. Or cette partie peut jouer un grand rôle dans l'ex-

plication de la variable à expliquer. Dans le cadre d'une régression linéaire entre des

séries temporelles, l'étude des résidus est la plus importante an d'attester de la qua-

lité de la modélisation. Ceci est fait par les tests de blancheur détaillés au Chapitre

3, section 3.2.1.6.

Critère de comparaison
Dans le cadre de régression avec erreurs autorégressives, l'AIC prend la forme sui-

vante :AIC = T log(L) + 2 × (k + 1) avec L la vraisemblance du modèle, k+1 le

nombre de colonnes de la matrice X (le nombre de covariables explicatives) et p le

nombre de paramètres autorégressifs du modèle.

3.4 Notion de causalité


La notion de causalité est étroitement liée à la notion de modèles explicatifs, tels que

les modèles de régression linéaire, car en eet ces derniers sont souvent fondés sur

une intuition de type causale. Dans cette section, la causalité est dénie au sens de

Susser [60].

3.4.1 Qu'est-ce qu'une cause ?


La dénition précise de ce que constitue une cause en épidémiologie et l'élaboration de

critères permettant de déterminer la causalité sont depuis longtemps au c÷ur d'un dé-

bat contentieux. Hill [61] a établi, en 1965, une liste de critères dénissant la causalité
64 3.4. Notion de causalité

dans le cadre de la relation entre une exposition et une infection. D'après Rothman

et Greenland [62], parmi cette liste de critères, seule la temporalité permettrait de

déterminer une relation de cause à eet. Susser [60], quant à lui, a regroupé les cri-

tères de Hill pour en extraire trois propriétés : l'association, la priorité temporelle et

la direction.

L'association nécessite que la cause et l'eet apparaissent ensemble. Quand la cause

putative est présente, l'eet doit être plus important que si la cause était absente.

La priorité temporelle est la propriété fondamentale stipulant que la cause putative

doit être présente avant l'eet. Enn, la direction réfère au fait que, supposant l'as-

sociation et la priorité temporelle vériées, tout changement au niveau de la cause a

pour conséquence un changement au niveau de l'eet et un changement au niveau de

l'eet ne doit pas arriver avant le changement au niveau de la cause. En somme, que

l'association entre la cause putative et l'eet n'est pas dérivée d'un troisième facteur

commun, ce que les épidémiologistes appellent  facteur de confusion .

Dans la suite, seules l'association et la priorité temporelle sont vériées, car la direc-

tion reste dicile à montrer avec des études de séries temporelles. Pour cela, il est

nécessaire d'avoir des données individuelles et de recourir aux études randomisées.

3.4.2 Étude de la causalité en pratique


D'un point de vue pratique, l'exploration de l'association entre deux séries station-

naires passe traditionnellement par l'étude des corrélations croisées. Ces corrélations

décrivent la force d'association entre les deux séries [63] et indiquent dans quelle me-

sure la série dépendante est mathématiquement reliée à la série indépendante. Plus

ce coecient est grand, plus il est tentant de suggérer que la relation liant les deux

séries est une relation de cause à eet.

La formule des corrélations croisées est la suivante : ∀h ∈ Z,

Cov(Yt , Xt+h )
Corr(Yt , Xt+h ) = p
Var(Yt )Var(Xt+h )

Lors de l'étude de la liaison entre deux séries temporelles, l'observation des t-ratios

est préférée. La formule est celle présentée en 3.5.


Chapitre 3. Bases méthodologiques 65

Figure 3.1  Extrait de l'article de Hubert et al., 1992. Evolution des t-ratios issus des régressions
retardées" entre le nombre de cas de méningite à la semaine w et les syndromes grippaux à la
semaine w + k , −7 ≤ k ≤ 7. Les lignes horizontales correspondent aux seuils de signicativité du test
de Student bilatère au risque de premier espèce de 5%.

∀h ∈ Z,
β̂h
t-ratio(Yt , Xt+h ) =q
Var(β̂h )

h correspond au décalage temporel de la série dépendante par rapport à la série

indépendante. h peut aussi être interprété comme le délai d'impact entre les deux
séries étudiées. Sous l'hypothèse nulle, le t-ratio suit une Student à T −k −1 degrés de
liberté. Pour T susamment grand, la loi de Student est comparable à la loi normale.

Ainsi, la relation entre Yt et Xt+h est signicative au délai h si le t-ratio associé est

supérieur à 1.96 en valeur absolue.

Suivant la propriété de priorité temporelle, une interprétation causale" peut être

renforcée par l'étude de la forme de la fonction des t-ratios. En eet, la forme de la

fonction des t-ratios en fonction des délais d'impact (positifs et négatifs) peut per-

mettre de déterminer le type de la relation [40, 64]. Si cette fonction présente une

asymétrie par rapport au délai nul, consistante avec un eet antérieur de la cause

putative vers l'eet, la causalité peut être suggérée. D'un autre coté, une fonction des

corrélations croisées manifestant une symétrie par rapport au délai nul indique une

bitemporalité de l'eet et dans ce cas, la présence d'un facteur confondant. La gure

3.1 présente un exemple de fonction de t-ratios avec une asymétrie en faveur d'un

eet antérieur de la cause putative vers l'eet.


66 3.4. Notion de causalité
Première partie

Étude du lien entre les infections


invasives à pneumocoque et deux
facteurs environnementaux.
Prise en compte de la saisonnalité
lors de l'estimation du lien entre deux
séries saisonnières

67
Chapitre 4

Introduction

4.1 Motivations épidémiologiques

Les maladies provoquées par le pneumocoque constituent un problème important de

santé publique dans le monde entier [2]. Les infections invasives communautaires à

pneumocoque (IICP) ont une évolution saisonnière très marquée avec une augmen-

tation en hiver, mais ce phénomène saisonnier n'est pas encore bien expliqué [65].

L'environnement bactérien, incluant l'exposition aux anti-infectieux et la circulation

conjointe des espèces telles que le virus de la grippe a probablement une inuence

sur la dynamique des IICP. Il existe une relation étroite entre les virus grippaux et

certaines bactéries virulentes comme le pneumocoque [18, 19]. Sur un plan clinique

et épidémiologique, de nombreuses études montrent une relation chronologique entre

infection grippale et surinfection pulmonaire et suggèrent fortement une relation de

type causale [2024, 66].

De plus, la dissémination des souches de pneumocoque résistantes aux antibiotiques

rend le traitement de ces infections dicile. La France, l'un des pays les plus consom-

mateurs au monde, a mis en place la campagne visant à réduire l'usage des antibio-

tiques à l'automne 2002 et a introduit la vaccination anti-pneumococcique dès 2003.

Ainsi, l'environnement des IICP a grandement évolué depuis 2002.

A partir des données françaises, la relation entre les indicateurs français des IICP et

deux indicateurs environnementaux, l'exposition aux antibiotiques, d'une part, et la

69
70 4.2. Questionnements méthodologiques

circulation de virus respiratoires, d'autre part, est étudiée entre 2002 et 2009.

4.2 Questionnements méthodologiques


Dans ce domaine de la santé publique, les indicateurs temporels présentent souvent

des variations saisonnières [41, 67], comme par exemple, l'évolution du nombre de cas

de maladies infectieuses telles que la rougeole, les infections à salmonelles, les pneumo-

nies à pneumocoques [42,65,68]. D'autres indicateurs de santé, non infectieux, peuvent

aussi présenter des variations saisonnières, comme l'exposition aux antibiotiques ou la

pollution atmosphérique [13, 69, 70]. Cependant, la présence de ces variations pose un

problème lors de l'étude du lien notamment lorsque les deux séries étudiées partagent

une même saisonnalité. En eet, cette saisonnalité agit comme un facteur de confusion

en créant une fausse association entre ces séries. En 1981, Bowie et Prothero ont étudié

l'association entre le nombre de décès dus aux maladies coronariennes et le nombre

d'oranges importées en Angleterre [63]. Comme les deux séries temporelles présentent

des variations saisonnières communes, ils auraient conclu à tort à une association signi-

cative si la saisonnalité n'avait pas été prise en compte dans l'analyse. En conclusion,

an étudier l'association entre deux séries temporelles, il est nécessaire de prendre en

compte leur saisonnalité soit en la retirant (désaisonnalisation) [41, 52, 56, 63, 64], soit

en la contrôlant directement dans le modèle de régression [7173].

Il existe de nombreuses méthodes de désaisonnalisation, comme discuté au chapitre

3. Thomas et Wallis (1971) ont comparé le modèle de régression sur séries non désai-

sonnalisées tout en incluant des variables saisonnières comme covariables et le mo-

dèle de régression sur séries désaisonnalisées [51]. Ils n'ont considéré que l'ajustement

non paramétrique (présenté au chapitre 3) et concluent que les résultats de ces deux

approches sont similaires quel que soit le modèle utilisé pourvu que l'ajustement sai-

sonnier soit estimé par les MCO. Cependant, ils recommandent l'usage du modèle

de régression sur données non désaisonnalisées incluant des covariables saisonnières

directement dans le modèle.

Dans ce travail, nous ne nous intéressons qu'aux deux autres méthodes d'ajustement
Chapitre 4. Introduction 71

basées sur la régression MCO : le lissage paramétrique avec les fonctions trigonomé-

triques [52, 66, 72] et le lissage semi-paramétrique, avec les splines de régression [71].

D'après Schwartz et al. (1996), l'usage de ces méthodes est équivalent [56]. Cepen-

dant, bien que les splines de régression semblent présenter un meilleur ajustement

local sur les données, un risque de sur-ajustement existe et de ce fait, le lien estimé

pourrait être réduit par rapport à sa vraie valeur, voire même totalement disparaitre.

D'un autre côté, l'utilisation de fonctions trigonométriques présente un risque de sous-

ajustement, et de fait le lien estimé pourrait être augmenté par rapport à sa vraie

valeur. Alors que l'ajustement saisonnier choisi peut aecter l'étude de la relation

entre deux séries [74], l'impact du choix de la méthode d'ajustement, parmi les deux

citées précédemment, sur l'estimation de l'association entre deux séries saisonnières

n'est pas discuté dans la littérature à ma connaissance. Il est certes plus commun de

préférer l'usage des fonctions trigonométriques dans le domaine de la santé, cependant

à ma connaissance, aucune étude ne prouve qu'une de ces méthodes vaut moins bien

que l'autre. Dans le cas particulier des séries à prol épidémique, par exemple, l'ajus-

tement par fonction trigonométrique ne semble pas être adéquat du fait des grandes

variations des épidémies d'une année sur l'autre alors que les splines de régression

améliorent nettement l'ajustement notamment quand le nombre de paramètres est

grand. Aujourd'hui, aucun consensus n'a été publié sur l'existence d'un ajustement

saisonnier optimal.

Dans la pratique, certains auteurs n'ajustent que la série à expliquer [64], d'autres

n'ajustent que la série explicative [40, 52, 66, 75], d'autres, les deux [63, 76]. Cette

dernière stratégie est encore appelée le blanchiment (prewhitening en anglais) par

référence au bruit blanc. De plus certains auteurs préfèrent prendre en compte la

saisonnalité directement dans le modèle, en ajoutant des covariables saisonnières, et

travailler ainsi uniquement sur des séries non désaisonnalisées [7173]. Bien que cer-

taines stratégie semblent être préférées, notamment les deux dernières, aujourd'hui, il

n'existe pas non plus de consensus sur l'existence d'une stratégie optimale.
72 4.3. Objectifs

4.3 Objectifs
L'objectif de ce travail est d'étudier le lien entre les infections invasives communau-

taires à pneumocoque et d'une part, l'exposition aux antibiotiques, et d'autre part, les

syndromes grippaux. An d'estimer ce lien, nous mettons en ÷uvre les deux méthodes

d'ajustement saisonnier citées ci-dessus, la régression linéaire sur une fonction trigo-

nométrique et la régression sur splines cubiques de régression, ainsi que les diérentes

stratégies d'ajustement. Nous testons l'ajustement saisonnier précédent : (Stratégie

1) l'estimation du lien avec l'ajustement de la série explicative uniquement, (Stratégie

2) l'ajustement de la série à expliquer uniquement et (Stratégie 3) l'ajustement des

deux séries. Enn, nous testons le modèle basé sur les séries non désaisonnalisées et

incluant une fonction trigonométrique an de tenir compte de la saisonnalité en même

temps que l'estimation du lien (Stratégie 4).

An de départager les diérentes résultats obtenus et ainsi de pouvoir conclure, nous

présentons une étude de simulations permettant de comparer l'impact du choix de la

méthode de désaisonnalisation et de la stratégie d'ajustement lors de l'estimation du

lien entre deux ou plusieurs séries temporelles saisonnières. Dans cette étude sur don-

nées mensuelles, nous comparons l'utilisation d'une désaisonnalisation très simple par

une fonction trigonométrique de période 12, à une désaisonnalisation plus complexe

par des splines cubiques de régression avec un grand nombre de n÷uds. Bien qu'un

grand nombre de n÷uds conduise à estimer beaucoup de paramètres par rapport au

nombre de données observées, nous avons fait ce choix consciemment an de tester

une méthode de sur-ajustement. Cette étude de simulation nous conduit à préférer

certaines stratégies d'ajustement et ainsi nous permet de répondre à la problématique

épidémiologique initiale.
Chapitre 5

Matériel et Méthodes

5.1 Matériel
La période d'étude est restreinte à la période de juillet 2002 à juin 2009 an de

travailler sur des hivers complets. Ainsi, sept années consécutives, et sept hivers,

sont observées, de juin à juillet de l'année suivante. Comme détaillé au chapitre 2,

l'indicateur mensuel des IICP pour 100 000 habitants est issu des données PMSI

(source ATIH). L'indicateur mensuel de la consommation d'antibiotiques (les familles

des β -lactamines et des macrolides) pour 100 habitants (ATB) provient des données de
remboursement de la CNAMTS et du RSI. Enn, l'indicateur mensuel des infections

virales est le nombre de cas de syndromes grippaux pour 100 habitants (SG) estimé par

le réseau Sentinelles. La gure 5.1 présente l'évolution des trois indicateurs étudiés

qui partagent une même saisonnalité hivernale. Comme discuté dans le chapitre 2,

l'indicateur des IICP a une tendance et l'indicateur des ATB des changements de

niveau moyen.

5.2 Méthodes
5.2.1 Modèle générique d'estimation du lien
Le lien entre deux ou plusieurs séries temporelle peut être estimé par un modèle de

régression linéaire avec erreurs autorégressives comme détaillé au chapitre 3. Ici, la

73
74 5.2. Méthodes

Incidence des antibiotiques et des syndromes grippaux (pour 100 habitants)


Incidence des infections à pneumocoque pour 100 000 habitants

7 7

6 6

5 5

4 4

3 3

2 2

1 1

0 0

Juil 2002 Juil 2003 Juil 2004 Juil 2005 Juil 2006 Juil 2007 Juil 2008 Juil 2009

Temps (mois)
Sources: PMSI, CNAMTS, RSI et Sentiweb

Figure 5.1  Incidence de l'indicateur des infections invasives communautaires à pneumocoque (en
noir), de l'indicateur de la consommation d'antibiotiques (en bleu) et de l'indicateur des syndromes
grippaux (en vert) en France de juillet 2002 à juin 2009.

série à expliquer est IICPt pour t= juillet 2002 à juin 2009. D'après l'équation (3.13)

et dans le cas d'une relation entre deux séries temporelles uniquement, le modèle de

régression linéaire avec erreurs autorégressives, s'écrit ainsi :


 IICPt = X̃t0 β̃ + νt = β0 + β1 t + β2 Xt+h + νt
(5.1)
 ν = φ ν + ... + φ ν + 
t 1 t−1 p t−p t

avec X̃t0 le vecteur colonne (1, t, Xt+h ), β̃ 0 =(β0 , β1 , β2 ). En notant ν le vecteur des

erreurs autocorrélées (ν1 , ..., νT ), E(ν 0 ν) = σ 2 V , avec V la matrice des autocorréla-

tions dénie au chapitre 3, aux section 3.3.2 et 3.3.3. Enn, (t ){t=1,...,T } ∼ N (0, σ2 )
indépendants et identiquement distribués. ∀t ∈ N, E(νt ) = 0 et Cov(Xt+h , νt ) = 0.
Un terme de tendance (β1 ) est intégré au modèle an de tenir compte de l'augmen-

tation linéaire des IICP.

La série indépendante Xt représente alternativement ATBt et SGt . An de déterminer

la valeur de h identiant le délai d'impact de ATBt ou SGt sur IICPt plusieurs modèles
de régression linéaire comme déni par l'équation 5.1 sont estimés séparément avec h
variant de -3 à 3. h=0 correspond à la régression entre les séries sans décalage, donc

au même mois. k≤0 correspondent aux cas où la relation lie les IICPt aux valeurs
Chapitre 5. Matériel et Méthodes 75

passées de Xt . h≥0 correspondent aux cas où la relation lie les IICPt aux valeurs

futures de Xt . Pour des données mensuelles, nous supposons que les séries explicatives

ne peuvent pas avoir d'impact sur la série à expliquer qu'au plus avec un décalage de

3 mois. La valeur de h conduisant à l'association signicative la plus forte, c'est-à-

dire correspondant au plus grand t-ratio (voir chapitre 3), est retenu pour le modèle

nal. Ces t-ratios sont signicatifs au seuil de 5% si supérieurs, en valeur absolue,

au quantile de la loi de Student à T −2 degrés de liberté, avec T la longueur des

séries observées [40]. Ici, T = 86 et le quantile de la loi de Student vaut 1.96 en valeur
absolue.

Le nombre de paramètres autorégressifs, p, est estimé par une sélection descendante


démarrant avec les 24 premiers paramètres et en utilisant un seuil de signicativité

de 5%.

Les paramètres {φi , i = 1, ..., p} sont estimés par les équations de Yule-Walker. En-

suite, supposant connus ces paramètres, les paramètres β0 et β1 sont estimés par

maximum de vraisemblance. An d'attester de la qualité du modèle, l'indépendance

des résidus est testée par le test de Ljung-Box et la normalité par les tests de Shapiro

et de Kolmogorov détaillés au chapitre 3.

Dans ce modèle générique, la saisonnalité des séries temporelles n'est pas prise en

compte. La section 2.2.2 présente les deux méthodes d'ajustement comparées et la

section 2.2.3 détaille les diérentes stratégies d'ajustement saisonnier.

5.2.2 Méthodes d'ajustement saisonnier


La désaisonnalisation des séries mensuelles saisonnières est envisagé par l'ajustement

à l'aide d'une régression linéaire estimée par les MCO, comme expliqué au chapitre

3, par deux méthodes distinctes.

L'ajustement par une fonction trigonométrique avec une seule fréquence :2 π t/12 pour
t= juillet 2002 à juin 2009. Comme vu au Chapitre 2, l'indicateur des IICP présente

une tendance de type linéaire, alors que l'indicateur des ATB varie par palier entre les

périodes suivantes : juillet 2002 et juin 2005, juillet 2005 et juin 2008, juillet 2008 et


Choix issu d'une étude préalable détaillée en annexes B
76 5.2. Méthodes

juin 2009. Ces caractéristiques doivent être intégrées an de désaisonnaliser les séries.

IICPt = α0 + α1 t + α2 cos(2 π t/12) + α3 sin(2 π t/12) + RIICPTt (5.2)

4
X
0
ATBt = α0j 1{t∈ période j }
+ α20 cos(2 π t/12) + α30 sin(2 π t/12) + RATBTt
j=1

(5.3)

SGt = α000 + α200 cos(2 π t/12) + α300 sin(2 π t/12) + RSGTt (5.4)

RIICPTt , RATBTt et RSGTt correspondent aux résidus des régressions linéaires estimées

par les MCO. Le modèle des IICP inclut un terme de tendance et contient ainsi quatre

paramètres à estimer (α0 à α3 ). Le modèle des ATB conduit à l'estimation de cinq

paramètres. Enn, le modèle d'ajustement des SG ne contient que trois paramètres

00
(α0 , α200 et α300 ), comme l'indicateur des SG ne présente qu'une saisonnalité.

L'ajustement par splines cubiques de régression avec 6 n÷uds par an pour t= janvier

2002 à décembre 2009 [56, 57] :

3
X 7 X
X 6
IICPt = γ0i ti + γkj3 (t − ξkj )3+ + RIICPSt (5.5)
i=0 j=1 k=1
3
X 7 X
X 6
0 i 0
ATBt = γ0i t + γkj3 (t − ξkj )3+ + RATBSt (5.6)
i=0 j=1 k=1
3
X 7 X
X 6
00 i 00
SGt = γ0i t + γkj3 (t − ξkj )3+ + RSGSt (5.7)
i=0 j=1 k=1

ξkj le k ième n÷ud de la j ième des 7 années (comptabilisées de juillet à juin) de la

période d'étude. (.)+ désigne la fonction suivante : u+ = u si u ≥ 0 et u+ = 0 si

u≤0 comme décrit dans . RIICPSt , RATBSt et RSGSt correspondent aux résidus des

régressions linéaires estimées par les MCO.

L'ajustement par splines de régression prend en compte la tendance des IICP ainsi que

les changements de niveau moyen des ATB. Il n'est donc pas nécessaire d'introduire

davantage de termes.

Le nombre de n÷uds de la spline a été déterminé par une analyse détaillée en annexes

B, comme étant le nombre de n÷uds réduisant l'AIC dans la grande majorité des cas.
Chapitre 5. Matériel et Méthodes 77

Ainsi, cette méthode conduit à l'estimation de 4+6×7 = 46 paramètres par modèle

d'ajustement.

Les séries résiduelles, ou séries désaisonnalisées obtenues RIICPTt , RATBTt et RSGTt ,


RIICPSt , RATBSt et RSGSt sont également centrées et sans tendance.

5.2.3 Stratégies d'ajustement


Huit stratégies d'ajustement basées sur le modèle de régression avec erreurs autocor-

rélées présenté en 2.2.1 sont envisagées et listées dans le tableau 5.1. La stratégie dans

laquelle la saisonnalité n'est pas prise en compte (Stratégie 0) est conservée dans cette

étude bien qu'elle ne soit pas recommandée, pour avoir une référence. Les stratégies

basées sur un ajustement par une fonction trigonométrique sont symbolisées par la

lettre T, celles basées sur l'ajustement par splines de régression par la lettre S. Aucune

stratégie basée à la fois sur un ajustement par fonction trigonométrique et par splines

de régression n'est étudié. Nous considérons six désaisonnalisations diérées, i.e. an-

térieures à l'estimation du lien, avec l'ajustement de la série à expliquer uniquement

(S1 et T1), l'ajustement de la série explicative uniquement (S2 et T2), l'ajustement

des deux séries (S3 et T3). Une huitième stratégie (T4) dans laquelle la saisonnalité

est directement prise en compte dans le modèle en intégrant une fonction trigonomé-

trique comme covariable et dans lequel les séries sont non désaisonnalisées.

Au nal, ces stratégies mesurent une quantité β2 qui semble être diérente, cepen-

dant l'interprétation de ce paramètre est identique : l'estimation du lien entre les

indicateurs des IICPt et de Xt après avoir ajuster sur la saisonnalité de ces deux

indicateurs.

5.3 Logiciels
r
Les analyses statistiques sont réalisées à l'aide du logiciel SAS version 9.3 [77] avec

notamment les procédures PROC AUTOREG et PROC TRANSREG, les graphiques

r
à l'aide du logiciel R version 3.1.0.
78 5.3. Logiciels

Table 5.1  Stratégies d'ajustement saisonnier utilisés lors de l'estimation du lien entre l'indicateur
des infections invasives à pneumocoque pris au mois t et la série Xt+h qui représente alternativement
l'indicateur de la consommation d'antibiotiques et l'indicateur des syndromes grippaux.

Méthode d'ajustement Stratégie Modèle de régression


Aucune 0 IICPt = β0 + β1 t + β2 Xt+h + νt

Splines S1 RIICPSt = β0 + β2 Xt+h + νt


S
de régresion S2 IICPt = β0 + β1 t + β2 RXt+h + νt
S3 RIICPSt = β0 + β2 RXt+hS
+ νt

Fonctions T1 RIICPTt = β0 + β2 Xt+h + νt


T
trigonométriques T2 IICPt = β0 + β1 t + β2 RXt+h + νt
T T
T3 RIICPt = β0 + β2 RXt+h + νt
T4 IICPt = β0 + β1 t + β2 Xt+h + α2 cos(2 π t/12) + α3 sin(2 π t/12)
Xt fait référence à ATBTt et à SGTt . νt ∼ AR(p) comme déni par l'équation 5.1
h est un entier compris entre -3 et 3 et correspond au décalage temporel.
RIICPSt et RXtS résidus après désaisonnalistaion par splines de régression
RIICPTt et RXtT résidus après désaisonnalistaion par une fonction trigonométrique
Chapitre 6

Résultats

6.1 Identication du délai d'impact


La première étape de l'étude d'une association temporelle est d'identier le délai d'im-

pact, s'il existe, de la série explicative sur la série à expliquer. Pour cela, les t-ratios

sont calculés pour les huit stratégies listées dans le tableau 5.1 avec h=-3 à 3.

Association entre IICP et ATB


Les résultats de l'estimation du lien entre IICPt et ATBt+h sont représentés Figure

6.1 par les courbes des t-ratios en fonction du délai h. Seule la stratégie S1 n'identi-

e aucune association signicative au seuil 5%. La stratégie 0 présente deux t-ratios

signicatif, en h=0 et h=-1. Les valeurs de t-ratios sont proches, mais la plus grande

est prise en h=-1. Ce résultat est retrouvé par la stratégie T1. Les stratégies S2 et

S3 s'accordent sur le décalage lié à la plus grande valeur des t-ratios, en h=-2. Ces

valeurs sont négatives. La seconde plus grande valeur associée au délai h = 0 est quant
à elle positive. Enn, les stratégies T2, T3 et T4 s'accordent entre-elles mais livrent

un message confus. La plus grande valeur est atteinte en pour h=-2 et h=0.

Association entre IICP et SG


Les résultats de l'estimation du lien entre IICPt et SGt+h sont représentés Figure 6.2

par les courbes des t-ratios en fonction du délai h. La stratégie 0 conduit à l'estimation

79
80 6.2. Vérication de la priorité temporelle

de deux liens signicativement diérentes de 0, pour les décalages h=0 et h=-1. Les

stratégies S1 et S2 semblent indiquer une absence de lien entre IICP et SG, alors

que la stratégie S3 identie un lien signicatif au décalage h=0. Les stratégies T1 à

T4 s'accordent à montrer que les décalages h=0 et h=-1 sont associés aux valeur de

t-ratio les plus grandes.

a b

10 15 S1
0
10 S2
5 S3
5

0 0

−3 −2 −1 1 2 3 −3 −2 −1 −5 1 2 3
−5
−10

−10 −15

h h

10 T1
T2
5 T3
T4
0

−3 −2 −1 1 2 3
−5

−10

Figure 6.1  T-ratios estimés à partir de la régression de IICPt sur ATBt+h suivant la stratégie
d'ajustement associée : 0 quand la saisonnalité n'est pas prise en compte, S1 (T1) quand la série
à expliquer est ajustée par des splines de régression (fonctions trigonométriques), S2 (T2) quand
la série explicative est ajustée par des splines de régression (fonctions trigonométriques), S2 (T2)
quand les deux séries sont ajustées par des splines de régression (fonctions trigonométriques) et T4
quand les séries ne sont pas ajustées mais que le modèle inclut une fonction trigonométrique comme
covariable.

6.2 Vérication de la priorité temporelle


Association entre IICP et ATB
La plupart des stratégies semblent indiquer une relation de type causal". En eet,

les courbes présentent une asymétrie par rapport à l'axe des ordonnées en faveur d'un

eet antérieur des ATB sur les IICP. Seule la stratégie S1 semblent ne pas conrmer

cette hypothèse.
Chapitre 6. Résultats 81

Association entre IICP et SG


Le graphique des t-ratios en fonction du délai h entre IICPt et SGt associé aux straté-

gies T2, T3, T4 et 0 semblent montrer une asymétrie par rapport à l'axe des ordonnées,

suggérant une relation de type causal". Ceci n'est pas vérié par les stratégies basées

sur les splines de régression qui, elles, ne relèvent aucune association signicative entre

ces deux indicateurs ou une seule au décalage h = 0.

a b S1
S2
10 5 S3
0
5

0 0

−3 −2 −1 1 2 3 −3 −2 −1 1 2 3
−5

−10 −5

h h

c
T1
10 T2
T3
5 T4

−3 −2 −1 1 2 3
−5

−10

Figure 6.2  T-ratios estimés à partir de la régression de IICPt sur SGt+h suivant la stratégie
d'ajustement associée : 0 quand la saisonnalité n'est pas prise en compte, S1 (T1) quand la série
à expliquer est ajustée par des splines de régression (fonctions trigonométriques), S2 (T2) quand
la série explicative est ajustée par des splines de régression (fonctions trigonométriques), S2 (T2)
quand les deux séries sont ajustées par des splines de régression (fonctions trigonométriques) et T4
quand les séries ne sont pas ajustées mais que le modèle inclut une fonction trigonométrique comme
covariable.

6.3 Estimation de l'association


Association entre IICP et ATB
D'après l'étude des t-ratios, trois variables décalées sont incluses dans le modèle de

régression, les variables ATBt , ATBt−1 et ATBt−2 . Seuls les coecients signicatifs

sont conservés dans le modèle nal. Les principaux résultats sont présentés dans le

tableau 6.1. Comme vu précédemment, la stratégie S1 ne montre pas d'association

signicative entre les IICP et ATB au seuil 5%. Les stratégies S2 et S3 s'accordent sur
82 6.3. Estimation de l'association

l'existence d'un lien signicatif (p-values ≤ 0.01) et négatif avec des valeurs s'échelon-
nant entre -0.15 et -0.07 pour le décalage h=-1 et entre -0.4 et -0.27 pour le décalage

h=-2. La stratégie S3 comporte le plus grand nombre de paramètres autorégressifs.

D'un autre côté, les stratégies T1 à T4 s'accordent sur l'existence d'un lien signicatif

(p-values ≤ 0.0001) et positif avec des valeurs proches variant de 0.26 à 0.30 pour le

décalage nul (h=0), variant de 0.20 à 0.24 pour le décalage h=-1. Le décalage h=-2
n'apparait plus signicatif dans les modèles naux correspondant aux stratégies T1 à

T4.

Table 6.1  Estimation du lien entre l'incidence des infections invasives à pneumocoque pour 100
000 habitantes et l'incidences de la consommation d'antibiotiques pour 100 habitants en France entre
juillet 2002 et juin 2009

Stratégies d'estimation

Estimation du lien entre Yt et Xt 0 S1 S2 S3 T1 T2 T3 T4

Décalage h = 0
Coecient 0.29 - - - 0.26 0.29 0.30 0.27
Écart-type 0.03 - - - 0.03 0.03 0.03 0.03
p-value **** - - - **** **** **** ****

Décalage h = -1
Coecient 0.24 - -0.15 -0.07 0.20 0.23 0.24 0.22
Écart-type 0.03 - 0.05 0.03 0.03 0.03 0.03 0.03
p-value **** - 0.004 0.009 **** **** **** ****

Décalage h = -2 -
Coecient - - -0.40 -0.27 - - - -
Écart-type - - 0.05 0.03 - - - -
p-value - - **** **** - - - -

Nombre de coef det† 4 - 4 4 3 4 3 6



Nombre de coef AR 4 - 3 9 4 6 3 4
AIC -105 - -33 -376 -96 -103 -109 -105
**** = ≤ 0.0001
† : Nombre de coecients de la partie déterministe

: Nombre de coecients de la partie stochastique

Association entre IICP et SG


D'après l'étude des t-ratios, deux variables décalées sont incluses dans le modèle de

régression, les variables SGt et SGt−1 . Seuls les coecients signicatifs sont conservés
Chapitre 6. Résultats 83

dans le modèle nal. Le tableau 6.2 présente les diérentes valeurs des estimations de

lien ainsi que leur écart-types. Ces résultats sont ceux lus sur les courbes des t-ratios

présentées gure 6.2. Les stratégies S1 et S2 ne présentent pas de lien signicatifs entre

IICP et SG. La stratégie S3 n'identie qu'une seule estimation signicative pour h=0.
Les estimations basées sur l'ajustement par fonctions trigonométriques, T1 à T4,

présentent des estimations proches et signicatives pour les décalages h=0 et h=-
1. A nouveau, la stratégie S3 comporte là encore un grand nombre de paramètres

autorégressifs.

Table 6.2  Estimation de l'association entre l'incidence des infections invasives communautaires à
pneumocoque pour 100 000 habitants et l'incidence des syndromes grippaux pour 100 habitants en
France entre juillet 2002 et juin 2009.

Stratégies d'estimation

Estimation du lien entre Yt et Xt 0 S1 S2 S3 T1 T2 T3 T4

Décalage h = 0
Coecient 0.14 - - 0.07 0.13 0.11 0.11 0.13
Écart-type 0.03 - - 0.03 0.03 0.03 0.03 0.03
p-value **** - - 0.03 **** *** *** ****

Décalage h = -1
Coecient 0.11 - - - 0.09 0.11 0.10 0.09
Écart-type 0.03 - - - 0.03 0.03 0.03 0.03
p-value *** - - - *** *** 0.0014 ***

Nombre de coef det† 4 - - 2 4 4 3 6



Nombre de coef AR 6 - - 22 4 5 4 4
AIC -70 - - -136 -75 -58 -64 -74

σˆ2 0.14 - - 0.009 0.14 0.14 0.14 0.14


**** = ≤ 0.0001, *** = ≤ 0.001
† : Nombre de coecients de la partie déterministe du modèle de régression

: Nombre de coecients de la partie stochastique du modèle de régression

6.4 Motivation des simulations


L'étude du lien entre IICP et ATB conduit à des résultats diérents suivant les dif-

férentes stratégies utilisées. En eet, alors qu'une stratégie semble indiquer l'absence

de lien, les autres stratégies conduisent à une conclusion inverse. D'un autre côté, les
84 6.4. Motivation des simulations

stratégies basées sur l'ajustement par fonction trigonométrique semblent montrer une

association positive entre l'indicateur des IICP et celui de ATB alors que les stratégies

basées sur l'ajustement par splines de régression présentent une association négative

entre ces deux indicateurs. A ce stade, tout conclusion concernant l'association entre

ces indicateurs nécessite de faire un choix sur la méthode d'ajustement saisonnier. Il

en est de même pour l'étude de l'association entre les indicateurs des IICP et des SG.

An de nous donner les moyens de choisir la méthode d'ajustement saisonnier, nous

avons réalisé une étude de simulations. Cette étude a pour but d'étudier l'impact des

diérentes méthodes de désaisonnalisation et des stratégies d'ajustement, an d'identi-

er la ou les méthodes à favoriser et ainsi de permettre de répondre à la problématique

posée.
Chapitre 7

Étude de simulations

7.1 Objectifs

L'objectif de cette étude de simulations est de quantier l'impact du choix de l'ajus-

tement saisonnier sur l'estimation du lien entre deux séries saisonnières et d'identier

l'approche optimale. Les deux méthodes d'ajustement comparées sont l'ajustement

par fonctions trigonométriques et l'ajustement par splines de régression. Les splines

de régression ne comportant qu'un faible nombre de n÷uds par année ajustent les

séries de la même façon que les fonctions trigonométriques. En revanche, les splines

de régression comportant un grand nombre de n÷uds (par exemple 6) ajustent net-

tement mieux en terme d'AIC les séries saisonnières. Ainsi, les splines de régression

utilisées ici comportent 6 n÷uds par an.

L'objectif secondaire est d'identier la stratégie d'ajustement menant à une estimation

optimale du lien. Les stratégies sont les suivantes : (Stratégie 1) ajuster la série dépen-

dante uniquement, (Stratégie 2) ajuster la série indépendante uniquement et (Stratégie

3) ajuster les deux séries (également appelé blanchiment ou prewhitening"). Ces trois

stratégies sont appliquées avec les deux méthodes d'ajustement citées précédemment.

Enn, une dernière stratégie est comparée aux autres, (Stratégie 4) la régression de

la série dépendante sur la série indépendante et sur une fonction trigonométrique.

Nous avons réalisé une étude de simulations an de comparer à la fois les méthodes

et les stratégies d'ajustement basée sur les trois points suivants :

85
86 7.2. Matériel et Méthodes

1. Leur capacité à estimer le lien simulé entre deux séries saisonnières mensuelles.

2. Leur capacité à identier le vrai délai d'impact (aussi appelé décalage) de la série

indépendante sur la série dépendante. L'inuence d'une série sur une autre peut ne

pas être immédiat et donc avoir un délai temporel d'impact. An d'étudier le lien

entre deux séries temporelles, les t-ratios, rapport du lien estimé sur son écart-type,

sont utilisées an d'identier ce délai [64]. La plus grande valeur des corrélations croi-

sées correspond au délai d'impact.

3. La propriété d'ordre temporel. Lors de l'étude d'une association entre deux indica-

teurs temporels, une interprétation de type causal peut être renforcée par l'étude de

la priorité temporelle [60] dénie dans le chapitre 3. En eet, si la cause putative est

présente avant l'eet, alors, c'est une preuve supplémentaire de lien de causalité entre

les deux phénomènes étudiés [52, 60, 76].

7.2 Matériel et Méthodes


7.2.1 Simulation des données
An de comparer les méthodes ainsi que les stratégies d'ajustement saisonnier, nous

avons simulé des couples de séries temporelles mensuelles suivant diérents scénarios

et autres paramètres de simulations. Pour cela, nous avons développé une méthode

originale de simulation des séries saisonnières. Pour simplier cette étude de simu-

lations, les séries temporelles ne présentent pas de tendance, ni de changement de

niveau moyen.

7.2.1.1 Modèle de simulation

Soit T la longueur des séries temporelles, T = 12 × n, avec n le nombre d'années

simulées. Soient (Yt ){t=1,...,T } la série à expliquer (ou dépendante), (Xt ){t=1,...,T } la

série explicative (ou indépendante). (Yt ){t=1,...,T } est simulé sous l'hypothèse d'une

inuence linéaire de (Xt ){t=1,...,T } retardée d'un mois selon l'équation suivante [78] :

Yt = β0 + β1 Xt−1 + Zt (7.1)
Chapitre 7. Étude de simulations 87

où Xt et Zt sont deux séries temporelles saisonnières dont la méthode de simulation

est détaillée dans la suite. Zt est une série non-observable qui représente ce que serait

Yt en l'absence de Xt . Zt apporte donc une saisonnalité propre à Yt indépendante de

celle de Xt . Ainsi en l'absence de lien entre Yt et Xt (β1 = 0), Yt reste bien une série

saisonnière de saisonnalité celle de Zt uniquement. β0 est une constante choisie telle

que (Yt ){t=1,...,T } reste positive, et β1 est le paramètre d'intérêt.

7.2.1.2 Simulation des séries saisonnières mensuelles

La surveillance en épidémiologie amène à observer un grand nombre d'indicateurs

d'évènements de santé publique communautaire. Ces indicateurs, souvent construits

à partir de données collectées par des systèmes de surveillance, sont positifs, car issus

d'un processus de comptage. Ils présentent souvent un cycle annuel facilement iden-

tiable sur le graphique portant en abscisses le temps et en ordonnées la valeur de

l'indicateur. Ce cycle annuel saisonnier, constant dans le temps, consiste en un pic

suivi d'un creux généralement espacés de six mois. Le comportement de l'indicateur

de santé entre deux creux successifs, appelé ici motif saisonnier, constitue une ca-
ractéristique de la saisonnalité de l'indicateur.

Trois motifs diérents ont été recensés : le motif linéaire, comportant une augmenta-

tion presque linéaire suivie d'une décroissance presque linéaire, c'est le cas des infec-

tions communautaires à pneumocoques [41, 63] ; le motif cycloïdal, évolution similaire

à la trajectoire d'un point sur une roue de vélo, c'est le cas de l'indicateur de la

consommation communautaire d'antibiotiques [13, 69] ; et enn, le motif épidémique,

correspondant à une succession de très faibles valeurs soudainement suivies par deux

ou trois très grandes valeurs (on parle aussi dans ce cas d'évolution exponentielle),

c'est le cas de l'indicateur des syndromes grippaux communautaires [38, 79]. Alors

que les deux premiers motifs présentent une grande similarité dans leur régularité,

les pics et les creux interviennent environ aux mêmes mois d'une année sur l'autre,

le motif épidémique présente un prol nettement moins régulier. Dans la suite, nous

distinguons le cas épidémique des deux autres.

La gure 1.1 présente trois indicateurs de santé publique ayant chacun l'un de ces

motifs saisonniers. L'évolution de l'incidence des IICP présente un motif linéaire,


88 7.2. Matériel et Méthodes

l'évolution de l'incidence des ATB a un motif cycloïdal et l'évolution de l'incidence

des SG a un motif épidémique. Ces trois indicateurs partage une même saisonnalité

hivernale, à savoir une augmentation en hiver.

Ainsi, chaque série temporelle saisonnière est simulée à partir de trois caractéris-

tiques : le motif saisonnier (linéaire, cycloïdal ou épidémique), le minimum (Min), et

l'étendue globale (R). La première caractéristique dénit l'évolution du cycle annuel

de la série, les deux suivantes, l'éventail des valeurs possibles de la série suivant un

schéma conçu pour ces simulations et expliqué ci-dessous. Dans le cas du motif épi-

démique, la durée de l'épidémie peut varier entre 2 et 3 mois, le début de l'épidémie

peut également uctuer sur une période de 3 mois, et enn, le seuil épidémique au-

delà duquel la série entre dans la période épidémique est xé arbitrairement à Min

+R/10.

Soient T la longueur des séries temporelles et (Wt ){t=1,...,T } une série saisonnière dénie
par ces trois caractéristiques. Wt est simulée suivant le modèle additif suivant :

12
X
Wt = Sit + Ut (7.2)
i=1


 S
i si t≡i mod [12] avec Si ∼ Unif[ai , bi ]
Sit =
 0 sinon


Ut = φ∗1 Ut−1 + φ∗2 Ut−2 + et − θ12 et−12

avec t ∼ N (0, σ 2 ) indépendants et identiquement distribués.


P12
La partie saisonnière de Wt , i=1 Sit , est une variable aléatoire dont les valeurs sont

tirées d'une loi uniforme Si si t correspond au mois i. Les supports [ai , bi ] des lois

uniformes Si pour i = 1, ..., 12 sont dénis par les bornes des segments présentés

gure 7.1. Les bornes inférieures de ces segments correspondent aux ai , les bornes

supérieures correspondent aux bi . Ces bornes ont été dénies arbitrairement à partir

de données réelles (Partie détaillée en annexes B).

La partie stationnaire, Ut , est un processus stationnaire dont les paramètres sont xés
suivant le motif saisonnier de la série et listés dans le tableau 7.1. Ce processus permet
Chapitre 7. Étude de simulations 89

d'ajouter à la série saisonnière Wt de l'autocorrélation de court terme avec les deux

premiers paramètres autorégressifs φ∗1 et φ∗2 , ainsi que de l'autocorrélation à plus long

terme avec le paramètre θ12 . (et ) est un processus bruit blanc gaussien dont la variance

est σe .
Ainsi, les séries saisonnières sont simulées d'une part, à partir d'un tirage uniforme sur

l'un des intervalles déni sur le schéma 7.1, suivant le motif saisonnier choisi, la valeur

du minimum, la valeur de l'étendue gobale et en fonction du mois considéré, et d'autre

part, à partir d'un processus stationnaire qui permet d'ajouter de l'autocorrélation à

court terme.

Table 7.1  Valeurs des paramètres du processus stationnaire.


Motif saisonnier Paramètres Exemple de série
φ∗1 φ∗2 ∗
θ12 σe
Linéaire -0.2 0.1 -0.8 R/20 IICP
Cycloïdal 0.5 0 0.4 R/20 ATB
Épidémique 0.3 -0.3 0 R/20 SG

Un exemple de simulation de séries saisonnières est présenté gure 7.2 pour chaque

type de motif saisonnier. La saisonnalité de ces séries est conrmée par l'étude de

leur fonction d'autocorrélation (forme sinusoïdale amortie) et leur analyse spectrale

(périodogramme avec un pic à la fréquence 12). La série de motif épidémique présente

des pics de diérentes amplitude, le mois de début d'épidémie varie également. Les

deux autres séries ont un motif plus rigide autorisant une certaine uctuation.

7.2.1.3 Paramètres de simulation


Dans cette étude, quatre paramètres de simulations sont considérés : le motif sai-

sonnier de Xt , le couple de valeurs (M inX , RX ), la variance de l'erreur du modèle

comparée à celle de Xt (σZ2 /σX


2
) et la valeur du paramètre d'intérêt (β1 ). Les dié-

rentes valeurs de ces paramètres sont listées dans les tableaux 7.2 et 7.3 suivant le

motif de Xt et conduisent à un total de 84 jeux de paramètres.

Les caractéristiques de Zt sont contraintes par les caractéristiques de Xt . Le motif

saisonnier de Zt est choisi suivant le tableau 7.4. Quatre scénarios sont considérés,

dans le scénario 1, Xt a un motif linéaire et Zt un motif cycloïdal ; dans le scénario


90 7.2. Matériel et Méthodes

Figure 7.1  Séquence de segments déterminant le support [ai , bi ] des lois uniformes Si pour
i = 1, ..., 12. Les bornes inférieures de ces segments correspondent aux ai , les bornes supérieures
correspondent aux bi . A. Motif linéaire, B. Motif cycloïdal, C. Motif épidémique. Pour ce dernier
cas, il s'agit d'un exemple de deux années consécutives.
Chapitre 7. Étude de simulations 91

60

50

40
Valeurs

30

20

10

Jan 1 Jan 2 Jan 3 Jan 4 Jan 5 Jan 6

Temps (mois)

Figure 7.2  Exemple de simulation de séries temporelles saisonnière avec un motif linéaire (en
bleu), un motif cycloïdal (en rouge) et un motif épidémique (en vert). Pour toutes ces séries, T= 72,
Min = 0 and R = 50.

2, l'inverse ; dans les scénarios 3 et 4, Xt a un motif épidémique et Zt un motif res-


pectivement linéaire et cycloïdal. Dans chacun de ces cas, la valeur du minimum de Zt
(M inZ ) est égal à celui de Xt (M inX ). L'étendue globale de Zt (RZ ) est déterminée

2 2
par celle de Xt (RX ) et par le ratio des variances (σZ /σX ). Le ratio de variances

prend les valeurs 0.5, 1 and 1.5, ainsi pour satisfaire cette contrainte, l'étendue de Zt
est respectivement xée comme suit : RZ = RX − RX /4, RZ = RX , RZ = RX + RX /4.
Dans cette étude, l'impact de la longueur des séries n'est pas étudiée ; T, la longueur

des séries ne varie pas. Ainsi dans la suite, nous parlerons uniquement des quatre

autres paramètres de simulation.

Table 7.2  Paramètres de simulation des séries à motif linéaire ou cycloïdal.


Paramètres Valeurs Nombre de valeurs
T 144 (12 ans) 1
Motif saisonnier de Xt linéaire ou cycloïdal 2
(M inX , RX ) (0, 50), (30, 120), (60, 270) 3
σZ2 /σX
2
0.5, 1, 1.5 3
β1 0, 0.2, 0.6, 1 4
Jeux de paramètres 1×2×3×3×4 72

Yt , simulé à partir du modèle décrit en 7.1, montre une saisonnalité de période 12


92 7.2. Matériel et Méthodes

Table 7.3  Paramètres de simulation à motif épidémique.


Paramètres Valeurs Nombre de valeurs
T 144 (12 ans) 1
Motif saisonnier de Xt épidémique 1
(M inX , RX ) (0, 100) 1
σZ2 /σX
2
0.5, 1, 1.5 3
β1 0, 0.2, 0.6, 1 4
Jeux de paramètres 1×1×1×3×4 12

Table 7.4  Motifs saisonniers de Zt


Scénario
Séries temporelles 1 2 3 4
Xt Linéaire Cycloïdal Épidémique Épidémique
Zt Cycloïdal Linéaire Linéaire Cycloïdal

avec un motif linéaire ou cycloïdal en fonction du scénario considéré et de la valeur

du paramètre β1 (gure 7.3). Dans le cas des scénarios 1 et 2, pour les faibles valeurs

de β1 , Yt a le même motif saisonnier que Zt , alors que pour les grandes valeurs de β1
(β1 ≥ 0.6), Yt a le même motif saisonnier que Xt . Dans le cas des scénarios 3 et 4, Yt
a le même motif saisonnier que Zt avec un pic qui s'accentue avec l'augmentation du

paramètre β1 .

7.2.2 Méthodes d'ajustement saisonnier

Comme vu au chapitre précédent, la désaisonnalisation des séries mensuelles saison-

nières est envisagé par l'ajustement à l'aide d'une régression linéaire estimée par les

MCO par deux méthodes distinctes.

1. L'ajustement par une fonction trigonométrique avec une seule fréquence :2 π t/12
pour t = 1, ...144.

Yt = α0 + α1 cos(2 π t/12) + α2 sin(2 π t/12) + RYtT

Xt = α00 + α10 cos(2 π t/12) + α20 sin(2 π t/12) + RXtT


Chapitre 7. Étude de simulations 93

1 2
100 100
values

50 50

0 0

Année 1 Année 2 Année 3 Année 4 Année 5 Année 6 Année 1 Année 2 Année 3 Année 4 Année 5 Année 6

3 4 Time (Month)
200 200

150 150

100 100

50 50

0 0

Année 1 Année 2 Année 3 Année 4 Année 5 Année 6 Année 1 Année 2 Année 3 Année 4 Année 5 Année 6

Figure 7.3  Exemples de simulation de Xt (courbe bleu) et Yt associé à ce Xt pour diérentes


valeurs de β1 (0.2 (courbe noire), 0.6 (courbe verte), 1 (courbe rouge)) (1) dans le scénario 1, (2)
dans le scénario 2, (3) dans le scénario 3, (4) dans le scénario 4. Les séries Xt et Zt sont simulées
2 2
avec les paramètres suivants : σZ /σX = 0.5, MinX = 0 et RX = 50 pour les scénarios 1 et 2, RX =
100 pour les scénarios 3 et 4.

RYTt et RXTt correspondent aux résidus des régressions linéaires estimées par les MCO.

Ce modèle d'ajustement conduit à l'estimation de trois paramètres.

2. L'ajustement par splines cubiques de régression avec 6 n÷uds par an pour t =


1, ...144.

3
X n X
X 6
Yt = i
γ0i t + γkj3 (t − ξkj )3+ + RYSt
i=0 j=1 k=1
3
X n X
X 6
0 i 0