Vous êtes sur la page 1sur 68

Introduction aux statistiques spatiales

et aux systmes d'information


gographique en sant environnement
application aux tudes cologiques
Sant environnement
Sommaire
Abrviations 2
Rsum 3
1. Introduction 4
1.1 tudes locales autour dun point source 5
1.2 tudes de corrlations gographiques 6
1.3 Intrt et limites de ces tudes 7
2. Les systmes dinformation gographique 8
2.1 Les possibilits dutilisations du SIG au regard des besoins en sant
environnementale 8
2.2 Dfinitions et notions clefs indispensables la mise en place dun SIG 9
2.3 La cartographie : quelques rgles de reprsentation des donnes gographiques 12
2.4 Les SIG comme outil danalyse descriptive : tude des relations spatiales
entre les entits gographiques 26
2.5 Lutilisation des SIG diverses tapes dune tude pidmiologique :
lexemple de travaux mens au Dpartement sant environnement de lInVS 30
2.6 Exemples dutilisations des SIG en sant environnementale dans la littrature 37
2.7 Conclusion et perspectives 37
3. Mthodes statistiques 38
3.1 Dtection de clusters et global clustering 39
3.2 Reprsentation cartographique des maladies (disease mapping) 43
3.3 Modles de rgression 52
4. Un outil dinvestigation rapide en sant environnement :
The Rapid Inquiry Facility (RIF) 53
4.1 Mthodes de RIF 53
4.2 Exemples dutilisation de RIF 57
4.3 Dveloppement de RIF 59
4.4 Conclusion : utilit et limites de RIF 60
5. Conclusion 60
6. Rfrences bibliographiques 61
Institut de veille sanitaire Introduction aux statistiques spatiales et aux systmes dinformation gographique / p. 1
Introduction aux statistiques spatiales et
aux systmes dinformation gographique
en sant environnement

Application aux tudes cologiques



























Ce travail a t ralis par lInstitut de veille sanitaire (InVS).


Rdacteurs
Sarah Goria, Morgane Stempfelet, Perrine de Crouy-Chanel, Dpartement sant environnement (DSE)


Relecteurs
Christophe Declercq, Alain Le Tertre, DSE.
p. 2 / Introduction aux statistiques spatiales et aux systmes dinformation gographique Institut de veille sanitaire
Abrviations
CDC Centers for Disease Control
CMMP Comptoirs des minraux et matires premires
DSE Dpartement sant environnement
EPHT Environmental Public Health Tracking
EUROHEIS European Health and Environment Information System
Insee Institut national de la statistique et des tudes conomiques
InVS Institut de veille sanitaire
Iris Ilts regroups pour linformation statistique
RIF Rapid Inquiry Facility
RIVM National Institute for Public Health and the Environment
RR Risque relatif
SAHSU Small Area Health Statistical Unit
SAVIAH Small Area Variation In Air pollution and Health
SIG Systme dinformation gographique
SMARHAGT SMall ARea Health Analyses: A Geographic Toolkit
SMR Ratio de morbidit/mortalit standardise
UIOM Usine dincinration dordures mnagres






Institut de veille sanitaire Introduction aux statistiques spatiales et aux systmes dinformation gographique / p. 3
Rsum
Les variations spatiales des indicateurs de sant et des facteurs dexpositions environnementales sont tudies en
pidmiologie dans un but descriptif et afin de suggrer des hypothses tiologiques.
Ce travail sintresse aux tudes cologiques dans lesquelles les donnes (indicateurs de sant et facteurs de risque)
sont mesures lchelle dune unit gographique (commune, lots regroups pour linformation statistique (Iris), etc.)
et non lchelle de lindividu.
Dune part, les tudes autour dun point source visent dterminer sil existe ou non un excs de risque li
lexposition gnre par un site particulier. Dautre part, les tudes de corrlations gographiques ont pour objectif
dexaminer dventuelles relations entre les variations spatiales de facteurs dexposition environnementale et celles des
indicateurs sanitaires.
Lobjectif de ce travail est de prsenter et de discuter sur les principaux outils et mthodes mettant en uvre des
systmes dinformation gographiques (SIG) et les statistiques spatiales utilises dans les tudes cologiques
gographiques. Les possibilits quoffrent la mise en uvre des SIG et lexploitation des donnes gographiques sont
prsentes en sappuyant sur des exemples concrets de travaux mens au Dpartement sant environnement (DSE) de
lInstitut de veille sanitaire (InVS), ainsi que quelques exemples issus de la littrature, en insistant sur les prcautions
qui doivent accompagner leur utilisation.
Sont ensuite dcrites et discutes des mthodes statistiques adaptes lanalyse de donnes agrges et lanalyse
des relations entre indicateurs sanitaires et indicateurs dexposition des facteurs de risques environnementaux.
La modlisation et lanalyse statistique de ces donnes posent un certain nombre de difficults mthodologiques :
la forte variabilit, la dpendance spatiale, lexistence de diffrentes chelles spatiales, etc. Sont prsents les outils
statistiques les plus utiliss pour rpondre ces difficults.
Malgr un certain nombre de biais et de difficults dinterprtation lis prcisment la nature agrge des donnes,
les tudes cologiques prsentent certains avantages, notamment en termes de puissance statistique, dtendue de la
zone et de la population dtude. De nombreux travaux sont consacrs au dveloppement mthodologique des tudes
cologiques gographiques en sant-environnement et concernent en particulier les mthodes de dtection de clusters,
les modles spatiaux, spatio-temporels, les modles conjoints de plusieurs maladies ou de sources de donnes
multiples, etc. Les travaux de dveloppement mthodologique tentent de rduire les biais inhrents aux tudes
cologiques. Combiner des donnes dexposition individuelles ou intra-unit spatiale avec les donnes agrges
permettrait damliorer ce type dtude. Concernant les tudes dinvestigations autour dun point source, il semble plus
pertinent de raliser une tude multicentrique autour de sites prsentant les mmes caractristiques dmission.

p. 4 / Introduction aux statistiques spatiales et aux systmes dinformation gographique Institut de veille sanitaire
1. Introduction
"Lpidmiologie spatiale est de plus en plus utilise pour valuer des risques sanitaires en association avec des
pollutions environnementales. Pour cela, elle doit combiner des mthodes de lpidmiologie, des statistiques et les
techniques des systmes dinformation gographique" [1].
Dans le champ de la sant environnementale, lanalyse de la rpartition spatiale dindicateurs de sant comporte
diffrents objectifs : dune part, la description de ces variations et la modlisation de leur structure et, dautre part, la
mise en vidence des associations entre ces variations et celles dexpositions des facteurs de risque
environnementaux.
Les variations spatiales des indicateurs de sant et des facteurs dexpositions environnementales sont tudies en
pidmiologie dans un but descriptif et afin de suggrer des hypothses tiologiques [2].
Diffrents types danalyse faisant intervenir une approche gographique peuvent tre identifis : la reprsentation
cartographique du risque de maladie, la dtection dagrgats spatiaux de cas (clusters) autour dun point source, par
exemple (incinrateurs, sites de stockage de dchets radioactifs), ou encore lvaluation de lassociation entre risque
et exposition environnementale en fonction de facteurs de risque connus (cancer et rejets des incinrateurs, cancer et
arsenic hydrique, par exemple). Pour effectuer ces analyses, des informations spatialises sont mobilises.
Ces informations peuvent tre des donnes sanitaires, comme par exemple les cas pour une pathologie donne,
golocalises partir des adresses prsentes dans les bases de donnes existantes ainsi que des informations
contextuelles (occupation du sol, rseaux routiers, les sites pollus, etc.) qui seront exploites dans un SIG puis dans
lanalyse statistique.
Ce travail sintresse plus particulirement aux tudes cologiques dans lesquelles les variables (indicateurs de sant et
facteurs de risque) sont mesures lchelon dun groupe (unit gographique, commune, Iris, etc.) choisi pour sa
pertinence, selon lobjectif de ltude et les donnes dont on dispose, et non lchelle de lindividu. Lindicateur
sanitaire est alors une donne agrge qui est le rsum dobservations individuelles comme par exemple le nombre
observ de cas de cancer par commune. Les tudes cologiques prsentent plusieurs avantages. En effet, elles utilisent
des donnes dj disponibles, grce, par exemple, aux registres de maladies (cancers, malformations congnitales,
notamment) et au dveloppement des pratiques de gorfrencement des adresses des cas enregistrs. Elles exploitent
des estimations de facteurs environnementaux ralises lchelle des units gographiques, qui prsentent a priori
des variations inter-units plus importantes quentre individus. Elles permettent en outre de se prmunir du risque
derreurs de mesure li aux tudes individuelles. Ces tudes, qui utilisent comme unit dobservation lensemble de la
population rsidant dans une zone, ont une puissance statistique importante. Cependant, elles posent galement un
certain nombre de problmes mthodologiques sur lesquels nous reviendrons. Parmi ces difficults, celle de
linterprtation des rsultats est dlicate : lvaluation du lien individuel partir du lien estim sur les donnes
agrges est souvent loin dtre directe et vidente. Sous la dnomination gnrale dtude cologique sont en fait
regroups plusieurs types de travaux aux dmarches mthodologiques diffrentes. Nous nous intresserons ici plus
particulirement, dune part, aux tudes menes autour dun point source, et, dautre part, aux tudes de corrlations
gographiques. Les tudes autour dun point source visent dterminer sil existe ou non un excs de risque li
lexposition gnre par un site particulier. Les tudes de corrlations gographiques, galement dnommes
rgressions cologiques, ont pour objectif dexaminer dventuelles relations entre les variations de facteurs
dexposition environnementale et les variations dun ou plusieurs indicateurs sanitaires. Il ne sagit pas ici de dresser
une liste exhaustive des diffrentes mthodes et outils de lapproche spatiale en pidmiologie. Lobjectif de ce travail
est de prsenter et de discuter sur les principaux outils et mthodes mettant en uvre des systmes dinformation
gographiques et les statistiques spatiales utilises dans les tudes cologiques gographiques.
Aprs avoir prcisment dfini les spcificits des tudes cologiques gographiques auxquelles sintresse plus
spcifiquement ce travail, nous dfinirons les SIG ainsi que les grandes caractristiques des donnes spatialises.
Les possibilits de tels outils et donnes seront prsentes en sappuyant sur des exemples concrets de travaux mens
au DSE de lInVS, ainsi que quelques exemples issus de la littrature, en insistant sur les prcautions qui doivent
accompagner leur utilisation. De la dfinition dune population ou dune zone dtude, la cartographie des rsultats,
en passant par lidentification des sources et des voies dexposition potentielles (industries polluantes, principales
infrastructures routires, etc.) ou lestimation de lexposition des populations (cration dindicateurs dexposition, etc.),
lutilisation des SIG trouve tout son sens dans des applications la sant environnementale tant le volume et la
diversit des donnes mobiliser peuvent parfois tre importants.
Sont ensuite abordes et discutes des mthodes statistiques adaptes lanalyse de donnes agrges lagrgation
des donnes sanitaires lchelle dune maille gographique donne tant la caractristique premire des tudes
Institut de veille sanitaire Introduction aux statistiques spatiales et aux systmes dinformation gographique / p. 5
cologiques et lanalyse des relations entre indicateurs sanitaires et dexposition des facteurs de risque
environnementaux. La modlisation et lanalyse statistique de ces donnes posent un certain nombre de difficults
mthodologiques sur lesquelles nous reviendrons plus longuement : la forte variabilit, la dpendance spatiale,
lexistence de diffrentes chelles spatiales, etc. Nous prsenterons les outils statistiques les plus utiliss pour rpondre
ces difficults, qui sont les modles hirarchiques baysiens mis en uvre grce aux techniques de Monte Carlo par
chanes de Markov.
Afin douvrir cette prsentation des innovations mthodologiques, le chapitre 5 de ce travail sintresse loutil Rapid
Inquiry Facility (RIF), dvelopp par lImperial College de Londres, qui combine mthodes statistiques et technologie
SIG pour des tudes pidmiologiques.
Enfin, ce travail sachve par des conseils sur lutilisation de certaines mthodes utilises en pidmiologie
gographique (ou la recommandation de ne pas les utiliser).
Afin de bien dlimiter le cadre des types dtudes auxquels sintresse ce travail, il convient, en premier lieu, de dfinir
prcisment les caractristiques ainsi que les difficults spcifiques qui sont lies aux tudes cologiques
gographiques.
1.1 tudes locales autour dun point source
Les tudes descriptives effectues autour de sites particuliers cherchent mettre en vidence une augmentation du
taux dincidence de pathologies ou de taux de mortalit spcifiques de populations vivant proximit de ces sites.
La population vivant proximit dune source polluante est suppose expose et est compare une population de
rfrence suppose non expose ou, en tout cas, moins expose. Ces tudes se retrouvent sous diffrentes formes
selon la zone de rfrence choisie. Il peut sagir dune comparaison :
zone locale versus zone de rfrence (en gnral, la zone de rfrence est la France entire) ;
zone locale au sein de zones voisines de tailles quivalentes ;
zone locale avec un gradient dexposition.
Lobjectif est de conclure ou ne pas conclure une diffrence entre la population expose et la population de rfrence
et rpondre la question sur la ncessit ou la non-ncessit de faire dautres tudes.
Le nombre de cas survenus sur une priode donne est comptabilis, le nombre de cas attendus est estim partir de
taux dincidence/mortalit de rfrence (taux "France entire", par exemple) et lexistence dun excs ou dun dficit de
cas est alors test en comparant le nombre de cas observs au nombre de cas attendus, standardiss sur des facteurs
dmographiques, lge et le sexe, principalement. Ce ratio dincidence/mortalit standardis reprsente le dficit ou
lexcs dincidence/mortalit par rapport une population type.
Lapproche classiquement utilise pour lanalyse du risque proximit dun point source consiste dans le calcul du ratio
de morbidit/mortalit standardise (SMR), de son intervalle de confiance et dun test statistique.
Le chapitre 2 prsente des outils SIG qui peuvent tre utiles dans ces tudes pour dfinir et caractriser la population
expose, dlimiter la zone dintrt, dcrire un contexte environnemental, etc. Le chapitre 3 prsente des mthodes
statistiques alternatives qui peuvent tre utilises dans ces tudes : les mthodes de dtections de cluster et de
reprsentation cartographique.
La note mthodologique "Les tudes locales autour dun point source. Les diffrentes mthodes statistiques, leurs
avantages et leurs inconvnients" [3] prsente les mthodes utilises, et discute des limites et difficults de ce type
dtude.
"Ces tudes posent des problmes quant la mthodologie danalyse ainsi quau niveau de linterprtation des
rsultats"[4]. Les tudes locales autour dun point source souffrent dtre mises en place pour rpondre une
perception dj existante dune surincidence en effet, ces tudes sont souvent menes pour rpondre
linterrogation des populations locales proximit de ces points sources. Les tests statistiques sont alors utiliss
a posteriori "pour confirmer" lventuelle surincidence. Les hypothses des tests statistiques, la collecte des donnes et
la dfinition de la zone dtude peuvent tre biaiss par ce problme [5]. De plus, les tudes locales souffrent de leur
construction intrinsque base sur une analyse cologique gographique (biais cologique), dun manque de contrle
des facteurs de confusion, de leur caractre unique, les rendant potentiellement sujettes aux variations alatoires.
Ces dfauts rendent difficilement crdible toute analyse locale base sur cette approche, sauf dans le cas exceptionnel
o le risque serait tel quil ne pourrait pas a priori tre li un facteur de confusion ou au hasard.

p. 6 / Introduction aux statistiques spatiales et aux systmes dinformation gographique Institut de veille sanitaire
1.2 tudes de corrlations gographiques
Lobjectif est dtudier, au niveau de groupes dindividus dfinis sur une base gographique, la relation entre un
indicateur de sant et une exposition environnementale.
Les tudes cologiques nont pas pour but ltude des risques au niveau individuel mais ltude des effets de groupe
expliquant une partie de la variation entre les units gographiques de lincidence de la pathologie tudie. Il sagit
dtudes descriptives qui peuvent permettre de gnrer des hypothses tiologiques individuelles [6]. Les tudes de
corrlations gographiques sont appropries quand il sagit dtudier des expositions stables dans le temps mais
variables dans lespace (radon, composition de leau de boisson).
Pour raliser ces tudes, il est ncessaire de dfinir : les pathologies dintrt et les indicateurs sanitaires pertinents,
lunit statistique, la zone dtude et la priode dtude, le facteur de risque environnemental dintrt et lindicateur
dexposition ce facteur de risque ainsi que les facteurs de confusion.
Les indicateurs sanitaires sont bass en gnral sur les donnes recueillies en routine, telles que les donnes de
mortalit issues de la surveillance prenne des causes mdicales de dcs ou sur des donnes dincidence. Pour les
cancers, ces donnes dincidence peuvent tre issues de la surveillance prenne des registres des cancers (registres
gnraux, registres spcifiques). Les donnes de population par sexe, ge et unit spatiale sont essentielles pour
calculer les indicateurs sanitaires. Ces donnes sont obtenues par recensement et sont disponibles auprs de lInstitut
national de la statistique et des tudes conomiques (Insee). Les difficults lies lestimation de la population dans ce
type dtude sont prsentes dans une note mthodologique dj cite [3].
Unit spatiale
Un point cl de ces tudes est le choix de lunit gographique approprie. Lunit optimale doit tre assez grande pour
fournir des indicateurs de sant stables et assez petite pour tre homogne en termes dexposition, de caractristiques
socio-conomiques Souvent, lunit est choisie en fonction des donnes de sant et des donnes dmographiques
disponibles et est dfinie sur un dcoupage gographique de type administratif (commune, canton) ou statistique (Iris).
La nature administrative du dcoupage peut amener une trs forte htrognit dans la rpartition dmographique
avec des zones peu peuples (zones rurales) et des zones densment peuples (zones urbaines). Par ailleurs, ce
dcoupage administratif peut ne pas tre toujours pertinent dun point de vue pidmiologique, et les rsultats peuvent
tre sensibles sa redfinition.
Zone dtude
La zone dtude doit permettre une bonne discrimination de lexposition. Elle doit permettre aussi de disposer dune
population suffisamment large pour les donnes sanitaires.
Priode dtude
La priode dtude repose habituellement sur les donnes les plus rcentes. En fonction des pathologies tudies et de
la latence de leurs survenues par rapport lexposition, elle peut reflter une exposition antrieure, allant de plusieurs
annes plusieurs dizaines dannes. Tout comme pour la zone dtude, afin de pallier au manque deffectif, plusieurs
annes de donnes sont collectes. Aucune information individuelle ntant disponible, les mouvements migratoires ne
sont pas pris en compte : on suppose que les individus nont pas dmnag entre la priode dexposition et la priode
dtude. Ceci rend difficile une bonne dfinition de la population risque au niveau de petites zones gographiques.
Facteurs de confusion
Un autre point important est la prise en compte des facteurs de confusion "en raison de la faiblesse quantitative des
risques estims, faiblesse qui rend thoriquement plus plausible quune partie de leffet provienne de variables
concomitantes."[7].
Institut de veille sanitaire Introduction aux statistiques spatiales et aux systmes dinformation gographique / p. 7
Mthodes et biais
Le chapitre 2 prsente des outils SIG utiles, voire indispensables, pour mener des tudes de corrlations gographiques,
notamment pour la construction dindicateurs dexposition ou de confusion (indicateur de densit de lhabitat par
commune par exemple partir du bti), pour caractriser un contexte environnemental (occupation du sol,
topographie, etc.). Le chapitre 3 prsente les mthodes statistiques utilises dans ces tudes.
On trouve de nombreux exemples de ce type dtudes dans la littrature [8-12]. Les tudes UIOM et cancer [13] et
arsenic hydrique et cancer (rapport en cours dcriture) sont des exemples de ce type dtude menes par le DSE de
lInVS.
Ces tudes sont difficiles interprter au niveau individuel cause du biais cologique, cest--dire la diffrence
potentielle entre le lien dose-effet individuel et celui estim au niveau de groupe. Le biais cologique est d la
variabilit intra-unit de lexposition et des facteurs de confusion. Les consquences de cette variabilit sont : un biais
de spcification (non prise en compte au niveau du groupe de relations dose-effet individuelles non linaires), un biais
de confusion (non-prise en compte de facteurs de confusion) et un biais de standardisation (les indicateurs dexposition
et de sant ne sont pas standardiss sur les mmes facteurs de confusion ge, sexe).
Le biais cologique peut tre ngligeable dans le cas dune faible variabilit intra-unit de lexposition, qui peut tre
obtenue en rduisant la taille des units spatiales, ou dun faible lien cologique. Le biais cologique peut tre rduit
en utilisant de linformation sur la variabilit intra-unit en incorporant des donnes individuelles dans le modle, en
introduisant les facteurs de confusion potentiels et en incorporant des effets alatoires dans le modle. Pour quil ny
ait pas de biais de standardisation, si on a standardis lindicateur sanitaire sur lge, par exemple, il faudrait que
lexposition soit constante entre classes dge. Il convient de se rfrer aux articles de Wakefield [14], de Salway [15] et
de Wakefield and Salway [16] pour une revue de ces biais et des mthodes pour les rduire. Best et al. [8] ont tudi la
sensibilit des analyses de rgression cologique diffrents biais et la prsence derreurs dans les donnes. De plus,
il est difficile de tenir compte dun temps de latence appropri entre lexposition et leffet sur la sant.
Avant dentreprendre une tude cologique, quelques lments doivent tre considrs avec attention [15] :
il est important que la variabilit de lexposition entre units soit leve et que la variabilit intra-unit soit faible ;
il est important de prendre en compte le plus dinformations possible sur les facteurs de confusion potentiels ;
il est important de prendre en compte linfluence de facteurs de confusion non mesurs avec des modles adapts
(par exemple, en cas de surdispersion : modles avec effets alatoires) ;
il est important que la variabilit entre units des facteurs de confusion non mesurs soit la plus petite possible.
Les facteurs qui donnent confiance dans les rsultats de ce type dtudes sont la qualit des donnes, lutilisation
approprie des donnes et la prise en compte des limites des donnes. Les limites des donnes affectent les rsultats
des analyses statistiques et limitent les analyses qui peuvent tre faites. Elles doivent tre prises en compte au moment
du choix du type dtude.
1.3 Intrt et limites de ces tudes
Les avantages de ces tudes sont :
donnes facilement disponibles (registres des maladies, recensement) ;
la taille de la population tudie peut tre importante, ce qui facilite la dtection d'augmentations de risque
relativement faibles ;
les mesures moyennes au niveau dunits gographiques sont sans doute moins sujettes des erreurs de mesure ;
les contrastes dexposition sont potentiellement plus importants quau niveau individuel (augmentation de la
puissance) [8] ;
elles correspondent des "expriences naturelles" quand lexposition a une base gographique physique (radon,
pollution de lair, qualit de leau) qui peut tre exploite [8].
Les dveloppements statistiques de lquipe du Small Area Health Statistical Unit (SAHSU) et lutilisation des SIG ont
ramen de lintrt vers les tudes cologiques en particulier pour des petites units spatiales.
Ces tudes doivent tre interprtes avec prudence cause des nombreuses sources de biais et de confusion, en
particulier cause du biais cologique et des erreurs de classification de lexposition.
Les modles de rgression cologiques font abstraction de linformation sur les expositions individuelles et leur
variabilit. Le biais cologique peut tre important, par exemple, quand il y a de la variabilit intra-unit de lexposition
p. 8 / Introduction aux statistiques spatiales et aux systmes dinformation gographique Institut de veille sanitaire
et le modle exposition-risque nest pas linaire, et quand il y a de la variabilit intra-unit des facteurs de confusion
[8]. Le biais cologique peut tre ngligeable dans le cas dune faible variabilit intra-unit ou dun faible lien
cologique.
Les tudes cologiques restent attractives pour tudier des facteurs environnementaux pour lesquels lexposition est
relativement homogne et si lunit gographique utilise est assez fine. De plus, obtenir des expositions individuelles
est difficile. La possibilit que le biais cologique invalide les conclusions dune tude cologique montre que lutilit de
ce type dtude est limite [15]. Cest pour cela quavant dengager une tude cologique, il est ncessaire de vrifier la
disponibilit des donnes et, en particulier, des facteurs de confusion potentiels. Pour prvenir le biais cologique,
il serait ncessaire davoir des donnes individuelles pour contrler la distribution intra-unit de lexposition et des
facteurs de confusion et effectuer alors des tudes qui combinent donnes cologiques et donnes individuelles
[17-19]. La prise en compte de la variabilit de lexposition intra-unit gographique peut amliorer les estimations des
effets individuels [20].
2. Les systmes dinformation gographique
Lobjet de ce travail tant de prsenter les outils et les mthodes mettant en uvre les SIG et les statistiques spatiales
appliques aux tudes gographiques en sant environnementale, il est ncessaire pour commencer de dfinir
prcisment ce quest un SIG.
"Un SIG est un ensemble de matriels informatiques, de logiciels, de donnes gographiques, et de personnel capable
de saisir, stocker, mettre jour, manipuler, analyser et prsenter toutes formes dinformations gographiquement
rfrences (F. de Blomac, 1994)". Un SIG est de ce fait un outil complet de connaissance, daide la dcision et de
communication. Il ne peut tre rduit sa seule dimension de logiciel, mme si dans le langage courant, cest assez
souvent le cas. Enfin, un SIG ne saurait tre rduit la fonctionnalit de cartographie automatique mme sil permet de
produire des cartes qui restent un outil privilgi de rflexion et dinformation. Les sciences de linformation
gographique ou "gomatique" constituent ainsi un rel savoir-faire que lon ne saurait limiter la seule connaissance
et matrise dun logiciel informatique.
La plupart des crits sur le sujet sattardent justement sur la dimension "outil informatique" de ces systmes tandis que
dautres insistent sur les capacits daide la dcision et de production de nouvelles informations partir de la
superposition de donnes pralablement spatialises [21].
Dans tous les cas, le SIG permet la collecte et le stockage, la visualisation, la superposition, linterrogation et lanalyse
des donnes gorfrences. Sa logique systmique en constitue le principal atout dans lidentification et lvaluation
des questions de tous ordres. Dans le champ de la sant, il permet ltude des dynamiques spatiales pour la
comprhension de certains faits de sant. Ceci afin de rpondre aux questions : qui ? O ? Et pourquoi l ?
Dans le champ plus spcifique de la sant environnementale, les SIG sont notamment utiliss dans le processus
dvaluation de lexposition des personnes. Ils permettent de prciser la dlimitation spatiale de la population tudie
( laide des donnes doccupation du sol, par exemple), didentifier des sources et des voies dexposition potentielles
(industries polluantes, principales infrastructures routires, etc.), dintgrer lanalyse les niveaux de certains polluants
dans lenvironnement pour finalement estimer lexposition des populations (cration dindicateurs dexposition) [22].
2.1 Les possibilits dutilisations du SIG au regard des besoins en
sant environnementale
Latout principal du SIG rside dans le fait quil permet de visualiser, dexplorer et de croiser plusieurs sources de
donnes trs diffrentes en mme temps. Ce type dexploration permet de mieux comprendre dventuelles
interrelations entre lenvironnement, la sant et les caractristiques dmographiques et/ou socio-conomiques des
populations.
Dune manire gnrale en sant, les SIG sont aussi beaucoup sollicits pour la reprsentation cartographique des
maladies. Par ailleurs, le SIG rend possible la mise jour des donnes pour suivre une volution spatio-temporelle dun
problme de sant. Enfin, il peut tre trs utile comme outil daide la dcision dans le cadre dune procdure de
gestion des alertes. Il permet la synthse des donnes de gestion de crise pour une comprhension rapide des enjeux et
une prise de dcisions.
Institut de veille sanitaire Introduction aux statistiques spatiales et aux systmes dinformation gographique / p. 9
En pidmiologie environnementale, plus particulirement, lapproche spatiale est prpondrante dans plusieurs types
dtudes : les tudes cologiques gographiques et les tudes locales autour de points sources. Cest sur ces deux types
dtudes que porte plus particulirement ce travail. Mais le SIG nen est pas moins galement mobilis dans des tudes
pidmiologiques individuelles ds lors quil sagit dtudier une exposition. Les SIG sont trs souvent associs ces
types dtudes lorsquelles comportent une forte composante spatiale.
On peut classer les diffrentes utilisations qui peuvent tre faites des SIG en sant environnementale de la faon
suivante :
la localisation des donnes sanitaires et environnementales pour leur visualisation : le SIG permet de
gorfrencer (attribuer des coordonnes gographiques un objet afin de le localiser dans lespace) des donnes et
de mettre en uvre des donnes de nature trs diffrentes et qui nont souvent pas la mme rsolution spatiale.
Grce la prise de connaissance de ces donnes, cest lensemble du contexte environnemental qui peut tre dcrit
et mieux apprhend ;
la dlimitation de la zone dtude et la description des populations exposes : cest souvent dans le
SIG, une fois intgres les donnes sanitaires aprs go-rfrencement, et les donnes du contexte environnemental,
que pourra tre dfinie la zone dtude et de ce fait, la population dintrt. Dans le cas dune tude locale autour
dun point source, le SIG permet dinvestiguer rapidement en visualisant prcisment le lieu de lincident (accs,
distances, environnement, importance et rpartition, la dlimitation dun primtre dintervention et/ou de scurit,
etc.), en localisant les dangers recenss sur le territoire, en reprsentant un contexte environnemental travers des
quipements et des points de vulnrabilit (dans le cas dun risque de pollution de leau par exemple, cest dans le
SIG que lon pourra rapidement positionner les units de distribution, les points de captages, etc.), pour finalement
aider la dfinition de la zone dtude et lvaluation dune exposition de la population et son niveau de
vulnrabilit (positionnement des tablissements de sant, des coles, des crches, etc.) ;
la construction dindicateurs : le SIG est utilis pour combiner les donnes afin de crer de nouvelles
informations (par exemple, des indicateurs dexposition au trafic, indicateur dexposition une pollution de type
industriel, etc.) pour permettre lanalyse statistique (dtection de cluster, rgression de Poisson, etc.) ;
la communication dune information : enfin, cest grce aux outils du SIG que sera cartographie linformation de
manire efficace et directement utilisable pour la prise de dcision et la communication des rsultats dune tude
pidmiologique.
2.2 Dfinitions et notions clefs indispensables la mise en place
dun SIG
2.2.1 En pidmiologie, quest-ce quun objet gographique ?
Les objets gographiques rencontrs en pidmiologie ne sont pas diffrents de ceux rencontrs dans dautres
domaines. Toute reprsentation cartographique passe par la traduction des lments rels que lon observe (industrie,
route, limite administrative) en objets graphiques qui sont de trois types (figure 1) :
le point : par exemple, les lieux de rsidence des sujets atteints de la pathologie tudie (cas) gorfrencs et
reprsents sur une carte ou encore les sites industriels, les hpitaux, etc. ;
la ligne (le linaire) : les routes, les cours deau, les lignes haute tension, tout lment dun rseau, etc. ;
le polygone (ou encore la tache, ou la zone) : les limites administratives, les sites industriels tendus, les nappes
deau souterraines, etc.
p. 10 / Introduction aux statistiques spatiales et aux systmes dinformation gographique Institut de veille sanitaire


I figure 1 I
Les objets gographiques

Les points, les lignes et les polygones constituent les "couches" dinformation gographique qui peuvent tre
superposes trs facilement dans un logiciel de SIG. Pour toute donne gographique, il est ncessaire de connatre un
minimum dinformation sur la donne elle-mme. Ces informations sont consignes dans les "mtadonnes",
elles renseignent notamment lutilisateur sur la date de constitution, la projection gographique, etc. Les donnes
gographiques sont dfinies par deux composantes indissociables : la dimension graphique et la dimension attributaire
de linformation (les caractristiques de lobjet). Les objets gographiques dfinis plus haut constituent la dimension
graphique ou encore spatiale de linformation, et la dimension attributaire des donnes est renseigne dans des tables
indissociables des objets graphiques dans le SIG. Par un mcanisme de jointure et grce un identifiant unique qui sert
de clef, des informations sanitaires, environnementales, dmographiques peuvent tre jointes aux informations
intgres dans le SIG.









Identifiant Activit Date de dbut dactivit Date de fin dactivit Production annuelle (t)
001
Industrie
plastique
1959 1999 xxx
Par exemple, une industrie (point) est associe un identifiant qui permet de joindre lobjet gographique ponctuel aux
informations attributaires qui le caractrisent, comme une date de dbut et de fin dactivit, une production annuelle,
etc. De la mme faon, lorsque lon dispose de donnes de sant gorfrences une maille administrative donne
prenons lexemple dun taux de mortalit par localisation cancreuse par commune il est trs simple dassocier ces
donnes la couche gographique des communes (polygones). Les limites communales constituent le fond de carte du
SIG. Les donnes de sant pourront tre cartographies et croises spatialement avec dautres donnes visant
caractriser lexposition environnementales. Les donnes peuvent tre intgres et reprsentes dans un SIG a partir du
moment o elles disposent dune rfrence spatiale comme des coordonnes gographiques (x,y) ou un identifiant
commun avec des objets gographiques pour lesquels il existe dj une couche graphique (pour la couche des
communes, le code dit "code INSEE").
Lopration qui consiste associer une adresse postale un couple de coordonnes (x,y) sappelle le gocodage.
En fonction des objectifs de ltude et les donnes disponibles, la prcision du gocodage est variable (figure 2) :
gocodage ladresse exacte, la parcelle cadastrale, la rue, la commune, etc. Lorsque lon fait un gocodage la
commune, cela signifie que les coordonnes de lobjet gorfrenc sont ceux du centrode de la commune.
Points Lignes Polygones
001
Objets
Gographiques : donnes
spatiales organises en
"couches"
Donnes attributaires : donnes alphanumriques
structures en bases de donnes
Institut de veille sanitaire Introduction aux statistiques spatiales et aux systmes dinformation gographique / p. 11
Un objet gographique possde donc une double caractristique : une rfrence spatiale pour sa localisation et des
donnes attributaires.
La configuration des donnes dune tude conditionne ainsi la mise en place ou non dun travail SIG. Lorsquune tude
pidmiologique se met en place et que sa composante spatiale ncessite la cration dun SIG, il est, de ce fait,
impratif de sinterroger sur les donnes disponibles et mobiliser.

I figure 2 I
Les gocodages
2.2.2 Que faut-il savoir propos des donnes ?
Plusieurs questions doivent tre lucides pralablement la mise en uvre dun SIG. Ces questions ne sont pas
diffrentes de celles que lon doit ncessairement se poser en pralable toute tude. Nanmoins, la dimension
gographique de lanalyse implique quelques questionnements spcifiques : de quels types de donnes
disposons-nous ? Les donnes de sant et les donnes environnementales au sens large (occupation du sol, donnes
sociodmographiques, infrastructures industrielles, etc.) sont-elles gorfrences ? Si elles ne le sont pas, quels sont
les moyens mettre en uvre pour pouvoir les intgrer au SIG ? Sont-elles disponibles ? Gratuites ou non ? quelle
chelle ? Quelle est la rsolution et la qualit de ces donnes ? Sur quelle priode sont-elles disponibles ?
Quelles donnes va-t-on crer pour lanalyse et partir de quelles sources de donnes existantes et en mobilisant
quelles connaissances gographiques du contexte de ltude (indicateurs dexposition, tiers facteurs, etc.) ? Quelle sera
la qualit des proxys ainsi obtenus ?
2.2.3 Comment choisir lunit spatiale de rfrence dune tude ?
Au vu de la diversit, de la disponibilit et de la qualit des donnes, il est ensuite indispensable de sinterroger sur le
choix de lunit spatiale de rfrence pour ltude. Lunit spatiale choisie pour ltude doit avant tout tre pertinente
vis--vis de la problmatique traite et des objectifs de ltude. Le choix de lunit spatiale de ltude va galement
dpendre de la rsolution spatiale des donnes et de leur compatibilit.
En passant dune perspective individuelle (chelle locale ou grande chelle) une perspective populationnelle (chelle
dpartementale, rgionale, nationale ou petite chelle), on augmente lhtrognit lintrieur de lunit spatiale et
lon peut plus aisment caractriser des groupes dun point de vue socioculturel par exemple (il est plus ais de
caractriser un quartier ou une rgion quun individu par rapport un autre). En parvenant, par le choix de la maille
spatiale de rfrence, faire ressortir des diffrences dhabitudes alimentaires, on peut par exemple parvenir
expliquer des diffrences observes de ltat de sant des populations (problmatique des maladies cardio-vasculaires,
par exemple). Dans dautres situations, cest la finesse des donnes dexposition qui conditionnera le choix de la maille
de rfrence pour une tude. En effet, si lon dispose par exemple de modlisations et de mesures des rejets dun ou
plusieurs sites industriels dans le but de caractriser lexposition ces industries, il sera ncessaire de choisir une maille
de rfrence qui permette au mieux de maintenir une importante variabilit entre les units spatiales, tant pour ce
facteur dexposition principal que pour les autres indicateurs intgrer dans lanalyse, en particulier les donnes
sanitaires.

Adresse exacte Centrode de la rue Centrode de la commune
(x,y)
(x,y)
(x,y)
p. 12 / Introduction aux statistiques spatiales et aux systmes dinformation gographique Institut de veille sanitaire
Lchelle de reprsentation et danalyse doit donc tre choisie avec prcaution, pour dcrire un fait de sant ou des
facteurs de risque et a une influence directe sur le portrait sanitaire que lon fait dune population, tant au plan
gographique que statistique [21].
Dun autre ct, les tudes cologiques gographiques trouvent leur principale limite dans le fait quil nest pas
possible de prendre en compte les spcificits locales dans lanalyse. Les tudes lchelle dun groupe dindividus
agrgs spatialement mettent lhypothse que lexposition est rpartie de manire homogne sur toute la zone.
Cela peut poser problme dans la mesure o lon ne peut pas faire rfrence au niveau individuel dexposition.
2.2.4 Quattendons-nous des SIG ?
Les objectifs de ltude vont dterminer quelles tapes de ltude il sera ncessaire de crer un SIG et quelles fins.
Les spcialistes des sciences de linformation gographique matrisent les possibilits techniques du SIG et cest en
faisant le lien entre leurs connaissances, la fois techniques et contextuelles connaissances des territoires
notamment que les objectifs de la mise en place du SIG dans une tude pourront tre dfinis.
Lorsque lon nest pas a priori familier des SIG et des mthodes danalyse spatiale, les attentes que lon peut avoir
vis--vis des SIG peuvent, dans certains cas, se restreindre la cartographie simple dune situation ou, tout au
contraire, dpasser le seul champ daction des SIG.
Le prsent document sattache justement clarifier les possibilits quoffre un SIG dans une tude pidmiologique
forte composante gographique.
Un SIG est un outil double :
- un outil danalyse qui permet deffectuer des traitements gographiques (cration de zones tampon, intersections,
croisement de couches, etc.). Le SIG intervient au mme titre quun outil statistique dans une tude et doit par
consquent tre prvu ds le dpart dans son design. Son utilisation comme outil danalyse est illustr par des
exemples concrets dtaills dans le chapitre 2.4 ;
- un outil de communication au sens large pour la cartographie descriptive :
visualisation rapide des donnes tout au long de ltude. Lorsque lquipe projet cherche comprendre le contexte
gnral dune tude, il est souvent pertinent de regarder une carte contextuelle reprsentant les lments de
lecture dun territoire comme loccupation du sol, la topographie, lhydrographie, les densits de population,
limplantation industrielle, etc.,
classification et hirarchisation des donnes,
cartographie des informations pour communiquer des rsultats.
Les rgles de reprsentation cartographique essentielles pour une communication efficace sont dcrites ci-aprs.
2.3 La cartographie : quelques rgles de reprsentation
des donnes gographiques
"La carte est une reprsentation conventionnelle, plane, en positions relatives, de faits concrets ou abstraits
localisables dans lespace." (Comit franais de cartographie).
La carte est une reprsentation visuelle qui donne voir une ou des informations localises dans un espace ainsi que
les interactions ventuelles et les relations entre ces phnomnes. Elle utilise un ensemble de modalits qui relvent
dun langage spcifique, un langage graphique, fond sur la perception visuelle. Il en dcoule que la ralisation dune
carte ncessite une rflexion sur linformation que lon veut transmettre, la nature du message quimpliquent les choix
de reprsentation et linterprtation qui pourrait en tre faite par le lecteur, la nature du public qui elle est destine,
etc. Tout cela implique donc la connaissance dun certain nombre de rgles suivre dans la ralisation dune carte,
rgles qui relvent de la smiologie graphique le sens que notre il associe aux objets graphiques. Mais cette
connaissance des rgles ne se suffit pas elle-mme, et une bonne cartographie associe presque toujours
lapplication de ces rgles un souci de lesthtique et de lquilibre visuel qui rentrent aussi en ligne de compte dans
la mesure o lil du lecteur bien souvent ne sera pas attir par un document cartographique disharmonieux.

Institut de veille sanitaire Introduction aux statistiques spatiales et aux systmes dinformation gographique / p. 13
2.3.1 lments de smiologie graphique
- Quest-ce que la smiologie graphique ?
Notre il, intuitivement, associe un sens aux objets graphiques quil peroit. La smiologie graphique, par ltude de
ces objets graphiques, du sens quils portent, et de lvolution dans lhistoire, a permis la dfinition dun "ensemble de
rgles qui permettent lutilisation dun systme graphique de signes pour la transmission dune information" [23].
Par le respect de ces rgles, le cartographe sassure en grande partie dune bonne comprhension de linformation quil
reprsente et du message quil veut transmettre.
- Quest-ce que le langage cartographique ?
"Cest une forme dexpression dont les signes graphiques lmentaires (le point, le trait, la tache) seraient lalphabet,
dont le vocabulaire est fait de variables visuelles et dont la syntaxe est dfinie par les rgles de la perception visuelle.
() Le langage cartographique regroupe ainsi lensemble des moyens graphiques qui permettent de diffrencier, de
comparer, dordonner, de mmoriser les informations transcrites sur le plan ou la carte." [23].
La cartographie est donc une discipline complexe o le cartographe associe des signes pour former des figurs en
fonction de variables visuelles (figure 6). Ces variables visuelles sont les suivantes, dclines sur les trois objets
graphiques disponibles pour le cartographe, savoir le point, la ligne ou le trait, la tache ou la zone, qui figurent en fait
ce que lon appelle en cartographie limplantation (ponctuelle, linaire ou zonale) dun objet.
Les variables visuelles
La forme/la texture
Gomtrique ou symbolique, la forme est uniquement diffrenciatrice, cest--dire quelle ne permet de transcrire
quune information qualitative. Les variations de la forme ne peuvent tre utilises pour traduire un ordre ou des
quantits. La forme sert diffrencier des informations en implantation ponctuelle ; elle peut galement tre utilise en
implantation linaire, elle permet alors par exemple de figurer des rseaux de nature diffrente. En implantation
zonale, on lutilise en faisant varier un figur lintrieur de la zone, on parle alors de la variable visuelle texture.
Dans les faits aujourdhui, la texture est moins utilise car elle charge visuellement la carte beaucoup plus que la
couleur, qui a les mmes caractristiques et que les modalits de publication et dimpression actuelles rendent plus
accessibles. Pour reprsenter les modalits dune information qualitative, en implantation
ponctuelle, on privilgiera la variation de forme ; en implantation zonale, on privilgiera la variation
de couleur.
Conseil : les symboles figuratifs sont proscrire si la densit de points reprsenter est leve ou une chelle trop
petite (France entire) car la lisibilit sera mdiocre. En revanche, les symboles figuratifs peuvent convenir une
reprsentation grande chelle (chelle de la commune par exemple), condition toujours que leur densit ne soit pas
trop leve et que les symboles ne soient pas dclins en de trop nombreuses modalits.
La taille
La taille dun objet est dfinie par sa longueur ou sa hauteur, sa surface ou son volume. Les variations de taille sont
facilement perues sur une carte et identifies des diffrences quantitatives. Cest la seule variable visuelle qui traduit
directement une variation de quantit. Elle ne sapplique quen implantation ponctuelle (on fait thoriquement varier la
surface du symbole proportionnellement la quantit reprsente), ou en implantation linaire (on fait varier
lpaisseur du trait). On peut nanmoins appliquer une variation de la taille dun symbole ponctuel pour reprsenter la
variation dune quantit (par exemple, la population dune commune) en figurant le symbole proportionnel sur le
barycentre (dans le SIG, le "centrode") du polygone figurant les contours de la commune.
p. 14 / Introduction aux statistiques spatiales et aux systmes dinformation gographique Institut de veille sanitaire


I figure 3 I
Variation de la taille des symboles

La couleur
Pour Jacques Bertin, gographe et cartographe, la couleur "exerce une indniable attraction psychologique.
[Elle] retient lattention, multiplie le nombre de lecteurs, assure une meilleure mmorisation et en dfinitive,
augmente la porte du message."[24]. La couleur dispose dun fort pouvoir diffrentiel et dune grande valeur
esthtique. La variation de la couleur permet de figurer les variations des modalits dune information qualitative.
Cest la variable visuelle qui permet le mieux de sparer des figurs cartographiques reprsentant des objets de nature
diffrente et qui transcrit avec le plus defficacit linformation qualitative. Dans le domaine de la sant o la
visualisation de donnes et la cartographie servent communiquer au public sur des sujets parfois sensibles, le choix
des couleurs est important : on fera, par exemple, une utilisation modre du rouge, qui reste associ au danger.
Une fois acquis le respect dun certain nombre de principes, une bonne utilisation de la couleur relve plus de la
pratique que de lapplication des rgles strictes.
Attention, la variation de couleur (du bleu, du vert, du jaune, du rouge) ne doit pas tre confondue
avec une variation de valeur dans une mme couleur, que lon appelle communment un "dgrad"
allant, par exemple, du beige trs ple au marron fonc. La variation de valeur dans une gamme
colore (simple gamme on fait varier la valeur pour une seule couleur ou double gamme dans
certaines reprsentations) traduit une information ordonne.
Institut de veille sanitaire Introduction aux statistiques spatiales et aux systmes dinformation gographique / p. 15


I figure 4 I
Valeur et couleur
La valeur
On appelle valeur le rapport entre les quantits de noir et de blanc perues dans une surface donne. Cela concerne
aussi la couleur que lon peut claircir ou foncer par apport de blanc ou de noir (voir ci-dessus). On obtient alors un
"dgrad" de couleur. La valeur est une variable visuelle qui permet de traduire un ordre (utilise uniquement pour
reprsenter une information ordonne), car lil classe naturellement les taches grises de la plus claire la plus
fonce en associant aux taches claires les valeurs faibles et aux taches fonces les valeurs fortes. Le plus souvent, on
utilise la variation de valeur sur une simple gamme, de noir et blanc ou de couleur. Cependant, il peut parfois tre utile
dintroduire une deuxime gamme, le saut dune gamme lautre servant alors faire apparatre une valeur seuil que
lon veut isoler ou distinguer : on peut vouloir isoler une valeur de rfrence, comme par exemple, en mto, sur des
cartes de temprature, on isole le 0 C ; on peut aussi avoir besoin de faire ressortir une valeur de la distribution
statistique de la variable que lon cartographie : moyenne, mdiane, etc.

p. 16 / Introduction aux statistiques spatiales et aux systmes dinformation gographique Institut de veille sanitaire

I figure 5 I
Double gamme de couleurs inverses
















Le grain
La variation de grain sobtient par agrandissement ou rduction dune texture. Elle correspond une variation de taille
de llment constitutif de la trame. La variable grain permet de reprsenter des caractres ordonns.
Cependant, lexprience montre que ce classement est limit trois ou quatre paliers au maximum. Elle est le plus
souvent dlaisse au profit de la valeur.
Lorientation
Elle sapplique un figur linaire (type hachure). Cette variable est diffrenciatrice et utilise pour reprsenter les
modalits de caractres qualitatifs.
La figure 6 rcapitule les diffrentes variables visuelles disponibles pour la reprsentation cartographique.
Institut de veille sanitaire Introduction aux statistiques spatiales et aux systmes dinformation gographique / p. 17

I figure 6 I
Les variables visuelles
2.3.2 Cartographier les informations : les choix de reprsentation
On distingue deux grandes familles de cartes : les cartes dinventaire et les cartes thmatiques. Les cartes dinventaire,
peu utilises en sant publique, sont des cartes qui recensent un maximum dinformations sur un sujet donn, avec un
objectif dexhaustivit. Ce sont, par exemple, les cartes que lon trouve habituellement sur les plaquettes des offices du
tourisme, ou encore les cartes IGN Top25 La ralisation de ce type de cartes pose de nombreux problmes (densit
de linformation, slection de cette information, prcision, esthtique) qui lui sont assez particuliers. Elle ne sera pas
aborde ici dans la mesure o elles ne font que rarement partie des cartographies ncessites par les travaux raliss
lInstitut, la diffrence des cartes thmatiques qui, elles, sont monnaie courante dans nos travaux. Les cartes
thmatiques sont des cartes gographiques illustrant, par l'utilisation de divers paramtres graphiques (couleur,
symbolique, taille, etc.), le comportement d'un phnomne en relation avec sa localisation spatiale.
Il existe diffrents types de cartes dites "thmatiques" : cartes par symboles proportionnels, cartes choroplthes
(reprsentation cartographique dune information quantitative par plages colores), cartes isoplthes (zones dlimites
par des courbes diso-concentrations, de niveaux, de tempratures, etc.), cartogrammes (la taille des units spatiales
varie en fonction des valeurs reprsentes, ce sont des schmas plus que des cartes, et ils ne sont absolument pas
envisageables avec des outils SIG standards), etc.
Le choix de la mthode de cartographie adopter va donc dpendre essentiellement de la nature de linformation que
lon souhaite reprsenter, et des caractristiques de la ou des variables qui portent cette information. En fonction des
variables reprsenter, le choix se portera sur tel ou tel type de cartographie thmatique, et sur telle ou telle variable
visuelle ou combinaison de variables si linformation reprsenter sur une mme carte est multiple.
Les variables cartographier peuvent tre regroupes en quatre grandes catgories :
les variables qualitatives nominales : linformation concerne des catgories, des types ; elle est destine classer les
entits sans notion dordre (type de culture, par exemple, pour une carte sur lagriculture, occupation du sol) ;
les variables qualitatives ordonnes : linformation concerne l aussi des catgories ou des types mais contient une
notion dordre : par exemple, le type de route entre chemin vicinal, route dpartementale, autoroute sous-tend
une notion dordre : le trafic est plus important sur une autoroute que sur un chemin vicinal ; ou encore la
caractrisation dune ville selon son statut administratif : entre une commune simple, un chef-lieu de canton, une




Taille



Valeur



Grain



Couleur



Orientation



Forme
p. 18 / Introduction aux statistiques spatiales et aux systmes dinformation gographique Institut de veille sanitaire
sous-prfecture, une prfecture, une prfecture de rgion, ou encore une capitale nationale, il existe un classement
par ordre dimportance ;
les variables quantitatives brutes, ou effectifs : ce sont toutes les variables qui dnombrent une quantit
(une population par exemple) dans labsolu ;
les variables quantitatives relatives, qui expriment un rapport : la quantit tudie est rapporte une autre
quantit : densit (population/surface), taux (population particulire/population totale)

I tableau 1 I
Reprsenter une information sur une carte

Implantation gographique


Donnes
ponctuelle linaire zonale
Nominales Forme et/ou couleur Forme et/ou couleur Couleur et/ou
texture-structure
(variation de la forme
sur une trame
remplissant la surface)
Qualitatives
Ordonnes Taille Taille Valeur
Effectifs
(population)
Taille avec une variation
proportionnelle leffectif
reprsent
Taille Taille sur un objet en
implantation
ponctuelle plac au
barycentre (ou encore
centrode) de la
surface concerne.
JAMAIS dutilisation
de la valeur pour un
effectif.
Quantitatives
Rapport
(taux)
Valeur si possible (parfois la
taille mais elle est prfrer
pour reprsenter des effectifs)
Valeur si possible
(parfois la taille mais elle
est prfrer pour
reprsenter des effectifs)
Valeur
Le tableau prcdent (tableau 1) est une bonne synthse des rgles appliquer dans le choix de la variable/des
variables visuelle(s) utiliser en fonction de linformation que lon souhaite cartographier.
Le tableau se lit de la manire suivante :
en ligne : le type de donnes que lon souhaite cartographier ;
en colonne : sur quels objets gographiques (on parle dimplantation) porte linformation reprsenter ;
dans les cases figure la ou les variables visuelles utiliser. On nutilise jamais la variable visuelle valeur (dgrad
du blanc au noir, ou dgrad dans une mme gamme colore) pour reprsenter une variable quantitative brute
(effectif, population) cause de leffet de taille quelle entrane : ainsi, sur des units gographiques de tailles
trs htrognes (les dpartements dIle-de-France, par exemple, ainsi Paris est beaucoup moins tendu que la
Seine-et-Marne), les grandes surfaces ressortiront beaucoup plus visuellement que les petites, alors que la
population des plus petites pourra tre bien plus importante (le cas de Paris et du reste de lIle-de-France, pour ce qui
est de la population, est un trs bon exemple). Par contre, cet effet de taille disparait si lon introduit la notion de
rapport : ainsi, par exemple, pour la cartographie de la densit de la population, puisque la surface est prise en
compte dans le calcul de la variable mme, leffet de taille disparat et il devient tout fait adapt dintroduire la
valeur comme variable visuelle pour ce type dinformation ;
reprsentation cartographique de plusieurs variables : carte combinant plusieurs variables ou
collection de cartes ? Il est parfaitement possible de cartographier plus dune information sur une mme carte
thmatique, condition toutefois que le regroupement sur une mme carte ait un sens (figure 7). Il faut nanmoins
tenir compte, dans ce cas, de la pertinence du regroupement sur une mme carte de ces informations ainsi que de la
lisibilit.
Institut de veille sanitaire Introduction aux statistiques spatiales et aux systmes dinformation gographique / p. 19

I figure 7 I
Cartographier deux variables sur la mme carte
Il faut ainsi savoir quau-del de deux (trois au grand maximum) variables cartographies sur un mme espace la
lecture devient ardue. Il peut tre alors prfrable de raliser une collection de cartes, en adoptant des modes de
reprsentation analogues dune carte lautre (figure 8).
Selon le type dinformation cartographie et les objectifs du travail, la collection de cartes pourra se dcliner de
diffrentes manires : soit une srie de cartes de la mme zone gographique faisant figurer les diffrentes variables
dintrt, soit une srie de cartes runissant les diffrentes variables dintrt mais dclines par rgions/dpartements
ou autre zonage gographique pertinent.










p. 20 / Introduction aux statistiques spatiales et aux systmes dinformation gographique Institut de veille sanitaire
Institut de veille sanitaire Introduction aux statistiques spatiales et aux systmes dinformation gographique / p. 21
la discrtisation dune variable continue
En dehors de la cartographie dune variable quantitative brute reprsente par la variation proportionnelle de la
taille dun symbole ponctuel, il sera souvent ncessaire de recourir une mthode de discrtisation pour
cartographier une information quantitative. Toute mthode de discrtisation pour la cartographie consiste
" subdiviser le domaine de variation dune srie statistique continue en classes de valeurs"[23]. Les mthodes sont
nombreuses. Le choix dpend des proprits de la distribution et des objectifs fixs quant linformation
communiquer comme le montre le tableau 2. Il ny a donc pas a priori de bonne ou de mauvaise mthode de
discrtisation, et il nest pas possible a priori den recommander une plutt quune autre, le choix devant se faire au
cas par cas.

I tableau 2 I
Quelques clefs pour choisir une mthode de discrtisation
Nature de
linformation
Mthode approprie Mthode inapproprie
Normale Moyenne cart-type ou classes
quiprobables
Classes damplitude gale ou progression
gomtrique ( droite) ou moyenne cart-
type ou classes quiprobables
Dissymtrique
Progression gomtrique (
gauche) ou mthode de Jenks
Amplitude gale/moyenne-cart-type
Uniforme Classes damplitude gale Progression gomtrique
Forme de la
distribution
Plurimodale Seuils naturels Jenks Amplitudes gales
Faire ressortir les
valeurs extrmes
Seuils naturels Jenks ou
comparaison une valeur
standard/de rfrence
Amplitudes gales
Comparaison
Moyenne cart-type ou classes
quiprobables (si distribution
normale) ou discrtisation par
quantiles
Arbitraire/seuils naturels/amplitude
gale/Jenks
Objectif recherch
Mettre en vidence une
configuration spatiale
Jenks Arbitraire
ArcGIS

propose un certain nombre de mthodes de discrtisation "prtes lemploi", celle quil utilise par dfaut est
la mthode de Jenks, dite aussi "des seuils naturels" [25]. Mais il est galement possible de fixer soi-mme les bornes
de ses classes, et ce dautant plus aisment que le logiciel propose de visualiser la distribution statistique des modalits
de la variable sur un diagramme de distribution. Le choix de la mthode est adapter la variable reprsente (il peut
ou non tre utile disoler une valeur de rfrence, de faire ressortir ou non certains indicateurs de dispersion comme la
mdiane, lcart-type, il peut tre pertinent ou non dadopter une discrtisation par quantiles). Cependant, il faut
noter de manire gnrale que lil ne peroit aisment les variations de valeur au sein dune trame, quelle soit en
noir et blanc ou en couleur, que sur sept paliers au grand maximum, et que le plus souvent, pour une bonne lisibilit,
il sera prfrable de se limiter quatre ou cinq classes.
Les classes sont ensuite identifies dans la lgende par les valeurs des bornes mentionnes ct des caissons ou des
symboles qui leur sont affects sur la carte. Le choix de la mthode de discrtisation conditionne grandement le
rsultat cartographique comme le montre la figure 9, la mme variable tant reprsente selon quatre discrtisations
diffrentes. Ce choix nest donc pas faire la lgre. Pour un lecteur averti, il peut tre utile de faire apparatre sur la
carte le mode de discrtisation adopt.
p. 22 / Introduction aux statistiques spatiales et aux systmes dinformation gographique Institut de veille sanitaire

I figure 9 I
Cartes montrant les diffrences entre mthodes de discrtisation

Pour plus dinformations, il convient de se rfrer larticle disponible partir de lURL :
http://www.hypergeo.eu/spip.php?article374 sur les discrtisations en elles-mmes et au document suivant, disponible
partir de lURL : http://www.hypergeo.eu/article.php3?id_article=274 sur les cartes choroplthes.
2.3.3 Des lments clefs pour la lecture dune carte
La ralisation dune carte implique de faire figurer de manire systmatique un certain nombre dlments
indispensables, qui sont de vritables clefs de lecture de la carte elle-mme. Par ailleurs, elle peut tre enrichie de
certains lments dont lajout peut rester optionnel, on distinguera donc ces deux catgories dlments.
- Les lments incontournables
Le titre
Ces lments sont tout dabord un titre, rpondant synthtiquement aux questions : quoi, o, et ventuellement,
quand, concernant les informations reprsentes. Ces informations peuvent aussi se rpartir efficacement, et pour plus
de concision, entre le titre de la carte lui-mme et le titre du bloc de lgende.
La lgende
La carte doit galement comprendre une lgende, qui met en regard des variables visuelles utilises et les informations
reprsentes dcrites l encore de faon la fois complte et synthtique. Si linformation cartographie est une
variable quantitative, il est indispensable de mentionner en lgende lunit dans laquelle cette variable sexprime ;
si cest une variable continue que lon a discrtise, il est ncessaire de figurer prcisment les bornes des classes
(prcision de lexclusion ou de linclusion des bornes dans les classes mentionnes).
Lchelle
Une carte doit galement toujours comporter une chelle : une carte est en effet une reprsentation en rduction de
lespace que lil doit pouvoir en quelque sorte reconstituer grce la mention de cette chelle. Lchelle doit tre une
chelle graphique car la lecture en est bien plus immdiate que sur une chelle numrique, et elle a en outre lavantage
dtre dynamique (elle volue automatiquement dans le SIG en fonction de la taille de la carte ou du niveau de "zoom"
Institut de veille sanitaire Introduction aux statistiques spatiales et aux systmes dinformation gographique / p. 23
choisi par lutilisateur. Les outils SIG proposent une grande diversit dchelles graphiques la disposition des
cartographes. Il est recommand dutiliser un style dchelle le plus simple et le plus lisible possible, dont lunit de
distance est claire et dont les mentions numriques seront des chiffres ronds et non des distances peu usuelles ; il faut
galement faire attention lunit dans laquelle ces distances sexpriment (viter le mtre pour une carte rgionale ;
viter des repres numriques de 7,3 km et privilgier les valeurs rondes telles 10, 20, 50, 100). Exceptionnellement,
on peut se passer de faire figurer lchelle : les cartes de la France mtropolitaine, ou dans certains cas, des cartes par
rgions peuvent la grande rigueur se passer dune chelle car notre il est assez habitu sa reprsentation et ses
dimensions spatiales (les cartes de France du bulletin mto tlvis ne comportent pas, par exemple, de mention
dchelle car le tlspectateur est compltement familier de ces reprsentations et sait reconnatre sa ville sur les
diffrents points o sont figurs tempratures ou symboles mtorologiques). Cela dit, cela est vrai si la carte sadresse
un public habitu ce territoire et ses dlimitations ; dans le contexte dun lectorat plus large, on prfrera faire
figurer une chelle mme sur un territoire aux dimensions bien connues. Par contre, on vitera de surcharger la
reprsentation dune carte qui comporte la fois la reprsentation dun espace dlimit (zone dtude, dpartement,
rgion) et un carton de localisation (petit encart figurant, soit la France entire, soit de faon diffrentielle la zone
cartographie plus en dtail) : celui-ci nest l qu titre trs informatif et nest destin qu localiser plus globalement
la zone dlimite que lon tudie, il ny a pas lieu dy ajouter des repres dchelle.

I figure 10 I
Exemple dune carte mtropolitaine sans mention de lchelle
p. 24 / Introduction aux statistiques spatiales et aux systmes dinformation gographique Institut de veille sanitaire

Enfin, quand on souhaite reprsenter la fois le territoire mtropolitain et loutre-mer, il faut veiller au fait que lchelle
varie souvent beaucoup dun territoire reprsent lautre et garder lesprit que la Guyane est bien plus tendue que
la Runion, et que cela doit tre mis en vidence par la prsence dune chelle.
La flche du Nord
Il est galement souvent utile de faire figurer sur une carte la flche indiquant le Nord. En effet, il arrive que lon soit
amen (assez rarement) tourner une carte pour des raisons de lisibilit et ne plus se conformer la convention qui
veut que le Nord gographique pointe vers le "haut" de la page. La mention du Nord devient alors indispensable.
Elle reste utile, mme sans rotation de la carte, quand on reprsente une zone plus limite du territoire, elle est alors,
au mme titre que lchelle, un lment utile lil pour se reprer. Elle devient plus facultative pour la reprsentation
plus petite chelle du territoire mtropolitain dans sa globalit, car tout-un-chacun dans cette dernire situation sait
intuitivement sans avoir besoin quon le lui rappelle que le Nord gographique se trouve en "haut" de la page.
La source
Enfin, la carte doit mentionner la source des informations quelle reprsente, de faon la fois synthtique et
exhaustive. Discrte sur la carte, elle renseigne nanmoins le lecteur sur la nature des donnes utilises, leurs auteurs,
leur date, autant dlments complmentaires ncessaires la bonne comprhension de la carte. Il faut y faire
apparatre lorganisme producteur et la date des donnes reprsentes (les variables que lon a cartographies) aussi
bien que les informations concernant lorigine et la date des fonds de cartes.
- Les lments optionnels
Lencart ou le carton de localisation
Quand la zone dintrt nest pas le territoire mtropolitain dans son ensemble, ou un autre territoire bien connu du
public auquel la carte est destine, il peut ne pas tre inutile dajouter la carte un "carton de localisation", en encart
de la carte elle-mme : le territoire dintrt est alors mis en valeur sur une reprsentation en taille trs rduite dun
territoire de rfrence bien connu du lectorat de la carte. Dans dautres situations, il peut tre ncessaire dagrandir, en
encart de la carte, une zone particulire du territoire : par exemple, sur de nombreuses cartographies de la France
mtropolitaine dans son ensemble, on ajoute un encart portant sur lIle-de-France, territoire aux entits spatiales peu
tendues et qualifies par des valeurs fortes pour de nombreuses problmatiques ce qui compromet un peu la lisibilit
sur ce territoire.
Les quadrillages/carroyages
Sur certaines cartes apparat un carroyage qui, le plus souvent, est destin faciliter le reprage visuel des distances.
Trs utilis sur les plans de ville, ou sur les cartes grande chelle, il na que peu de raisons a priori de figurer sur les
cartes produites sur des documents pidmiologiques ou de sant publique.
Le logo
En amont de la ralisation dune carte, il est ncessaire de se poser systmatiquement la question du destinataire du
document cartographique. Un document destin au grand public ou, au contraire, un public averti, nimplique pas
forcment les mmes choix ; on ne fera pas abstraction de cette question car elle conditionne autant le choix de la
variable reprsente, que la prsentation du titre, le choix des variables visuelles et la prsentation de la lgende :
vocable utiliser, prcaution prendre par rapport une donne qui pourrait tre sensible selon le public qui en sera
destinataire, choix des couleurs pour ne pas stigmatiser une zone gographique par rapport aux autres quand la
donne cartographie sous-entend un potentiel jugement de valeur. Il ne sagit pas, en se posant cette question et en
adaptant ses choix de cartographie son public, de fausser linformation que lon cartographie, mais plutt dtre
conscient que les possibilits de choix qui soffrent au cartographe lui permettent dajuster au mieux les modes de
reprsentation au message qui doit tre transmis. A contrario dailleurs, il est ncessaire de garder lesprit que,
justement, la varit des possibilits qui soffrent au cartographe peuvent dintroduire un message trompeur, et que la
dontologie du cartographe, cest aussi de savoir toujours garder justesse et prcision linformation cartographie.
- Lquilibre visuel dune carte
Voici en exemple une carte (figure 11) au format 15x15 cm environ, soit le format dans lequel on compose
gnralement une carte sous ArcGIS

dans un document au format A4 puisque la reprsentation du territoire franais


sinscrit grosso modo dans un carr.
Institut de veille sanitaire Introduction aux statistiques spatiales et aux systmes dinformation gographique / p. 25

I figure 11 I
Exemple de mise en page dune carte

Le temps moyen de lecture dune carte est faible puisquon considre gnralement que lil ne sattarde pas sur une
carte plus de 20 secondes, ou, du moins, quil est indispensable que lessentiel de linformation ait t perue par le
lecteur dans un temps infrieur cette dure. Lexpression "sauter aux yeux" est donc, ici plus quailleurs,
particulirement adapte linformation cartographique. Tout le travail du cartographe doit donc viser cet objectif de
lisibilit et de rapidit de lecture.
De ce fait, laspect esthtique entre ncessairement en jeu dans lattrait que doit avoir la carte pour que lil sy
attarde. Lquilibre visuel y contribue grandement et dpend essentiellement de la mise en page du document
graphique. Afin de crer cet quilibre visuel, il convient de construire son document comme un tout, en insrant
lensemble des lments clefs de la carte dans un cadre. Point nest besoin pour cela de multiplier les cadres,
justement, dans la mise en page. Les lments constitutifs de la carte et la carte elle-mme suffisent construire cet
ensemble quilibr et harmonieux. Selon la forme du territoire cartographi, on veillera ainsi utiliser les diffrents
"vides" pour linsertion de la lgende, de lchelle, etc. de faon construire ce cadre visuel. Enfin, lil faisant
naturellement plus facilement le lien entre des lments qui sont proches les uns des autres quentre des lments
loigns, on apportera un soin particulier intgrer les lments clefs de lecture, en particulier la lgende et lchelle,
proximit du territoire reprsent. Il faut bannir les cartes dont la lgende serait une page diffrente de celle de la
carte, par exemple. Enfin, la lisibilit devant rester un matre mot toutes les tapes du travail de cartographie, on
privilgiera toujours lallgement de la carte, quitte raliser plusieurs cartes, plutt que dessayer tout prix de
reprsenter toutes ses informations sur la mme carte, en la surchargeant jusqu la rendre difficile, voire impossible
lire (figure 12).
p. 26 / Introduction aux statistiques spatiales et aux systmes dinformation gographique Institut de veille sanitaire

I figure 12 I
Exemple dune mauvaise carte (carte extraite dun manuel scolaire de terminale histoire-
gographie, 1995)

La figure 12 prsente un bon exemple de carte difficile lire. vocation synthtique, elle se rvle en fait surcharge et
la limite de la lisibilit. Lil a du mal percevoir le territoire cartographi tant la densit des figurs et variables
visuelles utilises (cercles, flches, textures, symboles ponctuels en tout genre, couleurs) est importante. De plus,
comme on a cherch tout reprsenter sur une mme carte, il napparat pas de hirarchie entre les informations,
le titre est extrmement gnral et donc trs peu accrocheur.
Enfin, pour conclure, nous reposerons, la question du public destinataire de ce document. Il conditionnera lui aussi
normment le choix des informations figures, le choix des formulations (comment linformation est prsente), le
choix des variables visuelles (les couleurs notamment) Mme en respectant scrupuleusement les rgles de
smiologie graphique et de cartographie prsentes par ce document, il ny a pas une manire unique de reprsenter
ces informations sur une carte. Il convient, en rsum, de toujours veiller ce que le message soit correctement peru
par le destinataire, sans dformation, en veillant la faon dont il peut tre interprt, mais dans le respect de
linformation elle-mme, etc. Un juste dosage en quelque sorte, entre dontologie et pdagogie, qui rappelle que la
cartographie va souvent bien au-del de la seule matrise de rgles et doutils ou de logiciels, et que cest une vritable
discipline part entire. Au-del de la cartographie qui est une des disciplines majeures de la gomatique, on utilise
lclairage gographique et les systmes dinformation gographique pour dcrire un contexte dtude et la rpartition
spatiale des faits de sant.
2.4 Les SIG comme outil danalyse descriptive : tude des relations
spatiales entre les entits gographiques
Comme il la t dit dans le chapitre 2, le SIG est un outil de communication mais aussi un outil danalyse.
Il offre quantit doptions pour la description et lanalyse de linformation gographique. Les traitements
gographiques les plus utiliss se retrouvent aujourdhui dans tous les logiciels de SIG. Il sagit, par exemple,
Institut de veille sanitaire Introduction aux statistiques spatiales et aux systmes dinformation gographique / p. 27
doprations comme lintersection spatiale de deux couches dinformation gographique (on va dcouper une couche
"dpartement" par exemple au moyen dune couche "commune") ou encore le dcoupage dune couche dinformation
partir dune entit spatiale, le calcul de distance et de surfaces, etc., qui permettent finalement de crer de nouvelles
informations.
Parmi les traitements gographiques de base, la construction de zones tampon autour dentits spatiales est
couramment utilise pour mesurer la distance dun sujet ou dune entit administrative (commune, code postal) un
site pollu par exemple ou encore une station de mesure de la qualit de lair (figure 13).

I figure 13 I
Zones tampons ou cercles concentriques (buffers en anglais)

Source :

IGN-GoFLA

, 1999.
Dans une tude sintressant aux effets long terme de la pollution atmosphrique sur les participants dune cohorte
(volet long terme du Programme de surveillance air et sant, cohorte de 20 000 agents dlectricit de France - gaz de
France), il tait intressant de regarder quelle est la proportion de sujets de la cohorte rsidant 2, 5, 10, 15 et 20 km
dune station de mesure de la qualit de lair afin de juger de la pertinence dutiliser les mesures de ces stations pour
estimer lexposition des sujets la pollution atmosphrique. La slection des codes postaux en fonction de leur
distance aux stations a t possible dans le SIG grce loutil de cration des zones tampon.
Ces oprations peuvent tre menes sur une ou plusieurs couches dinformations go-rfrences pour dlimiter des
zones de proximit (zones tampon) ou des zones dinfluence (polygones de Thiessen
1
) partir de la distance
euclidienne ( vol doiseau). Parmi les oprations sur plusieurs couches, on retrouve notamment lintersection
gomtrique mais aussi la jointure spatiale entre deux couches, c'est--dire quun lment gographique
(une commune par exemple) va tre enrichi des caractristiques des entits spatiales avec lesquelles il est intersect
(les valeurs estimes dun polluant) (figure 14).

1
Pour un ensemble de points rpartis dans le plan, les polygones de Thiessen dlimitent autour de chaque point la zone lintrieur de laquelle on
est plus proche du point considr que de tout autre point. En d'autres termes, on dlimite ainsi la zone d'influence de chaque point d'un point de
vue gomtrique.
p. 28 / Introduction aux statistiques spatiales et aux systmes dinformation gographique Institut de veille sanitaire

I figure 14 I
Crer un indicateur dexposition par jointure spatiale

La jointure spatiale de la couche de points des valeurs de SO
2
avec celle des limites de communes permet ici de calculer
une moyenne des valeurs par commune et ainsi, crer un indicateur dexposition la commune qui sera exploit dans
lanalyse des effets de la pollution atmosphrique sur la sant.
Parmi les oprations danalyse gographique, il existe galement le comptage de points lintrieur dun polygone
(qui peut servir au calcul de prvalence par quartier aprs avoir gocod des cas par exemple) ainsi que les oprateurs
de proximit pour la slection des plus proches voisins, par exemple, ou encore la fusion dentits spatiales pour
changer dchelle (fusionner des Iris pour obtenir des communes). Les exemples de traitements gographiques rendus
possibles par la mise en uvre des SIG sont nombreux.
Une fois les donnes gorfrences recueillies et intgres dans le SIG (indicateurs sanitaires, environnementaux et
sociodmographiques), il est possible den observer les interactions spatiales. Les tudes sant-environnement se
prtent bien lanalyse de la dpendance spatiale, et celle de la similitude de lincidence entre units spatiales
proches gographiquement. Pour une maladie comme le cancer, la dpendance spatiale peut tre attribue la
rpartition spatiale non alatoire dune exposition environnementale, dun ou plusieurs facteurs de risque connus on
inconnus de la maladie. La mise en vidence dune structure particulire de la rpartition spatiale implique souvent la
reconnaissance de la similarit de la frquence de la maladie dans des rgions spatiales proches gographiquement
[26]. Ceci revient mesurer lautocorrlation spatiale et donc, valuer lintensit de la relation entre la proximit des
lieux et leur degr de ressemblance (les objets proches se ressemblent plus que les objets loigns) [27]. Deux types
dindicateurs peuvent tre utiliss : la proximit spatiale (mesure du plus proche voisin, figure 15) et le degr de
ressemblance (indice de Moran, figure 16).
Les SIG permettent dapprhender ces notions en complment de lanalyse statistique plus pousse. En effet, certains
logiciels proposent de calculer des indices dautocorrlation, des matrices de voisins, etc. et den cartographier les
rsultats.
Cest le cas du logiciel de SIG ArcGIS

qui est dploy lInVS. Ce logiciel dispose notamment doutils qui permettent
une premire analyse descriptive des donnes gorfrences travers la reprsentation des rsultats des calculs
statistiques (figures 15, 16 et 16 bis).

Institut de veille sanitaire Introduction aux statistiques spatiales et aux systmes dinformation gographique / p. 29
Gnrer une matrice des voisins ou matrice de pondrations spatiales

I figure 15 I
Copie dcran de la construction dune matrice des voisins dans ArcGIS



Loutil construit une matrice de voisinages afin de reprsenter les relations spatiales entre les entits dun jeu de
donnes. chaque entit correspond un certain nombre dentits voisines contiges comportant des caractristiques
spcifiques (indicateurs de sant, occupation du sol, etc.). Cet outil peut tre utilis pour dlimiter une zone
dexposition par exemple.
Effectuer un test dautocorrlation spatiale (indice de Moran I)

I figure 16 I
Copie dcran de la reprsentation de lindice local de Moran dans ArcGIS


Lindice local de Moran est un indice dautocorrlation spatiale. Loutil que propose ArcGIS

permet de calculer cet


indice et de reprsenter le rsultat du test sous forme schmatique (figure 16). partir dun ensemble dentits
pondres, loutil identifie lemplacement o les valeurs leves ou faibles sont regroupes dans lespace, ainsi que les
entits ayant des valeurs qui sont trs diffrentes des valeurs dentits environnantes.
Faire une analyse de concentration (statistique Gi* de Getis et Ord)

I figure 16bis I
Copie dcran de la reprsentation de lindice Gi* dans ArcGIS


p. 30 / Introduction aux statistiques spatiales et aux systmes dinformation gographique Institut de veille sanitaire
Lanalyse de concentration permet dvaluer le degr de concentration gographique dun semis de points dnombrs
dans un maillage. Loutil calcule la statistique Gi*de Getis et Ord [28] pour lanalyse de semis de points, puis applique
un type de rendu tonalit froides-chaudes aux scores Z en sortie (score de concentration des ponctuels). La mthode
suppose que la concentration dans une maille est indpendante de la concentration dans les mailles voisines [27].
Ces outils permettent une premire description des donnes spatiales et ne sont quune tape dans la recherche
dagrgats spatiaux. Cette recherche est mene et approfondie grce aux mthodes des statistiques spatiales dans un
deuxime temps. Ces mthodes sont dcrites et discutes dans le chapitre 3.
Grce linstallation de modules disponibles sous forme dextensions, il est possible de disposer dun certain nombre
de fonctionnalits complmentaires, en sus des outils standards du logiciel, qui fonctionnent un peu comme des botes
outils spcialiss et adapts des problmatiques plus spcifiques. Parmi elles, on peut voquer lextension Network
Analyst qui permet le calcul de litinraire optimal entre deux points travers un rseau de rues avec la possibilit
dune ralisation en temps rel (exemple : aux tats-Unis o de nombreuses villes disposent dapplications danalyse de
rseau dans un SIG afin de tracer le trajet le plus rapide entre un vhicule durgence et le lieu dun accident).
Cette extension a dj t acquise temporairement lInVS loccasion du travail dun stagiaire de Master 2 de
gomatique sur le calcul daccessibilit aux centres de soins pour les hmophiles. Lextension SpatialAnalyst que nous
utilisons dans le cadre de nos travaux au DSE permet, quant elle, en complment des outils danalyse spatiale utiliss
pour les traitements statistiques, de raliser par exemple le calcul de densit de lignes ou de points, de mettre en
uvre des mthodes dinterpolation (voisin naturel, krigeage, spline, etc.), et deffectuer des statistiques zonales, etc.
2.5 Lutilisation des SIG diverses tapes dune tude
pidmiologique : lexemple de travaux mens au dpartement
sant environnement de lInVS
Les SIG sont sollicits diffrentes tapes dun projet (dtermination de la composante spatiale dune problmatique,
mise en place dun protocole dtude SIG, dfinition de la zone dtude, construction dindicateurs, production
cartographique pour les rapports, etc.). Chaque tude, tant applique un sujet spcifique, elle fait appel des
donnes spcifiques, des units spatiales dfinies, etc. Cependant, quelles que soient les thmatiques et les
problmatiques dtude, les mthodes et les tapes de la rflexion qui font appel la mise en uvre du SIG restent
globalement toujours les mmes.
En sant environnementale, comme nous lavons dit, lexploitation de la technologie associe aux SIG ne sarrte pas
la reprsentation cartographique des indicateurs sanitaires. Les mthodes des sciences de linformation gographique
constituent un rel atout lorsquil sagit notamment dapprhender les expositions un facteur de risque
environnemental donn. Les donnes disponibles pour estimer ces expositions ne sont pas toujours directement
utilisables et intgrables dans un logiciel de SIG. Dans certaines situations, la donne nexiste mme pas en elle-mme
et le SIG est alors mobilis afin de construire un proxy de lexposition. Dans ce travail, la mobilisation de connaissances
et de rflexions gographiques constituent un passage oblig.
Institut de veille sanitaire Introduction aux statistiques spatiales et aux systmes dinformation gographique / p. 31

I figure 17 I
Superposition des donnes de natures diffrentes

Les SIG sont particulirement sollicits dans deux types dtude principalement : les tudes locales autour dun point
source et les tudes cologiques gographiques, et cest sur ces deux types dtude que nous nous penchons ici plus
spcifiquement. Les SIG sont en particulier mobiliss pour construire des indicateurs utiliss comme facteurs
dexposition ou dexposition secondaire intgrs comme facteurs de confusion dans les analyses statistiques. Mme si
notre travail sintresse principalement aux tudes gographiques, il peut sembler intressant de prsenter rapidement
ici les tapes de la construction dun indicateur dexposition dans une tude individuelle. Il sagit de ltude cas-
tmoins sur lexposition environnementale l'amiante chez les personnes riveraines d'anciens sites
industriels et affleurements naturels [29]. partir du positionnement des sites industriels susceptibles dmettre
de lamiante dans lenvironnement et des chantiers navals gorfrencs, le SIG a permis de construire un score
dexposition simple, reposant sur lloignement par rapport ces sites. Avant de disposer dun gocodage ladresse
des sites, on a propos un premier score simple qui se dcline la commune selon trois modalits (figure 18 - haut) :
2 score le plus lev : il se trouve dans la commune au moins un site rejetant de lamiante dans lenvironnement, 1 -
la commune est adjacente (voisinage immdiat) dune commune qui comporte un site rejetant de lamiante et 0 il ny
a pas de site rejetant de lamiante dans la commune ou dans les communes immdiatement voisines. Suite
llaboration de ce premier score, un second, plus labor, a t construit aprs le gorfrencement ladresse des
sites industriels et des individus de ltude. Ce score, cartographi ici (figure 18 - bas), est fond sur lloignement par
rapport aux sites. Les distances prises en considration ont t choisies de manire tenir compte le mieux possible
des caractristiques de dispersion des fibres damiante. Ce score, attribuant une valeur dexposition chaque adresse
des sujets, a ensuite t exploit de faon plus complexe dans lanalyse statistique par la prise en compte de lintensit
de lexposition selon les sites industriels slectionns, de la dure de lexposition grce lexploitation dun calendrier
rsidentiel (figure 18) [29].
La construction dindicateurs dexposition et de confusion via le SIG intervient rgulirement, quel que soit le type
dtudes pidmiologiques. Le choix a t fait de prsenter les utilisations des mthodes danalyse mettant en uvre
des SIG travers les tudes locales autour de points sources et les tudes de corrlation gographiques. Mais lexemple
dcrit prcdemment montre que ces mthodes sont tout aussi valables pour des tudes individuelles ds lors quelles
comportent une forte composante spatiale.
p. 32 / Introduction aux statistiques spatiales et aux systmes dinformation gographique Institut de veille sanitaire

I figure 18 I
tude cas tmoins sur lexposition environnementale lamiante









Institut de veille sanitaire Introduction aux statistiques spatiales et aux systmes dinformation gographique / p. 33
2.5.1 La mise en place dun SIG dans une tude pidmiologique locale autour
dun point source
Dans ce type dtude, la mise en place dun SIG permet :
- la prise en compte de la distance au point source par la cration de zones tampon dans une tude locale.
Une mthode classique pour estimer lexposition quand on a recours au SIG est dutiliser la distance entre source et
rsidence de la population. Il sagit de mesures de simple proximit qui ont tendance surestimer la population
rellement expose mais cest malgr tout un recours intressant lorsque lon ne dispose pas de donnes
dexposition plus prcises (mesures, modlisations) [22] ;
- la slection des communes concernes ;
- la cration de variables ncessaires ltude :
par le calcul de la superficie de la zone dtude,
par le calcul de la population totale concerne ;
- lexploitation des rsultats de la modlisation dune exposition pour sa reprsentation cartographique (par la
cration de courbes diso concentration par exemple) et ensuite lattribution des valeurs aux units spatiales tudies
(figure 20).

I figure 19 I
tude en cours autour du site de stockage de Soulaines

Le SIG permet dintroduire le facteur distance dans lexposition une pollution environnementale par la construction de
cercles concentriques (appels aussi buffers dans les logiciels de SIG) autour du point source et la slection par entits
spatiales des communes situes dans ce rayon donn. Dans ltude de mortalit et dincidence des cancers autour du
centre de stockage de dchets radioactifs de faible et moyenne activit de Soulaines, illustre ci-dessus (figure 19),
la zone dtude ressort en rouge ainsi que les communes dont le chef lieu est inclus dans un rayon de 15 km autour du
site (cercle violet). On a crois des donnes administratives (limites dpartementales et communales), dmographiques
(recensement de la population Insee), contextuelles (rseau hydrographique) avec le site de stockage afin davoir une
vision densemble de la zone dtude, une estimation de la population potentiellement concerne, etc.
Le calcul de surface facilement calculable avec un SIG permet ensuite de calculer la densit de population, par exemple,
mais aussi dvaluer des dgts et dorganiser les actions sur le terrain ventuellement.
p. 34 / Introduction aux statistiques spatiales et aux systmes dinformation gographique Institut de veille sanitaire
Dans ltude de lestimation rtrospective de lexposition lamiante des populations avoisinantes du
site de Comptoirs des minraux et matires premires (CMMP) dAulnay-sous-Bois [30], un SIG a t mis
en place afin dexploiter les rsultats de la modlisation des rejets de lusine ralise grce un logiciel ddi
(ADMS3

).

I figure 20 I
tude exposition lamiante autour du CMMP dAulnay-sous-bois



















Cette tude, mene conjointement par la Cellule de lInVS en rgion Ile-de-France et le DSE, comportait plusieurs volets
dont un centr sur lexposition aux rejets de fibres damiante dans lenvironnement par cette usine pratiquant
le broyage de matriaux, notamment de matriaux amiants, ayant fonctionn de 1938 1975. Grce aux archives et
aux informations sur le fonctionnement de latelier, on a pu effectuer une srie de modlisations de ces rejets en se
basant sur diffrents scnarios et ce pour les deux priodes de fonctionnement diffrent de lusine 1938-1959 et 1960-
1975. On a distingu deux priodes dtude car les modalits de ventilation et dtanchit des installations ont volu
entre ces deux moments du fait de travaux raliss dans latelier.
Les rsultats du modle ont t cartographis, aprs intgration des fichiers correspondant des grilles de points de
pas rgulier au SIG, sous la forme de courbes diso concentration, laide du module Spatial Analyst. La cartographie
propose utilise une slection de courbes effectue la lumire des diffrents seuils de risques et des seuils
rglementaires connus pour lexposition lamiante.
Outre le fait que la visualisation apporte une lisibilit optimale dun contexte, le SIG est en mesure daider estimer
la population impacte par les diffrents seuils cartographis selon les diffrents scnarios. En partant du postulat,
recevable puisque lon se trouve en zone urbaine assez dense et que la rpartition de la population se fait de manire
homogne sur lensemble du territoire de chacune des communes concernes, la part de la superficie totale de chaque
commune par les diffrentes courbes correspondant aux diffrents seuils est calcule. On en dduit leffectif de la
population impact par ces diffrents seuils, en fonction des scnarios. Une cartographie de synthse tous scnarios
confondus est galement propose (figure 20). La limite de ce travail rsidait principalement dans le fait que, dune
part, lestimation des effectifs de population concerne tait trs tributaire du scnario modlis, et dautre part,
Institut de veille sanitaire Introduction aux statistiques spatiales et aux systmes dinformation gographique / p. 35
elle tait trs dpendante des seuils retenus pour la cartographie, ce qui peut poser problme dans la mesure o la
relation entre lexposition aux fibres damiante et la survenue dun vnement sanitaire est considre comme tant
une relation sans seuil.
2.5.2 Lutilisation du SIG dans une tude de corrlation gographique
Dans ce type dtude, mettre en place un SIG peut permettre de :
dterminer lunit spatiale de rfrence utilise pour ltude ;
reprsenter des cas gocods au pralable selon lunit spatiale de rfrence choisie ;
tenter une harmonisation des donnes nayant pas la mme rsolution afin de les rendre compatibles entre elles
pour ltude ;
construire des indicateurs dexposition et des facteurs de confusion
2
. On va alors combiner les donnes existantes et
disponibles pour crer de nouvelles informations (indicateur dexposition au trafic, indicateur dexposition une
pollution de type industriel, etc.). Celles-ci sont ensuite reprises dans lanalyse statistique (dtection de cluster,
rgression de Poisson, etc.).

I figure 21 I
tude arsenic hydrique en Auvergne



2
Facteur de confusion : facteurs dexposition secondaires prendre en compte afin de mesurer lassociation entre lexposition principale tudie et
les effets constats sur la sant.
p. 36 / Introduction aux statistiques spatiales et aux systmes dinformation gographique Institut de veille sanitaire
Dans ltude sur larsenic hydrique et les cancers en Auvergne, un certain nombre dindicateurs dexposition
et de confusion ont t construits au moyen du SIG. Parmi eux, on peut citer lexemple dun proxy de lexposition
environnementale larsenic prsent dans les produits phytosanitaires utilis dans la culture viticole. Le calcul de la
surface viticole par commune (en pourcentage) a t retenu comme un bon indicateur de lventuelle pollution
hydrique par les produits phytosanitaires pouvant contenir de larsenic et spcifiquement utiliss pour ce type dactivit
agricole (figure 21). Ce nouvel indicateur est un facteur de confusion dans lestimation de lexposition des populations
larsenic hydrique et est utilis dans lanalyse statistique mene dans un second temps.
Par ailleurs, dans ltude UIOM et cancers [13] dont lobjectif tait de dterminer si lincidence des cancers est plus
leve chez les populations ayant t expose aux rejets des incinrateurs dordures mnagres que dans la population
non expose, le SIG a t utilis pour construire plusieurs variables. Cette tude cologique spatiale a mis en uvre un
nombre important de donnes de sources et de natures diverses et a impliqu la mise en place et lexploitation dun
SIG complexe (coordonnes gographiques des 22 usines dincinration dordures mnagres (UIOM), les cas de
cancers fournis par quatre registres dpartementaux et gorfrencs lIris, donnes daltitude pour la modlisation
des rejets atmosphriques, contours des Iris, donnes dmographiques, etc.). Cest notamment grce au SIG quont t
dfinis les dpartements dtude et lunit de rfrence spatiale quest lIris, qua t identifie la population expose
aprs un gros travail de modlisation des rejets et dexploitation de ces modlisations dans le SIG, quont t
construites les variables de confusions destines prendre en compte les spcificits gographiques des dpartements
de ltude. Les rsultats de modlisations des missions dUIOM ont t rcuprs sous la forme de fichiers textes
correspondant des grilles de points de 200 m de pas et de 20 40 km de ct centres sur la chemine de
lincinrateur et comportant, pour chacun de ces points de la grille, les coordonnes X et Y ainsi que des valeurs de
concentrations et de dpts modliss. Par le croisement de ces panaches modliss et intgrs au SIG avec les Iris, on
a pu affecter chaque unit gographique de ltude une valeur de concentration et de dpts (figure 22) [31].

I figure 22 I
tude UIOM

Institut de veille sanitaire Introduction aux statistiques spatiales et aux systmes dinformation gographique / p. 37
Cette tude constitue un bon exemple de lutilisation des SIG pour la construction des indicateurs dexposition. Cest ici
le facteur dexposition principal qui est dcrit, mais le SIG a galement t mobilis pour la construction de facteurs
dexposition secondaires intervenant comme facteurs de confusion dans ltude, notamment un facteur dexposition au
trafic routier.
La plupart des tudes menes jusqu aujourdhui par le DSE impliquent une utilisation encore relativement simple des
SIG (reprsentation des donnes gorfrences, gotraitements et analyses assez lmentaires, croisement de
diverses donnes de sources et de natures diffrentes, calcul de proximit, etc.). Pour autant, cette approche spatiale,
travers les SIG de plus en plus sollicits dans le milieu de la sant publique, offre des possibilits essentielles dans le
domaine de la sant environnementale en permettant la visualisation et une meilleure connaissance du contexte
gographique, environnemental et social dune tude, la cration dindicateurs de pollution, le calcul de distance dune
population un site pollu, etc.
2.6 Exemples dutilisations des SIG en sant environnementale dans
la littrature
La littrature montre que les tudes en pidmiologie environnementale utilisent trs frquemment les SIG pour divers
aspects : le gocodage et la reprsentation des sujets dune tude ou des sources de pollution, la dfinition de la
population dtude, lidentification des sources de pollution potentielles et des voies dexposition, lutilisation de la
distance un point source comme proxy de lexposition pour valuer lexposition des personnes, lintgration de
donnes environnementales dans lanalyse dun fait de sant.
Lobjet de cette rapide prsentation nest absolument pas de donner une description exhaustive des utilisations des SIG
au travers dexemples donns par la littrature dtudes menes dans dautres pays, mais plutt, aprs avoir prsent
plusieurs tudes menes au DSE de lInVS, dlargir le champ de la prsentation. Voici deux brefs exemples dutilisation
des SIG en sant environnementale.
2.6.1 Croiser des donnes pour caractriser des populations potentiellement
exposes
Exemple : Use of GIS and exposure modeling as tools in a study of cancer incidence in a population
exposed to airborne dioxin [32].
Cette tude, ralise au Danemark, a utilis un modle simulant lexposition pour dlimiter le plus prcisment possible
dans lespace et dans le temps une population expose aux dioxines dans lair. Le SIG est utilis pour faire le lien entre
le modle dexposition et les donnes dmographiques du recensement, les donnes individuelles (adresses, sexe, ge),
les donnes de migration des sujets (dmnagements dans, autour ou lextrieur de la zone) et les donnes de
cancers. Le modle a permis de dcouper la zone dexposition en trois zones en fonction de lintensit de lexposition.
En rendant possible la superposition des donnes individuelles, sanitaires et dmographiques aux diffrentes zones
dexposition, le SIG a contribu caractriser les populations et dcrire avec des mthodes statistiques
complmentaires les liens sant environnement.
2.6.2 Cration dun indicateur dexposition
Exemple : Residential exposure to petrochemicals and the risk of leukemia: using geographic
information system tools to estimate individual-level residential exposure [33].
Dans une tude mene au sud de Tawan sur lexposition rsidentielle aux sources de pollution ptrochimique et le
risque de leucmies, Yu et al. ont utilis un SIG pour estimer un niveau individuel dexposition rsidentielle. La mesure
dexposition attribue au niveau individuel tient compte de la mobilit des sujets, du temps de rsidence, de la distance
aux installations ptrochimiques, de la direction du vent et de multiples sources de pollution ptrochimique. Dans le
SIG, les auteurs de ltude ont calcul la distance entre chaque lieu de rsidence et les centrodes des installations.
La distance aux sites est pondre par la direction des vents dominants. Les rsidences situes dans un rayon de plus
de 3 km autour des sites pollus ne sont pas considres comme exposes. Le SIG a ainsi permis de construire un
indicateur dexposition une pollution dorigine ptrochimique exploit ensuite pour la construction dun modle
statistique pour lanalyse.
p. 38 / Introduction aux statistiques spatiales et aux systmes dinformation gographique Institut de veille sanitaire
2.7 Conclusion et perspectives
Lapport des SIG, et plus globalement de la gographie en sant environnementale, nest plus dmontrer. Cet apport
est dautant plus important si la rflexion gographique est intgre au plus tt dans le design de ltude. En effet,
le SIG est considrer comme un outil de construction et de synthse des diffrentes variables dun modle et comme
base dune analyse spatiale.
Mais malgr toutes les possibilits quils offrent, dcrites prcdemment, il est indispensable de garder lesprit que les
SIG et la cartographie ont leurs limites. Les attentes sont parfois trop grandes vis--vis des SIG qui sont parfois vus
comme une solution technologique "miracle" permettant, par exemple, de surmonter certains obstacles rencontrs lors
dune tude.
- Ce que les SIG ne permettent pas de faire :
les donnes restent la plus importante des limites (disponibilit et qualit) et la mise en place dun SIG dpend,
comme le reste de ltude, de leur disponibilit, de leur qualit, etc. ;
les SIG ne permettent pas de surmonter les limites des tudes cologiques gographiques qui imposent de
considrer un groupe dindividus en supposant que tous ont les mmes caractristiques (socio-conomiques,
dexposition, etc.) ;
les rsultats issus dun SIG et de travaux cartographiques doivent tre considrs avec beaucoup de prcaution
a fortiori lorsquil sagit dtudes parfois sensibles ;
la cartographie ne reprsente souvent quun instant "t" alors quune exposition doit sanalyser dans la dure
mme si aujourdhui des outils danalyse spatio-temporelle (y compris parmi les SIG) commencent se dvelopper,
une mauvaise matrise des outils danalyse spatiale peut entraner une mauvaise interprtation des rsultats ;
une gestion et une administration rgulire du SIG sont indispensables pour en conserver la fiabilit (attention aux
mises jour). Par exemple, dans le cas dune estimation des populations exposes une pollution, il est
vraisemblable que cette population volue ou que de nouveaux sites apparaissent ;
- Quelles perspectives pour les SIG au DSE ?
Une nouvelle utilisation des SIG est dveloppe sur 2010-2011 au DSE, dans le cadre du projet europen European
Study of Cohorts for Air Pollution Effects. Il sagit de la construction dun modle Land Use Regression [34], en France,
pour lestimation dune exposition la pollution atmosphrique dvelopp pour la premire fois dans ltude Small
Area Variation In Air pollution and Health (SAVIAH) pour modliser les concentrations des NO
2
et bas sur les donnes
gographiques locales [35]. Il sagit dun exemple dutilisation de mthodes spatiales et des SIG dans des tudes
pidmiologiques individuelles.
Les possibilits quoffrent les SIG sont primordiales pour le dveloppement de cette mthode. En effet, cest dans le SIG
que sont construites les variables explicatives autour des stations de mesures utilises dans le modle LUR :
loccupation du sol, le rseau routier, les donnes de trafic, les donnes topographiques et mtorologiques (vents) et
dautres donnes encore (huit variables au maximum pour la lisibilit du modle). Les variables en sortie sont ensuite
exportes dans un logiciel statistique afin de construire le modle de rgression. Le modle est alors utilis pour
estimer les concentrations de polluants au lieu de rsidence de chaque personne incluse dans ltude.
Dun point de vue mthodologique, le SIG intervient en amont et en aval de lanalyse statistique. Les deux dmarches
sont complmentaires, voire mme souvent imbriques : lintgration des donnes spatialises, la construction
dindicateurs et les premires analyses descriptives prparent lanalyse statistique qui permettra, dans une ultime
tape, de cartographier les rsultats pour la communication du rapport final (SIR lisss par exemple, incertitudes,
rsidus de modles, etc.). Les deux disciplines ont une base commune : le choix de lchelle, de lunit spatiale de
ltude, des donnes gorfrences disponibles.
3. Mthodes statistiques
Sont dcrits ici quelques outils statistiques pour la dtection de clusters, la reprsentation cartographique et les tudes
de corrlation cologique utilises au DSE de lInVS. Pour une revue complte, il est indispensable de se rfrer aux
ouvrages "Applied spatial statistics for public health data" de Waller et Gotway [36] et "Spatial epidemiology:
methods and applications" de Elliott et al. [37] et au numro de Statistics in Medicine, ddi aux mthodes de
reprsentation cartographique [38].
Institut de veille sanitaire Introduction aux statistiques spatiales et aux systmes dinformation gographique / p. 39
Les outils statistiques utiliss en pidmiologie gographique ont connu un dveloppement important depuis la fin des
annes 1980 et notamment, grce au dveloppement des techniques de Monte Carlo par chanes de Markov.
Le dveloppement de ces outils tait li principalement la ncessit de prendre en compte une possible surdispersion
et autocorrlation spatiale qui ntaient pas prises en compte par les modles "classiques", et en particulier, par le
modle de Poisson. La surdispersion est dfinie par une variabilit du nombre de cas suprieure celle attendue par la
loi de Poisson. La prsence de surdispersion peut tmoigner dagrgats (clusters) ou de la tendance des donnes
lagrgation (clustering). Lautocorrlation spatiale est dfinie par la ressemblance des valeurs des taux dincidence
pour des zones voisines : le risque de maladie dune zone gographique nest pas indpendant de celui des zones
voisines.
Dans les tudes de corrlation cologique, le contrle des facteurs de confusion permet gnralement de rduire la
surdispersion et lautocorrlation. Mais celles-ci peuvent tre dues des facteurs non mesurs ou des erreurs dans les
donnes qui ont une structure spatiale et il est alors important dutiliser des modles appropris (modles avec effets
alatoires, modles baysiens hirarchiques) [14].
3.1 Dtection de clusters et global clustering
De nombreuses mthodes ont t dveloppes pour tester une tendance lagrgation de cas dune pathologie [4].
Elles ont pour objectif de mieux comprendre la distribution gographique des maladies et den tudier lhtrognit
spatiale.
Une approche consiste analyser globalement la distribution spatiale et temporelle dune maladie. Une deuxime
approche sintresse lestimation du risque dune maladie par rapport un point source.
Un cluster ou agrgat peut tre dfini comme une concentration de cas "anormalement leve", suprieure celle
attendue, dans un groupe de personnes, une zone gographique ou une priode de temps.
Les tests proposs dans le but de savoir si les vnements sont agrgs dans lespace peuvent tre classs selon leur
objectif.
De nombreux tests statistiques ont t dvelopps pour tudier la variabilit spatiale dune maladie, ceux-ci incluent
les tests globaux pour valuer la tendance globale au clustering ou lagrgation de lincidence dune maladie dans
une rgion dtude (les tests de corrlation spatiale, par exemple), les tests de dtection pour identifier la localisation
des clusters potentiels et tester si ces derniers sont significatifs et les tests focaliss ou de concentration utiliss quand
une information permet a priori de spcifier une coordonne gographique autour de la quelle la recherche dun
agrgat va se focaliser [36]. On prsente et discute ces trois types de tests. Les mthodes de global clustering tudient
la corrlation spatiale et dtectent la tendance des cas lagrgation. Les mthodes de dtection de cluster identifient
les regroupements de cas incohrents avec lhypothse nulle de "no clustering" et valuent leur niveau de
significativit. La dtection dun cluster significatif nimplique pas une tendance globale au clustering significative et
vice versa [39].
Les analyses de clusters peuvent tre classes selon le type de donnes quelles permettent dtudier [40]. Les deux
catgories de donnes sont dfinies par leur niveau de rsolution : elles sont soit agrges ou de comptage
(par exemple, le nombre de cas et la population par Iris ou commune de la zone gographique tudie) soit ponctuelles
ou individuelles (par exemple, les coordonnes spatiales des cas et de la population risque ou des tmoins).
Nous nous intressons ici aux donnes agrges.
3.1.1 Dtection de clusters et mthodes de balayage spatial
Lobjectif des mthodes de balayage spatial est la surveillance gographique dun territoire dans le but de dtecter les
zones pour lesquelles une incidence plus leve de cas dune maladie est observe, sans hypothses a priori.
Les mthodes de balayage spatial cherchent dtecter lemplacement des clusters dans la rgion tudie.
Elles appliquent des fentres (souvent des cercles) sur toute la rgion et dnombrent les cas et les individus risque
lintrieur et lextrieur de chaque fentre. Il existe diffrentes mthodes de balayage spatial, la mthode de
Openshaw, la mthode de Besag et Newell et la statistique de scan spatiale [41], et elles se distinguent entre autres
par la construction de la fentre quelles utilisent.

p. 40 / Introduction aux statistiques spatiales et aux systmes dinformation gographique Institut de veille sanitaire
Mthodes de balayage spatial : la statistique de scan spatiale
Parmi les mthodes de dtection de clusters, la statistique de scan spatiale [42-44] est devenue la plus populaire.
Lobjectif est didentifier les zones ayant une incidence anormalement leve et qui sont les moins "cohrentes" avec
lhypothse nulle de risque constant. Cette mthode est base sur un test du rapport de la vraisemblance.
Cette mthode est trs puissante et sapplique aussi bien sur des donnes groupes que ponctuelles.
Une fentre, de forme prdfinie (cercles ou ellipses), de taille variable, balaye la zone dtude. Pour chaque fentre,
une statistique, base sur le rapport de vraisemblance et les nombres de cas observs et attendus, est calcule.
Les fonctions de vraisemblance scrivent selon le choix de la distribution thorique associe au nombre de cas.
Deux distributions peuvent tre dfinies : la loi de Poisson (donnes agrges ou lorsque le nombre de cas est
ngligeable face la taille de la population) et la loi binomiale (donnes individuelles des cas et tmoins). Lhypothse
alternative, pour chaque "position spatiale" et taille de fentre, est quil existe un risque lev lintrieur de la
fentre par rapport lextrieur de la fentre. La fentre qui correspond au maximum de vraisemblance est le cluster le
plus probable, celui qui a le moins de chance de survenir par hasard. Une valeur de p, calcule partir de simulations
de Monte Carlo, est assigne ce cluster. La mthode de Kulldorff permet dordonner les clusters selon leur rapport de
vraisemblance et identifier des clusters secondaires.
Le logiciel SaTScan

peut tre utilis pour mettre en uvre la statistique de scan spatiale (et spatio-temporelle).
Il sagit dun logiciel gratuit dvelopp par Kulldorff [44,45]. SaTScan

permet de :
dtecter des clusters spatiaux ou spatio-temporels, et de voir sils sont statistiquement significatifs ;
tester si la maladie est distribue alatoirement dans lespace, le temps ou dans lespace et le temps ;
effectuer rgulirement la surveillance dune maladie sur une zone gographique.
Le nombre de cas, la population et les coordonnes gographiques du centrode (ou du chef-lieu) de chaque unit de la
zone tudie doivent tre dfinis. Des covariables (sexe, classes dge, densit de population, score
socio-conomique) peuvent tre prises en compte. La taille du cluster maximal doit tre dfinie et peut-tre dfinie
en fonction des effectifs de population. Souvent, dans la littrature, les clusters avec moins de 20 % de la population
sont recherchs. On note que les clusters dtects ne peuvent pas tre visualiss dans SaTScan

, pour cela on peut


utiliser le package maptools du logiciel R [46] ou ArcVIEW

.
Les avantages de cette mthode sont :
la prise en compte de covariables dans lanalyse ;
la prise en compte des tests multiples - une valeur globale de p est fournie pour le test ;
la localisation, mme approximative, du cluster qui cause le rejet de lhypothse nulle, est donne.
Les limites de cette mthode sont :
les fentres sont des cercles ou des ellipses. La forme des agrgats potentiels doit tre dfinie a priori. La partition
spatiale de la rgion tudie (et la partition temporelle de la priode de temps tudie) a une influence sur les
clusters dtects. La statistique de balayage spatial tend dtecter des clusters de taille plus grande que celle des
vrais clusters en englobant des rgions voisines ou il ny a pas de risque lev [47] ;
les frontires dun cluster sont "incertaines". La localisation dun cluster est "approximative".
Dautres mthodes de dtection de clusters ont t dveloppes notamment pour pouvoir dtecter des clusters de
forme arbitraire [47]. Mais, pour le moment, la mthode de balayage spatiale de Kulldorff est loutil le plus utilis pour
identifier des clusters potentiels [39,48].
On insiste sur le fait quil est important de prendre en compte au moins la densit de population et ventuellement, un
score socio-conomique dans la recherche dventuels clusters.
3.1.2 Tests focaliss (ou tests de concentration)
De nombreuses mthodes permettent destimer le risque de maladie en relation un point source. Ces mthodes ne
sintressent pas une tendance globale lagrgation mais lexamen de lexistence dagrgats en rfrence un
point spcifique.
Lorsque lon dispose dinformations sur la position dun "possible" cluster ou plutt sur la position dun point source,
la statistique de balayage spatial ne doit pas tre utilise en raison dune faible puissance induite par la prise en
compte de toutes les localisations possibles alors que la localisation "suppose" est dj connue.
Ces tests ncessitent une mesure du facteur de risque dans lespace. Souvent, la distance au point source tient lieu
dindicateur dexposition.
Institut de veille sanitaire Introduction aux statistiques spatiales et aux systmes dinformation gographique / p. 41
Il est important que le point source soit identifi en amont de la dtection de clusters. Si au contraire, on commence
par dtecter le cluster le plus probable avant didentifier le possible point source proximit et que lon calcule ensuite
un test focalis, alors lhypothse teste nest plus la mme et la valeur de p du test nest pas correcte (page 252 de
[36]).
Plusieurs tests sont disponibles [49] : le test de Stone du maximum de vraisemblance et le test du score de risque
linaire entre autres.
- Tests de Stone
Le test de Stone du rapport du maximum de vraisemblance et le test de Stone du maximum de Poisson sont utiliss
pour tester une augmentation de risque en relation un point source prdfini [50,51].
Le test de Stone du rapport du maximum de vraisemblance est bas sur le rapport de vraisemblance. Il sagit dun test
semi-paramtrique. Un index de rang, croissant avec la distance au point source, est calcul pour chaque unit
gographique. Le nombre de cas observs est suppos indpendamment distribu selon une loi de Poisson.
Lhypothse nulle est lgalit des risques dans les diffrentes units gographiques. Lhypothse alternative est la
dcroissance monotone du risque avec laugmentation de la distance entre le point-source et les units gographiques
considres (leur centrode) ou plus prcisment la dcroissance monotone du risque avec laugmentation des rangs de
la distance entre le point-source et les units gographiques considres. Cette mthode est utilise en gnral avec la
distance mais peut tre utilise avec les rangs dun indicateur dexposition. La vraisemblance du modle sous
lhypothse alternative est compare celle sous lhypothse nulle. La significativit est examine grce des
mthodes de simulation.
Le test de Stone du maximum de Poisson dfinit une statistique de test gale la valeur maximale observe du risque
relatif (RR) obtenue en agrgeant les units gographiques ordonnes par rapport la distance du site en une zone de
taille croissante. La significativit est examine grce des mthodes de simulation.
Le test du rapport du maximum de vraisemblance est le plus utilis des deux et semble tre plus puissant [49].
Les tests de Stone sont trs utiliss en pidmiologie et en particulier dans les tudes britanniques [49;52-54].
Les tests de Stone peuvent tre utilis pour tester laugmentation de risque autour de plusieurs points source [52,54].
Mais ceci devrait tre fait seulement si les points source sont comparables en termes dexposition. Si une unit
gographique est proximit de plusieurs points source, une solution simple est de ne considrer que le point le plus
proche [49].
Lavantage de ces tests demeure dans le fait de ne pas avoir dfinir a priori la forme de la fonction de risque.
En revanche, un point faible des tests de Stone est que la surdispersion nest pas prise en compte. Les autres points
faibles ou difficults sont :
le choix arbitraire de la distance maximale ;
le choix arbitraire de la largeur des bandes autour du point source mme si cette slection est partiellement prise en
compte dans les tests de Stone [52,54];
le choix de la largeur des bandes quand plusieurs points source sont tudis. Il est difficile de dfinir les bandes
autour de plusieurs sites si, par exemple, certains se trouvent dans des communes rurales et dautres dans des
communes urbaines : pour certains points source et certaines distances, il pourrait ne pas y avoir de communes
concernes.
Le package DCluster du logiciel R peut tre utilis pour calculer les tests de Stone [55].
- Test du score de risque linaire
Le test propos Bithell et al. [53] et Bithell [56] est un test bas sur le rapport de vraisemblance. Comme le test de
Stone, il est utilis pour tester une diminution du risque avec laugmentation de la distance du site tudi.
Ce test alloue chaque unit un score li une certaine mesure du risque (une mesure de lexposition, la distance par
rapport au point source ou un rang). Ces scores sont alors somms pour toutes les units gographiques pour obtenir
un score global. Plusieurs scores peuvent tre considrs. Bithell et al. [53] ont utilis linverse de la distance et
linverse du rang de la distance du centre de chaque unit tudie par rapport au point source. Selon ces auteurs,
linverse de la distance est appropri pour dtecter un risque qui diminue avec la distance. Les rangs sont plus
appropris quand la proximit relative des cas au site est importante plutt que la distance en elle mme.
La significativit est examine grce des mthodes de simulation.
Des tudes de puissance ont montr que deux tests du score de risque linaire (en utilisant linverse de la distance et
linverse du rang de la distance) taient plus puissants que les tests de Stone [49].
p. 42 / Introduction aux statistiques spatiales et aux systmes dinformation gographique Institut de veille sanitaire
Pour une prsentation des tests bass sur la statistique du score de vraisemblance, nous pouvons nous baser sur la
rfrence bibliographique [49].
Selon la rfrence utilise, ces tests peuvent tre conditionnels ou non conditionnels. Les tests conditionnels utilisent
une rfrence interne la zone tudie : sous lhypothse nulle, les risques sont gaux une constante inconnue .
Les tests non conditionnels utilisent une rfrence externe : sous lhypothse nulle, les risques sont gaux 1. Les tests
conditionnels considrent seulement la distribution des cas dans la rgion tudie et ils ignorent la diffrence entre le
nombre de cas observs et le nombre de cas attendus autour du site. Les tests non conditionnels sont sensibles un
possible excs de risque dans la rgion tudie compars une rfrence externe et une possible distribution spatiale
des cas observs.
"Ces tests focaliss ont une puissance faible pour dtecter les petites augmentations de risque souvent associes aux
exposition environnementales. Do la ncessit dutiliser plusieurs mthodes dans une mme tude" [5].
3.1.3 Global clustering tests
Ces mthodes sintressent lexistence dune htrognit globale de la distribution spatiale dune maladie.
Lobjectif de ces mthodes est dtudier la surdispersion et la corrlation spatiale et de dtecter la tendance des cas
"au clustering ". Ces mthodes ne donnent pas la localisation des clusters.
Il existe de nombreuses mthodes de global clustering, Kulldorff [57] en liste plus dune centaine. On prsente ici le test
de Potthoff et Whittinghill, le test de Moran et le test de Tango qui sont trs utiliss dans les tudes de corrlation
spatiale.
- Test de Potthoff et Whittinghill
La premire mthode consiste tester lexistence dune htrognit spatiale globale en termes de surdispersion.
Le test dhtrognit le plus simple est celui de Pearson utilisant la loi du Chi2. Le test de surdispersion de Potthoff-
Whittinghill est plus puissant dans le cas dune htrognit faible et il est largement utilis en pidmiologie.
Sous lhypothse nulle dune distribution alatoire des cas dune maladie, les taux dincidence sont les mmes sur toute
la zone tudie et les seules variations des cas observs sont lies aux fluctuations de la loi de Poisson. Le nombre de
cas observs est suppos suivre une loi de Poisson de moyenne et de variance gale au nombre de cas attendus.
Sous lhypothse alternative de lexistence dune surdispersion des cas, un certain nombre de cas apparaissent dans
certaines zones plus frquemment que ce qui tait prdit sous lhypothse dune distribution de Poisson. Le rapport
entre la variance et la moyenne du nombre de cas observs est suprieur 1.
Le test de Potthoff et Whittinghill [41] suppose que le rapport entre la variance et la moyenne est gale 1+, o est
dfini comme la variation extra-poissonienne. Pour valuer la surdispersion du risque de maladie, on value le rapport
|/ SE(|). En labsence de surdispersion et lorsque le nombre de zones gographiques est grand, la distribution de
|/ SE(|) suit approximativement une loi Normale N(0,1).
Le package DCluster de R peut tre utilis pour calculer le test de Potthoff et Whittinghill [55].
- La statistique de Moran
Une deuxime mthode value lexistence dune htrognit spatiale globale en termes dautocorrlation spatiale.
La statistique de Moran est lindice dautocorrlation spatiale le plus utilis. Cette statistique rsume le degr de
ressemblance des units gographiques voisines par une moyenne pondre de la ressemblance entre observations.
La statistique de Moran ne prend pas en compte lhtrognit des effectifs de population : une corrlation spatiale
significative pourrait tre explique par la proximit de zones fortement peuples et non pas par un cluster de taux
levs. Des versions alternatives de la statistique de Moran ont t proposes pour prendre en compte des effectifs de
population htrognes [39].
Le package spdep de R peut tre utilis pour calculer cet indice [46].
- La statistique de Tango
Tango a propos une statistique Excess Event Test pour lvaluation du global clustering [58,59]. La mthode de Tango
teste si les cas de maladie sont regroups dans des clusters lintrieur de la rgion dtude.
Institut de veille sanitaire Introduction aux statistiques spatiales et aux systmes dinformation gographique / p. 43
3.1.4 Conclusion sur la dtection de clusters et le global clustering
Ces mthodes rpondent aux objectifs suivants : tester si une maladie est distribue alatoirement dans la rgion
tudie ; dtecter des zones incidence leve
Huang et al. [39] comparent ces diffrents tests pour rpondre aux questions suivantes : quelle mthode est la plus
approprie et/ou la plus puissante pour comprendre la distribution spatiale dune maladie ? Est-il possible de fournir un
guide pour lutilisation de ces mthodes statistiques quand appliques par exemple des donnes de cancer ?
Parmi les tests de global clustering considrs Moran, Besag et Newell, Tango le test de Tango semble le plus
puissant. Parmi les mthodes de dtection de cluster tudies la statistique de scan spatiale avec fentres circulaires
et elliptiques et dautres mthodes bases sur le rapport de vraisemblance... la statistique de Kulldorff avec fentres
elliptiques semble tre la plus puissante.
Ces tests danalyse de cluster ne peuvent tre considrs que comme des mthodes de "dpistage", derrire lesquelles
des tudes plus cibles doivent tre mises en uvre pour confirmer (ou pas) les hypothses quelles permettent de
dgager [60]. Dans cette logique, lutilisation de plusieurs tests, bass sur des hypothses et des mthodes
destimations diffrentes, parat tre une solution intressante. De plus, la convergence/cohrence des rsultats de ces
diffrents tests devrait tre recherche.
3.2 Reprsentation cartographique des maladies (disease mapping)
La reprsentation cartographique des indicateurs de sant permet la description de leur distribution spatiale, la mise en
vidence de zones avec un risque lev pour la suggestion dhypothses tiologiques (caractristiques partages par les
units gographiques). La difficult est de prsenter des images fiables des variations gographiques des indicateurs de
sant (sparer les relles variations et le bruit inhrent, modliser la structure de ces variations).
Les cartes de risque de maladies prsentent souvent le SMR. Le SMR est dfini par le rapport entre un nombre de cas
observs et un nombre de cas attendus sous lhypothse dune incidence de rfrence. Le SMR correspond
lestimateur du maximum de vraisemblance du RR, les fluctuations alatoires du nombre de cas de maladie observ
tant modlises par une loi de Poisson.
Mais, pour des maladies rares ou des petites units gographiques, les SMR peuvent tre instables et donner des excs
de risque apparents.
Ce problme est du au fait de considrer les risques indpendamment, dune unit gographique lautre, sans
prendre en compte lautocorrlation spatiale [6]. La corrlation ou dpendance implique que des zones proches
gographiquement ont des risques similaires (facteurs de risque communs non mesurs).
3.2.1 Instabilit de lestimateur de maximum de vraisemblance du RR
Soient Y_i le nombre observ de cas dans lunit gographique i, E_i le nombre attendu de cas et
i
u le RR de lunit i.
Pour le modle : ( )
i i i
E Poisson Y u ~
lestimateur de MV de
i
u est :
i
i
i i
E
Y
SMR = = u


avec variance : ( )
2

var
i
i
i
E
Y
= u
On observe que les petites units ou les units avec des petits effectifs peuvent avoir une variance associe aux SMR
trs grande estimation du risque instable. La variabilit des SMR est diffrente selon les units gographiques ce qui
peut donner une reprsentation cartographique bruite o les SMR les plus extrmes correspondent le plus
probablement aux units les moins peuples [26]. Lexemple suivant est pris de GeoBUGS [61] et illustre ce point.
Exemple : cancer de la lvre en cosse
Les taux de cancer de la lvre dans 56 counties de l'cosse pour la priode 1975-1980 ont t analyss par [62], [63] et
[14] entre autres.
p. 44 / Introduction aux statistiques spatiales et aux systmes dinformation gographique Institut de veille sanitaire
Les SMR sont prsents dans la figure 23. Des figures 23, 24 et 25, on remarque que les valeurs les plus "extrmes"
sont bases sur un nombre faible de cas attendus.
Les cartes des probabilits dexcder 1 sont encore moins informatives que les cartes des SMR : elles ne montrent pas
les valeurs des risques, des "faibles" surincidences peuvent tre mises en vidence pour des units avec une forte
population [14].
Des mthodes de lissage des SMR ont t dveloppes pour produire des estimations plus fiables. Lintrt du lissage
est de permettre de mieux apprcier la structure spatiale sous-jacente en lissant le bruit caus par linstabilit des SMR
dans les zones petit nombre de cas.

I figure 23 I
Les SMR des 56 counties de lcosse


Institut de veille sanitaire Introduction aux statistiques spatiales et aux systmes dinformation gographique / p. 45

I figure 24 I
Le nombre de cas attendus varie entre 1.1 et 88.7



I figure 25 I
SMR et nombre de cas attendus


p. 46 / Introduction aux statistiques spatiales et aux systmes dinformation gographique Institut de veille sanitaire

I figure 26 I
Estimation baysienne des RR des 56 counties de lEcosse (modle Poisson-gamma)

3.2.2 Lapproche baysienne de lissage de taux
Lobjectif est de lisser les diffrences de prcision des estimations initiales, les SMR, en partageant linformation
quapportent les diffrentes units gographiques.
Les SMR peuvent tre lisss en utilisant des modles hirarchiques qui prennent en compte les donnes de toutes les
units gographiques pour obtenir des estimations plus stables dans chaque unit gographique.
Dans lapproche classiquement utilise, les observations de chacune des units gographiques sont considres comme
une ralisation dune variable alatoire ayant une distribution de Poisson dont le paramtre, correspondant au RR, est
considre comme fixe et inconnu. Dans lapproche baysienne, on suppose que ce paramtre est lui-mme une
variable alatoire distribuant les risques entre les diffrentes units, cette distribution tant appele distribution
a priori. Lestimation du RR est alors le rsultat de la combinaison de linformation suppose a priori et linformation
apporte par les observations. Lorsque linformation se situe essentiellement sur les donnes, la vraisemblance est
importante. Lorsque les observations sont peu informatives, la connaissance apporte par la loi a priori devient
primordiale. Un aspect essentiel de lapproche baysienne concerne le choix de la loi a priori qui peut tre dterminant
dans les rsultats [26].
Des modles spatiaux ou des modles non spatiaux peuvent tre utiliss.
Institut de veille sanitaire Introduction aux statistiques spatiales et aux systmes dinformation gographique / p. 47
- Modles non spatiaux
Modle Poisson-Gamma
Une premire approche consiste en lintroduction dune distribution a priori sur lensemble des risques. Cette structure
globale sur tout le domaine empche les estimations de prendre des valeurs trop grandes [6].
Soit :
( )
i i i i
E Y u u Poisson ~
Les risques relatifs,
i
u , sont supposs tre indpendants et identiquement distribus selon la loi gamma :
) ( o v o v u , Ga ~ ,
i

de moyenne o v et variance
2
o v
La distribution de o v,
i
Y est binomiale ngative. La moyenne et la variance de o v,
i
Y sont respectivement :
| |
o
v
o v
i i
E Y = E , , | | | | | | ( ) v o v o v o v , 1 , , Var
i i i
Y Y Y E + E = .
Ce modle est plus "raisonnable" que le modle naf de Poisson. Il prend en compte la dispersion extra-poissonnienne.

- Estimation baysienne empirique
Siv eto sont supposs connus la distribution a posteriori de
i
u suit une loi gamma. Si on a des estimations veto,
alors :
) ( o v o v u , Ga ~ , , + +
i i i
E y y .
et lestimation a posteriori du RR de lunit i est :
| | ) 1 (

SMR

, ,
i i i i
i
i
E
y
e
o
v
e
o
v
o v u + =
+
+
= E y
une combinaison pondre du SMR de lunit i et de lestimation a priori. Le poids associ au SMR de lunit i est :
o
e
+
=
i
i
i
E
E
.
On remarque que pour les units avec une population importante lestimation sera domine par les donnes et sera
proche du SMR. Pour les units avec des effectifs faibles, le poids associ au SMR sera plus petit et le lissage sera plus
important. Les estimations seront moins variables que les SMR (figure 26). Cette approche a donc pour effet dattnuer
les contrastes initiaux lis aux diffrences de prcision des estimations.
Les estimations de v et o de la binomiale ngative peuvent tre obtenues par MV [62].
- Estimation compltement baysienne
Pour une approche baysienne, une loi a priori est assigne aussi aux paramtres v et o .
Modle Poisson-lognormal avec effet alatoire
Comme le modle Poisson-gamma, il sagit dun modle baysien hirarchique caractris par :
- un premier niveau (variabilit locale dvnements rares) : la vraisemblance qui modlise la structure des
observations. Le nombre observ de cas de cancer suit une distribution de Poisson :
) ( ~ ) (
i i i i
E Poisson Y u u
- un deuxime niveau (structure interzones) : la distribution des risques relatifs. Ce niveau permet d'introduire la
variabilit extra-Poisson :
i i
U + =
0
) log( | u
p. 48 / Introduction aux statistiques spatiales et aux systmes dinformation gographique Institut de veille sanitaire
o
0
| est un terme constant qui reprsente l'effet moyen commun toutes les units gographiques et
i
U sont des
effets alatoires gaussiens indpendants et identiquement distribus, ) , 0 ( ~
2
u i
N U o .
La dfinition des distributions a priori de
0
| et
2
u
o est aussi ncessaire. La distribution marginale de ce modle ne
peut pas tre calcule analytiquement. Il est ncessaire de faire appel des mthodes de simulation (algorithme de
Monte Carlo par chanes de Markov). Le logiciel WinBUGS peut tre utilis [64].
Ce modle est plus flexible que le modle Poisson-gamma, il permet dintgrer facilement des covariables et une
structure spatiale entre les risques relatifs.
Modles spatiaux
Une deuxime approche consiste modliser une structure de dpendance spatiale entre les risques relatifs.
Les risques relatifs de chacune des units sont dans ce cas influencs par les risques des units voisines. On dcrit ici le
modle propos par Besag, York et Molli [65] qui est le plus utilis. Ce modle partage le risque rsiduel en un effet
alatoire non spatial et un effet spatialement structur qui suit un modle gaussien autorgressif conditionnel.
Un autre modle frquemment utilis est le modle multivari gaussien [36].
Une tendance grande chelle, nord-sud par exemple, peut tre prise en compte dans ce modle (en incluant les
coordonnes gographiques des centrodes des units spatiales).
Modle BYM (Besag, York and Molli)
Le modle hirarchique baysien de Besag, York et Molli est caractris par :
- un premier niveau (variabilit locale ou intrazone) : la vraisemblance qui modlise la structure des observations.
Le nombre observ de cas de cancer suit une distribution de Poisson :
) ( ~ ) (
i i i i
E Poisson Y u u
- un deuxime niveau (structure inter zones) : la loi a priori des risques relatifs qui rsume une information globale sur
la similarit des risques
i
u , sur leur moyenne et leur variabilit. Ce niveau permet d'introduire la dpendance spatiale :
i i i
V U + + =
0
) log( | u
avec U et V effets alatoires dcrivant l'htrognit et la corrlation spatiale, respectivement (U et V
indpendants). Les effets alatoires U et V peuvent tre considrs comme des variables latentes capturant les
effets de facteurs de risque inconnus ou non mesurs non structurs spatialement et structurs spatialement,
respectivement.
La composante d'htrognit est suppose suivre une loi normale dfinie par :
) , 0 ( ~
2
u i
N U o
o
2
u
o contrle la variabilit des RR, dans sa composante non spatiale.
La composante spatiale suppose que les units spatiales proches gographiquement tendent avoir des RR similaires.
Le modle gaussien autorgressif conditionnel, modle CAR intrinsque, permet de prendre en compte cette hypothse
avec :
|
|
|
.
|

\
|
= =

= =
=
i j
ij
v
i j
ij
i j
j ij
j j i
w w
v w
N i j v V V
2
, ~ ) , (
o

o les poids
ij
w dcrivent la proximit gographique des units i et j et
2
v
o contrle la variabilit conditionnelle des
RR, dans sa composante spatiale. Le critre de proximit gographique le plus souvent retenu est celui d'adjacence.
Les units i et j sont voisines si elles partagent une frontire commune : 1 =
ij
w si les units i et j sont voisines et
0 =
ij
w sinon (figure 27). Ce modle suppose que la distribution conditionnelle de leffet
i
V dans lunit
gographique i est une loi normale centre en la moyenne des effets de ses units voisines et de variance inversement
proportionnelle au nombre de voisins. Seul le paramtre
2
v
o est libre.
Institut de veille sanitaire Introduction aux statistiques spatiales et aux systmes dinformation gographique / p. 49

I figure 27 I
Exemple de la notion de voisinage selon le critre dadjacence pour un modle CAR

Le modle CAR intrinsque a l'avantage d'tre facilement estimable. En effet, ses distributions conditionnelles
compltes ont une forme analytique connue ce qui permet de recourir l'chantillonneur de Gibbs. En revanche,
ce modle est impropre : sa moyenne est non dfinie et sa variance est infinie. La contrainte 0 =

i
i
V doit tre
impose pour rendre le modle identifiable.
Les variances
2
u
o et
2
v
o modulent les niveaux d'htrognit globale et locale respectivement. Leur comparaison
nest pas immdiate car
2
v
o est une variance conditionnelle qui dpend de la structure spatiale dfinie par les poids
{ }
ij
w alors que
2
u
o est une variance marginale. Pour cela, il est utile de calculer aussi lcart-type empirique de
i
V ,
une estimation de la variabilit marginale des effets alatoires spatialement structurs. Plus
2
u
o est petit, plus les
effets alatoires ont tendance tre similaires entre toutes les units gographiques. Plus
2
v
o est petit, plus les effets
alatoires ont tendance tre similaires entre units gographiques voisines. Il faut remarquer que, dans ce modle, un
seul paramtre,
2
v
o , contrle la dpendance spatiale : si
2
v
o est petit les rsidus dpendent fortement de leur voisins
mais la composante spatiale est "faible" dans le sens quelle contrle peu la variabilit rsiduelle [14].
Deux paramtres dcrivent la dpendance spatiale dans le modle multivari gaussien.
Les distributions a priori de
0
| ,
2
v
o et
2
u
o doivent aussi tre spcifies. Le choix des distributions a priori des
paramtres de variance est dlicat [14].

p. 50 / Introduction aux statistiques spatiales et aux systmes dinformation gographique Institut de veille sanitaire
Un gradient gographique, une variation lente et rgulire grande chelle, nord-sud par exemple, peut tre aussi pris
en compte dans ce modle (en incluant les coordonnes gographiques des centrodes des units spatiales, par
exemple).
Le rsultat attendu est la loi a posteriori du risque de maladie. La distribution a posteriori est le produit de la
distribution a priori et de la fonction de vraisemblance. Si les donnes sont informatives, la vraisemblance dominera la
valeur estime du RR ; dans le cas contraire, l'information apporte par la loi a priori aura un poids plus important.
Les modles hirarchiques baysiens permettent d'intgrer ces deux types d'information. Lestimation des paramtres
de ce modle fait appel des intgrales qui ne sont pas calculables par des mthodes analytiques. Il est ncessaire de
faire appel des mthodes de simulation (algorithmes stochastiques de Monte Carlo par Chanes de Markov).
Le modle BYM a l'avantage de modliser simultanment l'htrognit globale et l'htrognit locale des effets
alatoires. L'introduction de
i
V permet de ne pas leur imposer la mme variance pour chaque unit gographique
puisque le nombre de voisins est diffrent pour chaque unit. Ce modle donne un lissage mixte : un compromis entre
lissage global (obtenu par un modle Poisson-gamma, par exemple) et lissage local (obtenu par un modle avec
seulement la composante spatiale, par exemple).
Les modles spatiaux posent le problme de choix de la structure spatiale des risques relatifs. La dfinition de voisinage
est ncessaire pour le modle BYM. Le voisinage le plus souvent utilise suppose que deux units spatiales sont
voisines si elles partagent une frontire commune. Dautres voisinages peuvent tre dfinis notamment partir de la
distance entre les centrodes des units de la zone dtude.
Le modle multivari gaussien peut tre aussi utilis. Dans ce cas, la fonction de covariance doit tre dfinie. Pour ce
modle, partir dune centaine dunits spatiales, les temps de calcul peuvent tre longs.
La faiblesse de ces deux modles est lie au fait que les units spatiales ne sont pas de forme rgulire ou de
population constante.
La mise en uvre de ces modles baysiens est facilite par lutilisation du logiciel WinBUGS [64]. Ce logiciel repose
sur lestimation de la loi a posteriori par la mthode de simulation stochastique appele chantillonneur de Gibbs.
Cet algorithme permet de simuler un chantillon de la loi a posteriori jointe des paramtres du modle. Si l'algorithme
a converg, c'est--dire simule correctement et suffisamment sous cette loi jointe, les infrences statistiques sont faites
sur les lois a posteriori marginales de chacun des paramtres. Dans le cadre de nos travaux, nous nous intressons
particulirement la loi a posteriori marginale de chaque RR dont on retient la moyenne comme estimation
baysienne. Il est essentiel d'tudier la convergence de tels algorithmes.
- Modles spatio-temporels
Les risques de maladie peuvent varier dans lespace et dans le temps. Les modles spatio-temporels sont utiliss pour
dcrire lvolution dans le temps de la structure spatiale des maladies. Rcemment, plusieurs modles ont t
proposs. Ces modles peuvent tre classs en trois catgories selon la structure dvolution temporelle du risque de
chaque zone : les modles paramtriques (forme prdfinie linaire, quadratique) [66], les modles indpendants
(les risques de chaque priode sont estims indpendamment des priodes prcdentes) [67] et les modles de lissage
(ils permettent des tendances sans en prdfinir la forme) [68-70]. Lvolution temporelle pour une zone gographique
est dtermine par la somme de leffet principal temps et des termes potentiels dinteraction qui incluent le temps.
Abellan et al. [71] montrent lintrt dun modle spatio-temporel pour lanalyse des malformations congnitales en
Angleterre. Linclusion de la composante temporelle permet dtudier la stabilit de la distribution spatiale des
maladies dans le temps. Ce qui renforce linterprtation pidmiologique. Les auteurs soulignent quen effet deux
situations trs diffrentes peuvent donner le mme nombre de cas "cumul" dans le temps dans une zone
gographique : a) un taux daccumulation des cas constant dans le temps ce qui donne une distribution spatiale de la
maladie tudie constante dans le temps ou b) un taux daccumulation qui varie fortement dans le temps et de manire
diffrente pour certaines zones gographiques ce qui donne une distribution spatiale dans le temps particulirement
variable. Dans le premier cas, la distribution spatiale constante dans le temps pourrait tre explique par des facteurs
de risque constants dans le temps (sociodmographiques, environnementaux). Dans le deuxime cas, elle pourrait
tre due des facteurs de risque courte latence qui pourraient crer des excs de cas dans des brefs intervalles de
temps ou ces variations pourraient tre dues des changements "radicaux" denregistrement des cas.
Ugarte et al. [72] comparent diffrents modles spatio-temporels baysiens pour slectionner ceux qui sont les plus
adapts des donnes avec peu de fentres temporelles en gnral, les donnes ne sont pas disponibles sur des
longues priodes. Pour cela, les auteurs ont analyss les donnes de mortalit par cancer colorectal dans la rgion de
Navarre en Espagne pour la priode 1983-2002 (40 units gographiques et quatre fentres temporelles de
Institut de veille sanitaire Introduction aux statistiques spatiales et aux systmes dinformation gographique / p. 51
cinq ans) et ils ont effectus des simulations pour analyser diffrents scnarios. La conclusion est quaucun modle ne
ressort comme tant le meilleur et que pour des analyses en routine le choix du modle reste complexe.
Lestimation de ces modles est faite en gnral via les algorithmes MCMC qui ncessitent un nombre lev
ditrations afin de garantir la convergence indispensable toute estimation. Les modles spatio-temporels tant
complexes les mthodes MCMC peuvent tre trs coteuses en temps, modles estims en heures, voire en jours.
De plus, le nombre de fois ou il est ncessaire dutiliser les algorithmes MCMC peut tre trs important dans
lestimation de ces modles. En effet, il est indispensable de faire des analyses de sensibilit aux diffrents paramtres
des modles (distribution a priori, par exemple). De nombreux travaux de recherche sont consacrs acclrer et
simplifier les algorithmes MCMC dans des modles baysiens complexes. Rcemment, Rue et al. [73] ont dvelopp
INLA (Integrated Nested Laplace Approximations), un package de R, qui permet linfrence baysienne de modles
latents gaussiens. Cette mthode dinfrence repose sur des approximations de Laplace. La mthode dveloppe
permet une infrence baysienne rapide, modles estims en quelques minutes, mais qui est limite aux modles
latents gaussiens.
Plus de recherches sont ncessaires cause de la complexit de ces modles mais il sagit dun sujet de recherche trs
prometteur.
3.2.3 Conclusion sur les mthodes de disease mapping
Les mthodes prsentes ont pour objectif de fournir des reprsentations cartographiques des risques qui soient le plus
informatives possibles. Lintrt du lissage est de permettre de mieux apprcier la structure spatiale sous-jacente en
lissant le bruit caus par linstabilit des SMR dans des units petit nombre de cas. Lenjeu de ces mthodes est de
lisser les risques relatifs pour liminer le bruit li aux petits effectifs et en mme temps, de ne pas trop lisser les risques
relatifs pour pouvoir mettre en vidence leur structure spatiale. La distribution gaussienne utilise dans le modle CAR
peut amener un degr lev de lissage. Des modles alternatifs ont t dvelopps pour permettre des ventuelles
discontinuits, des changements abrupts dans la distribution spatiale des risques [74]. Le lissage conduit rduire la
sensibilit de la dtection des units RR lev. Pour remdier cet inconvnient et augmenter cette sensibilit,
Richardson et al. [75] proposent dexploiter la distribution a posteriori des risques relatifs et dfinissent des rgles de
dcision pour dtecter les zones risque lev. Richardson et al. proposent de calculer partir des rsultats des
simulations, la probabilit a posteriori que les risques relatifs soient suprieurs 1 (avec une probabilit suprieure
80 %).
Lobjectif de ces tudes est de dcrire la variabilit spatiale de la frquence de la maladie. Elles permettent non
seulement de mettre en vidence des contrastes entre les valeurs des indicateurs de sant mais aussi de suggrer et
guider la recherche de facteurs de risque environnementaux pour formuler des hypothses tiologiques. Ces tudes ont
donc toute leur place dans le cadre de lactivit de veille sanitaire [7,14,26].
Dans les publications rcentes, les principaux modles dvelopps sont axs autour de la description spatiale et spatio-
temporelle des variations du risque d'une ou plusieurs maladies. Les modles conjoints de plusieurs cancers sont
dvelopps pour rechercher des similitudes entres cancers (exposition environnementale commune) et aider gnrer
des hypothses [76-79]. Les modles conjoints de plusieurs maladies permettent de modliser un effet spatialement
structur commun aux maladies tudies. Cet effet alatoire cre un lien de dpendance indirect entre les maladies
tudies et joue le rle de substitut pour les facteurs dexposition spatialement structurs mais non mesurs qui
peuvent expliquer la rpartition spatiale du risque de maladies. Il peut tre intressant danalyser plusieurs maladies
conjointement pour mettre en vidence des tendances de risque similaires qui pourraient reflter des facteurs de risque
communs. De plus, une analyse multivarie peut donner une meilleure prcision de lestimation du risque dune
maladie en rcoltant des informations (borrowing strength) sur dautres maladies.
L'analyse de sources de donnes multiples se dveloppe aussi dans les tudes pidmiologiques en vue notamment
d'amliorer la fiabilit des diagnostics.
Les limites de ce type dtudes sont lies la faiblesse des effectifs, la difficult de prendre en compte le temps de
latence suite une exposition, la nature de la maladie qui est le plus souvent multifactorielle, au problme
dvaluation de lexposition (souvent de faible intensit et/ ou multiple), au problme des migrations surtout un
chelon gographique fin.
Dautres points importants pour la cration de bonnes cartes concernent le choix de lunit gographique, le choix de la
mthode de discrtisation et le respect des rgles de smiologie graphique (chapitre 2).
p. 52 / Introduction aux statistiques spatiales et aux systmes dinformation gographique Institut de veille sanitaire
3.3 Modles de rgression
Lobjectif des analyses de rgression dite "cologiques" est destimer lassociation entre les variations gographiques
dun indicateur de sant et celles de variables environnementales [6].
Le fait dtudier une maladie rare ou des petites units spatiales conduit utiliser un modle de rgression de Poisson.
Les modles sont les "mmes" que ceux utiliss pour la reprsentation cartographique.
Mais il est important de souligner que les objectifs de la reprsentation cartographique et de la rgression spatiale sont
diffrents et la stratgie de modlisation doit reflter cette diffrence [14]. Lobjectif de la reprsentation
cartographique est la prdiction des risques relatifs par unit gographique alors que lobjectif de la rgression
cologique est lestimation de la relation entre indicateur de sant et exposition.
Pour la prsentation des modles, il convient de se rfrer la section "Reprsentation cartographique".
Nous insistons ici sur quelques points qui nous paraissent importants.
On rappelle que le modle de rgression de Poisson classique est rarement adapt cause de la sur-dispersion qui
nest pas prise en compte. Il est adapt quand la variabilit intrazone est ngligeable compare la variabilit
interzones (large zone dtude et/ou maladies communes). Le modle Poisson-lognormal avec un effet alatoire
capturant le log du RR rsiduel/ inexpliqu peut tre alors utilis.
Il est peu raliste de supposer lindpendance des rsidus de la rgression : en gnral, les nombres de cas dans des
zones voisines gographiquement prsentent de la dpendance spatiale rsiduelle. Dans le cadre de la reprsentation
cartographique, cette dpendance peut tre exploite dans lestimation des risques en lissant localement entre units
voisines. Dans le cadre de la rgression, la dpendance doit tre prise en compte et les mthodes statistiques
classiques ne sont pas adaptes lanalyse de donnes dpendantes. Le modle BYM peut tre utilis. Il est important
de vrifier la sensibilit des rsultats la structure spatiale considre et aux distributions a priori des paramtres de
variance.
Les modles de rgression cologiques posent le problme de choix de la structure spatiale des rsidus.
Diffrentes modlisations de lautocorrlation des rsidus existent dans la littrature. Pour une revue de la littrature,
il convient de se reporter louvrage de Richardson [80]. Pour une comparaison de diffrents modles spatiaux,
cest larticle de Best et al. Qui fait office de rfrence [81]. Limpact de la modlisation de la dpendance spatiale des
rsidus sur lestimateur cologique doit toujours tre tudi. Latouche et al. [82] ont tudi limpact de la modlisation
dune sur-structure spatiale des rsidus : le modle imposait une structure spatiale alors que la variabilit spatiale de
lindicateur sanitaire tait compltement explique par la variable dexposition. Le modle BYM tait utilis et ne
semblait pas sous-estimer la relation cologique.
Lee and Durban [83] proposent le modle "smooth-CAR" qui permet de sparer la tendance gographique grande
chelle et la corrlation spatiale locale.
Le choix dintroduire une tendance dans le modle de rgression nest pas facile car lexposition environnementale
dintrt peut avoir aussi une structure spatiale. Si cette tendance peut tre due des facteurs de risque non mesurs
alors elle doit tre incluse dans le modle [14].
Nous avons prsent lapproche baysienne, une approche frquentiste est possible aussi, mais peu de modles ont t
explors. Un exemple est le "modle additif binomial ngatif" dcrit par Thurston et al. [84]. Ce modle permet de
prendre en compte la surdispersion (modle binomial ngatif) et de modliser la dpendance spatiale grande chelle
(modle additif gnralis).
Ces modles spatiaux peuvent dpendre fortement de lunit utilise. Modliser les coordonnes gographiques des
cas comme un processus ponctuel spatial est une approche alternative qui permet de ne plus devoir choisir une unit
spatiale [85]. La difficult est de dfinir une fonction dintensit qui modlise la distribution de la population risque.
Les variables cologiques sont souvent mesures sur diffrentes chelles qui ne sont pas toujours embotes.
En gnral, une transformation des donnes est effectue pour les mettre toutes la mme chelle ce qui implique une
perte importante dinformation. Des modles existent qui permettent de traiter des donnes de sant, de population et
dexposition disponibles des chelles diffrentes [19].
Linfrence doit tre faite au niveau agrge de la zone tudie, il est difficile de transposer les rsultats au niveau
individuel. Ce point est discut dans le chapitre 1.
Institut de veille sanitaire Introduction aux statistiques spatiales et aux systmes dinformation gographique / p. 53
4. Un outil dinvestigation rapide en sant environnement :
The Rapid Inquiry Facility
Le Rapid Inquiry Facility (RIF) a t cr pour traiter rapidement des questions pidmiologiques et de sant publique.
Il a t conu par lquipe du SAHSU du Dpartement dpidmiologie et sant publique de lImperial College de
Londres (www.sahsu.org), afin danalyser des donnes sanitaires en relation avec des expositions environnementales.
Cest un outil qui permet de croiser des donnes sanitaires, environnementales, dmographiques, de prendre en
compte des facteurs de confusion et dassocier lensemble gographiquement.
RIF est bas sur un systme dinformation gographique et constitue une extension gratuite du logiciel de SIG
ArcGIS

9. Il permet aux utilisateurs un accs aux fonctionnalits quoffre un SIG sans avoir besoin de connaissances
approfondies du logiciel. Mais lapplication tant intgre dans ArcGIS

, il est possible dutiliser toutes les


fonctionnalits classiques du logiciel. Cet outil utilise la fois lapproche base de donnes, la technologie des systmes
dinformation gographique et lapproche statistiques spatiales.
RIF peut tre utilis pour lanalyse du risque sanitaire autour de sites polluants dune part, et pour la reprsentation
cartographique des maladies dautre part. Il permet de calculer des taux standardiss dincidence et des risques relatifs.
Les donnes dexposition (rsultant de modles de dispersion, par exemple) peuvent tre importes et reprsentes
dans le module cartographique dArcGIS

. De plus, il est possible dexporter facilement les donnes vers SaTScan et


WinBUGS pour mener des analyses complmentaires comme la dtection dagrgats ou le lissage spatial.
RIF est initialement conu comme un outil pour lquipe du SAHSU elle-mme. Il a ensuite t adapt pour tre utilis
par plusieurs pays europens dans le cadre des projets EUROHEIS et EUROHEIS2 (European Health and Environment
Information System for Exposure and Disease Mapping and Risk Assessment).
Les CDC (Centers for Disease Control and Prevention) et SAHSU collaborent galement pour adapter RIF et pour
pouvoir lutiliser dans le cadre du CDCs National Environmental Public Health Tracking (EPHT) Network (rseau de
surveillance sant environnement amricain). Lobjectif est de dvelopper les fonctionnalits de RIF pour lvaluation
de relations spatio-temporelles entre maladies et expositions environnementales.
4.1 Mthodes de RIF
La premire et principale tape prvoir pour mettre en uvre RIF est la construction de la base de donnes qui peut
tre faite sous Oracle ou Access. Elle doit respecter un format et une architecture spcifique et essentielle au
fonctionnement de lextension. Il est indispensable de dfinir certaines informations dans la base comme lunit
spatiale dtude, la zone de comparaison pour le calcul des SMR notamment mais aussi, la population (par classe dge
et sexe), les donnes de sant (cas de cancer par classe dge et sexe) et les covariables (niveau socio-conomique,
proximit aux sites pollus, etc.). Le bon fonctionnement de RIF dpend de la construction rigoureuse de la base de
donnes (figure 28).
p. 54 / Introduction aux statistiques spatiales et aux systmes dinformation gographique Institut de veille sanitaire

I figure 28 I
Exemple de base de donnes de RIF

Cette base de donnes sera ensuite connecte au projet ArcMap

par un lien ODBC


3
(Open DataBase Connectivity)
comme le montre la figure 29.
Le SIG travers le logiciel ArcGIS

intervient en deuxime position une fois la base de donnes construite. Mais RIF est
bas sur "la philosophie" SIG. Le logiciel de SIG est le support des dveloppements de RIF qui en est une extension.
Un simple onglet sajoute linterface habituelle. On a donc accs toutes les fonctionnalits classiques dArcGIS

(ajout de couches, symbologie, mise en page, etc.). Le SIG est utilis pour ses capacits de croisement de donnes,
danalyse et de communication (cartographie) et son utilisation est simplifie au maximum afin dtre accessible aux
non-connaisseurs du logiciel. Il permet de dfinir rapidement une population expose, par rapport son loignement
au site, en crant des cercles concentriques autour du point source dune part ou par rapport aux valeurs dexposition,
si disponibles. Il permet la visualisation et lanalyse dun contexte environnemental grce lajout dinformations sur
loccupation du sol, le rseau routier, etc.

3
Lien informatique vers une source de donnes construire dans les outils dadministration du panneau de configuration du poste de travail.
Institut de veille sanitaire Introduction aux statistiques spatiales et aux systmes dinformation gographique / p. 55

I figure 29 I
Architecture de la base de donnes de RIF

Il est important de rappeler que RIF est ax sur linvestigation de problmes grande chelle (sur des petites units
gographiques comme la commune, lIris, llot). En Grande-Bretagne, lunit gographique utilise est, par exemple,
le zip code (code postal denviron 10 000 personnes) ou encore le district (plus petite unit du recensement national,
environ 400 personnes) et les rgions pouvant tre utilises comme niveau de comparaison comptent autour de
10 millions de personnes.
RIF peut tre utilis pour deux types dtude : lanalyse de risque autour dun point source prdfini et la cartographie
des indicateurs de sant (RIF) Documentation: How to use the RIF ?).
Lobjectif de lanalyse de risque autour dun point source est de dcrire le risque sanitaire proximit du site tudi :
observe-t-on un risque sanitaire plus lev proximit du site ? Pour cela, il faut avoir dfini la zone potentiellement
expose et des ventuelles classes dexposition. RIF permet alors de calculer les ratios standardiss (mthode de
standardisation indirecte), SMR, leurs intervalles de confiance et de tester lhomognit de ces indicateurs. Pour cela,
le test dhomognit du chi2 et le test de tendance linaire sont raliss. La figure 30 est une copie dcran de RIF lors
du calcul des SMR autour de plusieurs points sources (pour cet exemple, la distance est utilise comme proxy de
lexposition et les SMR sont calculs par classe de distance).
La reprsentation cartographique des maladies permet de dcrire la distribution gographique du risque dune
pathologie :
le risque de maladie varie-t-il spatialement ?
observe-t-on en moyenne ce que lon attendait dans chacune des units gographiques ?
si des "carts" sont observs, ont-ils une disposition gographique particulire tendance lagrgation spatiale,
gradient gographique ?
Pour cela, il est possible de produire les cartes des ratios standardiss. Le lissage baysien des ratios standardiss est
mis en uvre (modle Poisson-Gamma et modle BYM) pour pouvoir prendre en compte linstabilit de cet indicateur
dans lanalyse de petites units gographiques. La figure 31 est une impression dcran de RIF o apparat le module
de reprsentation cartographique dindicateurs sanitaires. On peut ainsi noter que loutil dtermine lui-mme les
bornes de la classification selon une mthode de discrtisation par dfaut (mthode des seuils naturels) ainsi que la
gamme de couleurs pour la reprsentation.
ACCESS / ORACLE
Base de donnes
ArcGIS
Zones gographiques
(dcoupage administratif)
Co facteurs (donnes
sociodmographiques)
Numrateur: cas de cancers,
donnes de mortalit, etc.

Dnominateur: donnes du
recensement de la population
LIEN ODBC Dmarrer RIF
Dfinir la zone dtude
Dfinir la zone de comparaison
Donnes spatiales
Sorties et exports
Dfinir linvestigation
Lancer ltude
Visualiser les
donnes en sortie
Cartes
SaTScan
WinBUGS
Rapports
Contours gographiques, donnes
dexposition (occupation du sol,
sites industriels, etc.), informations
contextuelles
Lancer
des
modules
externes
p. 56 / Introduction aux statistiques spatiales et aux systmes dinformation gographique Institut de veille sanitaire
La dmarche mthodologique de description des donnes dans RIF est parfaitement balise et la plupart des outils sont
dj paramtrs, ce qui permet aux utilisateurs dtre guids tape par tape. Ainsi, malgr le fait quil sagisse dune
extension du logiciel ArcGIS

, RIF permet un utilisateur non aguerri de ne pas se soucier de laspect purement


cartographique. Il permet galement dexporter directement les cartes, graphiques et tableaux sous forme de rapports
mis en forme de manire automatique. Il demeure possible de prendre la main sur la mise en forme, le choix des
couleurs, etc., comme pour un projet SIG classique. De la mme faon, les fonctionnalits de base du logiciel restant
inchanges, les donnes go-rfrences sont trs facilement ajoutes dans un projet RIF, comme par exemple,
le rsultat dun modle de dispersion qui pourra tre import et utilis pour dfinir une population dans une analyse de
risque. De la mme faon, les informations contextuelles qui peuvent aider linterprtation peuvent aussi tre
affiches (rseau routier, occupation du sol, etc.).
Il sagit ainsi dun outil dexploration descriptive rapide des donnes visant avoir une premire valuation dune
situation. Mais RIF permet de creuser les investigations en rendant possible lexport rapide des donnes vers SaTScan


et WinBUGS

pour des analyses complmentaires et/ou plus "avances".


Les utilisateurs doivent nanmoins avoir les mmes considrations que lors dune tude pidmiologique classique.
Il reste lutilisateur le choix des pathologies dintrt, le choix des donnes (cohrentes avec la question pose),
le choix de la population de rfrence, le choix de lchelle gographique la plus approprie qui dpend du contexte
local (densit de population).

I figure 30 I
Exemple de reprsentation des rsultats de lanalyse autour de points sources dans RIF



Institut de veille sanitaire Introduction aux statistiques spatiales et aux systmes dinformation gographique / p. 57

I figure 31 I
Exemple de reprsentations cartographiques disponibles dans RIF

4.2 Exemples dutilisation de RIF
Les articles de Ball et al. [86] et Hodgson et al. [87] sont particulirement intressants quant lutilisation de RIF.
Lobjectif de ltude de Hodgson et al. est de dterminer sil y a un risque plus important de dvelopper une pathologie
rnale chez les personnes vivant proximit des industries de Runcorn, rgion North-West du Royaume-Uni. Le site
industriel de Runcorn a t en activit pendant plus dun sicle. Ce site, constitu de 16 industries, est responsable de
la diffusion dans lenvironnement (dans lair et leau) de tonnes de produits chimiques : plomb, mercure, arsenic et
chrome.
Les donnes de mortalit et morbidit sont analyses avec RIF. La mortalit est tudie en utilisant des donnes
recueillies en routine et fournies par lOffice for National Statistics. La morbidit est tudie en utilisant les donnes
dadmissions hospitalires locales recueillies en routine galement. Lunit gographique est le district : la plus petite
unit spatiale du recensement national. La distance aux industries est utilise comme un proxy de lexposition.
Les ratios standardiss de mortalit ajusts sur lge, le sexe et la dfaveur sociale (indice de Carstairs) sont calculs
pour les affections rnales (nephritis, nephritic syndrome et nephrosis) observs entre 1981 et 1999. La population de
rfrence est la population de la rgion North-West. Ces taux sont calculs pour les districts dont le centrode est entre
0 et 2 km et 2,01-7,5 km des installations industrielles.
Les ratios standardiss dadmissions ajusts sur lge et le sexe sont calculs pour les maladies rnales bnignes
(non-malignant renal disease) et pour les cancers du rein observs pendant la priode 1990-1999. Ces taux sont
calculs par district et la population de rfrence est celle des villes de Warrington et Halton.
p. 58 / Introduction aux statistiques spatiales et aux systmes dinformation gographique Institut de veille sanitaire
Un excs significatif de morbidit et de mortalit par maladie rnale est observ chez les personnes vivant proximit
des industries vivant dans des zones potentiellement exposes aux produits toxiques mis par ces installations.
Les auteurs soulignent que deux sources de donnes indpendantes ont t utilises et des rsultats cohrents ont t
obtenus. Les excs observs pourraient tre lis lexposition aux produits toxiques mis par le site de Runcorn.
Nanmoins, les analyses faites dans cette tude (analyse cologique et cartographie des maladies) sont rudimentaires
pour tablir un risque sanitaire associ une source de pollution. Il sagit dun travail dinvestigation prliminaire sur la
sant de la population

vivant proximit des industries de Runcorn. Il est donc ncessaire dapprofondir le lien entre
les excs de risque observs et la pollution chimique des zones tudies (pour pouvoir tablir une relation causale).
Hodgson et al. [88] ont repris ltude de 2004 mais en estimant lexposition au mercure par modlisation de la
dispersion atmosphrique (ADMS-Urban

version 2.0). Le modle est valid par des mesures de concentration de


mercure sur le site de Runcorn. Les SMR, ajusts sur lge (classes dge de cinq ans) et lindicateur de Carstairs, sont
calculs pour trois classes de la variable dexposition au mercure.
Ball et al. [86] comparent diffrentes mthodes danalyse de donnes de cancer. RIF et SaTScan

sont utiliss pour


tudier le risque de cancer dune population vivant proximit dune base arienne lorigine de la contamination au
trichlorthylne dune nappe phratique dans lUtah. Les localisations de cancers tudies sont : le poumon, le rein et
les lymphomes malins non-hodgkiniens.
Les donnes de cancer proviennent du registre de cancer de lUtah. Six priodes conscutives de cinq ans de 1975
2004 sont tudies. Lunit gographique est le census block : la plus petite unit du recensement national amricain.
Les contours des panaches contamins au trichlorthylne et aux composs associs sont disponibles. Si un census
block est moins de 400 m dun panache et dun niveau de concentration de 5-10 g/L, alors il est considr
potentiellement expos. La zone dtude non expose donne la population de rfrence.
Lanalyse est faite par ge et sexe et avec deux covariables supplmentaires, le niveau socio-conomique (revenu
mdian du census block) et le pourcentage de la population qui est rsidente depuis plus de cinq ans (une mesure de la
mobilit de la population, un proxy de la dure potentielle dexposition).
RIF est utilis pour calculer les ratios standardiss pour la population potentiellement expose pour chaque localisation
de cancer et pour chaque priode dtude. La population potentiellement expose est compare la population de
rfrence.
RIF est utilis aussi pour la reprsentation cartographique des cancers. Les SMR lisss et non lisss sont calculs.
Le taux de rfrence est ici celui de la zone dtude toute entire. Loutil de reprsentation cartographique des maladies
facilite les analyses exploratoires et les clusters sont identifis visuellement.
SaTScan

est aussi utilis. Une analyse spatio-temporelle est faite pour dtecter des agrgats circulaires ou elliptiques.
Lincidence du cancer du poumon et lincidence du cancer du rein sont significativement plus leves chez la population
potentiellement expose pour deux des six priodes tudies. Ces ratios sont calculs en prenant en compte les deux
covariables supplmentaires.
La reprsentation cartographique du cancer du poumon obtenue avec RIF et les rsultats de SaTScan

sont prsents.
Deux clusters significatifs sont identifis. Quand on inclut les deux covariables, aucun cluster nest identifi avec
SaTScan

.
Cette tude dmontre lutilit de RIF comme outil danalyse rapide de risque de maladie dans une population dfinie et
comme outil dexploration de la distribution gographique dune maladie en connexion avec SaTScan

.
Utiliser des mthodes qui permettent dexplorer la structure spatiale et temporelle dune maladie aide identifier des
populations et des facteurs potentiellement dintrt pour des investigations ultrieures.
Dans cette tude, des excs de risque pour les cancers du poumon et du rein sont mis en vidence chez la population
potentiellement expose. Mais, cette analyse ne fait pas (et ne peut pas faire) le lien entre risque de cancer et
exposition. Linclusion de covariables qui pourraient expliquer ces excs de risque est indispensable.
RIF permet damliorer la capacit et lefficacit dinvestigations de sant publique de maladies lies lenvironnement
comme le cancer.
Ltude de Ferrandiz et al. [89] est un autre exemple intressant de lutilisation de RIF. Ici, il est utilis pour explorer
lassociation entre la mortalit de maladies cardiovasculaires et la "duret" de leau de boisson.
Dune manire gnrale, il sagit dtudes descriptives qui ont pour objectif de dcrire ltat de sant dune population
vivant proximit dune source polluante partir de donnes disponibles, il sagit en particulier de comparer
Institut de veille sanitaire Introduction aux statistiques spatiales et aux systmes dinformation gographique / p. 59
lincidence/mortalit avec celle dune population de rfrence et mettre en vidence ou pas une ventuelle
surincidence/mortalit en relation avec un risque environnemental. Lide est de sappuyer sur des donnes recueillies
en routine.
4.3 Dveloppement de RIF
Une version mise jour du RIF est prvue pour 2010. La mise jour des donnes devrait tre facilite pour les tudes
menes en routine. Des modles statistiques pour lanalyse des ventuelles relations sant-environnement et des
modles statistiques pour la reprsentation spatio-temporelle des maladies devraient tre mis en uvre.
Le dveloppement de RIF se ralise dans le cadre des projets EUROHEIS et EUROHEIS2 et du National Environmental
Public Health Tracking Network du CDC.
Le National Institute for Public Health and the Environment (RIVM) est en train de dvelopper un projet dans lequel
loutil RIF est un lment essentiel.
- Les projets europens EUROHEIS (2000-2003) et EUROHEIS2 (2007-2010)
Lobjectif du projet EUROHEIS (http://www.euroheis.org/) tait damliorer lanalyse de donnes sanitaires pour
lestimation des associations entre pollution environnementale et maladie et pouvoir rpondre rapidement des
menaces environnementales en amliorant les connaissances et la comprhension de la gestion des risques sanitaires
[90].
Loutil RIF tait dvelopp et mis en uvre pour explorer les liens entre exposition des polluants environnementaux
et risques sanitaires potentiels. Il a t ncessaire de faire linventaire des bases de donnes gographiques existantes
dans chaque pays participant au projet, de vrifier leur disponibilit, accessibilit et cot, et de recueillir des
informations sur leur qualit et exhaustivit, ceci pour des donnes de sant, dmographiques, environnementales et
socio-conomiques.
Lutilit de RIF tait dmontre par des cas dtude raliss dans chaque pays participant au projet.
Lobjectif du projet EUROHEIS2 est damliorer lanalyse, la communication et la diffusion dinformation sur les risques
sanitaires associs des pollutions environnementales locales ou rgionales.
Ce projet poursuit le dveloppement du systme dinformation sant et environnement RIF dbut dans EUROHEIS.
Le projet se focalise sur les outils et mthodes pour lvaluation rapide des risques sanitaires lis lenvironnement.
Un des enjeux est linclusion dans RIF des mthodes de reprsentation cartographique spatio-temporelle des maladies
potentiellement lies une exposition environnementale. Une des difficults est la diversit des donnes des diffrents
pays participant au projet.
- Le national EPHT Network du CDC
La technologie des SIG et les mthodes danalyse spatiale associes sont au centre du systme de surveillance de ltat
de sant des populations aux tats-Unis. Lquipe du SAHSU, en partenariat avec le CDC, adapte loutil RIF des
programmes de surveillance sanitaire de certains tats dans le cadre du programme national de surveillance en sant
publique et environnement. Le but tant dvaluer les relations spatio-temporelles entre une pathologie et une
exposition environnementale.
- Le programme Small Area Health Analyses (SMARHAGT) du RIVM
Lobjectif du programme SMARHAGT du RIVM est de dvelopper un outil permettant la surveillance de la sant
environnementale, lanalyse de groupement de cas, lvaluation de risque lchelle nationale, rgionale et locale
partir de donnes dexposition et de sant disponibles en routine.
Les objectifs spcifiques sont :
faciliter la reprsentation cartographique des maladies en utilisant RIF, pour explorer les liens entre exposition
environnementale et indicateurs sanitaires ;
faciliter des tudes de corrlation gographique ;
faciliter lutilisation des mthodes de dtection de clusters spatiaux ou spatio-temporels ;
construire des bases de donnes nationales avec des expositions environnementales, des indicateurs
dmographiques et socio-conomiques gorfrencs pour tre utiliss une chelle locale.
p. 60 / Introduction aux statistiques spatiales et aux systmes dinformation gographique Institut de veille sanitaire
4.4 Conclusion : utilit et limites de RIF
RIF a t dvelopp pour rpondre rapidement des questions "environnement-sant". Cest un outil de description
des donnes de sant. Il ne permet pas destimer une relation entre des pathologies et des sources de pollution mais de
formuler des hypothses, quant un ou des facteurs explicatifs. Le lien direct avec des logiciels comme SaTScan

et
WinBUGS

permet dapprofondir linvestigation et reprsente un atout supplmentaire.


Le dveloppement dun outil comme RIF a permis de prendre conscience des "possibles" de lapproche spatiale dans
une tude pidmiologique. Aujourdhui, dautres programmes de sant publique dveloppent des applications
similaires adaptes leurs besoins : par exemple, le programme national de surveillance en sant publique et
environnement du CDC et le projet SMARHAGT du RIVM.
Linconvnient de RIF est que la base de donnes est lourde mettre en place (contraintes imposes par le logiciel).
Dautre part, le tutoriel est relativement peu dtaill. Le fait que RIF dpende de lacquisition du logiciel ARCGIS


dESRI

reprsente aussi une contrainte non ngligeable mme si aujourdhui, le monde de la sant est quasi
exclusivement quip par ESRI

.
La mise en place dun projet RIF doit faire lobjet dun plan dtude comme pour toute tude pidmiologique.
Sagissant dtudes locales, il faut avoir dfini : la zone dtude et la zone potentiellement expose, la population de
rfrence, lunit gographique danalyse.
En rsum, squiper de RIF peut savrer intressant pour mener rapidement des tudes descriptives en labsence de
spcialistes SIG et de statisticiens. Lors dinvestigations en sant environnement, il est rare que lon sarrte des
analyses descriptives. En gnral, des analyses statistiques mettant en uvre des mthodes plus pousses sont
ncessaires.
Par ailleurs, RIF sappuie sur la mise en place dune base de donnes relie un SIG et dont ladministration est lourde.
Par consquent, nous pensons que RIF doit tre envisag dans les tudes ayant une base de donnes sanitaires ne
ncessitant pas de mises jour rgulires. Pour autant, lobjectif est dexploiter cette base de donnes pour rpondre
diffrentes investigations.
5. Conclusion
Ce document a t construit dans lobjectif de montrer les diffrents types dtudes spatiales en sant environnement,
de balayer un certain nombre de mthodes statistiques et SIG, de fournir des rfrences bibliographiques diverses sur
lutilisation des statistiques spatiales et des SIG en sant. Au terme de ce travail, il semble intressant de revenir sur ces
diffrentes mthodes en proposant des axes de dveloppement et damlioration.
Lapproche spatiale en sant environnement permet damliorer la description dun fait de sant en le replaant dans
son contexte environnemental, notamment lorsquun lien avec lenvironnement est suspect. Les mthodes danalyse
gographique mises en uvre aussi bien au moyen des SIG que par les statistiques spatiales contribuent ainsi
dvelopper la connaissance sur ces vnements sanitaires et sur les populations et les territoires quils concernent.
Ce faisant, elles sinscrivent pleinement dans les missions qui sont celles de lInVS. Mais les mthodes statistiques et les
utilisations des SIG qui permettent de prendre en compte la rpartition spatiale dun fait de sant et dun contexte
environnemental sont nombreuses et leur mise en uvre ncessite une rflexion approfondie.
Nous avons centr ce travail sur les tudes cologiques dans lesquelles lon traite des donnes agrges et non
individuelles. Malgr un certain nombre de biais et de difficults dinterprtation lis prcisment la nature agrge
des donnes, ces tudes prsentent certains avantages, notamment en termes de puissance statistique, dtendue de la
zone et de la population dtude. Elles peuvent aider gnrer des hypothses quant leffet dune exposition sur la
sant au niveau agrg. Ces hypothses permettent, dans un deuxime temps, damorcer une rflexion sur la causalit
de cet effet. Lobjectif de ces tudes est destimer les risques lis la survenue dvnements rares, soit pour obtenir
une reprsentation cartographique des risques, la plus informative possible, soit pour quantifier les liens entre un
indicateur sanitaire et des covariables environnementales. De nombreux travaux sont consacrs au dveloppement
mthodologique des tudes cologiques gographiques en sant-environnement et concernent en particulier les
mthodes de dtection de clusters, les modles spatiaux, spatio-temporels, les modles conjoints de plusieurs maladies
ou de sources de donnes multiples, la convergence des algorithmes MCMC et, plus gnralement, lestimation dans le
contexte baysien. Paralllement, lutilisation accrue des SIG en sant environnementale rend compte de son intrt
Institut de veille sanitaire Introduction aux statistiques spatiales et aux systmes dinformation gographique / p. 61
dans les problmatiques traites. Il convient de poursuivre les dveloppements mthodologiques avec lobjectif
daffiner les mthodes danalyse mises en uvre dans la construction des indicateurs dexposition et des covariables.
Il faut galement encourager lamlioration de la collecte des donnes en vue dun go-rfrencement de meilleure
qualit.
Les projets europens tels que EUROHEIS et EUROHEIS2 et le dveloppement doutils tels que RIF ont permis de
diffuser les tudes cologiques gographiques dans plusieurs Instituts de sant publique europens et au CDC, et de
rendre les mthodes associes ces tudes plus accessibles. Les programmes SMARHAGT du RIVM et le National EPHT
du CDC ont fait le choix dutiliser pleinement ces outils en les intgrant dans leurs rflexions en sant
environnementale. Ces diffrents projets sont la preuve que, malgr les biais et les difficults induits par les tudes
gographiques, celles-ci trouvent aujourdhui de plus en plus leur place dans le champ de lpidmiologie
environnementale.
Les travaux de dveloppement mthodologique devront avoir comme objectif de tenter de rduire ces biais.
Lapport des tudes de corrlations gographiques ne nous semble pas devoir tre remis en cause, mais un certain
nombre de conditions doivent tre vrifies : il faut notamment quune mesure de lexposition soit disponible, quil soit
possible de prendre en compte les facteurs de confusion potentiels, que lunit spatiale soit adapte aux objectifs de
ltude. Combiner des donnes dexposition individuelles ou intra-unit spatiale avec les donnes agrges permet
damliorer ce type dtude [17,18]. Par ailleurs, en gnral, dans les tudes de corrlations gographiques, les
donnes de sant sont agrges sur des priodes relativement longues (de 10 ans ou plus) et linformation temporelle
nest pas exploite. Utiliser des modles spatio-temporels permettrait dajouter une composante temporelle et
dobserver dventuelles interactions spatio-temporelles.
Enfin, un des axes de ces dveloppements concerne plus particulirement les tudes dinvestigations autour dun point
source, pour lesquelles il semble plus pertinent de raliser une tude multicentrique autour de sites prsentant les
mmes caractristiques dmission [52-54;91;92].
Nous avons dcrit lapproche spatiale telle quelle est intgre aujourdhui dans les tudes que nous sommes amens
conduire dans le cadre de notre travail au DSE de lInVS. Nous continuerons suivre les dveloppements
mthodologiques qui tendent rduire les biais constats dans les tudes cologiques.
De manire plus gnrale, la connaissance gographique, parce quelle implique la connaissance des territoires et des
populations, semble trouver pleinement sa place dans les missions qui sont celles dun institut comme lInVS. Une telle
rflexion gographique doit donc tre de plus en plus souvent intgre dans ses travaux, comme cest le cas pour de
nombreuses tudes de sant menes dans dautres pays, et notamment dans les pays anglo-saxons.
6. Rfrences bibliographiques

[1] Beale L, Abellan JJ, Hodgson S, Jarup L. Methodologic issues and approaches to spatial epidemiology. Environ
Health Perspect 2008;116(8):1105-10.
[2] Elliott P, Wakefield JC, Best NG, Briggs DJ. Spatial epidemiology: methods and applications. In: Elliott P, Wakefield
JC, Best NG, Briggs DJ, (dir.). Spatial epidemiology: methods and applications.Oxford: Oxford University Press;
2000. p. 3-14.
[3] Goria S, Le Tertre A. Les tudes locales autour d'un point source - Les diffrentes mthodes statistiques, leurs
avantages et leurs inconvnients. Note mthodologique. Saint-Maurice: Institut de veille sanitaire; 2010. 8 p.
Disponible partir de l'URL : http://www.invs.sante.fr
[4] IRSN. Les tudes pidmiologiques des leucmies autour des installations nuclaires chez l'enfant et le jeune
adulte: revue critique. 2008.
[5] Lawson AB, Biggeri A, Williams FLR. A review of modelling approaches in health risk assessment around putative
sources. In: Lawson AB, Biggeri A, Bhning D, Lesaffre E, Viel JF, Bertollini R, (dir.). Disease mapping and risk
assessment for public health. Chichester: Wiley; 1999. p. 231-45.
[6] Guihenneuc-Jouyaux C. Statistical modelization of geographic variations: a major challenge in epidemiology and
statistics. Rev Epidemiol Sant Publique 2002;50(5):409-12.
p. 62 / Introduction aux statistiques spatiales et aux systmes dinformation gographique Institut de veille sanitaire
[7] Richardson S. Problmes mthodologiques dans les tudes cologiques sant-environnement. CR Acad Sci Paris,
Sciences de la Vie/Life Sciences 2000;323:611-6.
[8] Best NG, Cockings S, Bennett JE, Wakefield JC, Elliott P. Ecological regression analysis of environmental benzene
exposure and childhood leukaemia: sensitivity to data inaccuracies, geographical scale and ecological bias. Journal
of the Royal Statistical Society, Series A 2001;164:155-74.
[9] Cordier S, Chevrier C, Robert-Gnansia E, Lorente C, Brula P, Hours M. Risk of congenital anomalies in the vicinity
of municipal solid waste incinerators. Occup Environ Med 2004;61(1):8-15.
[10] Maheswaran R, Haining RP, Pearson T, Law J, Brindley P, Best NG. Outdoor NOx and stroke mortality: adjusting
for small area level smoking prevalence using a Bayesian approach. Statistical methods in medical research
2006;15(5):499-516.
[11] Nieuwenhuijsen MJ, Toledano MB, Bennett J, Best N, Hambly P, de HC et al. Chlorination disinfection by-products
and risk of congenital anomalies in England and Wales. Environ Health Perspect 2008;116(2):216-22.
[12] Richardson S, Monfort C, Green M, Draper G, Muirhead C. Spatial variation of natural radiation and childhood
leukaemia incidence in Great Britain. Stat Med 1995;14(21-22):2487-501.
[13] Fabre P, Daniau C, Goria S, de Crouy-Chanel P, Empereur-Bissonnet P. tude d'incidence des cancers proximit
des usines d'incinration d'ordures mnagres. Saint-Maurice: Institut de veille sanitaire; 2008. 139 p. Disponible
partir de l'URL : http://www.invs.sante.fr
[14] Wakefield J. Disease mapping and spatial regression with count data. Biostatistics 2007;8(2):158-83.
[15] Salway R. Statistical issues in the analysis of ecological studies, Ph.D. Thesis Imperial College School of Medicine,
University of London; 2003.
[16] Wakefield JC, Salway R. A statistical framework for ecological and aggregate studies. Journal of the Royal
Statistical Society, series A 2001;164:119-37.
[17] Salway R, Wakefield J. A hybrid model for reducing ecological bias. Biostatistics 2008;9(1):1-17.
[18] Jackson C, Best N, Richardson S. Hierarchical related regression for combining aggregate and individual data in
studies of socio-economic disease risk factors. Journal of the Royal Statistical Society, Series A 2008;171(1):159-
78.
[19] Best N, Ickstadt K, Wolpert R. Spatial Poisson regression for health and exposure data measured at disparate
resolutions. Journal of the American Statistical Society 2000;95:1076-88.
[20] Fortunato L, Guihenneuc-Jouyaux C, Tirmarche M, Laurier D, Hmon D. Misspecification of within-area exposure
distribution in ecological Poisson models. Environ Ecol Stat 2009;16:341-53.
[21] Fleuret S, Thouez JP. Gographie de la sant, un panorama. Paris : Economica; 2007.
[22] Nuckols JR, Ward MH, Jarup L. Using geographic information systems for exposure assessment in environmental
epidemiology studies. Environ Health Perspect 2004;112(9):1007-15.
[23] Bguin M, Pumain D. La reprsentation des donnes gographiques: statistique et cartographie. Armand Colin d.;
1994. 192 p.
[24] Bertin J. Smiologie graphique: les diagrammes, les rseaux, les cartes. Paris : EHESS; 1999.
[25] Jenks GF, Caspall FC. Error on choroplethic maps: definition, measurement, reduction. Annals of the Association of
American Geographers 1971;61(2):217-44.
[26] Colonna M. Habilitation diriger des recherches Universit Joseph Fourier, Grenoble; 2006.
[27] Pumain D, Saint-Julien T. L'analyse spatiale, localisation dans l'espace. Armand Colin d. Paris: 2008. 166 p.
[28] Ord JK, Getis A. Local spatial autocorrelation statistics: distributional issues and an application. Geographical
Analysis 1995;27(4):286-306.
[29] Vandentorren S. Exposition environnementale l'amiante chez les personnes riveraines d'anciens sites industriels
et affleurements naturels. tude cas-tmoins partir des donnes du Programme national de surveillance du
msothliome. Saint-Maurice: Institut de veille sanitaire; 2009. Disponible partir de l'URL :
http://www.invs.sante.fr.
Institut de veille sanitaire Introduction aux statistiques spatiales et aux systmes dinformation gographique / p. 63
[30] Counil E, Daniau C, Isnard H. tude de sant publique autour d'une ancienne usine de broyage d'amiante : le
Comptoir des minraux et matires premires Aulnay-sous-Bois (Seine-Saint-Denis) - Pollution environnementale
entre 1938 et 1975 : impacts sanitaires et recommandations. Saint-Maurice: Institut de veille sanitaire; 2007.
254 p. Disponible partir de l'URL : http://www.invs.sante.fr.
[31] De Crouy-Chanel P. tude SIG de la corrlation entre exposition indirecte l'amiante et asbestose. Geomatique
Expert 2007;54:28-32
[32] Poulstrup A, Hansen HL. Use of GIS and exposure modeling as tools in a study of cancer incidence in a population
exposed to airborne dioxin. Environ Health Perspect 2004;112(9):1032-6.
[33] Yu CL, Wang SF, Pan PC, Wu MT, Ho CK, Smith TJ et al. Residential exposure to petrochemicals and the risk of
leukemia: using geographic information system tools to estimate individual-level residential exposure. Am J
Epidemiol 2006;164(3):200-7.
[34] Hoek G, Beelen R, de Hoogh K, Vienneau D, Gulliver J, Fischer P et al. A review of land-use regression models to
assess spatial variation of outdoor air pollution. Atmos Environ 2008;42:7561-78.
[35] Best N, Ickstadt K, Wolpert R, Briggs D. Combining models of health and exposure data: the SAVIAH study. In:
Elliott P, Wakefield JC, Best NG, Briggs DJ, (dir.). Spatial epidemiology: methods and applications.Oxford: Oxford
University Press; 2000. p. 393-414.
[36] Waller LA, Gotway CA. Applied Spatial Statistics for Public Health Data. Hoboken, New Jersey: Wiley; 2004.
[37] Elliott P, Wakefield JC, Best NG, Briggs DJ. Spatial epidemiology: methods and applications. Oxford: Oxford
University Press; 2000.
[38] Disease mapping with a focus on evaluation. Stat Med 19; 2000.
[39] Huang L, Pickle LW, Das B. Evaluating spatial methods for investigating global clustering and cluster detection of
cancer cases. Stat Med 2008;27(25):5111-42.
[40] Demattei C. Dtection d'agrgats temporels et spatiaux, Ph.D. Thesis Universit Montpellier 1 UFR de mdecine,
Montpellier; 2006.
[41] Wakefield JC, Kelsall JE, Morris SE. Clustering, cluster detection, and spatial variation in risk. In: Elliott P,
Wakefield JC, Best NG, Briggs DJ, (dir.). Spatial epidemiology: methods and applications. Oxford: Oxford University
Press; 2000. p. 128-52.
[42] Kulldorff M, Nagarwalla N. Spatial disease clusters: detection and inference. Stat Med 1995;14(8):799-810.
[43] Kulldorff M, Huang L, Pickle L, Duczmal L. An elliptic spatial scan statistic. Stat Med 2006;25(22):3929-43.
[44] Kulldorff M. A spatial scan statistic. Commun Stat Theory Methods 1997;26(6):1481-96.
[45] Kulldorff M. SaTScan User Guide for version 7.0; 2006.
[46] Bivand RS, Pebesma EJ, Gomez-Rubio V. Applied spatial data analysis with R. Springer; 2008.
[47] Tango T, Takahashi K. A flexibly shaped spatial scan statistic for detecting clusters. Int J Health Geogr 2005;4:11.
[48] Assuncao R, Costa M, Tavares A, Ferreira S. Fast detection of arbitrarily shaped disease clusters. Stat Med
2006;25(5):723-42.
[49] Morris SE, Wakefield JC. Assessment of disease risk in relation to a pre-specified source. In: Elliott P, Wakefield JC,
Best NG, Briggs DJ, (dir.). Spatial epidemiology: methods and applications.Oxford: Oxford University Press;
2000;153-84.
[50] Bithell JF, Stone RA. On statistical methods for analysing the geographical distribution of cancer cases near nuclear
installations. J Epidemiol Community Health 1989;43(1):79-85.
[51] Stone RA. Investigations of excess environmental risks around putative sources: statistical problems and a
proposed test. Stat Med 1988;7(6):649-60.
[52] Elliott P, Shaddick G, Kleinschmidt I, Jolley D, Walls P, Beresford J et al. Cancer incidence near municipal solid
waste incinerators in Great Britain. Br J Cancer 1996;73(5):702-10
[53] Bithell JF, Dutton SJ, Draper GJ, Neary NM. Distribution of childhood leukaemias and non-Hodgkin's lymphomas
near nuclear installations in England and Wales. BMJ 1994;309(6953):501-5.
p. 64 / Introduction aux statistiques spatiales et aux systmes dinformation gographique Institut de veille sanitaire
[54] White-Koning ML, Hemon D, Laurier D, Tirmarche M, Jougla E, Goubin A et al. Incidence of childhood leukaemia in
the vicinity of nuclear sites in France, 1990-1998. Br J Cancer 2004;91(5):916-22.
[55] Gomez-Rubio V, Ferrandiz-Ferragud J, Lopez-Quilez A. Detecting clusters of disease with R. Journal of
Geographical Systems 2005;7(2):189-206.
[56] Bithell JF. The choice of test for detecting raised disease risk near a point source. Stat Med 1995;14(21-22):2309-
22.
[57] Kulldorff M. Tests of spatial randomness adjusted for an inhomogeneity: a general framework. Journal of the
American Statistical Association 2006;101(475):1289-305.
[58] Tango T. A class of tests for detecting 'general' and 'focused' clustering of rare diseases. Stat Med 1995;14(21-
22):2323-34.
[59] Tango T. A test for spatial disease clustering adjusted for multiple testing. Stat Med 2000;19(2):191-204.
[60] Chirpaz E, Colonna M, Viel JF. [Cluster analysis in geographical epidemiology: the use of several statistical
methods and comparison of their results]. Rev Epidemiol Sante Publique 2004;52(2):139-49.
[61] Thomas A, Best N, Lunn DJ, Arnold R, Spiegelhalter D. GeoBUGS User Manual; 2004.
[62] Clayton D, Kaldor J. Empirical Bayes estimates of age-standardized relative risks for use in disease mapping.
Biometrics 1987;43(3):671-81.
[63] Breslow NE, Clayton DG. Approximate inference in generalised linear mixed models. Journal of the American
Statistical Association 1993;88:9-25.
[64] Lunn DJ, Thomas A, Best N, Spiegelhalter D. WinBUGS- a Bayesian modelling framework: concepts, structure, and
extensibility. Statistics and Computing 2000;10:325-37.
[65] Besag J, York J, Molli A. Bayesian image restoration, with two applications in spatial statistics (with Discussion).
Annals of the Institute of Statistical Mathematics 1991;43(1):1-59.
[66] Bernardinelli L, Clayton DG, Pascutto C, Montomoli C, Ghislandi M, Songini M. Bayesian analysis of space-time
variation in disease risk. Stat Med 1995;14(21-22):2433-43.
[67] Waller LA, Carlin BP, Xia H, Gelfand AE. Hierarchical spatio-temporal mapping of disease rates. Journal of the
American Statistical Association, 1997;92:607-17.
[68] Knorr-Held L. Bayesian modelling of inseparable space-time variation in disease risk. Stat Med 2000;19(17-
18):2555-67.
[69] MacNab YC, Dean CB. Autoregressive spatial smoothing and temporal spline smoothing for mapping rates.
Biometrics 2001;57(3):949-56.
[70] MacNab YC, Dean CB. Spatio-temporal modelling of rates for the construction of disease maps. Stat Med
2002;21(3):347-58.
[71] Abellan JJ, Richardson S, Best N. Use of space-time models to investigate the stability of patterns of disease.
Environ Health Perspect 2008;116(8):1111-9.
[72] Ugarte MD, Goicoa T, Ibanez B, Militino AF. Evaluating the performance of spatio-temporal Bayesian models in
disease mapping. Environmetrics 2009;20:647-65.
[73] Rue H, Martino S, Chopin N. Approximate bayesian inference for latent gaussian models by using integrated
nested Laplace approximations (with discussion). Journal of the Royal Statistical Society, series B 2009;71:319-92.
[74] Green PJ, Richardson S. Hidden Markov models and disease mapping. Journal of the American Statistical
Association 2002;97:1055-70.
[75] Richardson S, Thomson A, Best NG, Elliott P. Interpreting posterior relative risk estimates in disease mapping
studies. Environ Health Perspect 2004;112:1016-25.
[76] Best N, Hansell AL. Geographic variations in risk: adjusting for unmeasured confounders through joint modelling of
multiple diseases. Epidemiology 2009;20(3):400-10.
[77] Dabney AR, Wakefield JC. Issues in the mapping of two diseases. Statistical methods in medical research
2005;14:83-112.
Institut de veille sanitaire Introduction aux statistiques spatiales et aux systmes dinformation gographique / p. 65
[78] Held L, Natario I, Fenton SE, Rue H, Becker N. Towards joint disease mapping. Statistical methods in medical
research 2005;14:61-82.
[79] Tzala E, Best N. Bayesian latent variable modelling of multivariate spatio-temporal variation in cancer mortality.
Statistical methods in medical research 2008;17:97-118.
[80] Richardson S. Spatial models in epidemiological applications. In: Green PJ, Hjort NL, Richardson S, (dir.). Highly
Structured Stochastic Systems.Oxford: Oxford Statistical Science Series; 2003. p. 237-59.
[81] Best N, Richardson S, Thomson A. A comparison of Bayesian spatial models for disease mapping. Stat Methods
Med Res 2005;14(1):35-59.
[82] Latouche A, Guihenneuc-Jouyaux C, Girard C, Hemon D. Robustness of the BYM model in absence of spatial
variation in the residuals. Int J Health Geogr 2007;6:39.
[83] Lee DJ, Durban M. Smooth-CAR mixed models for spatial count data. Computational Statistics and Data Analysis
2009;53:2968-79.
[84] Thurston SW, Wand MP, Wiencke JK. Negative binomial additive models. Biometrics 2000;56(1):139-44.
[85] Diggle PJ, Tawn JA, Moyeed RA. Model-based geostatistics (with discussion). Appl Statist 1998;47:299-350.
[86] Ball W, LeFevre S, Jarup L, Beale L. Comparison of different methods for spatial analysis of cancer data in Utah.
Environ Health Perspect 2008;116(8):1120-4.
[87] Hodgson S, Nieuwenhuijsen MJ, Hansell A, Shepperd S, Flute T, Staples B et al. Excess risk of kidney disease in a
population living near industrial plants. Occup Environ Med 2004;61(8):717-9.
[88] Hodgson S, Nieuwenhuijsen MJ, Elliott P, Jarup L. Kidney disease mortality and environmental exposure to
mercury. Am J Epidemiol 2007;165(1):72-7.
[89] Ferrandiz J, Abellan JJ, Gomez-Rubio V, Lopez-Quilez A, Sanmartin P, Abellan C et al. Spatial analysis of the
relationship between mortality from cardiovascular and cerebrovascular disease and drinking water hardness.
Environ Health Perspect 2004;112(9):1037-44.
[90] Kokki E, Ranta J, Penttinen A, Pukkala E, Pekkanen J. Small area estimation of incidence of cancer around a known
source of exposure with fine resolution data. Occup Environ Med 2001;58(5):315-20.
[91] Elliott P, Richardson S, Abellan JJ, Thomson A, de HC, Jarup L et al. Geographic density of landfill sites and risk of
congenital anomalies in England. Occup Environ Med 2009;66(2):81-9.
[92] Evrard AS, Hemon D, Morin A, Laurier D, Tirmarche M, Backe JC et al. Childhood leukaemia incidence around
French nuclear installations using geographic zoning based on gaseous discharge dose estimates. Br J Cancer
2006;94(9):1342-7.


Institut de veille sanitaire
12 rue du Val dOsne
94 415 Saint-Maurice Cedex France
Tl. : 33 (0)1 41 79 67 00
Fax : 33 (0)1 41 79 67 67
www.invs.sante.fr
ISSN : 1958 -9719
ISBN-NET : 978-2-11-128246-9
Dpt lgal : mars 2011
Introduction aux statistiques spatiales et aux systmes dinformation
gographique en sant environnement
Application aux tudes cologiques
Les variations spatiales des indicateurs de sant et des facteurs dexpositions environnementales sont tudies en pidmiologie
dans un but descriptif et afin de suggrer des hypothses tiologiques.
Lobjectif de ce travail est de prsenter et discuter les principaux outils et mthodes mettant en uvre des systmes dinformation
gographiques (SIG) et les statistiques spatiales utilises dans les tudes cologiques gographiques. Ce travail sintresse aux
tudes cologiques dans lesquelles les variables (indicateurs de sant et facteurs de risque) sont mesures lchelle dune unit
gographique (commune, lots regroups pour linformation statistique (Iris), etc.) et non lchelle de lindividu. Sont dcrites
et discutes des mthodes statistiques adaptes lanalyse des relations entre indicateurs sanitaires et indicateurs dexposition
des facteurs de risques environnementaux. La modlisation et lanalyse statistique de ces donnes posent un certain nombre
de difficults mthodologiques : la forte variabilit, la dpendance spatiale, lexistence de diffrentes chelles spatiales, etc. Sont
prsents les outils statistiques les plus utiliss pour rpondre ces difficults.
Les possibilits quoffrent la mise en uvre des SIG et lexploitation des donnes gographiques sont prsentes en sappuyant sur
des exemples concrets de travaux mens au Dpartement sant environnement (DSE) de lInstitut de veille sanitaire (InVS) ainsi que
quelques exemples issus de la littrature, en insistant sur les prcautions qui doivent accompagner leur utilisation.
Introduction to spatial statistics and geographic information systems
in environmental health
Application to ecological studies
Spatial variations of health indicators and factors of environmental exposures are studied in epidemiology for descriptive
purposes and to suggest etiological hypotheses.
The objective of this study is to present and discuss the main tools and methods implementing geographic information systems
(GIS) and the spatial statistics used in ecological and geographical studies. This work focuses on ecological studies in which
variables (health indicators and risk factors) are measured at the scale of a geographical unit (county, census block, etc.)
rather than on the individual level. Statistical methods adapted to analyzing relationships between health indicators and
indicators of exposure to environmental risk factors are described and discussed. Modeling and statistical analysis of these
data raise a number of methodological difficulties: high variability, spatial dependence, existence of different spatial scales,
etc. The most widely used statistical tools to address these difficulties are presented.
The possibilities related to the GIS implementation and the operating of geographical data are presented based on concrete
examples of activities conducted at the Department of Health and Environment of the French Institute for Public Health
Surveillance, as well as some examples from the literature, emphasizing the precautions that must accompany their use.

Mars 2011
Sant environnement
Citation suggre :
Goria S, Stempfelet M, de Crouy-Chanel P. Introduction aux mthodes statistiques et aux systmes d'information gographique
en sant environnement Application aux tudes cologiques. Saint-Maurice: Institut de veille sanitaire; 2011. 65 p. Disponible
partir de l'URL : http://www.invs.sante.fr.
Mots cls : tude cologique gographique, systme information gographique, statistiques spatiales, reprsentation
cartographique des maladies, dtection de clusters spatiaux

Vous aimerez peut-être aussi