Vous êtes sur la page 1sur 31

Chapitre 4

pidmiologie
Jean Bouyer, Sylvaine Cordier, Patrick Levallois

La rfrence bibliographique de ce document se lit


comme suit:
Bouyer J, Cordier S, Levallois P (2003)
pidmiologie.
In : Environnement et sant publique - Fondements et
pratiques, pp.89-118.
Grin M, Gosselin P, Cordier S, Viau C, Qunel P,
Dewailly , rdacteurs.
Edisem / Tec & Doc, Acton Vale / Paris

Note : Ce manuel a t publi en 2003. Les connaissances


ont pu voluer de faon importante depuis sa publication.

Chapitre 4

pidmiologie
Jean Bouyer, Sylvaine Cordier, Patrick Levallois

1.
2.
3.
3.1
3.2
3.3
3.4
4.
4.1
4.2
4.3
5.
5.1
5.2
5.3
5.4
6.
6.1
6.2
7.
7.1
7.2
7.3
8.

Introduction
Domaine de l'pidmiologie
Mesures utilises en pidmiologie
Prvalence
Taux d'incidence
Risque cumul de maladie (ou incidence cumule)
Mesures d'association
Types d'enqutes pidmiologiques
tudes exprimentales
Enqutes descriptives
Enqutes tiologiques
Validit et prcision
Introduction
Biais de slection
Biais de classement
Facteurs de confusion
Analyse des d o n n e s
Estimation et tests
Analyse
Interprtation d e s rsultats. Causalit
Jugement de signification
Jugement de causalit
Critres de causalit
Conclusion

90

ENVIRONNEMENT ET SANT PUBLIQUE

1. INTRODUCTION
L'pidmiologie est une des disciplines qui concourent de faon importante aux progrs des
connaissances en sant environnementale et en
sant au travail. Son atout majeur est d'tudier
les relations entre environnement et sant un
niveau global. Cette globalisation est faite selon
deux dimensions. En premier lieu, les rsultats
des tudes pidmiologiques portent sur des
groupes de sujets, dfinis par exemple par leur
exposition telle ou telle condition environnementale ou de travail. Ce niveau d'analyse
permet de dgager des moyennes et des tendances stables que l'observation individuelle ne
rend pas perceptibles en raison de la variabilit
importante entre les individus, qu'elle soit d'origine biologique ou qu'elle rsulte de conditions d'exposition variables. Le second niveau
de globalisation se situe au sein de l'individu l u i mme. L'pidmiologie ne cherche pas tudier
ni dfinir les mcanismes d'action des expositions sur l'organisme humain. Elle mesure leur
effet intgratif par la survenue de pathologies
ou, de faon plus gnrale, d'vnements de
sant. C'est le ct bote noire de l'pidmiologie qui a t beaucoup dbattu (Savitz, 1994;
Skrabanek, 1994), et dont on voit bien les l i mites, mais aussi les avantages puisqu' la fois il
masque la connaissance des mcanismes
biologiques fins et la rend non indispensable la
progression des connaissances des effets de l'environnement sur l'Homme.
L'pidmiologie n'est bien sr pas seule et,
comme dans la plupart des domaines scientifiques, les avances en sant environnementale
ont t et seront le fruit des rsultats conjoints
de plusieurs disciplines. C'est ainsi que la toxicologie apporte les preuves exprimentales de
la nocivit de certaines substances que
l'pidmiologie ne peut pas donner, mais elle les
apporte sur l'animal ou dans des conditions
idales, souvent loignes de la ralit des
expositions humaines. l'inverse, l'pidmiologie est proche des conditions relles d'exposition, mais a parfois du mal sparer les effets
d'expositions survenant de faon conjointe.
Ce chapitre prsente les mthodes pidmiologiques en mettant l'accent sur les mesures u t i lises en pidmiologie et les principaux types
d'tude. Il permettra aussi d'aborder succinctement les principes de l'analyse des donnes
pidmiologiques et de leur interprtation. Il

devrait permettre de comprendre les rsultats


des tudes pidmiologiques en ayant un regard
critique sur leur mthodologie.
2. DOMAINE DE L'PIDMIOLOGIE
L'pidmiologie est une discipline p l u t t
rcente. Son champ d'intrt s'accrot d'annes
en annes, et sa mthodologie est encore en
pleine volution. Mme si on a coutume de
rappeler que dj Hippocrate 400 ans avant
Jsus-Christ s'intressait aux dterminants de la
maladie, nous devons reconnatre que l'pidmiologie comme science a commenc voir le
jour au X I X e sicle (en particulier en Angleterre
et en France) et qu'elle s'est vritablement
dveloppe au X X e sicle en particulier, et de
plus en plus l'aide des statisticiens et de la
rvolution informatique.
L'pidmiologie est classiquement dfinie
comme l'tude de la distribution des maladies et
de leurs dterminants dans les populations
humaines (Bouyer et coll., 1993; Rothman et
coll., 1998). Cependant, son champ s'est rapidement tendu pour couvrir l'tiologie de
l'ensemble des problmes de sant ainsi que
leur contrle (Last, 1983). Les dfinitions modernes de l'pidmiologie incluent mme l'valuation des interventions et le support aux politiques de sant. Cependant, dans ce chapitre,
nous nous concentrerons sur sa dfinition primaire, soit l'tude de l'apparition de la maladie
dans les populations humaines et son apport
l'valuation des risques environnementaux.
3. MESURES UTILISES
EN PIDMIOLOGIE
La dfinition de l'pidmiologie montre qu'il
faut s'intresser deux types de mesures. D'une
part, celles qui permettent de caractriser la distribution des maladies; il s'agit des mesures de
risque et d'incidence (nous verrons la prvalence, le taux d'incidence et le risque cumul).
D'autre part, celles qui permettent de quantifier
le lien entre une exposition et la maladie; il s'agit
des mesures d'association (nous verrons principalement le risque relatif et l'odds ratio).
Les mesures qui caractrisent la distribution
des maladies englobent des mesures de risque au
sens strict, c'est--dire les probabilits d'tre ou
de devenir malade, et les mesures d'incidence

PIDMIOLOGIE

qui indiquent la vitesse d'apparition des cas de


maladie (pour le taux d'incidence) ou de dcs
(pour le taux de mortalit). Une probabilit est
un nombre sans unit de mesure, compris entre
0 et 1, alors qu'un taux d'incidence est pourvu
d'une unit et peut tre suprieur 1.
3.1 Prvalence
La faon la plus naturelle de mesurer la
frquence d'une maladie dans une population
est de calculer la proportion de malades prsents
dans la population un instant donn. Cette
mesure est dnomme la prvalence, note P, et
dfinie par
o M est le nombre de
malades et N le nombre total de sujets (malades
et non malades) de la population.
La prvalence intgre deux dimensions diffrentes de la frquence de la maladie. D'une
part, la dure de maladie (ou, du moins, la
dure de la prsence d'un malade dans la population). D'autre part, la vitesse d'apparition de
nouveaux cas de maladie au sein de la population (c'est--dire le taux d'incidence qui est dfini plus bas).
La prvalence est surtout utile en sant
publique lorsqu'on s'intresse la planification
des ressources de sant ncessaires dans une
population. En recherche tiologique, cet indice
est rarement utilis, sauf dans quelques
domaines particuliers, comme la prinatalit, ou
dans le cas de pathologies frquentes et sousdiagnostiques (la dpression, par exemple).
L'estimation de la prvalence sur un chantillon est note p 0 , et l'intervalle de confiance correspondant est, lorsque la taille n de l'chantillon est assez grande,
*
3.2 Taux d'incidence
Par dfinition, le taux d'incidence (TI) de la
maladie est la vitesse de production de nouveaux cas au cours d'un intervalle de temps. Il
est gal au nombre de nouveaux cas survenus
dans cet intervalle de temps divis par la taille de
la population risque. La taille de la population se mesure en personnes-temps. Il s'agit de
la somme des dures, cumules sur l'ensemble
de la population l'tude et sur l'ensemble de la
dure de suivi, pendant laquelle les sujets sont
*

91

susceptibles d'tre enregistrs comme de nouveaux cas. La population peut tre ouverte,
c'est--dire que des sujets peuvent y entrer ou en
sortir au cours de la priode de suivi. Dans ce
cas, les dures cumules correspondent aux
priodes o le sujet est prsent dans la population. L'unit de mesure la plus frquente en
pidmiologie est la personne-anne, au point
que le terme personnes-annes est souvent
employ comme terme gnrique la place de
personnes-temps. Cependant, si l'unit de
mesure du temps est le mois, la semaine ou le
jour, on peut tre amen compter en personnes mois semaines ou jours.
La dfinition formelle du taux d'incidence
est
o m est le nombre de nouveaux cas
pendant la priode [t, t+Dt[ et PA le nombre de
personnes-annes cumul sur la priode [t,
t+Dt[. Le taux d'incidence n'est pas une probabilit. En particulier, on exprime sa valeur en
nombre de cas par personnes-temps. Par exemple, si l'unit de temps est l'anne, TI = 10-4 se
lit 1 cas pour 10 000 personnes-annes (ou 10
cas pour 100 000 personnes-annes).
Lorsqu'on estime le taux d'incidence sur un
chantillon, son intervalle de confiance est
donn par :
La plupart des calculs concernant le taux
d'incidence sont sous-tendus, sur le plan mathmatique, par l'existence d'une variable T qui
mesure la date de survenue de l'vnement
tudie (par exemple, la maladie ou le dcs), et
par la notion d'incidence instantane (note
l(t)) qui lui est associe. La variable T a la proprit d'tre censure pour certains sujets,
ceux pour lesquels l'vnement n'est pas survenu
pendant la priode de suivi et pour lesquels la
seule information est que T est suprieure leur
dure de suivi. Ces notions dpassent le cadre de
ce livre et peuvent tre trouves ailleurs (par
exemple: Hill et coll., 1990; Bouyer et coll.,
1993; Estve et coll., 1993) sous le nom de
donnes de survie (en rfrence l'tude de la
mortalit qui a t leur premier champ d'application) ou de donnes censures.

z a/2 est le percentile (1-a/2) de la loi normale centre rduite. Le plus souvent, on prend a = 5 % et on
a alors Za/2 = 1,96.

92

ENVIRONNEMENT ET SANT PUBLIQUE

Notons enfin que, lorsque la population est


stationnaire c'est--dire lorsque aucune des
caractristiques de la maladie (telle que taux
d'incidence ou prvalence) n'volue au cours du
temps , la prvalence et le taux d'incidence
sont lis par la relation
o d est la
dure moyenne de la maladie. Dans le cas,
frquent, o TId est petit, cette relation est
approche par P = TId qui illustre bien les deux
dimensions de la prvalence indique prcdemment.
3.3 Risque cumul de maladie
(ou incidence cumule)
Par dfinition, le risque cumul est la probabilit de devenir malade au cours d'une priode
fixe. Cela ncessite donc de prciser la dure de
la priode considre. Le calcul est facile dans
une population ferme (sans entre ni sortie de
sujets) et sans sujets perdus de vue: il suffit de
diviser le nombre de nouveaux cas par le nombre de sujets non malades au dbut de la priode. Sinon (population ouverte ou sujets perdus
de vue), le risque cumul de maladie pendant la
priode Dt est donne par R(Dt) = 1- exp {-TI
Dt}(Bouyer et coll., 1093). Il s'agit alors d'une
probabilit conditionnelle ( l'absence de censure) pendant la priode l'tude.
Si le taux d'incidence est petit (ou plus prcisment si TI Dt est petit), et seulement dans ce
cas, cette expression est approche par R(Dt) =
TI Dt. On voit donc que, si Dt = 1 (1 an si l'unit est l'anne), on obtient R = TI, ce qui est
commode retenir, mais source de confusion
entre les notions de taux d'incidence et d'incidence cumule.
Lorsqu'on estim le risque cumul sur un
chantillon, l'intervalle de confiance est donn
par [1- exp(-a Dt) ; 1- exp(-b Dt)], o [a ; b] est
l'intervalle de confiance de TI.
La formule permettant de calculer R(Dt) en
fonction de TI qui vient d'tre donne ncessite
que TI soit constant sur l'intervalle de temps At.
Lorsqu'on veut calculer le risque cumul de
maladie sur une longue priode, cette hypothse
n'est, en gnral, plus satisfaite. On doit tenir
compte, par exemple, du fait que l'ge augmen*

Dans les expressions qui suivent,


et

indique la somme.

tant, l'incidence de la maladie augmente aussi.


On est alors conduit dcouper la priode sur
laquelle on veut calculer le risque cumul de
maladie en sous-priodes au sein desquelles on
peut supposer le taux d'incidence constant.
Nous noterons p le nombre de sous-priodes,
Dtk la dure de la ke sous-priode (les Dtk ne
sont pas ncessairement tous gaux) et Tl k le
taux d'incidence correspondant. On montre
alors que le risque de maladie pendant l'ensemble de la priode est*
Si les taux d'incidence TI k sont petits (ou plus
prcisment si les TI k Dtk sont petits), cette
expression se simplifie en
).
Cas particulier de la mortalit
Lorsqu'on s'intresse la survie, l'incidence de
dcs est appele mortalit, et les mmes
mesures que prcdemment peuvent tre
dcrites. Les plus connues sont le taux de mortalit qui est le taux d'incidence de dcs et la
ltalit qui est l'incidence cumule ou le risque
de dcs parmi les personnes atteintes d'une
maladie au cours d'une priode donne.
3.4 Mesures d'association
L'tude de l'association entre une exposition E
(ou facteur de risque) et la maladie M est une
des tapes majeures de la recherche des facteurs
tiologiques des maladies. Plusieurs questions
complmentaires se posent. D'une part, celle de
l'existence mme d'un lien statistique entre l'exposition et la maladie. D'autre part, celle de la
mesure de la force du lien entre E et M qui permet de quantifier l'accroissement du risque en
fonction de l'exposition au facteur de risque;
cela ncessite de choisir une mesure d'association. Enfin, bien sr, celle de l'interprtation de
l'association lorsque celle-ci a t tablie. De
faon gnrale, une mesure d'association est une
mesure descriptive: elle permet de mesurer l'association statistique entre deux variables (une
exposition et la frquence d'une maladie), mais
ne permet pas directement de savoir s'il y a un
lien de cause effet entre elles. Nous reviendrons sur cette question la fin du chapitre. Il
nous arrivera, cependant, pour allger la prsen-

indique le produit des (1-Rk) pour k variant de 1 p,

PIDMIOLOGIE

tation, d'employer le terme effet de E au lieu


de mesure de l'association entre E et M. Sauf
indication explicite du contraire, cela n'aura pas
de sens causal.
Dans ce qui suit, le facteur de risque et la
maladie sont caractriss par des variables
dichotomiques (ayant uniquement deux valeurs:
prsence ou absence). Pour le facteur de risque,
les deux catgories sont notes E+ pour les sujets
exposs et E- pour les sujets non exposs. Pour
la maladie, les malades sont nots M+ et les
non-malades sont nots M-. Nous nous
intresserons principalement au cas o l'on
mesure le risque ou probabilit d'tre atteint,
c'est--dire la probabilit d'tre malade un
moment donn (ou prvalence) ou la probabilit de le devenir au cours d'une priode fixe.
Ce risque sera not R. Nous donnerons
quelques lments concernant le cas o on considre non pas le risque lui-mme, mais un taux
d'incidence ou une incidence instantane.
Modle additif et modle multiplicatif
Soit R1 le risque de maladie chez les sujets
exposs au facteur de risque et R0 le risque de
maladie chez les sujets non exposs.
Les deux principaux types d'indices pour
quantifier l'association entre la maladie et le facteur de risque sont l'excs de risque (modle
additif) : D = R1 -R0 ; et le risque relatif (modle
multiplicatif):
Bien entendu, d'autres indices sont envisageables. Certains, tout en donnant une expression
numrique particulire de la relation entre l'exposition et la maladie, se ramnent finalement
l'un des deux prcdents. C'est le cas de la diffrence relative
qui apporte la mme
information que le risque relatif puisqu'elle est
gale RR-1. Cette dernire est aussi appele
excs de risque relatif; il s'agit d'une mesure du
risque frquemment utilise en valuation de
risque (Krewski et coll., 1999). D'autres sont de
nature plus diffrente. Le plus utilis est l'odds
ratio dfini par OR=
. Il s'agit du
rapport de la quantit
calcule chez les
exposs sa valeur chez les non-exposs. La
quantit
est appele odds en anglais;

93

d'o le nom d'odds ratio donn la dernire


mesure dfinie. En franais, certains auteurs
reprenant l'analogie des courses de chevaux, o
la probabilit de victoire est prsente sous la
forme de cote similaire l'odds, utilisent le
terme rapport de cotes (Bernard et Lapointe,
1987). Nous expliquerons plus loin les raisons
qu'il peut y avoir utiliser l'OR.
Le risque relatif ou l'OR peuvent varier de 0
l'infini. Un risque relatif de 2 signifie que le
risque de maladie est le double dans le groupe
expos par rapport au groupe non expos.
L'absence de relation entre la maladie et le facteur
de risque correspond un excs de risque gal
0, un risque relatif gal 1 ou encore un odds
ratio gal 1. Si l'on s'en tient la seule mesure
de l'association entre E et M dans une population
donne, il y a peu de raisons de choisir l'un des
trois indices (D, RR ou OR) plutt qu'un autre.
Sur le plan qualitatif, ils sont quivalents: ils
indiquent en mme temps l'existence ou l'absence d'une relation entre exposition et maladie,
puisque les galits D = 0, RR = 1 et OR = 1
sont quivalentes. Sur le plan quantitatif, leurs
valeurs numriques sont diffrentes, mais s'ordonnent de faon identique. Si, pour deux
expositions E1 et E2, on a D1 > D2, on a aussi
RR1 > RR2 et OR1 > OR 2 . Le choix entre modle additif et multiplicatif repose sur ce que
l'on connat de la nature du lien entre l'exposition et la maladie. Les arguments directs fonds
sur le mcanisme dtaill de la maladie sont
rarement disponibles. Parmi les exceptions
notoires, citons la cancrogense o un modle
multi-tapes de dveloppement des tumeurs a
t propos par plusieurs auteurs et s'est montr
en accord avec de nombreuses observations
(Armitage et Doll, 1961; Breslow et Day, 1980).
Ce modle spcifie que, pour qu'une cellule
donne naissance une tumeur dcelable,
plusieurs tapes distinctes, ordonnes et
irrversibles sont ncessaires. Chaque tape a
une certaine probabilit de se produire dans un
dlai fix. L'exposition des cancrognes modifie ces probabilits. On peut montrer que ce
modle est souvent en accord avec le modle
multiplicatif; par exemple, si deux facteurs de
risque distincts agissent sur deux tapes diffrentes, leurs effets conjoints se multiplient.
En dehors de cas particuliers tels que le modle multi-tapes, c'est en gnral pour des
raisons empiriques le constat que tel ou tel
modle prsente une meilleure adquation aux

94

ENVIRONNEMENT ET SANT PUBLIQUE

observations que l'on prfre un modle


plutt qu'un autre. On choisira ainsi le modle
multiplicatif si, lorsque l'on change de population d'tude,
reste stable et le modle additif

prsentation des rsultats en interprtant sa


valeur comme on le ferait pour celle du risque
relatif. En effet, l'odds ratio et le risque relatif
sont lis par la relation
. Lorsque

si c'est R1-R0 qui reste stable. En pratique,


changer de population d'tude signifie, par
exemple, qu'on s'intresse l'association entre
une mme exposition et une mme maladie
dans des populations de diffrents pays ou de
diffrentes rgions ou, au sein d'une mme population, dans diffrentes classes d'ge, et plus
gnralement dans diffrents sous-groupes de
cette population. Dans la plupart des cas qui
ont t examins, c'est le modle multiplicatif
qui apparat le plus conforme aux observations
(Breslow et Day, 1980).
Dans ce chapitre, nous suivrons ces constatations empiriques en nous intressant essentiellement au modle multiplicatif. L'association
entre exposition et risque sera donc mesure par
le risque relatif ou par l'odds ratio.

la maladie est rare (R0 et R1 petits), les valeurs


numriques du risque relatif et de l'odds ratio
sont donc proches.
D'un point de vue pratique, lorsque l'exposition est caractrise par une variable dichotomique (E+ pour les exposs et E- pour les
non-exposs) et que la maladie est caractrise
par un risque (c'est--dire par la probabilit
d'tre malade ou de le devenir au cours d'une
priode donne), les donnes obtenues sur un
chantillon d'enqute peuvent se prsenter sous
la forme d'un tableau quatre cases o M+
dsigne les sujets malades ou devenus malades
au cours de la priode d'tude et M- les sujets
non malades:

Risque relatif et odds ratio


Le risque relatif et l'odds ratio ont des qualits
diffrentes et symtriques sur le plan de l'interprtation des rsultats et sur celui de leurs proprits statistiques. Le risque relatif permet d'exprimer l'association entre l'exposition et la
maladie de faon facilement interprtable: c'est
le facteur par lequel le risque de maladie est
multipli en prsence de l'exposition. Les rsultats prsents l'aide du risque relatif se trouvent ainsi aisment explicables et comprhensibles pour un public non spcialis en
pidmiologie. L'odds ratio, lui, exprime la relation entre R0 et R1 de faon moins immdiate.
l'inverse, l'odds ratio peut tre estim dans
tous les types d'enqute, alors que ce n'est pas le
cas du risque relatif. On montre de plus que
l'odds ratio a de meilleures proprits mathmatiques que le risque relatif lorsque la frquence
de la maladie est caractrise par un risque. En
particulier, les modles multivaris tels que le
modle logistique permettent d'estimer l'OR et
non le RR. On prfre donc souvent l'odds ratio
pour les calculs statistiques.
Heureusement, dans de nombreuses situations rencontres en pidmiologie, OR est peu
diffrent de RR, de sorte que l'on peut la fois
satisfaire les exigences des statistiques en estimant l'odds ratio et celles d'une meilleure

Alors, quel que soit le type de l'enqute, l'estimation de l'odds ratio est
Pour calculer l'intervalle de confiance, il
existe plusieurs formules. Elles sont toutes
approches et donnent des rsultats trs proches
sur le plan numrique. Une des mthodes
couramment utilise consiste calculer d'abord
l'intervalle de confiance de Ln OR grce la formule:
On obtient ensuite l'intervalle de confiance de
OR en prenant l'exponentielle des bornes:
[exp(Bi) ; exp(Bs)].
Dans les enqutes de cohorte (avec population ferme), l'estimation du risque relatif (rapport des incidences cumules) est donne par
. Le calcul de l'intervalle de confiance passe aussi par celui du logarithme:
dont on prend l'exponentielle des bornes. Dans les enqutes transversales, on peut aussi calculer l'quivalent, soit le
ratio de prvalences, mais on a tendance utiliser de plus en plus l'odds ratio (Rothman et
Greenland, 1998).

PIDMIOLOGIE

Mesures d'association fondes sur le taux


d'incidence ou l'incidence instantane
partir du taux d'incidence ou de l'incidence
instantane d'une maladie chez des sujets
exposs (TI1 ou l1 (t)) et non exposs (TI0 ou
l0(t)), on peut galement dfinir deux mesures
d'association: l'excs de risque [diffrence TI 1 TI0 ou l1 (t) - l0(t)] et le risque relatif [rapport
TI 1 /TI 0 ou l1(t)/(l0(t)]. Notons cependant que
l'odds ratio ne peut pas tre dfini, car une incidence n'est pas une probabilit.
Mesure d'impact potentiel
Le risque relatif ou l'odds ratio mesurent l'intensit du lien entre le facteur de risque et la
frquence de la maladie au sein d'une population, mais ils ne permettent pas d'valuer l'impact du facteur de risque au niveau de l'ensemble de la population, c'est--dire la proportion
des cas qui pourraient tre vits si le facteur de
risque tait absent.
Cette information est donne par la fraction
de risque attribuable, qui mesure la proportion
des cas attribuable l'exposition tudie
(Coste et Spira, 1991) et qui est note RA. Il
faut bien sr insister sur le fait que la notion de
cas attribuables l'exposition n'a de sens que
si l'exposition est un agent causal de la maladie.
Nous ferons dans un premier temps cette
hypothse pour calculer la fraction risque
attribuable; nous reviendrons ensuite sur l'interprtation pratique de cet indice.
La fraction de risque attribuable dans la population est dfinie, lorsque le risque relatif est
suprieur 1, par
, o RR est
le risque relatif et PE la proportion de sujets
exposs dans la population. Son estimation et
son intervalle de confiance dpendent du type
d'enqute dans lequel elle est calcule. Le calcul
de la fraction de risque attribuable s'tend au cas
o l'exposition comporte plus de deux classes
(Bouyer et coll., 1993).
Deux autres mesures d'impact potentiel sont
parfois utilises: la fraction prventive et la fraction tiologique.
La fraction prventive, note FP, est la proportion de cas de maladie vits par la prsence
d'un facteur dans le cas o l'exposition est un
facteur protecteur pour la sant (RR <1). C'est
effectivement l'quivalent de la fraction de
risque attribuable pour les facteurs protecteurs.
On montre que FP = PE (1-RR).

95

La fraction tiologique FE est, par dfinition,


la proportion de cas attribuables l'exposition
parmi les sujets exposs. Pour la calculer, il suffit de
reprendre l'expression de la fraction de risque
attribuable et de l'appliquer une population o
100 % des sujets sont exposs, c'est--dire PE = 1.
On obtient
. On remarque que la FE
n'apporte pas d'information supplmentaire par
rapport au risque relatif, puisque l'un se dduit
de l'autre. Elle permet cependant d'exprimer la
relation entre l'exposition et la maladie par un
indice qui fournit un renseignement important
pour la prvention. En effet, pour un groupe de
sujets exposs au facteur de risque, la fraction
tiologique fournit directement la proportion
de cas qui disparatrait en l'absence du facteur.
Ainsi, mme pour un risque relatif assez petit,
par exemple RR = 2, FE est gale 50 %.
Autrement dit, la suppression du facteur de
risque conduit une diminution de 50 % du
risque de maladie chez les sujets exposs (si,
comme nous le supposons depuis le dbut de ce
paragraphe, la relation entre l'exposition et la
maladie est causale).
Revenons pour conclure sur l'interprtation
de la fraction de risque attribuable (RA). Elle a
t construite pour mesurer la proportion des
cas qui disparatrait en l'absence de l'exposition.
Cela suppose que le lien entre l'exposition et la
maladie soit bien causal. Si, par exemple, on
indique que la fraction de risque attribuable de
maladie coronarienne associ au tabac est gale
27 %, c'est parce que l'on considre que la
consommation de tabac influence de faon
causale le risque de maladie coronarienne et
donc que 27 % des cas pourraient disparatre si
personne ne fumait dans cette population. Il
arrive cependant qu'on s'carte de cette rigueur.
La notion de fraction de risque attribuable est
en effet particulirement importante en sant
publique, car elle permet d'estimer la proportion de cas vitables si des actions sont entreprises pour supprimer l'exposition. Cela conduit, en pratique, tendre l'utilisation de la
fraction de risque attribuable des situations o
la causalit, tout en tant plausible, n'est pas
dmontre. Cette pratique est trs discutable et
ncessite une trs grande prudence dans l'interprtation de ses rsultats. Par ailleurs, comme
plusieurs facteurs peuvent concourir de faon
conjointe l'apparition de la maladie, la frac-

96

ENVIRONNEMENT ET SANT PUBLIQUE

tion de risque attribuable brute prsente c i dessus tend surestimer l'impact du facteur de
risque dans la population. En particulier, la
somme des fractions de risque attribuables diffrents facteurs de risque est souvent suprieure
100 % (Rothman et Greenland, 1998). Il est
possible de corriger, au moins partiellement, ce
problme en calculant une fraction de risque
attribuable ajuste sur d'autres facteurs de
risque, ou une fraction de risque attribuable
l'effet conjoint de plusieurs facteurs de risque
(Bruzzi et coll., 1985; Coste et Spira, 1991).

4. TYPES D'ENQUTES
PIDMIOLOGIQUES
Les enqutes pidmiologiques se divisent en
plusieurs grandes catgories comme le schmatise la figure 4 . 1 . Une premire division spare
les enqutes d'observation des tudes exprimentales. Les enqutes d'observation se divisent
ensuite en enqutes descriptives et tiologiques
qui ont des objectifs diffrents comme leur nom
l'indique. Enfin, les enqutes tiologiques se
divisent en trois catgories principales selon leur
mthodologie: tude de cohorte, tude castmoins et tude transversale. Comme toute
classification, celle que nous prsentons comporte une part d'arbitraire, et certaines enqutes
ont du mal y trouver leur place. D'autres types
d'enqutes peuvent tre dcrits; il s'agit en fait
d'enqutes hybrides par rapport aux trois
prcdentes (Kleinbaum et coll., 1982).

4.1 tudes exprimentales


De faon gnrale, on qualifie d'tude exprimentale toute enqute o l'attribution de l'ex-

position est contrle par l'investigateur, c'est-dire que ce dernier a pu choisir quels sujets
sont exposs et lesquels ne le sont pas, ainsi que
le type d'exposition. De faon gnrale, l'tude
exprimentale s'apparente une tude de
cohorte dans laquelle l'exposition est sous le
contrle du chercheur. La capacit montrer
que les associations mesures sont de nature
causale est meilleure dans les situations exprimentales que dans les enqutes d'observation.
L'avantage, comparativement aux mthodes
d'observation, est alors de pouvoir isoler l'exposition tudie des autres facteurs de risque (facteurs de confusion) afin que tout changement,
dans l'effet observ, puisse tre attribu uniquement l'exposition. Cette attribution causale est
d'autant plus aise qu'il y a tirage au sort et que
la comparabilit des groupes a t maintenue
tout au long de l'enqute. On parle alors d'essai
randomis.
Comme la mthode entrane une exposition
choisie par le chercheur et non par le participant, ce type d'tude ncessite que des conditions soient runies pour garantir la sauvegarde
des droits de la personne. En particulier, les participants doivent tre clairement informs des
avantages et inconvnients rsultants de leur
participation, ils doivent signer un formulaire
de consentement confirmant leur volont participer et aussi avoir la possibilit en tout temps
d'abandonner l'tude sans aucun prjudice. En
fait, compte tenu de sa nature (visant exposer
volontairement des sujets), cette mthode est
utilise en pidmiologie principalement pour
tudier l'effet d'une intervention vise prventive.

Les diffrents types d'enqutes pidmiologiques

Enqutes
d'observation

Etiologiques

tudes
exprimentales

Descriptives

Cohorte
Cas-tmoin
Transversale
Figure 4.1 Les diffrents types d'enqutes pidmiologiques

Avec tirage
au sort

Sans tirage
au sort

PIDMIOLOGIE

Essai clinique randomis


Il s'agit de la mthode de rfrence pour valuer
l'efficacit d'un traitement, qu'il soit mdicamenteux ou non. Afin d'isoler l'effet de la composante active du traitement (par rapport l'effet
psychologique attendu, appel communment
effet placebo), il est courant d'utiliser dans le
groupe ne recevant pas le traitement une exposition de type placebo ou intervention simule*.
Puisque la connaissance du traitement utilis
peut influencer le diagnostic de la maladie fait
par le mdecin, mais aussi le respect du protocole
par le patient, il est usuel que ni le mdecin et ni
le patient n'aient connaissance du vritable traitement. Cette mthode est ainsi parfois appele
mthode en double aveugle. On trouvera plus de
dtails sur ce type d'tudes dans des ouvrages spcialiss (Laplanche et coll., 1986; Bouvenot et
Vray, 1999).
En contrepartie de ses avantages pour valuer
l'efficacit d'un traitement, la grande standardisation des essais randomiss diffre des situations
gnralement rencontres dans la ralit o les
expositions ne sont pas distribues au hasard ni
de faon constante au cours du temps. Le recours
des expriences randomises est en fait assez
peu frquent en pidmiologie environnementale. Elles se rencontrent principalement dans les
essais thrapeutiques destins tudier l'efficacit des traitements. titre d'exemple, l'essai clinique a t utilis pour valuer l'efficacit des
traitements (mdicamenteux ou non) de l'intoxication au plomb (Lanphear et coll., 1999;
O'Connor et Rich, 1999). Ce type d'tude est
aussi parfois utilis pour valuer l'effet possible
d'une exposition environnementale des
niveaux infrieurs aux normes en vigueur, particulirement dans le cas de courte exposition.
Ainsi, on peut citer le cas de l'effet des expositions aux champs magntiques d'extrmes basses
frquences (Selmaoui et coll., 1996).
Essai prventif
Il s'agit d'une tude exprimentale s'adressant
gnralement des personnes bien portantes,
dans le but de prvenir l'apparition de maladies
ventuelles. Ce type de mthode est utilis
frquemment en mdecine prventive afin d'valuer certaines interventions prventives. C'est
*

97

le cas en particulier de l'valuation de l'efficacit


des vaccins. Peu d'essais prventifs notre connaissance ont t raliss en sant environnementale. On peut cependant citer l'exemple
de l'tude de l'efficacit de supplments de vitamines pour la prvention du cancer du poumon
(Omenn et coll., 1996).
Essai communautaire
Le traitement ou l'exposition se fait alors au
niveau d'une communaut (ville, village, cole,
etc.) plutt qu'au plan individuel. L'intervention
est habituellement de nature prventive, et l'tude vise valuer son efficacit pour rduire
l'apparition de problmes de sant. L'essai peut
tre vritablement de nature exprimentale (l'exposition tant choisie par le chercheur et son allocation tant faite de faon alatoire). L'essai peut
aussi tre de nature quasi exprimentale. Dans ce
dernier cas, le choix de l'exposition peut tre
dcid selon diffrents critres de faisabilit.
Cependant, on essaie toujours d'avoir un groupe
sans traitement le plus comparable possible au
groupe avec traitement. Le consentement de participation est habituellement donn par les
responsables politiques ou administratifs de la
communaut sous tude. Des procdures doivent
cependant tre tablies pour que les individus
participants soient informs des objectifs de l'tude. On retrouve dans la littrature plusieurs
exemples de l'application de cette mthode en
sant environnementale, dont celui historique de
la fluoruration des eaux de consommation
(Arnold et Dean, 1956).

4.2 Enqutes descriptives


La distinction gnralement faite entre tudes
descriptives et tiologiques comporte une large
part d'arbitraire. Les secondes doivent fournir
des arguments essentiels en faveur ou l'encontre de l'hypothse d'un rle tiologique des facteurs de risque tudis alors que les premires
ont pour objectif principal de fournir des statistiques permettant de connatre l'tat sanitaire de
la population (frquence de la maladie, tendances temporelles ou gographiques) sans le
mettre explicitement en rapport avec des facteurs de risque.

Cependant, lorsqu'un traitement reconnu efficace est disponible, l'utilisation d'un placebo sera considre comme non thique, le traitement reconnu sera alors gnralement utilis comme traitement de
rfrence (dans le groupe contrle) afin de comparer son efficacit celle du nouveau traitement.

98

ENVIRONNEMENT ET SANT PUBLIQUE

En pratique, il y a souvent un passage continu


des unes aux autres. Trs peu d'enqutes descriptives se limitent prsenter la frquence d'une
maladie un moment donn. Le plus souvent,
les variations temporelles ou gographiques sont
dcrites et peuvent tre le point de dpart d'hypothses sur les causes de la maladie.
Traditionnellement, la production priodique de statistiques de sant, par exemple les
taux d'incidence ou de mortalit par sexe et
groupe d'ge, permet la surveillance de l'tat de
sant des populations sur une base rgionale ou
nationale (Thacker et Stroup, 1998). L'tude
plus prcise des variations de ces taux selon des
caractristiques telles que l'ge, le sexe ou la
catgorie socio-professionnelle, l'tude de leur
volution dans le temps ou dans l'espace a souvent permis de gnrer des hypothses sur des
facteurs tiologiques potentiels lis ces variations. La recherche plus formelle de corrlations
au niveau des groupes entre les paramtres de
sant et leurs dterminants potentiels est l'objet
des tudes cologiques.
tudes des variations
selon les caractristiques de personnes
L'tude des variations de l'incidence d'une maladie selon le sexe, l'ge ou le niveau socioconomique est souvent une premire tape
dans toute tude descriptive et permet souvent
de soulever certaines hypothses tiologiques.
Ainsi, l'examen attentif des variations de
frquence en fonction du sexe permet souvent
d'voquer des hypothses sur le rle possible de
facteurs mdicaux lis au sexe (hormones) ou de
facteurs environnementaux: habitudes de vie
(consommation de tabac ou d'alcool, par exemple) ou encore d'expositions professionnelles,
agissant sparment ou en combinaison. La
frquence de la plupart des pathologies a tendance augmenter avec l'ge, mais l'observation
de pics d'incidence des ges plus jeunes (pour
les cancers de l'enfant, par exemple) permet
d'identifier des groupes d'tiologies a priori
diffrentes. Les catgories socio-professionnelles
runissent un ensemble de dterminants sociaux
(revenus, niveau d'tudes, accs aux soins)
dfinissant des groupes qui prsentent un risque
ingal vis--vis de la maladie. Les tudes de
l'INSEE en France (Institut national de la statistique et des tudes conomiques) ont mis en
vidence ds les annes 1980 - surtout chez les

hommes - des disparits de mortalit entre


groupes sociaux. Ainsi, les cadres et professions
librales sont les mieux protgs, suivis des professions intermdiaires, des agriculteurs, des
artisans et commerants, puis des employs et
enfin des ouvriers. D i x ans aprs, les diffrences
persistent et se retrouvent galement au niveau
de la morbidit (Desplanques et coll., 1996).
Variations gographiques et temporelles
Les Systmes d'informations gographiques
(SIG) permettent d'enregistrer, d'indexer et de
retrouver des informations recueillies sur une
base gographique, qu'il s'agisse de paramtres de
sant, de donnes dmographiques ou de mesures
d'exposition environnementales, par exemple.
L'analyse gographique des cartes ainsi produites
permet de nombreuses applications sur le plan de
la sant publique allant de la production de donnes administratives (caractristiques des populations et de leur recours aux soins, localisation des
structures de soins existantes, etc.) la gnration
d'hypothses (identification de clusters,
hypothse sur un modle de propagation de maladies infectieuses, ou sur les causes possibles des
variations gographiques observes pour les maladies non transmissibles). Les SIG peuvent aussi
servir de soutien aux tudes tiologiques (Neutra,
1999). En effet, en pidmiologie environnementale, l'exposition est souvent dfinie sur
une base cologique partir des lieux de rsidence des sujets (pollution de l'air, rsidence
proximit d'une source de pollution), et le
dveloppement de ces systmes permet des estimations rapides et plus prcises des expositions
individuelles, y compris intgres dans le temps
(Beyea et Hatch, 1999). C'est ainsi que, dans une
tude sur les relations entre l'asthme infantile et
le trafic routier, les SIG ont t utiliss pour prciser l'exposition de cas et tmoins: les adresses
des enfants ont t saisies sur une base gographique (gocodes) et un cercle d'environ
150 m a t dfini autour de chaque adresse; la
liste des rues et voies grande circulation traversant les diffrents cercles, la longueur des segments correspondants et le trafic sur ces voies,
exprim en nombre moyen de voitures par jour
de semaine, ont t obtenus partir d'un autre
SIG municipal (English et coll., 1999).
Traditionnellement, l'tude des effets de la
pollution de l'air s'appuie surtout sur les variations temporelles des phnomnes. La mesure

PIDMIOLOGIE

priodique des polluants dans l'air (particules,


oxydes d'azote, oxydes de soufre) a permis
l'tude des effets aigus, le plus souvent respiratoires ou cardiaques, des pics de pollution grce
l'tude conjointe des variations chronologiques des mesures et des taux de morbidit
quelques jours d'intervalle.
tudes cologiques
La mise en vidence de variations gographiques
ou temporelles de la frquence de maladies conduit naturellement vouloir mettre en relation
des variations concomitantes des frquences
d'exposition des facteurs de risque potentiels,
obtenues collectivement sur les mmes populations. Il s'agit d'tudes de corrlation cologique
ou tudes cologiques. Le terme cologique est
employ ici, par opposition individuel, pour
signifier le fait que les units statistiques de ces
tudes ne sont pas des individus mais des populations. On cherchera corrler, par exemple, les
niveaux moyens de contamination des eaux par
les pesticides obtenus par commune avec les
frquences de pathologies potentiellement associes, obtenues dans les mmes communes. Le
caractre cologique d'une exposition est particulirement vrai dans les tudes environnementales ds que les variations gographiques ou
temporelles des niveaux d'exposition excdent
les variations individuelles. C'est le cas bien sr
de la pollution de l'air. En ce qui concerne la
pollution des eaux, les habitudes individuelles
de consommation (usage d'eau embouteille en
particulier) introduisent une composante i n d i viduelle plus forte.
Mme si ces tudes ont des limites importantes (lies en particulier l'absence d'information et de contrle sur les variables agissant au
niveau individuel), elles ont connu rcemment
un regain de popularit en sant publique
(Susser, 1994a et 1994b). En fait, il est des
situations o non seulement ce type d'tudes est
le seul possible, mais aussi le plus adquat. C'est
en particulier le cas des valuations d'interventions communautaires telles que celles que nous
avons mentionnes dans la section tudes
exprimentales (essai communautaire). L'objectif tant alors d'valuer vritablement l'effet
d'une intervention sur le plan d'une communaut, incluant ainsi tous les aspects de faisabilit et d'interaction. Pour plus de dtails sur
les types d'tudes cologiques et leurs problmes

99

mthodologiques spcifiques, nous renvoyons le


lecteur des articles plus spcialiss (Walter,
1991a et 1991b; Morgenstern, 1998).
Investigation d'agrgats
Invitablement, il arrive priodiquement que
des cas de maladies non transmissibles apparaissent de faon concentre dans le temps et dans
l'espace. Ce regroupement ou agrgat de cas
peut parfois tre le signe d'une cause environnementale commune l'ensemble de ces cas,
mais le plus souvent n'tre que le rsultat de
fluctuations statistiques. Les dpartements de
sant publique sont souvent interpells sur
l'existence de tels agrgats et ont t amens
dvelopper un certain nombre de rgles de dcision sur les investigations entreprendre
(Rothenberg et Thacker, 1992; De Wals et
Niyonsenga, 1996). En fait, l'investigation d'agrgats est frquemment dcevante, et le plus
souvent aucune cause prcise ne peut expliquer
l'agrgat observ, mme lorsque la pathologie
tudie se dveloppe rapidement aprs l'exposition, ce qui est le cas par exemple des anomalies
de la reproduction (Kallen, 1988).
La situation est plus favorable lorsque la surveillance des taux d'incidence permet de mettre
en vidence une sur-incidence localise et persistante dans le temps. C'est ainsi que la cartographie de l'incidence des cancers au Canada
avait rvl un taux lev de cancer de la vessie
chez les hommes dans la rgion du Saguenay au
Qubec (Wigle, 1977). Le fait que cet excs ait
t surtout visible chez les hommes a permis de
suspecter l'existence d'un risque professionnel
spcifique la rgion. De fait, les investigations
complmentaires mirent en cause les expositions
aux produits de combustion dans le dpartement de l'lectrolyse de l'industrie de l'aluminium (Thriault et coll., 1984).
Plus rcemment, une incidence leve de
cancers respiratoires en Nouvelle-Caldonie
tait explique, l'issue d'investigations pidmiologiques et environnementales, par l ' u t i l i sation par les Mlansiens d'un badigeon base
d'amiante de type trmolite pour recouvrir le
mur des maisons (Goldberg et coll., 1995; Luce
et coll., 2000).
En rsum, si de nombreux agrgats ou pics
d'incidence sont le fait du hasard, certains d'entre eux sont la consquence d'une cause environnementale, dj connue ou nouvelle. Ces

100

ENVIRONNEMENT ET SANT PUBLIQUE

alarmes sont d'autant plus susceptibles


d'aboutir l'identification d'une cause, que la
population tudie est stable, que le facteur de
risque est frquent dans la population locale (et
peu frquent ailleurs!) et que le risque relatif est
lev.

4.3 Enqutes tiologiques


Dans les enqutes tiologiques, la mthode u t i lise consiste comparer des groupes de sujets
pour mettre en vidence l'association entre une
exposition et une maladie ou pour connatre de
faon prcise les modalits de cette association.
On distingue trois types principaux d'enqutes
tiologiques: les enqutes de cohorte, les
enqutes cas-tmoins et les enqutes transversales. Dans un schma temporel o l'exposition
E prcde la maladie M, les trois types d'enqute se distinguent par le moment d'inclusion
des sujets et par le type d'information recueilli.
En outre, les biais potentiels les plus frquents
ne sont pas les mmes selon le type d'enqute,
ce qui conduit des modalits et des prcautions diffrentes dans leur protocole.
Enqutes de cohorte
Le terme cohorte est utilis pour dsigner un
groupe de sujets ayant une caractristique commune. Il peut s'agir d'une gnration, dfinie
par une mme priode de naissance, d'un corps
de mtier (les salaris de l'industrie du
caoutchouc ou l'ensemble des mdecins d'un
pays), de personnes ayant subi une exposition
particulire (la cohorte des personnes irradies
Nagasaki ou Hiroshima ou celle des femmes
traites pour un cancer du sein), de porteurs
d'une caractristique gntique (comme la t r i somie 21) ou encore de sujets runis sur une
base gographique (cohorte des habitants de
Framingham) (Feinleib, 1985).
Les enqutes de cohorte consistent tudier
la morbidit (ou la mortalit) observe dans une
ou des cohortes ayant diffrents niveaux d'exposition au facteur sous tude. On se limite bien
sr aux sujets initialement indemnes de la maladie, et, trs souvent, les sujets sont spars en
fonction de leur exposition connue un facteur
de risque, soit parce qu'ils constituent ds le
dpart des cohortes distinctes, soit parce que
cette sparation est effectue au sein de la
cohorte initiale. Dans la dfinition que nous
adoptons ici, les enqutes de cohorte ncessitent

une priode de suivi entre l'inclusion d'un sujet


et la mesure de l'altration de sant. On les
appelle galement parfois enqutes longitudinales, mme si initialement cette dnomination tait rserve aux tudes comportant des
mesures rptes au cours du temps chez un
mme i n d i v i d u . Lorsque l'exposition est
dichotomique et que l'on compare l'incidence
de la maladie d'un groupe expos celle d'un
groupe non expos, on parle ainsi parfois d'enqute expos-non expos.
L'inclusion dans l'tude et le recueil initial des
informations sur l'exposition peuvent se faire au
moment de la mise en place de l'enqute. La
cohorte est alors suivie de faon prospective au
cours des annes qui suivent l'inclusion; on parle
donc de cohorte prospective. La dure totale de
l'enqute (c'est--dire le dlai sparant la date
d'inclusion des sujets et la date o l'on arrte de
les suivre et o les rsultats sont analyss) varie
d'une enqute l'autre, essentiellement selon la
nature de la maladie et le temps de latence entre
l'exposition et la maladie. L'inclusion peut galement se faire partir d'une date dtermine du
pass (date d'embauche dans une entreprise, date
de premier cancer), suffisamment lointaine pour
que la maladie tudie ait eu le temps de se
dvelopper et que le temps de suivi de la cohorte
soit court. On parle alors de cohorte historique.
Le dbut de l'tude proprement parler peut se
situer un moment intermdiaire entre l'exposition et la maladie. L'chantillon d'enqute doit
tre reconstitu a posteriori de faon retrouver
celui qu'on aurait pris pour une enqute
prospective. Une enqute historique prsente l'avantage de raccourcir la dure effective de l'enqute, mais la difficult de retrouver tous les
sujets devant faire partie de l'chantillon peut
tre accrue. Par ailleurs, la mesure des expositions peut tre moins prcise (alimentation, par
exemple). Une des premires tudes de cette
sorte a t publie en 1954 par Case et coll. pour
prciser le rle respectif de diffrentes amines
aromatiques dans la survenue du cancer de la
vessie. L'enqute avait t prcde par la publication, depuis la fin du X I X e sicle, de plusieurs
sries de cas de cancers de la vessie survenus dans
l'industrie des colorants et mettant en cause
l'aniline comme agent cancrogne. Puis, au
cours des annes 1940, on avait mis en vidence
par exprimentation chez le chien un effet cancrogne de la bta-naphtylamine, non retrouv

PIDMIOLOGIE

pour la benzidine. L'tude de Case et coll. a eu


une efficacit spectaculaire, en montrant que
l'exposition la benzidine, l'alpha-naphtylamine et la bta-naphtylamine multipliait par
30 environ le risque de cancer de la vessie, alors
que l'exposition l'aniline n'tait pas elle-mme
cancrogne (ce qui n'a toujours pas t infirm
ce jour). Elle a entran la mise en place de
mesures de protection ds la fin des annes 1950
et conduit, par extrapolation, une tude plus
systmatique du risque associ aux amines aromatiques, notamment dans l'industrie du
caoutchouc. Le temps de latence lev du cancer
de la vessie et l'importance visible du risque
imposaient ici une stratgie plus rapide que l'attitude prospective, et l'approche par enqute castmoins en population gnrale tait tout fait
inadapte du fait de la raret de l'exposition.
Les premires enqutes de cohortes construites pour mettre en vidence un facteur de risque
de maladie sont apparues au cours des annes
1950 aux Etats-Unis et en Grande-Bretagne.
Elles ont d'abord t consacres l'tude d'associations dj fortement suggres par des
enqutes cas-tmoins ou des tudes de cas,
comme la cohorte des mdecins britanniques de
Doll et H i l l (1954 et 1956) conue pour valuer
le rle de la consommation de tabac sur la mortalit par cancer, ou celle de R. Case et coll.
(1954), sur le rle des amines aromatiques dans le
cancer de la vessie. Les enqutes cas-tmoins
taient encore mal matrises et inspiraient de la
mfiance, notamment parce que le fait que la
connaissance du statut expos-non expos soit
postrieure la connaissance du statut maladenon malade peut constituer une srieuse source
de biais. cet gard, les enqutes de cohorte se
rapprochaient davantage d'un schma exprimental. C'est aussi ce qui a pouss Doll et H i l l ,
au dbut des annes 1950, renforcer la crdibilit des rsultats de leur enqute cas-tmoins
montrant l'effet du tabac sur les risques de cancer
du poumon par une enqute de cohorte chez les
mdecins britanniques.
Lors de la mise en uvre d'une enqute de
cohorte, les points auxquels il faut prter particulirement attention sont les suivants:
La population source doit tre choisie de
faon ce que le niveau d'exposition soit
suffisant et suffisamment variable, que la
dure de suivi puisse tre suffisamment

101

longue et surtout que l'information sur l'tat


de sant des sujets ou sur leur statut vital
accessible pour toute la dure du suivi et de
faon semblable pour tous les sujets.

Les sujets exposs doivent tre compars un


groupe de rfrence (non expos) qui peut
tre soit interne la cohorte soit externe.
Dans le second cas, on peut comparer les
exposs la population nationale ou
rgionale. Cela prsente l'avantage d'tre
assez facile mettre en uvre et d'conomiser
les moyens ncessaires. En revanche, il ne faut
pas que le facteur de risque tudi soit trop
frquent, il est pratiquement impossible d'ajuster sur des facteurs de confusion en dehors
des facteurs dmographiques (ge, sexe, priode, catgorie sociale, rgion), et il faut
penser aux biais de slection possibles
(comme le healthy worker effect ou effet du
travailleur en bonne sant). Si un groupe de
rfrence est suivi en mme temps que les
exposs, il doit tre a priori comparable la
cohorte expose en tout point sauf sur l'exposition (ge, sexe, catgorie socio-professionnelle) et avoir des possibilits de suivi identiques celles du groupe expos.

L'inclusion des sujets peut consister prendre tous ceux qui sont prsents la date de
constitution de la cohorte (on parle de
cohorte fixe) ou tous les nouveaux sujets (par
exemple les nouveaux embauchs dans une
entreprise) depuis la cration de la cohorte
(on parle de cohorte dynamique). Dans le
premier cas, le recrutement est plus rapide,
mais on risque des biais de slection, le maintien dans la population suivie est li la sant
ou l'exposition.

Le recueil de l'information concerne la survenue de la maladie et la mesure des expositions. Le critre tudi peut tre la mortalit.
Ce sont les enqutes de cohorte les plus
rpandues, car l'information sur les dcs est
plus standardise et plus accessible que l ' i n formation sur les maladies, et les valeurs de
rfrence de la population gnrale sont connues. La mortalit intgre cependant la fois
la survenue de la maladie et la capacit la
traiter. C'est pourquoi les enqutes de
cohorte actuelles s'intressent de plus en plus
l'incidence de la maladie dont les rsultats
sont plus faciles interprter.

102

ENVIRONNEMENT ET SANT PUBLIQUE

L'analyse des enqutes de cohorte consiste


essentiellement comparer le taux d'incidence
de maladie observ chez les sujets exposs celui
d'un groupe de rfrence, le rapport des deux
taux tant le risque relatif associ l'exposition.
Dans les enqutes n'incluant pas de groupe de
rfrence, on utilise les taux d'incidence des statistiques nationales ou rgionales gnralement
standardiss sur l'ge et le sexe pour calculer un
rapport comparatif d'incidence (Standardized
Incidence Ratio ou SIR) ou un rapport comparat i f de mortalit (Standardized Mortality Ratio ou
SMR).
Enqutes cas-tmoins
Le principe d'une enqute cas-tmoins est de
comparer la frquence d'exposition antrieure
un facteur de risque dans un groupe de cas,
atteints de la maladie tudie, et dans un groupe
de tmoins n'ayant pas cette maladie. Les
sujets sont inclus dans l'tude au moment de la
survenue de la maladie. Le recueil de l'information concerne l'exposition ainsi que les cofacteurs; il est toujours rtrospectif (sauf si l'enqute cas-tmoins est niche dans une cohorte
o l'exposition ou certains co-facteurs ont dj
t collects). Par exemple, dans une tude sur
les risques de cancer associs aux herbicides, des
auteurs sudois ont compar la frquence d'exposition aux herbicides au cours de leur vie professionnelle dans un groupe de malades atteints
de lymphome (cas) et dans un groupe de taille
gale, tir au sort dans la population sudoise
(tmoins). Une frquence plus leve parmi les
cas indique un lien possible entre herbicides et
cancer. Un autre exemple, non plus dans la population d'une rgion, mais l'intrieur de l ' i n dustrie de l'aluminium au Canada: l'exposition
cumule aux goudrons parmi les cas de cancer
de vessie apparus dans l'industrie est compare
celle d'un groupe tmoin constitu de travailleurs de la mme industrie n'tant pas
atteints de cancer de la vessie.
On voit donc, ds maintenant, que le protocole d'une enqute cas-tmoins n'est pas fig, et
de nombreuses variantes sont imaginables en
fonction des dfinitions donnes aux groupes
des cas et des tmoins; toutefois, un certain
nombre de principes devront tre respects qui
seront prsents plus loin.
Parmi les mesures d'association dcrites
prcdemment, seules quelques-unes sont

estimables par une enqute cas-tmoins. En


effet, le principe consiste comparer des
frquences d'exposition, et donc aucune des
mesures dcrites s'appuyant sur des frquences
de maladie ne pourra tre utilise. La mesure
d'association utilise est l'odds ratio (odds ratio
de l'exposition qui est en fait gal l'odds ratio
de la maladie).
Une des difficults importantes des enqutes
cas-tmoins est le choix d'un groupe tmoin
appropri. En fait, le choix des tmoins est trs
li la faon dont les cas ont t dfinis, et nous
allons donc indiquer brivement les lments
qui guident la dfinition et le choix des groupes
que l'on compare.
Dfinition et slection des cas
Les critres et mthodes diagnostiques permettant de caractriser les cas doivent tre bien
dfinis, objectifs et raliss sur tous les sujets. Il
faut viter que le diagnostic soit fait l'occasion
d'un examen motiv par une exposition particulire, par exemple lors de la surveillance de
travailleurs occupant certains postes en
mdecine du travail. On risquerait d'avoir un
chantillon de cas o les sujets exposs seraient
sur-reprsents. Il faut enfin choisir entre maladie primitive ou secondaire.
Les cas peuvent tre incidents (les nouveaux
cas au fur et mesure qu'ils se prsentent) ou
prvalents (tous les cas encore prsents enregistrs dans les annes prcdant le dbut de
l'enqute). Les seconds permettent un recrutement plus rapide des sujets d'enqute, mais ils
sont sous-reprsents en sujets dont la dure de
survie est courte aprs le diagnostic. On prfre
donc prendre des cas incidents pour viter ce
biais de slection. On peut aussi envisager de
prendre tous les cas diagnostiqus depuis une
date fixe, ce qui implique d'inclure dans l'enqute les cas dcds depuis cette date. Il n'y a
pas alors de biais de slection, mais cela pose des
problmes importants de recueil de l'information concernant les cas dcds et de choix des
tmoins.
La population o les cas seront recruts doit
tre choisie de faon ce que l'exposition soit
suffisamment frquente et de niveaux varis
pour que la comparaison des frquences d'exposition ait une puissance statistique suffisante.
Il y a trois sources principales de cas: les
malades figurant dans un registre de pathologie,
par exemple, registre de cancers ou registre de

PIDMIOLOGIE

malformations congnitales (il s'agit alors de


l'ensemble des malades de la rgion ou du pays
couvert par le registre), les malades hospitaliss
dans un ou plusieurs services de traitement (on
parle de cas hospitaliers) ou les malades recenss
dans le cadre d'une enqute de cohorte.
Dfinition et slection des tmoins
De faon gnrale, les tmoins devraient tre
constitus d'un chantillon reprsentatif des
non-malades de la population dont sont issus les
cas. La dfinition de cette population ne pose
pas de problme lorsque les cas sont issus d'un
registre ou d'une cohorte: il s'agit respectivement de la population gnrale de la zone du
registre et de l'ensemble des sujets de la cohorte.
C'est beaucoup moins simple pour des cas hospitaliers; la population des tmoins pourrait tre
dfinie par l'ensemble des sujets qui, s'ils sont
malades, seraient traits dans les services dont
sont issus les cas. On voit que cela dpend du
mode de recrutement de ces services hospitaliers, c'est--dire notamment de leur position
gographique et du choix des sujets eux-mmes.
On prend en gnral des tmoins hospitaliers
non atteints par la pathologie tudie, mais
atteints d'une autre pathologie. Dans ce cas, il
faut faire attention que les maladies des tmoins
n'aient pas de facteurs de risque connus qui
soient communs avec la maladie des cas.
Pour que les populations d'origine des cas et
des tmoins soient les plus proches possibles, on
utilise souvent l'appariement. Il permet la fois
de prendre en compte un facteur de confusion
(ou plusieurs) et de limiter les biais de slection
en runissant des tmoins venant d'une population semblable celle des cas. Par exemple, on
constate qu'un appariement sur l'ge, la zone de
rsidence et le pays d'origine a tendance rendre
aussi les deux groupes quilibrs pour le statut
socio-conomique et le niveau de scolarisation.
Cependant, les limites de l'appariement ont t
mises en vidence plusieurs reprises et incluent
la non-possibilit d'tudier le risque associ aux
variables d'appariement et la possibilit de confusion rsiduelle si l'effet des variables d'appariement n'est pas contrl au moment de
l'analyse (Clayton et Hills, 1993; Rothman et
Greenland, 1998). En pratique, on se limite de
plus en plus apparier les cas et les tmoins pour
un ou deux facteurs trs fortement associs la
maladie et pour lesquels le contrle de la confusion sera amlior l'aide de l'appariement.

103

Le recueil des informations, fait de faon


rtrospective, se fait le plus souvent par questionnaire (auto-administr ou par enquteur).
Le problme principal est celui des biais de
classement d aux erreurs de mmoire. Il faut
donc s'efforcer que les informations recueillies
soient objectives, que les questions soient fermes pour limiter les diffrences d'expression
entre les sujets et que l'interrogatoire soit
l'aveugle, ce qui est souvent difficile s'agissant
de malades et de tmoins. Il faut que le recueil
de l'information soit le plus semblable possible
entre les cas et les tmoins si on veut viter
qu'une diffrence constate entre ces deux
groupes soit attribuable au mode de recueil
plutt qu' la maladie. Par exemple, s'il y a
plusieurs enquteurs, il faut rpartir les cas et les
tmoins entre les diffrents enquteurs. De
mme, si le choix a t fait d'inclure des cas
dcds, il est recommand d'avoir des tmoins
dcds aussi, pour que le recueil de l'information soit de mme nature. Enfin, la codification
des rponses doit tre prcise et l'aveugle.
Enqutes transversales
Dans les enqutes transversales, l'chantillon est
issu de l'ensemble de la population sans tre
slectionn sur l'exposition (comme dans les
enqutes de cohorte) ni sur la maladie (comme
dans les enqutes cas-tmoins). Les sujets inclus
dans l'tude sont tous ceux qui sont prsents au
moment de l'enqute, et on mesure classiquement l'exposition ou l'tat de sant ce mme
moment. Ainsi dfinies, elles ont principalement un objectif descriptif, visant valuer la
frquence d'une exposition ou d'une maladie ou
la distribution d'un paramtre de sant. Le
choix de la population source et la reprsentativit de l'chantillon sont les principaux lments qui conditionnent alors la qualit de

l'tude.
La facilit de mise en uvre de ce type d'enqutes a conduit tendre leur utilisation la
recherche tiologique. Il est alors frquent que
l'interrogatoire des sujets porte aussi sur leurs
expositions et leurs maladies passes. Une
enqute transversale est alors caractrise par
son type de recrutement plus que par le type
d'informations recueillies. C'est ainsi qu'elles
sont largement utilises en pidmiologie des
risques professionnels, dans le domaine particulier de la recherche et de l'valuation de mar-

104

ENVIRONNEMENT ET SANT PUBLIQUE

queurs fonctionnels ou biologiques, indicateurs


prcoces d'une atteinte infraclinique.
Les enqutes transversales posent principalement deux types de problmes. D'une part, la
relation temporelle entre le facteur de risque
tudi et la pathologie peut tre difficile tablir
(l'exposition prcde-t-elle ou non la survenue
de la pathologie?). D'autre part, le recrutement
transversal exclut les sujets absents ou ayant
quitt la population avant le dbut de l'enqute
et peut tre l'origine de biais de slection.
En pidmiologie tiologique, si les tudes de
cohorte et cas-tmoins constituent les principaux outils, un certain nombre d'hypothses
peuvent tre raisonnablement abordes par une
approche transversale dans la mesure o certaines prcautions sont prises l'tape du protocole et dans l'interprtation des rsultats:

Limitation des enqutes transversales l'tude de marqueurs de l'tat de sant pour


lesquels la prvalence est un bon indicateur
et dont la survenue ne conduit pas modifier
le comportement vis--vis de l'exposition
tudie, afin d'viter les biais de slection.

Prudence dans l'interprtation des rsultats


en raison des problmes lis la temporalit
de la relation exposition-maladie. Toutefois,
on a vu que, si l'chantillonnage dans les
enqutes est par dfinition transversal, le
recueil d'informations peut tre la fois
transversal et rtrospectif, ce qui permet de
tenir compte de certains paramtres temporels.

Choix du type d'enqute


Lorsqu'on organise une enqute pidmiologique, il est assez rare qu'un seul type d'enqute soit possible. Le plus souvent, plusieurs
types d'enqute sont envisageables, voire tous. Il
est cependant pratique d'utiliser des critres qui
orientent le choix, sachant que le choix final est
un compromis entre des contraintes contradictoires. Nous parlerons essentiellement des
enqutes de cohorte et cas-tmoins. Les
enqutes transversales ont, pour les critres que
nous envisageons dans ce paragraphe, des caractristiques proches de celles des enqutes de
cohorte. Les principaux critres de choix sont la
frquence de la maladie et celle de l'exposition,
l'intrt principal pour l'tiologie de la maladie
ou pour les consquences de l'exposition, les
biais, la temporalit entre l'exposition et la ma-

ladie, et le temps de latence, la dure et le cot


de l'enqute.
Une enqute de cohorte est surtout utilise
dans deux types de situations. La premire est
celle de l'tude des risques associs une exposition peu frquente et donc exceptionnellement
rencontre dans une enqute cas-tmoins (le
risque de cancer de la vessie associ l'exposition
aux amines aromatiques au cours de la fabrication des colorants, le risque de second
cancer associ au fait d'avoir subi une chimiothrapie, par exemple). Les tudes de cohorte
prospectives sont bien adaptes la surveillance
des travailleurs d'un secteur industriel et la
mise en vidence des effets faible dose. Les
enqutes de cohorte historiques sont particulirement intressantes pour les maladies dont
le temps d'induction est lev comme les cancers
ou les maladies cardio-vasculaires, et permettent
d'exploiter l'information sur les expositions
passes. Les enqutes historiques de mortalit
sont a priori d'autant plus intressantes que le
taux de mortalit de la pathologie tudie est
plus proche de son taux d'incidence. La seconde
situation est celle de l'tude des risques associs
des expositions trs frquentes pour lesquelles on
veut une mesure d'une prcision incompatible
avec l'valuation rtrospective ou dont la mesure
peut tre srieusement influence par le statut
cas-tmoin (vitamines et cancers, expositions
environnementales et dmence snile).
De faon gnrale, les enqutes cas-tmoins
sont bien adaptes l'tude de maladies rares
pour lesquelles le dlai depuis le dbut de l'exposition est relativement long, situation dans
laquelle une enqute de cohorte ncessiterait
une population de grande taille, suivie sur
plusieurs annes. Par ailleurs, elles permettent
de prendre en compte d'autres facteurs de risque
qu'il n'est parfois pas possible de mesurer dans
les enqutes de cohorte historique en particulier.
Elles sont galement bien adaptes l'tude
d'expositions disperses pour lesquelles la constitution d'une cohorte serait difficile. En outre,
lorsqu'elles se droulent en population gnrale,
elles refltent les caractristiques des expositions
en moyenne, en termes d'intensit et de
frquence d'exposs, et permettent donc d'avoir
une ide exacte de la part des diffrents facteurs
dans l'tiologie de certaines maladies dans la
population gnrale, par l'intermdiaire du calcul du pourcentage de risque attribuable.

PIDMIOLOGIE

Dans le cas o l'enqute se droule l'intrieur


d'une industrie (enqute cas-tmoins niche au
sein d'une cohorte), elle permet un gain d'efforts
important, en ne s'intressant qu'aux cas intervenus dans la cohorte et des tmoins en nombre
limit choisis dans la mme cohorte.
Leurs inconvnients sont lis aux biais possibles dus en particulier la constitution d'un
groupe tmoin et au recueil rtrospectif parfois
lointain des expositions (ou des co-facteurs).
Malgr cela, leur rapidit d'excution compare
aux enqutes de cohorte explique leur
dveloppement actuel dans de nombreux
domaines de l'pidmiologie.
Les diffrents points qui viennent d'tre discuts montrent clairement qu'il n'y a pas un
type d'enqute idal de faon absolue. La progression des connaissances sur la nature d'une
association entre une exposition et une maladie
n'est en fait possible que grce la varit des
enqutes qui sont ralises sur le sujet, chacune
ayant ses propres faiblesses et qualits. Il convient donc d'adapter le choix du type d'enqute
chaque situation particulire en tenant compte
des critres que nous avons numrs ci-dessus.
Plan du protocole d'une enqute tiologique
Le protocole dcrit les diffrentes phases du
droulement d'une enqute qui vont de l'expos
explicite de la question pose et du cadre gnral
dans lequel elle se situe jusqu'au plan d'analyse
des rsultats. Il faut insister sur l'importance,
pour de multiples raisons, de rdiger l'ensemble
du protocole.
L'ordre de prsentation que nous avons
adopt est celui que l'on utilise en gnral pour
la rdaction finale, mais il est clair que, au
moment de la discussion du protocole, les choix
faits sur certains points peuvent remettre en
cause ou modifier des choix faits sur des points
antrieurs. Le protocole n'est finalement achev
qu'aprs suffisamment d'allers et retours pour
que l'ensemble soit cohrent.
En donnant ci-dessous un plan type, nous
n'avons pas d'autre ambition que de fournir un
guide pour la discussion et la rdaction du protocole. II doit tre bien compris que ce plan
peut et doit tre adapt chaque enqute: certains points peuvent tre non pertinents (s'il n'y
a pas d'appariement, par exemple) et d'autres
peuvent tre ajouts si certaines prcisions mritent d'tre indiques.

105

Plan type du protocole


d'une enqute tiologique

A. Dfinition du problme pos et des objectifs de


l'enqute
B. Traduction du problme en hypothses de
recherche vrifiables empiriquement et refutable
par des tests statistiques
C. Dfinition des populations cibles et source
D. Dfinition de l'chantillon
E. Questionnaire et mode de recueil des donnes
F. Ralisation pratique de l'enqute
G. Principes gnraux de l'analyse statistique
H. Publication des rsultats

5. VALIDIT ET PRCISION

5.1 Introduction
Les notions de validit et de prcision interviennent lorsqu'il s'agit de gnraliser les mesures
(de frquence ou d'association) obtenues sur un
chantillon d'tude une population plus
grande (population cible).
La mesure obtenue sur un chantillon est
une estimation de la vraie mesure dfinie au
niveau de la population (RR, OR). Cette estimation serait trs vraisemblablement diffrente
si l'on tudiait un autre chantillon provenant
pourtant de la mme population. Ces variations, dites alatoires, rsultent du phnomne
des fluctuations d'chantillonnage. La connaissance des lois statistiques qui rgissent ces fluctuations permet donc d'assortir la mesure
obtenue d'une prcision statistique, un intervalle de confiance, par exemple. Elle permet
galement de conclure l'existence d'une diffrence significative entre une estimation et une
valeur attendue, compte tenu des fluctuations
d'chantillonnage, l'aide de tests statistiques
appropris (Armitage et Berry, 1971; Scherrer,
1984; Bouyer, 1996).
On dira qu'une estimation est biaise (ou
n o n valide) si un certain nombre d'erreurs systmatiques dans la constitution de l'chantillon
(slection), dans le classement des sujets ou rsultant de la prsence de tiers-facteurs (ou facteurs
de confusion) font que l'estimation obtenue au

106

ENVIRONNEMENT ET SANT PUBLIQUE

niveau de l'chantillon est une mesure incorrecte de l'indice dfini au niveau de la population. Elle ne pourra tre corrige en partie que
par la prise en compte des erreurs au moment de
l'analyse ou de la discussion des rsultats sur le
sens probable du biais.

5.2 Biais de slection


Il y a biais de slection lorsque la population
dont est extrait l'chantillon d'tude (population source) est diffrente de la population
laquelle on souhaite gnraliser les rsultats
(population cible) ou lorsque les groupes de
comparaison (exposs/non-exposs ou cas/tmoins) ne sont pas comparables. Nous
passerons successivement en revue diffrents
types de situations courantes en pidmiologie,
dans lesquelles des biais de slection sont systmatiquement ou potentiellement prsents.
Biais dans la slection de l'chantillon d'tude
Il s'agit de situations dans lesquelles il n'est possible de recenser qu'une partie de la population
source pour en extraire un chantillon d'tude.
Par exemple, une population en activit professionnelle une date donne alors que nous nous
intressons toutes les personnes ayant ou ayant
eu une activit professionnelle, ou encore la
population des malades hospitaliss, alors que
nous nous intressons l'ensemble des personnes atteintes de la maladie.
Une tude transversale a pour particularit
un recrutement instantan des sujets, c'est-dire que ne seront inclus que les sujets
prsents au moment de l'tude. Ceci exclut par
dfinition tous les sujets qui satisfont par
ailleurs tous les autres critres d'inclusion, mais
qui, pour diverses raisons (maladie, mobilit),
ne sont pas prsents au moment de l'enqute. Il
peut alors y avoir biais de slection si les raisons
d'absence sont directement ou indirectement
lies la prsence du facteur de risque. C'est le
cas par exemple pour une exposition professionnelle entranant le retrait du poste de travail.
Biais dans le choix du groupe de rfrence
Par groupe de rfrence, nous entendons le
groupe tmoin dans les tudes cas-tmoins ou le
groupe non expos dans les autres types d'tude.
Dans une tude cas-tmoins, idalement, le
groupe tmoin doit tre reprsentatif de la population source dont sont issus les malades

(cas). Lorsque les cas ont t identifis l'aide


d'un registre, la population source est par dfinition la population de la rgion couverte par le
registre, et le choix d'un groupe tmoin
reprsentatif de cette population ne pose alors
thoriquement pas de problme. Dans le cas o
les tmoins sont recruts en milieu hospitalier,
la population source est plus difficile dfinir:
en thorie, il s'agit de l'ensemble des sujets qui,
s'ils taient atteints de la maladie tudie,
seraient hospitaliss dans l'un des services o
ont t identifis les cas. Il s'agit donc de caractriser cette population en termes socio-dmographiques, c'est--dire de rechercher les dterminants (lieu de rsidence, niveau socioconomique) qui ont abouti l'hospitalisation
dans l'un des services inclus dans l'tude.
L'absence de base de sondage correspondante
entranera le plus souvent la constitution d'un
groupe de rfrence partir, par exemple, de
malades admis dans le mme hpital pour une
autre cause, ayant des caractristiques dmographiques semblables aux cas (appariement).
Le choix de la ou des causes d'hospitalisation
tmoins est aussi une source possible de biais
de slection, car idalement la frquence d'exposition au facteur de risque dans ce groupe doit
tre semblable celle de la population source.
Certains facteurs de risque, comme le tabac,
tant l'origine de plusieurs maladies, le choix
peut tre difficile. Par exemple, le groupe des
malades atteints de maladies cardio-vasculaires
n'est pas un bon groupe tmoin dans l'tude de
l'association entre consommation de tabac et
cancer de vessie, dans la mesure o le tabac tant
galement un facteur de risque de maladies cardio-vasculaires, la frquence d'exposition au facteur de risque sera nettement surestime dans le
groupe tmoin et en consquence la mesure de
l'association tabac-cancer de vessie sera sousestime.
Dans les tudes de cohorte, le groupe expos
est souvent compar la population gnrale.
Ceci est vrai en particulier dans les tudes de
mortalit, puisque la plupart des pays publient
rgulirement des statistiques de mortalit par
ge, sexe et rgion pour chaque cause de dcs.
La frquence de mortalit pour certaines causes
n'est donc calcule que pour le groupe expos et
compare ensuite aux statistiques tablies dans
la population gnrale correspondante. L,
encore, il s'agit de dterminer les caractris-

PIDMIOLOGIE

tiques de la population source du groupe expos


de faon dfinir la population source non
expose. Dans le cas d'une cohorte professionnelle, par exemple, le groupe expos est souvent
compos d'hommes, rsidant d'une rgion donne, dont l'tat de sant leur a permis d'tre
employ souvent dans des postes pnibles. La
population gnrale masculine de la mme
rgion est compose en partie de personnes dont
l'tat de sant est plus prcaire, et globalement
le taux de mortalit de cette population est gal
ou suprieur celui de la cohorte tudie.
Paradoxalement, on observe donc souvent que,
malgr la prsence d'une exposition professionnelle particulire ayant motiv la mise en place
d'une tude, la mortalit de la cohorte tudie
est moins leve que celle de la population de
rfrence. Ce phnomne est appel "Healthy
Worker Effect dans la littrature anglo-saxonne.
Il n'exclut pas toutefois que, pour certaines
causes spcifiques plus particulirement lies
l'exposition, la mortalit soit plus leve dans la
cohorte. L'interprtation des diffrences observes dans ce type d'tude doit donc toujours
se faire en gardant l'esprit cette diffrence de
construction entre les deux groupes de comparaison.

5.3 Biais de classement


Un biais de classement peut intervenir si une
erreur systmatique affecte la mesure du facteur
de risque ou de l'tat de sant. Si, comme dans la
situation la plus simple prsente ici, les sujets
sont classs de faon dichotomique pour l'exposition (expos/non-expos) et pour l'tat de sant
(malade/non-malade), les erreurs de classement
aboutiront, par exemple, considrer nonexposs des sujets qui sont exposs en ralit et
vice versa, ou considrer non-malades des
sujets malades en ralit (et vice versa). Les considrations prsentes ici s'appliqueraient galement si le facteur de risque ou l'tat de sant
taient mesurs de faon quantitative.
On distingue en gnral deux types d'erreurs
de classement dont les consquences sont diffrentes sur les estimations obtenues pour la
mesure d'association: d'une part, les erreurs diffrentielles qui affectent diffremment les catgories compares, la proportion de sujets considrs exposs tort est diffrente chez les
malades et les non-malades ou encore la

107

frquence de sujets classs malades tort est


plus grande chez les exposs que chez les nonexposs, par exemple, et d'autre part les erreurs
non diffrentielles affectant galement les deux
catgories compares. Dans le cas d'erreurs diffrentielles, le biais peut conduire une augmentation ou une diminution de l'estimation
par rapport la vraie valeur selon les erreurs rencontres. Dans le cas d'erreurs non diffrentielles, on peut montrer que, quelles que soient
l'ampleur et la direction de l'erreur affectant de
faon gale les deux groupes compars, l'estimation obtenue sera biaise vers l'absence d'association; en d'autres termes, la force de l'association sera sous-estime (Bouyer et coll., 1993).
Les types courants d'tudes pidmiologiques
donnent de nombreux exemples d'erreurs diffrentielles. Dans une tude cas-tmoins, des
sujets ayant subi un vnement de sant grave
(cas) sont compars des sujets en gnral non
atteints (tmoins). Lorsque l'exposition antrieure au facteur de risque est mesure par un
interrogatoire du sujet lui-mme, sur ses habitudes de vie, ses expositions professionnelles
passes, il est probable que les expositions potentiellement nocives, pouvant avoir un lien avec l'tat de sant actuel, soient remmores avec plus
d'acuit par les cas que par les tmoins, et qu'ils y
soient mme aids par des enquteurs zls! On
aboutit donc une sous-estimation de la
frquence d'exposition chez les tmoins et donc
une surestimation de l'OR. Ce biais est minimis
par l'utilisation d'un groupe tmoin malade, des
sujets atteints d'autres cancers tmoins d'une
tude sur les cancers de vessie, des enfants atteints
d'autres malformations tmoins d'une tude sur
les spina bifida, etc. Mais, si dans ce cas les erreurs
de classement sont probablement diminues,
d'autres types de biais sont probables. Les tudes
exposs/non-exposs dans lesquelles les sujets
exposs bnficient d'un meilleur suivi mdical
aboutissent une sous-estimation de la frquence
de malades chez les non-exposs et donc l encore
une probable surestimation de la mesure d'association (RR, par exemple).
On voit donc qu'il existe de nombreuses situations pouvant aboutir une surestimation de
la mesure d'association et donc conclure tort
l'existence d'un lien entre un facteur de risque
et une maladie. Les pidmiologistes sont donc
extrmement vigilants pour viter ce type d'erreur, utilisant diffrents types de techniques

108

ENVIRONNEMENT ET SANT PUBLIQUE

(interrogatoire ou examen mdical l'aveugle,


choix de groupes de comparaison plus proches)
permettant de minimiser ce biais.
Les erreurs non diffrentielles sont celles qui
continuent affecter la mesure de l'exposition
ou de l'tat de sant, de faon irrductible,
mme si tous les efforts ont t mis en uvre
pour que les groupes compars soient traits de
faon identique. Par exemple, dans une tude de
mortalit, des erreurs de classement sur la cause
de mortalit sont invitables si l'on utilise les
certificats de dcs. La qualit d'une tude sur
les anomalies radiologiques sera subordonne
la qualit technique des radiographies interprter. Dans les deux situations, les erreurs sur
l'valuation de l'tat de sant, dans la mesure o
elles sont non diffrentielles, aboutiront sousestimer la mesure d'association et donc
ventuellement empcher de conclure l'existence d'une vraie relation. La discussion des
rsultats doit tenir compte de ce biais.
En conclusion, une tude pidmiologique
aboutira des conclusions informatives si de
bonnes garanties existent qu'un biais de classement diffrentiel a t vit et si l'ampleur des
erreurs non diffrentielles n'est pas telle qu'elles
aboutissent une forte sous-estimation de la
force de l'association. De nombreuses techniques existent permettant d'atteindre ces deux
objectifs; quelques exemples ont t donns, on
en trouvera d'autres dans Bouyer et coll. (1993).

5.4 Facteurs de confusion


Prenons immdiatement un exemple de facteur
de confusion (Bouyer et coll., 1993).
Soit une population de 11 000 sujets rpartis
de la faon suivante:

o E+ = exposs au facteur de risque tudi;


E- = non-exposs; M+ = malades;
M- = non-malades.
On obtient RR = 18,4 % / 6,8 % = 2,7.

Si l'on rpartit la mme population en strates


d'ge, on obtient les tableaux suivants:
Strate 1

Strate 2

< 25 ans
+

E
M+

Strate 3

25-40 ans
-

> 40 ans
-

E+

E-

16

200

48

240

120

240

184

4800

252

2760

380

1760

Total

200

5000

300

3000

500

2000

RR1 = 2

RR2 = 2

RR3 = 2

On voit donc que les valeurs du risque relatif


(RR) dans chaque strate d'ge (RRl = RR2 =
RR3 = 2) sont diffrentes du risque relatif avant
stratification, ou risque relatif brut (RR=2,7).
On dira que l'ge a agi ici comme facteur de
confusion dans la relation entre E et M. La vraie
relation entre E et M est mesure par le risque
relatif par strate, c'est--dire une fois limine
l'influence de l'ge sur la mesure de cette relation. L'cart entre le risque relatif brut et les
risques relatifs par strate rsulte de deux
phnomnes:
-

d'une part, la frquence de la maladie augmente avec l'ge: elle est de 4,2 % dans la strate
1, de 8,7 % dans la strate 2 et de 14,4 % dans
la strate 3;

d'autre part, les exposs sont en moyenne


plus gs que les non-exposs: on voit en
effet que 50 % des exposs ont plus de 40
ans, contre seulement 20 % des non-exposs.

Ainsi, une partie de l'augmentation du risque


de maladie attribue l'exposition lorsqu'on
considre le risque relatif brut sur l'ensemble de
la population est en fait attribuable l'ge. On
voit donc qu'un facteur F est facteur de confusion s'il est la fois facteur de risque de la maladie tudie et li l'exposition E.
Il faut noter que, dans le cas o les estimations des risques relatifs ne seraient pas identiques d'une strate l'autre, on serait en
prsence d'une interaction et non plus d'un biais
de confusion, c'est--dire la situation dans
laquelle l'effet du facteur de risque varie selon
les valeurs que prend le facteur de confusion.
Les biais lis aux facteurs de confusion ont
l'avantage par rapport aux autres types de biais
qu'il est possible de les prendre en compte
jusqu' les liminer au moment de la mise en
place d'une enqute et de les corriger au
moment de l'analyse statistique. Nous prsen-

PIDMIOLOGIE

terons ici les diffrentes techniques permettant


la prise en compte d'un facteur de confusion au
moment de la mise en place d'une enqute, les
techniques statistiques utilisables au moment de
l'analyse (ajustement) seront exposes plus loin
dans la section Analyse de donnes.
La mthode de choix pour la prise en compte
des facteurs de confusion au moment de la mise
en place de l'enqute pidmiologique est le
tirage au sort (voir les tudes exprimentales). Il
permet en effet d'allouer au hasard les sujets
provenant d'une mme population source l'un
des groupes de comparaison (trait ou non trait
dans le cas d'essais thrapeutiques). Le tirage au
sort permet a priori d'quilibrer les caractristiques des deux groupes, caractristiques dont
certaines sont des facteurs de confusion potentiels. Toutefois, si le tirage au sort reste la
mthode de rfrence, il ne s'applique pas la
plupart des tudes pidmiologiques d'observation. Dans ce cas, les groupes exposs et non
exposs sont dj constitus au moment de l'tude, et les populations sources diffrent par un
certain nombre de facteurs, certains tant des
facteurs de risque de la maladie tudie et donc
facteurs de confusion possibles. Une solution
consiste donc quilibrer la distribution des
facteurs de confusion entre les groupes compars (exposs/non-exposs ou cas/tmoins).
Cet quilibrage peut se faire par appariement,
soit au niveau de strates du facteur de confusion, on appelle alors ce procd stratification
(les deux groupes ont la mme proportion
d'hommes et de femmes, par exemple), soit par
appariement individuel ( un sujet expos est
appari un sujet non expos de mme ge et de
mme sexe, par exemple). Dans les deux cas,
l'une des conditions ncessaires l'existence
d'une confusion (lien entre F et E, ou lien entre
F et M) n'est plus remplie, et le biais de confusion disparat. Il faut noter que, dans le cas
d'une tude cas-tmoins, cet appariement ne
contrle pas compltement le biais de confusion
qui doit tre complt par une prise en compte
au niveau de l'analyse. Dans le choix des variables d'appariement, il faut veiller galement ne
pas sur-apparier, c'est--dire ne pas restreindre
la variabilit du facteur de risque tudi, parce
qu'il tait en partie li au facteur d'appariement.
Par exemple, dans une tude cas-tmoins sur le
rle possible d'expositions environnementales,
un appariement sur le lieu de rsidence (destin

109

quilibrer les origines socio-dmographiques


des recrutements en milieu hospitalier, par
exemple) va entraner une trop grande similitude sur les expositions des cas et des tmoins et
risque de faire disparatre l'association recherche.
Les facteurs de confusion considrer dans
une enqute, soit au moment de I'appariement
soit au moment de l'analyse, sont en gnral
choisis parmi les facteurs de risque connus de la
maladie tudie ou ses facteurs de variation
(comme l'ge, le sexe ou la catgorie socioprofessionnelle).
6. ANALYSE DES DONNES

6.1 Estimation et tests


Nous avons voqu plus haut l'existence de fluctuations d'chantillonnage et de lois statistiques
qui les rgissent. Ainsi, il est possible, connaissant le pourcentage de malades dans une population, de savoir dans quel intervalle de valeurs
se situeront 95 % des pourcentages observs sur
diffrents chantillons de mme taille tirs de
cette mme population. L'estimation d'un
paramtre sur une population (frquence, risque
relatif) consiste effectuer le chemin inverse:
connaissant la valeur observe sur un chantillon, quelle est la valeur la plus probable de ce
paramtre dans la population (estimation
ponctuelle) et quel est l'intervalle dans lequel se
situe trs probablement ( 95 %, par exemple) la
vraie valeur du paramtre sur la population
(intervalle de confiance)?
L'estimation ponctuelle prconise pour ses
bonnes proprits statistiques pour la plupart
des indices utiliss en pidmiologie est obtenue
par la mthode du maximum de vraisemblance;
cette estimation est le plus souvent gale la
valeur observe sur l'chantillon. Lorsque l'estimateur (la fonction ou formule mathmatique
permettant d'obtenir l'estimation partir des
valeurs observes sur l'chantillon) a une distribution normale, l'intervalle de confiance de l'estimation est alors obtenu par la formule
gnrale
o A reprsente l'estimation de l'indice (p, T I , RR, OR), var(A), la
valeur de la variance de l'estimateur pour
l'chantillon et z/2 la valeur limite de la loi
centre rduite correspondant au risque (par
exemple, pour = 5%, on a z /2 =1,96 et on
parle d'intervalle de confiance 95 % ) .

110

ENVIRONNEMENT ET SANT PUBLIQUE

Certaines formules permettant le calcul de la


variance (et donc de l'intervalle de confiance)
ont t indiques dans la section 3 consacre aux
mesures utilises en pidmiologie. Pour les
autres, nous renvoyons des livres spcialiss
(Scherrer, 1984; Bernard et Lapointe, 1987;
Bouyer et coll., 1993).
Une autre situation dans laquelle les fluctuations d'chantillonnage doivent tre prises en
compte est par exemple celle, courante en
pidmiologie, dans laquelle on compare un
pourcentage de malades (ou frquence de maladie) chez des exposs et des non-exposs (ce
qui revient aussi comparer un RR 1) ou un
pourcentage d'exposs chez des malades et des
non-malades (ce qui revient comparer un OR
1). La comparaison ne peut pas se faire, bien
sr, partir des seules estimations, mais en tenant compte des fluctuations d'chantillonnage,
l'aide de tests statistiques permettant de conclure l'existence ou non d'une certaine association avec un certain risque d'erreur. Par
exemple, l'existence d'une association significative entre E et M sera teste en comparant deux
pourcentages observs l'aide d'un test.
L'pidmiologie utilise un sous-ensemble de
tests statistiques adapts au type de variables
(souvent qualitatives) et d'hypothses testes.
L'expos dtaill de ces tests et de leurs conditions d'application peut tre trouv dans des
ouvrages d'pidmiologie plus complets
(Breslow et Day, 1980, 1987; Kleinbaum et
coll., 1982; Rothman et Greenland, 1988;
Bouyer et coll., 1993).

6.2 Analyse
Dans l'tude de la relation entre un facteur de
risque (E) et un tat de sant (M), il est rare que
le droulement de l'tude soit suffisamment
simple pour que le rsultat final puisse se
rsumer estimer la force de l'association entre
E et M, avec son intervalle de confiance, et de
tester la signification statistique de l'estimation
obtenue. Le plus souvent, en effet, les diffrents
biais voqus plus haut (slection, classement,
confusion) altrent (biaisent) la vraie valeur de
l'estimation. Parmi eux, le biais de confusion
peut tre corrig au moment de l'analyse statistique. Cette analyse consiste estimer une
valeur RRa ou ORa mesurant l'association entre
E et M ajuste sur un (ou plusieurs) facteur de
confusion F. Diffrentes techniques disponibles

vont tre voques: il s'agit d'une part de la


mthode d'ajustement de Mantel-Haenszel et
d'autre part de l'analyse multivarie.
Mthode d'ajustement de Mantel-Haenszel
Le principe de la mthode de Mantel-Haenszel
consiste estimer d'abord l'association entre E
et M pour chaque classe (ou strate) de valeurs
du facteur de confusion F (donc F constant),
puis calculer une valeur moyenne pondre
des estimations par strate qui sera la valeur
ajuste. Cette valeur ajuste sera assortie d'un
intervalle de confiance, et sa signification statistique sera teste au moment du test de MantelHaenszel.
Dans l'exemple utilis au dbut du chapitre
sur les biais de confusion, le facteur de confusion (ge) avait t divis en trois classes ou
strates: <25 ans, 25-40 ans, >40 ans. De faon
gnrale, si on appelle k le nombre de strates, on
peut estimer k risques relatifs conditionnels RRi.
(ou odds ratios OR i ). Le risque relatif ajust
RR sera obtenu aprs transformation logarithmique par la formule suivante:

si dans chaque strate on utilise les notations


suivantes:

o ai. = nombre de malades exposs; bi = nombre


de malades non exposs; m 1i = nombre de
malades dans la strate i;...
on a

pour chaque strate i.

Une formule quivalente existe pour OR en remplaant RRi par ORi dont la variance du logarithme est
(Bouyer et coll., 1993).
L'intervalle de confiance du risque relatif ajust
s'obtient suivant la formule gnrale suivante:
avec wi= (var Ln(RR i )) -1 comme plus haut.
Le test de Mantel-Haenszel permet donc de
tester l'existence d'une diffrence statistiquement significative entre RRa (ou OR a) et 1.

PIDMIOLOGIE

Il s'crit sur le mme principe qu'un test


classique 2

Les limites de signification sont celles du 2 1


degr de libert. Les conditions d'application
(Bouyer et coll., 1993) doivent tre vrifies.
L'intrt de l'analyse stratifie de MantelHaenszel est qu'elle permet une visualisation pas
pas des estimations obtenues pour chaque
strate des diffrents facteurs de confusion, et la
mise en vidence concrte des interactions
ventuelles ou des incohrences possibles. La
mesure globale ajuste rsumant toutes les
strates n'est en toute rigueur interprtable
qu'une fois fait cet examen des donnes. En
effet, bien que cet aspect ne soit qu'effleur dans
ce chapitre, il est important de mentionner que,
si un effet (quantifi ici par le RR) est principalement prsent dans une strate ou varie de
faon importante selon la valeur les diffrentes
strates du co-facteur, on dira que le co-facteur
est un facteur modifiant ou qu'il agit en interaction avec le facteur exposition. La prsentation d'une mesure globale d'effet est alors d'intrt discutable, et les donnes seront plutt
prsentes selon les strates d'intrt. Cet aspect
d'interaction ou d'effet modifiant est test par
un test d'homognit permettant de statuer si
la variation de l'effet selon les strates peut tre
attribuable au hasard.
Les limites de l'analyse stratifie tiennent au
nombre maximum de strates informatives qu'il
est possible de constituer avec un nombre de
sujets donn. Il est en effet thoriquement possible d'tudier simultanment plusieurs facteurs
de confusion: dans ce cas, le nombre total de
strates sera gal au produit des nombres de classes des diffrents facteurs tudis, par exemple
vouloir tudier comme facteurs de confusion le
sexe et l'ge (regroup en trois classes) donnera
six strates (femmes <25 ans; hommes <25 ans;
femmes 25-40 ans, etc.). Les petits effectifs de
chaque strate limiteront alors fortement la prcision de l'analyse. C'est pourquoi, avec le
dveloppement des logiciels d'analyse statistique, les mthodes permettant l'analyse simultane des relations entre de nombreuses variables (multivaries) sont largement utilises
aujourd'hui.

111

Analyse multivarie
L'analyse multivarie consiste modliser la
relation entre une variable Y caractrisant l'tat
de sant et le facteur de risque principalement
tudi E, et diffrentes autres variables X facteurs de confusion potentiels.
La formulation gnrale est donc Y = f(E,
X 1 ,X 2 ,...,X i ,...).
S'il s'agit d'une fonction f linaire, on aura,
par exemple,
Y =
a+0E+1X1+2X2+...+iXi+...
dans
laquelle a, 0 , 1 ,..., i ,..., sont des coefficients
estims sur la population partir des donnes
observes sur l'chantillon. On a ainsi modlis
la relation entre Y et E en ajustant sur les variables Xi facteurs de confusion potentiels, qui
ont t incluses dans le modle.
Y et f varient suivant le type de donnes
analyses:
-

si l'tat de sant est caractris par une


mesure quantitative (poids de naissance,
dosage biologique), Y, variable expliquer,
sera la valeur moyenne de cette mesure. La
fonction sera en gnral une fonction
linaire, sur des variables ventuellement
transformes (log, racine carre), et la mthode sera la rgression linaire multiple;

si l'tat de sant est caractris en oui/non


(malade/non-malade), Y est le risque de maladie R ou une fonction de ce risque. Dans la
rgression logistique, on aura, par exemple,
, et f sera une fonction linaire;

si l'tat de sant est caractris en oui/non


(malade/non-malade), mais qu'on s'intresse
la date de survenue de la maladie, Y est l'incidence instantane l(t) ou une fonction de
celle-ci. Dans le modle de C ox , on aura par
exemple Y=Ln l(t) et f sera une fonction
linaire.

En pratique, seul un petit nombre de modles est utilis en pidmiologie analytique


dont le choix repose essentiellement sur la
nature de la variable utilise pour mesurer la
maladie comme nous l'avons indiqu ci-dessus.
Il existe cependant des circonstances en biostatistique o le problme principal est justement
la recherche du bon modle. Par exemple, l'tude des effets des faibles doses de radiations
ionisantes ou les analyses de sries spatiotemporelles.

112

ENVIRONNEMENT ET SANT PUBLIQUE

Si nous considrons donc que le choix du


type de modle est facile rgler, parce qu'il y a
peu de types de modles en concurrence, il reste
choisir les variables qui doivent figurer dans le
modle. Il faut tout d'abord insister sur la ncessit d'adopter une stratgie pour choisir les variables. En effet, mme lorsque le type de modle a t choisi et que les variables qui peuvent
ventuellement y tre incluses ainsi que leur
codage ont t dtermins, le nombre de possibilits reste considrable. Prenons, par exemple,
la situation o il y a 7 variables Xi., toutes en
0 / 1 . Le modle contenant toutes ces variables
ainsi que toutes leurs interactions* a 2 7 = 1 2 8
coefficients. On dit que c'est un modle satur,
car il a autant de coefficients que de catgories
de sujets dfinies par les valeurs prises pour les
sept variables. Le nombre de sous-modles possibles est gigantesque (2128 qui est suprieur
1038 ). Il est bien sr exclu de comparer ces modles diffrents les uns avec les autres pour
choisir le meilleur. Il faut donc adopter une
stratgie pour choisir le modle jug le meilleur.
L'alternative est la suivante: soit choisir le
modle satur qui est celui qui permet de
reprsenter parfaitement les donnes, car il a
autant de coefficients que de catgories de
sujets, mais alors chaque coefficient estim a
une grande variance en raison du grand nombre
de variables et, surtout, il est frquent que ce
modle soit difficile interprter; soit choisir un
sous-modle, souvent plus facile interprter,
dont les coefficients, moins nombreux, auront
une variance plus faible, mais qui peut laisser
place un biais de confusion rsiduel ou une
inadquation aux donnes par non-prise en
compte de certaines variables.
Le choix entre ces deux possibilits dpend
pour une part du point de vue o on se place. Si
l'objectif est la prdiction la meilleure de Y, la
question d'une bonne prise en compte de la
confusion n'est pas dcisive: n'importe quel bon
ensemble de prdicteurs (avec ou sans contusion) convient, mme si on doit s'attacher
slectionner les facteurs de risque causaux dont
les effets ont plus de chance d'tre reproductibles d'une population l'autre. En
revanche, si l'objectif est d'estimer au mieux la
relation entre une exposition et la maladie, le
problme essentiel est l'limination de tout
*

phnomne de confusion et, souvent, une


bonne description de la relation dose-effet entre
l'exposition et la maladie.
Ce second point de vue (tude de la relation
entre une exposition et la maladie) est le plus
frquent en pidmiologie tiologique. Le choix
des variables Xi que l'on va finalement retenir
comprend trois tapes principales (Bouyer et
coll., 1993). En premier lieu, le choix des variables que l'on va slectionner initialement
comme variables pouvant tre prises en compte
dans le problme tudi, puis le choix de leur
codage et des interactions que l'on va retenir.
On aboutit ainsi un ensemble de variables qui
sont susceptibles d'entrer dans le modle. Il faut
alors choisir, au sein de ces variables, celles que
l'on va finalement conserver. Dans le processus
conduisant aux choix du modle final, il ne faut
pas perdre de vue l'objectif initial. Dans le cas
de l'pidmiologie tiologique, il s'agit de quantifier et de tester la relation entre l'exposition et
la maladie, aprs l'avoir dbarrasse des effets
de confusion dus aux autres variables. Il est,
d'autre part, important d'aboutir un modle
que l'on sache interprter sur le plan pidmiologique.
On trouvera un expos plus dtaill de ces
questions capitales dans les ouvrages spcialiss
(Breslow et Day, 1980; Kleinbaum et coll.,
1982; Bouyer et coll., 1993).
7. INTERPRTATION DES RSULTATS.
CAUSALIT
Mme si l'pidmiologie permet de dcrire de
nombreuses associations impliquant diverses
maladies et facteurs de risque potentiels, elle a
frquemment de la difficult tablir un lien de
causalit. Ceci est particulirement vrai pour
l'pidmiologie d'observation. titre d'exemple, mentionnons le temps qu'il aura fallu pour
que la cigarette soit reconnue comme facteur
causal dans l'augmentation de l'incidence du
cancer du poumon: la cigarette ne fut reconnue
comme facteur tiologique du cancer du
poumon que dans les annes 1960, alors qu'elle
tait dj souponne dans les annes 1940
(Stolley et Lasky, 1995).
L'interprtation des rsultats d'une enqute
tiologique comprend deux tapes principales:

C'est--dire les interactions entre deux variables Xi et Xj , mais aussi celles entre trois variables et jusqu'
celle entre les 7 variables.

PIDMIOLOGIE

un jugement de signification qui s'appuie sur


l'analyse statistique des rsultats de l'enqute et
un jugement de causalit qui fait souvent appel
des rsultats extrieurs l'enqute.

113

tudier, soit parce que les donnes l'ont suggr,


soit parce qu'il tait prvu d'explorer des directions secondaires, il faut considrer que le risque
a est mal contrl et que les rsultats trouvs
doivent tre confirms par des tudes spcifiques.

7.1 Jugement de signification


Une enqute tiologique permet de tester l'existence d'une association entre une exposition et
une maladie. Le jugement de signification consiste conclure, sur la base de l'analyse statistique, que l'on rejette ou que l'on ne rejette pas
l'hypothse d'absence d'association. Cette conclusion ne peut tre mise avec une crdibilit
suffisante qu' la suite d'une analyse statistique
correctement conduite. Cela signifie, bien sr,
que les tests adquats ont t utiliss, mais aussi
que les facteurs de confusion potentiels ont t
pris en compte et que les risques d'erreurs ont
t contrls. Ce dernier point est peut-tre trop
souvent nglig malgr son importance. Sa discussion est diffrente selon que le rsultat est
significatif ou ne l'est pas.
Dans le cas d'un rsultat non significatif, on
doit s'interroger sur la puissance de l'enqute. Si
elle est suffisante, l'enqute apporte une connaissance scientifique utile. Mme si elle ne permet pas d'accepter l'hypothse d'absence d'association, elle permet de conclure que la force de
l'association entre l'exposition et la maladie
(mesure par le risque relatif, par exemple) est
infrieure une certaine valeur. Si la puissance
est trop faible, on ne peut que se limiter au pauvre constat que l'instrument utilis pour tester
l'existence d'une association entre l'exposition et
la maladie n'tait pas de bonne qualit, de sorte
que la conclusion porte sur les insuffisances de
l'enqute en tant qu'outil plutt que sur le fond
du problme.
Dans le cas d'un rsultat significatif, il faut
s'assurer que le risque d'erreur a est correctement
contrl, c'est--dire qu'on ne s'est pas mis en situation de conclure l'existence d'une association avec un risque d'erreur suprieur aux
5 % requis. Cette question se pose dans la plupart
des enqutes pidmiologiques, car on est le plus
souvent conduit tester plusieurs associations
dans la mme enqute. Il faut alors considrer
que le risque a n'est rellement contrl que pour
la ou les questions d'intrt principal telles
qu'elles ont t dfinies a priori dans le protocole.
Pour les autres associations que l'on est amen

7.2 Jugement de causalit


La question de la causalit intervient lors d'un
rsultat significatif. Il s'agit de savoir si l'association mise en vidence entre une exposition et
une maladie correspond une relation de cause
effet. Cette question a fait l'objet de nombreux
dbars philosophiques, et nous n'avons pas l'intention de discuter de ces diffrents courants de
penses. Le lecteur intress la discussion de
ces aspects appliqus l'pidmiologie pourra se
rfrer l'excellent recueil de textes assembls
par Rothman (1988). Mentionnons, toutefois,
qu'avec les meilleurs critres d'interprtation, il
est toujours possible de conclure de faon
errone en regard des rsultats d'une ou de
plusieurs tudes, en rejetant par exemple une
association comme causale alors qu'elle l'est.
Tout en sachant qu'une conclusion causale
n'est pas accessible partir d'une seule enqute
d'observation, il faut examiner les lments qui
militent en faveur d'une telle conclusion et ceux
qui la contredisent. Les principaux critres de
causalit sont discuts brivement ci-dessous.

7.3 Critres de causalit


Plusieurs auteurs ont propos des critres pour
faciliter l'interprtation des rsultats d'une ou
de plusieurs tudes pidmiologiques. Les
critres les plus reconnus sont ceux de H i l l
(1965). Ces critres ne peuvent tre utiliss
qu'aprs avoir cart des biais importants
comme explication possible aux rsultats significatifs observs. Ces critres sont les suivants:
Force de l'association: La force de l'association
est mesure par le risque relatif (RR). Plus le
RR est lev, plus l'association est forte.
L'association est gnralement considre
comme faible si le RR est infrieur 1,5 et
forte, s'il est suprieur 3. titre d'exemple,
dans le cas de l'association tabac-cancer du
poumon, l'association est considre comme
particulirement forte avec un RR d'environ
10. Le risque relatif associ la fume secondaire (fume inspire par les non-fumeurs)

114

ENVIRONNEMENT ET SANT PUBLIQUE

est gnralement infrieur 1,5 et donc considr comme faible. Plus l'association est
forte, moins il y a probabilit que le RR
observ puisse tre expliqu par de la confusion rsiduelle et donc plus l'association est
probablement causale. Ceci dit, il faut se rappeler que, si l'association est vritablement
causale, un faible RR ne peut tre nglig. Il
peut en fait tre responsable d'une proportion
de cas importante dans la population (si l'exposition est frquente ou l'incidence de la
maladie chez les non-exposs importante).

Constance: Plus l'association est observe


frquemment dans plusieurs tudes, effectues dans divers pays et si possible avec des
outils diffrents, plus l'association paratra
crdible. Il y a en fait peu de chance que les
mmes erreurs puissent se reproduire de
faon similaire dans diffrents contextes et
avec diffrents outils de recherche.
Cependant, il faut aussi reconnatre qu' l ' i n verse la prsence de facteurs contributeurs
(facteurs intervenant dans le mcanisme
causal) chez certaines populations puisse
modifier la relation observe, et donc faire
varier le RR.

Spcificit: Une relation sera spcifique


lorsque la mme cause donnera toujours le
mme effet. En fait, comme dj mentionn
par H i l l , ce critre est un facteur intressant
lorsqu'il est prsent, mais son absence ne permet certainement pas de rejeter la causalit.
En effet, la plupart des expositions environnementales (agissant le plus souvent de faon
systmique) entraneront divers problmes
de sant. Les intoxications au plomb ou
l'arsenic en sont un bon exemple.

Temporalit: L'exposition doit toujours tre


prsente avant l'apparition de la maladie.
Nous ajoutons que l'exposition doit tre
prsente pendant la priode d'induction
potentielle de la maladie, soit la priode
prcdant la priode de latence. En d'autres
termes, comme on s'attend ce que le diagnostic d'un cancer soit prcd d'une priode
de latence de plusieurs annes (variant selon
le type de cancer), il sera improbable qu'une
exposition rcente, survenue dans les mois
prcdant le diagnostic, puisse tre responsable de l'apparition de ce cancer.
Cependant, l'exposition rcente peut tre un

indicateur des habitudes passes, et, si un


facteur agit au niveau de la progression d'un
cancer, il pourra agir dans les derniers mois
de son volution.
Dose-rponse (appel par H i l l gradient
biologique): Il s'agit du critre le plus important en toxicologie pour dterminer le caractre toxique d'une substance et permettre
l'tablissement de niveaux scuritaires d'exposition. Gnralement, l'effet doit augmenter progressivement avec la dose d'exposition, mais ce n'est pas toujours le cas. La
courbe en U dcrivant l'effet de la consommation d'alcool sur les maladies cardiovasculaires en est un bon exemple. Par
ailleurs, compte tenu des difficults rencontres dans les tudes rtrospectives pour
mesurer l'exposition antrieure, la courbe
dose-rponse observe en pidmiologie peur
tre trs faible ou inexistante cause d'erreurs dans le classement des sujets exposs.
Plausibilit biologique: Il s'agit d'un critre
toujours important pour juger de la nature
causale d'une association. Est-ce que des
explications biologiques plausibles peuvent
expliquer le rsultat observ? Malheureusement, ce concept est interprt diffremment selon les auteurs, ce qui prte
confusion (Weed et Hursting, 1998). En pratique, si la substance sous tude donne le
mme effet, ou un effet similaire, chez l'animal, on parlera de plausibilit biologique.
Lorsque seulement des tudes effectues sur
des cellules sont positives (tests in vitro ou in
vivo), les conclusions en regard de ce critre
seront plus difficiles.

Cohrence: La cohrence rfre la compatibilit de l'observation avec les connaissances


ou observations dj acquises sur le mme
sujet. Il s'agit donc d'une notion plus large
que celle de la plausibilit biologique. Il peut
s'agir par exemple de la cohrence des rsultats des tudes cologiques avec les tudes
tiologiques ou encore de la cohrence des
rsultats observs en milieu rsidentiel et en
milieu de travail.

Preuve exprimentale: Il s'agit de la preuve par


exprimentation chez l'humain. Il s'agit principalement de la preuve exprimentale de la
disparition de l'effet lorsque l'exposition disparat. En fait, la preuve exprimentale chez

PIDMIOLOGIE

l'humain est difficile tablir, mais elle est


parfois utilise lors d'exposition brve et d'effets aigus (allergie).
Analogie: Il s'agit de la notion gnrale que
les proprits toxiques d'une substance ou
d'un agent peuvent tre dduites partir des
connaissances de la toxicit d'autres agents
ou substances de la mme famille. Mme si
cette notion gnrale est a priori intressante,
elle s'avre en pratique parfois en dfaut
( H A P ou BPC, par exemple).
L'utilisation de ces critres a fait l'objet de
nombreux dbats; il ne s'agit certainement pas
d'une panace susceptible de solutionner tous
les cas difficiles d'interprtation des associations
pidmiologiques. Ils ne peuvent, en particulier,
pallier une qualit mdiocre des tudes effectues sur un sujet donn (s'appliquer uniquement des tudes cologiques, par exemple).
Par ailleurs, aucun de ces critres n'est essentiel,
sauf videmment le critre de temporalit, pour
dclarer une association causale. Cependant, les
critres de constance, de dose-rponse ainsi que
de plausibilit biologique sont souvent dterminants pour affirmer un lien causal.
Ces critres sont utiliss frquemment en
pidmiologie environnementale pour juger de
nature d'une association. Citons, titre d'exemple, l'valuation du lien entre la leucmie de
l'enfant et l'exposition aux champs lectromagntiques (Levallois, 1995) ou encore celui de
l'valuation de l'tiologie de la maladie des
combattants de la guerre du Golfe (Joellenbeck
et coll., 1998).

115

8. CONCLUSION

Ce chapitre a permis de rviser les principales


notions d'pidmiologie en s'attardant principalement aux aspects de recherche tiologiques.
Certains exemples tirs du domaine de la sant
environnementale ont t donns, mais comme le lecteur a pu s'en rendre compte - la
mthode pidmiologique n'est pas diffrente
en sant environnementale et dans les autres
domaines de la sant publique. Quelques
aspects sont cependant spcifiques et rendent
souvent difficile le travail des pidmiologistes
environnementaux. Il s'agit en particulier des
faibles niveaux d'exposition et de l'influence des
autres facteurs concomitants (Hmon, 1995).
Par ailleurs, la ncessit de plus en plus
ressentie de tenir compte des rsultats des tudes
pidmiologiques, mme imparfaites, dans l'valuation des risques environnementaux a
entran une rflexion visant amliorer l'interprtation de ces tudes. En particulier, des
recommandations pour l'utilisation de la mtaanalyse (analyse quantitative des rsultats de
plusieurs tudes) en pidmiologie environnementale ont t proposes (Blair et coll.,
1995). Des recommandations ont aussi t formules pour dterminer l'utilisation pouvant
tre faite des rsultats d'tudes pidmiologiques environnementales en fonction de leur
qualit (Hertz-Picciotto, 1995).

116

ENVIRONNEMENT ET SANT PUBLIQUE

Bibliographie
Armitage, P. et G. Berry. Statistical methods in medical
research, Blackwell Scientific Publications,
Oxford, 1971.
Armitage, P. et R. D o l l . Stochastic models for carcinogenesis, Proceedings of the 4 t h Berkeley
Symposium on Mathematical Statistics and
Probability: Biology and Problems of Health,
University of California Press, Berkeley, 1961,
p. 19-38.
A r n o l d , F. A. J. et H. T. Dean. Effect of fluorurated
water supplies on dental caries prevalence: 10th
year of the Grand Rapids-Muskegon Study,
Publ Health Rep, 7 1 , 1956, p. 652-658.
Bernard, P. M. et C. Lapointe. Mesures statistiques en
pidmiologie. Presses de l'Universit du Qubec,
1987.
Beyea, J. et M. Hatch. Geographic exposure model i n g : a valuable extension of Geographic
Information Systems for use in environmental
epidemiology Environ Health Perspect, 107,
1999, p. 181-190.
Blair A. et coll. Guidelines for application of metaanalysis in environmental epidemiology, Regul
Toxicol Pharm, 22, 1995, p. 189-197.
Bouvenot, G. et M. Vray. Essais cliniques. Thorie,
pratique et critique, Flammarion, MdecineSciences. Paris, 1999, p. 450.
Bouyer, J. Mthodes statistiques. Mdecine - Biologie,
E S T E M , les ditions 1 N S E R M , Paris, 1996.'
Bouyer, J., D. Hmon, S. Cordier, F. Derriennic, I.
Stcker, B. Stengel et J. Clavel. Epidmiologie Principes et mthodes quantitatives, I N S E R M ,
1993.
Breslow, N. E. et N. E. Day. Statistical methods in
cancer research, volume I, The design and
analysis of case c o n t r o l studies, O x f o r d
University Press, Lond, 1980.
Breslow, N. E. et N. E. Day, Statistical methods in
cancer research, volume I I , The design and analysis of cohort studies, Oxford University Press,
Londres, 1987.
Bruzzi, P., S. B. Green, D. P. Byar, L. A. Brinton, et C.
Schaire. Estimating the population attributable
risk for multiple risk factors using case-control
data, Am J Epidemiol, 122, 1985, p. 904-914.
Case, R. A. M . , M. E. Hosker, D. B. McDonald et J.
T Pearson. Tumours of the urinary bladder in

workmen engaged in the manufacture and use of


certain dyestuff intermediates in the british
chemical industry, Part 1, The role of aniline,
benzidine, alpha-naphtylamine and beta-naphtylamine, Br J Ind Med, 11, 1954, p. 75-104.
Clayton, D. et M. Hills. Statistical models in epidemiology, O x f o r d Science Publications, O x f o r d
University Press, 1993.
Coste, J. et A. Spira. La proportion de cas attribuable
en Sant Publique: dfinition(s), estimation(s) et
interprtation [The proportion of attributable
cases in Public Health: definition, estimation and
interpretation]. Rev Epidm Sant Publ, 39, 1991,
p. 399-411.
De Wals, P. et T. Niyonsenga. Investigation d'agrgats
d'anomalies de la reproduction: thorie et pratique, Arch Publ Health, 1996, 54, p. 43-58.
Desplanques, G . , A. M i z r a h i et A. M i z r a h i .
Mortalit et morbidit par catgories sociales,
Solidarit Sant, 4, 1996, p. 75-85.
D o l l , R. et A. B. H i l l . The mortality of doctors in
relation to their smoking habits: A preliminary
report, Br Med J, 2, 1954, p. 1451-1455.
D o l l , R. et A . B. H i l l . Lung cancer and other causes
of death in relation to smoking: A second report
on the mortality of British doctors, Br Med J, 2,
1956, p. 1071-1081.
English, P., R. Neutra, R. Scalf, M. Sullivan, L.
Waller et L. Z h u . Examining associations
between childhood asthma and traffic flow
using a geographic i n f o r m a t i o n system,
Environ Health Perspect, 107, 1999, p. 761-767.
Estve, J., E. Benhamou et L. Raymond. Statistical
Methods in Cancer Research, v o l . IV Descriptive Epidemiology, International Agency
for Research on Cancer (1994), Lyon, France
(version franaise: Mthodes statistiques en
epidemiologic descriptive, I N S E R M , 1993).
Feinleib, M. The Framingham study: sample select i o n , follow-up, and methods of analyses, Natl
Cancer Inst Monogr, 67, 1985, p. 59-63.
Goldberg, P., D. Luce, M. A. Billon-Galland, P.
Quenel, C. Salomon-Nekiriai, J. Nicolau, P.
Brochard et M. Goldberg. Rle potentiel de l'exposition environnementale et domestique la trmolite dans le cancer de la plvre en NouvelleCaldonie, Rev Epidm Saut Publ, 43, 1995, p.
444-450.

PIDMIOLOGIE

H m o n , D. Recherche pidmiologique sur l'environnement et la sant: quelques aspects


mthodologiques, Rev Epidm Sant Publ, 43,
1995, p. 395-411.
Hertz-Picciotto, 1. Epidemiology and quantitative
risk assessment: a bridge from science to policy,
Am J Publ Health, 85, 1995. p. 484-491.
Hill,

A. B. The environment and disease.


Association or causation?, Proceedings of the
Royal Society of Medicine, 58, 1965, p. 295-300.

H i l l , C, C. Com-Nougu, A. Kramar, T. Moreau, J.


O'Quigley, R. Senoussi et C. Chastang. Analyse
statistique des donnes de survie, I N S E R M
Flammarion, 1990.
Joellenbeck, L. M . , P. J. Landrigan et E. L. Larson
Gulf War veterans'illnesses: a case study in
causal inference, Env Res, 79, 1998, p. 7 1 - 8 1 .
Kallen, B. Epidemiology of human reproduction, C R C
Press, Boca Raton, Floride, 1988.
Kleinbaum, D. G., L. L. Kupper et H. Morgenstern.
Epidemiologic Research. Principles and quantitative methods, Lifetime Learning Publications,
1982.
Krewski, D . , E. Cardis, L. Zeise et V. J. Feron.
Empirical approaches to risk estimation and
prediction, dans S. Moolgavkar, D. Krewski, L.
Zeise, E. Cardis et H. M o l l e r (rdacteurs)
Quantitative estimation and prediction of
human
cancer
risks,
/ARC
Scientific
Publications, Lyon, 131, 1999, p. 131-178.
Lanphear, B. et coll. Primary prevention of childhood lead exposure: a randomized trial of dust
control. Pediatrics, 103, 1999, p. 771-777.
Laplanche, A., G Com-Nougu et R. Flamant.
Mthodes statistiques appliques la recherche
clinique, Flammarion, Paris, 1986.
Last, J. A dictionary of epidemiology, Oxford Medical
Publications, Oxford, 1983.
Levallois, P. Do Power Frequency Magnetic Fields
Cause Leukemia in Children?", Am J Prev Med,
11, 1995, p. 263-270.
Luce, D . , I. Bugel, P. Goldberg, M. Goldberg, C.
Salomon, M. A. Billon-Galland, J. Nicolau, P.
Qunel, J. Fevotte et P Brochard. Environmental exposure to tremolite and respiratory
cancer in New Caledonia: a case-control study,
Am J Epidemiol, 151, 3, 2000.
Morgenstern, H. Ecologic studies, dans Rothman et
Greenland Modern Epidemiology, Little, Brown
and Company, Boston 1998, p. 459-480.

117

Neutra, R. R. Computer Geographic Analysis: a


commentary on its use and misuse in public
health, dans A. Lawson, A. Biggeri, D.
Bohning, E. Lesaffre, J. F. Viel et R. Bertollini
(rdacteurs) Disease mapping and risk assessment
for public health, Wiley, Chichester, 1999, p.
311-319.
O'Connor, M . E . e t D . Rich Children w i t h moderately elevated lead levels: is chelation w i t h
D M S A helpful?, Clin Pediatr, 38, 1999, p.
325-331.
O m e n n , G. S. et coll. Effects of a combination of
beta carotene and vitamine A on lung cancer
and cardiovascular disease, New Engl J Med,
334, 1996, p. 1150-1155.
Rothenberg, R. B. et S. B. Thacker. Guidelines for
the investigation of clusters of adverse health
effects, dans P. Elliot, J. Cuzick, D. English et
R. Stern (rdacteurs), Geographical and environmental epidemiology: methods for small-area studies, Oxford University Press, Oxford, 1992, p.
264-277.
R o t h m a n , K. J. Causal inference,
Ressources, Chesnut H i l l , 1988.

Epidemiology

R o t h m a n , K. J. et S. Greenland. Modern
Epidemiology, L i t t l e , B r o w n and Company,
Boston, 1998.
Savitz, D. A. In defense of black box epidemiology,
Epidemiology, 5, 1994, p. 550-552.
Scherrer, B. Biostatistique, Gatan M o r i n diteur,
Boucherville, 1984.
Selmaoui, B., J. Lambrozo et Y. Touitou. Magnetic
fields and pineal function in humans: evaluation
ot nocturnal acute exposure to extremely low
frequency magnetic fields on serum melatonin
and urinary 6-sulfatoxy melatonin circadian
rhythm, Life Sci, 58, 1996, p. 1539-1549.
Skrabanek, P. The emptiness of the black box,
Epidemiology, 5, 1994, p. 553-555.
Stolley, P. D. et T. Lasky. Investigating Disease
Patterns, the Science of Epidemiology, Scientific
American Library, New York, 1995.
Susser, M. The logic in ecological: 1. The logic of
analysis. Am J Publ Health, 84, 1994a, p. 825829.
Susser, M. The logic in ecological: I I . The logic of
design. Am J Publ Health, 84, 1994b, p. 830835.

118

ENVIRONNEMENT ET SANT PUBLIQUE

Thacker, S. B. et D. F. Stroup. Public health surveillance, dans R. C. Browson et D. B. Petirti


(rdacteurs) Applied Epidemiology, Theory to
Practice, Oxford University Press, 1998, p. 105135.
Thriault, G., C. Tremblay, S. Cordier et S. Gingras.
Bladder cancer in the aluminium industry,
Lancet, 8383, 1, 1984, p. 947-950.
Walter, S. D. The ecologic method in the study of
environmental health. I . Overview o f the
method. Environ Health Perspect, 94, 1991a, p.
61-65.

Walter, S. D. The ecological method in the study of


environmental health. I I . Methodologic issues
and feasibility, Environ Health Perspect, 94,
1991b, p. 67-73.
Weed, D. L. et S. D. Hursting Biologic plausibility
in causal inference: current method and practice, Am J Epidem, 147, 1998, p. 415-425.
Wigle, D. T Bladder cancer: possible new high-risk
occupation, Lancet, 2, 8028, 1977, p. 83-84.