Académique Documents
Professionnel Documents
Culture Documents
STATISTIQUE DE BASE
(EPISTAT 1)
Département d’Epidémiologie et de
Contrôle des maladies
Ce syllabus a été développé par l’unité d’épidémiologie et
de contrôle des maladies à l’IMT : Marleen Boelaert, Greet
Dieltiens, Marie-Laurence Lambert, Francine Matthys, Bart Ostyn,
Jo Robays, Patrick Van der Stuyft and Veerle Vanlerberghe.
CHAPITRE 5 : INFÉRENCE--------------------------------------------------------------------------------------------------- 97
I. Introduction: le concept d'inférence----------------------------------------------------------------------------- 98
II. La distribution normale ---------------------------------------------------------------------------------------------- 99
A. Une courbe très utile en biologie : la distribution normale ------------------------------------------------ 99
B. La distribution normale standardisée ------------------------------------------------------------------------- 100
C. Une courbe très utile en statistique --------------------------------------------------------------------------- 102
1. La distribution d’échantillonnage--------------------------------------------------------------------------------- 102
2. Transformation des résultats d'échantillons en écart réduit---------------------------------------------- 103
3. Probabilité et écart réduit------------------------------------------------------------------------------------------- 105
III. La logique des tests d'inférence -------------------------------------------------------------------------------- 106
A. Comment formuler une hypothèse? ---------------------------------------------------------------------------- 106
B. Comment déterminer le seuil de décision? ------------------------------------------------------------------- 108
C. Comment choisir le test approprié? ----------------------------------------------------------------------------- 109
D. Comment calculer la valeur d'un test? ------------------------------------------------------------------------- 109
E. A propos des probabilités liées aux valeurs du test -------------------------------------------------------- 110
F. Comment interpréter le test?-------------------------------------------------------------------------------------- 110
IV. La logique des intervalles de confiance---------------------------------------------------------------------- 112
V. Les outils ---------------------------------------------------------------------------------------------------------------- 113
A. Inférence pour un simple échantillon ------------------------------------------------------------------------- 113
1. Une moyenne----------------------------------------------------------------------------------------------------------- 113
2. Une médiane------------------------------------------------------------------------------------------------------------ 114
3. Une proportion---------------------------------------------------------------------------------------------------------- 115
4. Un taux ------------------------------------------------------------------------------------------------------------------- 115
B. Inférence lorsqu'on compare deux échantillons ----------------------------------------------------------- 116
1. Comparaison de deux moyennes -------------------------------------------------------------------------------- 116
2. Comparaison de deux médianes --------------------------------------------------------------------------------- 116
3. Comparaison de deux proportions ------------------------------------------------------------------------------- 117
4. Comparaison de deux taux ----------------------------------------------------------------------------------------- 119
5. I.C. autour d'une différence de risque --------------------------------------------------------------------------- 120
6. I.C. autour d'une différence de taux ------------------------------------------------------------------------------ 120
7. I.C. autour d'un rapport de risques ou d'un rapport des taux (RR)-------------------------------------- 121
OBJECTIFS DU CHAPITRE 1
La distribution de la maladie considère des questions telles que : qui est malade dans la
population, où et quand la maladie est-elle apparue (TLP: Temps, Lieu, Personnes). La
connaissance d'une telle distribution est essentielle pour décrire la maladie ainsi que pour
formuler des hypothèses concernant de possibles facteurs causaux et / ou de prévention.
Il est tout d'abord nécessaire de mesurer la fréquence d’une maladie (ou d'autres variables
d’intérêt). De telles mesures sont les outils de base pour formuler et tester des hypothèses.
Elles permettent la comparaison de la fréquence d’une maladie dans différentes populations,
ou chez différents individus présentant une caractéristique particulière au sein de la
population. Les diverses informations produites auront des usages multiples. Certaines
pourront servir à des gestionnaires de santé, d'autres à la recherche en épidémiologie.
La plus simple des mesures de fréquence de la maladie est le comptage des individus
atteints. Une telle information est essentielle pour les planificateurs de santé et les
gestionnaires qui souhaitent déterminer l'allocation des ressources sanitaires dans une
communauté particulière.
Au vu du simple nombre des cas, on pourrait penser à tort que l'hépatite est plus fréquente
dans la ville A que dans la B. Afin de comparer la fréquence dans les deux villes, il faut tenir
compte de la taille de leurs populations respectives et de la durée de chaque période
d'enregistrement. Dans cet exemple, le taux annuel d'apparition de l'hépatite est de 58 pour
25.000 dans la ville A et de 17,5 pour 7.000 dans la ville B (35 pour 7.000 en deux ans). En
général, on utilise la même unité de population au dénominateur pour faciliter la
comparaison directe des taux. On l'exprime d'habitude sous la forme d'un multiple de 10
(100, 1000, 10.000, 100.000, ou 1 million).
Il apparaît donc ainsi clairement que la fréquence d'apparition de l'hépatite C est légèrement
plus élevée dans la ville B. L'utilisation d’'unités semblables (population, temps) facilite les
comparaisons directes des fréquences de maladies entre des populations différentes.
Le ratio est obtenu par la simple division d'une quantité par une autre sans qu'il y ait de
relation particulière entre le numérateur et le dénominateur. Il n'est pas nécessaire que le
numérateur soit inclue dans le dénominateur. Ils peuvent tous les deux avoir des unités
différentes.
x
ratio =
y
a
proportion =
a+b
Exemples de proportions
- Nombre de femmes de plus de 50 ans qui ont subi une hystérectomie / toutes les
femmes de plus de 50 ans
- Les enfants de 12 à 23 mois immunisés contre la polio / l'ensemble des enfants
de 12 à 23 mois
- Nombre de femmes enceintes séropositives venues en consultation prénatale /
toutes les femmes enceintes suivies en CPN
Un taux au sens strict est un paramètre pour lequel existe une relation entre le numérateur
et le dénominateur (événement / unités à risque pour cet événement). Plus spécialement le
dénominateur comprend une notion de temps.
Exemples de taux
Malheureusement, le terme "taux" est souvent utilisé pour désigner bon nombre de mesures
démographiques et épidémiologiques qui peuvent être tout aussi bien des vrais taux que des
ratios ou des proportions. Considérons par exemple le cas du taux de mortalité infantile.
nombre de décès apparus en une année chez les enfants de moins d'un an
nombre de naissances vivantes pendant cette même année
Ceci n'est, strictement parlant, pas un taux mais un ratio. Puisque ces termes sont souvent
utilisés l'un pour l'autre, il est important d'être bien conscient de la façon dont chaque mesure
est en fait définie et calculée.
Lorsque l'on établit des mesures de fréquences de maladie, il faut être très précis dans la
définition du numérateur et du dénominateur. On doit, par exemple, clairement spécifier si
l'on parle d'un nombre d'événements ou d'individus.
Lors du calcul de la fréquence des effets secondaires d'un médicament, on peut choisir
comme dénominateur:
- le nombre total des traitements
- ou le nombre total des individus recevant le traitement.
Dans une étude sur le trachome, l'unité d'analyse pourrait aussi bien être l'œil que le
patient.
B. Prévalence et incidence
Les mesures de fréquence de la maladie les plus utilisées en épidémiologie peuvent être
classées en deux grandes catégories: la prévalence et l'incidence.
La prévalence mesure la proportion des individus d'une population, qui ont la maladie à un
instant précis.
Exemples
En 1994, tous les 434 habitants de Fasila Bime (Soudan), furent l'objet d'un dépistage de
la maladie du sommeil. On détecta 27 cas positifs. La prévalence de la maladie du
sommeil était donc de 27/434 = 6,2%.
Les termes "taux de prévalence" et "prévalence" sont souvent utilisés l'un pour l'autre
quoique ce dernier soit, strictement parlant, une proportion et non un taux. La prévalence
peut être considérée comme l'état de la maladie dans une population à un moment donné.
Celui-ci fait référence soit à un moment précis du calendrier, soit à un point précis dans le
cours des évènements, qui peut varier d'une personne à l'autre. On peut prendre par
exemple la survenue de la ménopause ou de la puberté ou encore la prévalence d'une
infection de la plaie opératoire trois jours après l'intervention.
L’incidence est définie par le nombre de nouveaux événements ou cas de maladie qui se
développent dans une population d’individus à risque pendant un intervalle de temps
déterminé. La prévalence mesure un état tandis que l’incidence mesure le changement d'un
état (en bonne santé) vers un autre état (malade). Il existe deux sortes de mesures
d’incidence : l’incidence cumulative et le taux d’incidence ou densité.
Exemples
Dans une étude associant contraception orale et bactériurie, 482 utilisatrices âgées de
16 à 49 ans sans bactériurie furent identifiées. Pendant les trois années suivantes, 27
d’entre elles développèrent une bactériurie. L’incidence cumulative de la bactériurie
parmi les utilisatrices de contraception orale fut donc de 27 sur 482, soit 5,6 % pendant
cette période de trois ans.
La période de temps considérée doit être clairement précisée lors du calcul de l’IC. Une
incidence cumulative de bactériurie de 5,7% est différente si elle concerne une période de 6
mois ou une période de dix ans.
Déterminer une incidence cumulative suppose que toute la population à risque au début de
l’étude a été suivie pendant toute la durée de l'étude. Fréquemment cependant, la durée du
suivi n'est pas uniforme pour tous, certains sujets peuvent être perdus dans le décours de
l'étude.
Le taux d’incidence (TI), (appelé aussi densité d'incidence), est une estimation plus précise
de l'occurrence de maladie dans la population.
nombre de nouveaux cas d’une maladie pendant une période de temps donnée
TI =
Total des personnes à risque observées x temps d’observation
Ici aussi, comme dans toutes les mesures d’incidence, le numérateur est le nombre de
nouveaux cas (ou événements) dans la population durant une période donnée. Le
dénominateur, cependant, devient la somme des temps d'observation pour chaque individu à
risque ou encore la somme du temps que chaque personne demeure sous observation et
libre de la maladie considérée. Il est essentiel de préciser l’unité de temps la plus pertinente.
Le dénominateur pourra par exemple avoir un format de personnes-jours, personnes-mois,
personnes-années, etc.
A 0 5
B 0 1 (mort d’un accident de circulation après 1 an)
C 1 3 (rougeole à 3 ans)
D 1 2 (mort de la rougeole à l’âge de 2 ans)
E 0 4 (mort de diarrhée à l’âge de 4 ans)
Total 2 15
A 5
B 1
Child
C 3 -> MEASLES
D 2-> MEASLES
E 4
0 1 2 3 4 5 6
Years
Exemple
Dans une étude de cohorte étudiant l'association entre l’utilisation d’hormones de
substitution après la ménopause et le risque de maladie coronarienne, 90 cas furent
diagnostiqués parmi 32.317 femmes ménopausées lors d’un suivi de 105.786 personnes-
années. Le taux d’incidence de la maladie coronarienne parmi les participantes à cette
étude est de 90/105.786,2 soit: 85/100.000 personnes-années.
IC = 1 – e -TIxΔt
Cette formule suppose que le taux d’incidence est stable pendant tout le temps de l’étude. Si
l’IC de la maladie est bas (inférieure à 0,1), ou que le temps d’observation est court, la
formule peut être simplifiée par l’approximation suivante :
IC = TI x Δt
La définition précise du dénominateur est essentielle tant pour l'exactitude que la clarté. Le
dénominateur d’une mesure d’incidence doit, en théorie, contenir seulement ceux qui sont
considérés "à risque" de développer la maladie étudiée. En conséquence, ceux qui font la
maladie en étude ou l'ont déjà faite auparavant devraient en principe être exclus du
dénominateur. Il en est de même des personnes qui ne peuvent développer la maladie pour
des raisons telles que l’âge, le sexe, une immunisation, etc. La population à risque du cancer
du col ne comprend évidemment pas les hommes. La rougeole ou la perte des deux jambes
ne peut arriver qu’une seule fois !
On peut considérer que toutes les mesures épidémiologiques sont des types particuliers
d’incidence ou de prévalence.
Exemples
Le taux d’incidence du diabète de l’adulte est bas dans les pays occidentaux, mais la
prévalence est proportionnellement élevée parce que le diabète n’est ni curable ni très
mortel.
Pour la fièvre hémorragique d’Ebola, la mortalité varie entre 50 et 90% et la durée entre
le début des symptômes et le décès est d’habitude entre 7 et 14 jours. Dans ce cas, la
prévalence sera basse par rapport à l’incidence.
Donc, si l'on constate une variation de la prévalence dans le temps, cela peut être dû à une
variation de l’incidence ou un changement dans la durée de la maladie, ou les deux.
L’introduction d’une nouvelle thérapeutique qui prévient la mort, mais ne guérit pas, aura
pour effet d’augmenter la prévalence de la maladie. De même, une diminution de la
prévalence peut résulter d’une diminution de la durée de la maladie grâce à une guérison
plus rapide.
Dans une situation stable où le taux d’incidence (TI), et la durée moyenne de la maladie (D)
sont constants dans le temps; et pour autant que la prévalence (P) de la maladie dans la
population soit basse (moins de 10%), alors incidence et prévalence sont liés comme suit:
P = TI x D
Les études concernant les déterminants de la maladie peuvent rarement se baser sur des
données de prévalence. Par exemple lorsqu’une association est trouvée entre une maladie
et un facteur de risque supposé, il est impossible de savoir lequel vient en premier et la
direction de la causalité. Une étude de prévalence a montré que des patients souffrant de
maladie coronarienne pratiquaient moins d'exercice physique régulier que ceux sans cette
affection. Peut-on conclure que l'exercice protège contre la maladie coronarienne ? Ou bien
encore que les gens qui en sont atteints simplement ne se sentent pas capables de tels
exercices ?
L'étude de la santé d’une population commence en général par les informations disponibles
en routine.
1. Mortalité
Dans beaucoup de pays l’enregistrement des décès et de leurs causes se fait sur un
certificat de décès qui contient aussi des informations sur l’âge, le sexe, la date de naissance
et le domicile. Avec ces données, on peut déjà calculer des taux de mortalité bruts et
ajustés.
Le taux de mortalité infantile est couramment utilisé comme indicateur du niveau de santé
des populations. On se base sur la l’hypothèse qu’il est particulièrement sensible aux
changements socio-économiques et aux actions sanitaires. Ce taux varie énormément. En
1985, il était de 7,8/1000 naissances vivantes en France mais de 152/1000 naissances
vivantes en Éthiopie (OMS, 1990). Les taux élevés doivent alerter les professionnels de la
santé sur la nécessité de mesures à grande échelle.
Taux de mortalité infantile = Le nombre de morts dans l’année d’enfants de < 1 an x 1000
Nombre de naissances vivantes dans la même année
Le taux de mortalité maternelle (ce n’est pas vraiment un taux mais plutôt un ratio), est un
important indicateur souvent négligé jusqu’il y a peu parce qu’il est difficile à calculer
précisément. Il varie considérablement d’une valeur d’environ 10 pour 100.000 naissances
vivantes en Europe à plus de 1000 pour 100,000 naissances vivantes en Afrique.
Selon l’OMS : « le décès d'une femme survenu au cours de la grossesse ou dans un délai de
42 jours après sa terminaison, quelle qu'en soit la durée ou la localisation, pour une cause
quelconque déterminée ou aggravée par la grossesse ou les soins qu'elle a motivé, mais ni
accidentelle ni fortuite. »
2. L’espérance de vie
L’espérance de vie est une autre mesure globale de l’état de santé de la population
fréquemment utilisée. Elle est définie comme le nombre moyen d’années qu’un individu d’un
certain âge peut espérer vivre en considérant que les taux de mortalité actuels restent
constants. Il n’est pas toujours facile d’interpréter les raisons des différences d'espérance de
vie d'un pays à un autre, car cela dépend de la mesure. En tant que mesure globale de l’état
de santé d'une population, attache une plus grande importance aux décès survenus dans
l’enfance, qu’à ceux chez les personnes plus âgées (donc difficile de comparer l’espérance
de vie à la naissance, et l’espérance de vie à 20 ans).
3. Morbidité
Dans beaucoup de pays, certaines données de morbidité sont collectées pour satisfaire des
exigences légales, par exemple les maladies à déclaration obligatoire. Cette déclaration
dépend du fait que les malades consultent effectivement pour leur problème, de la qualité
des diagnostics, et de la transmission effective de l'information aux autorités de santé
publique. Bien souvent de nombreux cas ne sont jamais enregistrés.
D’autres sources d’information sur la morbidité sont les données d'admissions et de sorties
hospitalières, de consultations de 1er, de 2nd niveaux, de services spécialisés (les traitements
d’accidents par exemple) ainsi que les registres des maladies spécifiques telles que les
cancers ou les malformations congénitales. Les taux d’admission à l’hôpital sont influencés
par d'autres facteurs que la morbidité de la population (comme la disponibilité des lits, les
politiques d’admission, les facteurs sociaux, etc.). Dans certains cas, Il n'est pas possible de
séparer les admissions des réadmissions ni de déterminer la population couverte par un
hôpital (le dénominateur).
A. Caractéristiques de la personne
La survenue des maladies et des décès est fortement associée à l’âge et dans beaucoup de
cas au sexe. Toute description élémentaire de la maladie doit au minimum inclure une
répartition par âge et par sexe. Il existe un ensemble d’autres caractéristiques utiles à étudier
tels que les facteurs sociodémographiques comme les groupes ethniques, religieux, socio-
économiques (revenus, éducation, profession, …), le statut familial, etc.
B. Caractéristiques de lieu
Quand on parle de lieu, on sous-entend une notion géographique mais il peut aussi être
défini par les conditions environnementales et ses habitants. Les caractéristiques du lieu
peuvent inclure des facteurs climatiques (saisons sèches ou pluvieuses), l’urbanisation, la
densité de population, l’organisation du secteur de la santé, les richesses, etc. La notion de
lieu est particulièrement importante en surveillance épidémiologique. Le relevé
cartographique peut être une technique très utile pour étudier les liens entre une maladie et
sa répartition géographique.
C. Caractéristiques de temps
Périodicité :
Il faut toujours chercher une possible périodicité des phénomènes morbides : variations
saisonnières de la malaria, les cycles d’apparition de la méningite, etc. Ces variations
périodiques peuvent prendre des mois, un an ou même plusieurs années. La période
d’observation doit dépasser le temps d’un cycle avant de pouvoir tirer des conclusions sur un
éventuel changement du modèle épidémiologie d’une maladie (par exemple les variations
épidémiques de la rougeole endémique).
Variabilité :
Les termes endémique et épidémique font référence à la variabilité de la fréquence d’un
phénomène de santé dans le temps (surtout utilisé pour les maladies infectieuses).
En situations endémiques, l’incidence demeure plus ou moins stable dans le temps et dans
des limites connues. Une épidémie est définie comme une augmentation significative par
rapport au niveau endémique considéré comme le niveau "normal" de l'incidence dans la
population (augmentation des cas attendus, étant données les variations saisonnières ou
autres considérées comme "normales").
En 1962, le taux brut de mortalité en Suède était plus élevé qu’au Panama (9,8 versus 7,7
par 1000 personnes-années, Tableau 1), malgré le fait que le niveau de vie en Suède est
considéré plus élevé qu’au Panama. Pourtant, les taux de mortalité par âge étaient plus
hauts au Panama qu’en Suède dans toutes les strates d’âge (Tableau 1). Comment expliquer
ces ‘contradictions’ ?
Cette ‘contradiction’ est due aux faits que, primo, les taux de mortalité augmentent avec l’âge
(Tableau 1), et que, secundo, la structure d’âge n’est pas la même dans les deux
populations : la population de Panama est plus jeune que celle de la Suède (tableau 2).
Ainsi, en calculant les taux bruts de mortalité, la strate jeune de la population avec son taux
de mortalité relativement bas a une influence plus grande au Panama qu’en Suède.
Le taux brut de mortalité est réel et reflète la mortalité dans une population spécifique.
Cependant, pour la comparaison de la mortalité de plusieurs populations, les taux bruts ne
peuvent pas être utilisés, si ces populations diffèrent quant à l’âge, et si les taux spécifiques
par âge varient avec l’âge. Dans ce contexte on dit que l'âge est un ‘facteur de confusion’.
Ce qu’on cherche c’est une mesure sommaire de mortalité qui prend en compte les
différences dans la structure d’âge. Ceci peut se faire par standardisation. La standardisation
est une réponse à la question : comment la mortalité serait-elle si la population de l’étude
avait la même structure d’âge comme la population-type ?
NB :
3. Il n’importe pas si c’est l’âge ou une autre variable qui joue le rôle d’un facteur de
confusion.
Principe et calcul
On choisit une population-type. On multiplie les taux spécifiques par âge de la population
d’étude (txi) avec les effectifs des groupes d’âge de la population-type (nti) et obtient ainsi les
nombres de cas attendus dans la population d’étude si la structure d’âge de la population
étudiée était comme dans la population-type. La somme de cas attendus divisée par le
nombre total de la population-type (Nt) donne le taux standardisé de mortalité (TSD). Si on
applique cette méthode à deux populations d’étude, un rapport des taux standardisés de
mortalité peut être calculé, aussi appelé ‘rapport comparatif de mortalité’ (RCM) ou ‘indice
comparatif de mortalité’ (ICM). Le terme ‘comparatif’ indique que le paramètre a été calculé
par standardisation directe.
∑t xi × nti
TSD = i =1
avec g = nombre de groupes d’âge
Nt
Exemple
Population Population
type Suède type Panama
Population Taux de Décès Population Taux de Décès
mortalité attendus mortalité attendus
0 – 29 ans 56.000 x 1,1 = 63 56.000 x 5,3 = 295
30 – 59 ans 33.000 x 3,6 = 118 33.000 x 5,2 = 171
> 59 ans 11.000 x 45,6 = 501 11.000 x 50,1 = 551
TOTAL 100.000 682 100.000 1.017
10,2 / 6,8 =
Rapport des taux standardisés
de mortalité 1,5
Les taux standardisés ne sont pas de taux réels, mais fictifs qu’on ne calcule qu’avec un seul
objectif : la comparaison d’une population avec une autre population.
Donc, dans la standardisation directe, les taux de mortalité par âge proviennent de la
population d’étude, et sont ensuite appliqués à la structure d’âge de la population standard.
Structure d’âge
Population-type
Choix de la population-type
Comme les taux standardisés sont des taux pondérés, avec les poids dérivés de la
population-type, chaque population-type produira des taux standardisés différents, et
souvent un rapport des taux standardisés différent. La différence entre les résultats des
différents standards est particulièrement prononcée si la distribution d’âge des deux
populations d’étude se croise.
Population Population
type Suède type Panama
12,3 / 9,1 =
Rapport des taux standardisés de mortalité
1,4
L’utilisation d’une population standard ‘idéale’, mise en disposition par l’OMS etc., est
recommandée pour rendre les comparaisons comparables. Il y a plusieurs standards idéals,
p.e. la population standard européenne, la population standard mondiale etc.
Principe et calcul
On choisit une population-type. On multiplie les taux spécifiques par âge de la population-
type (tsi) avec les effectifs des groupes d’âge de la population d’étude (nxi) et obtient ainsi les
nombres de cas attendus dans la population d’étude si les taux spécifiques par âge dans la
population d’étude étaient comme dans la population-type. La somme des cas observés
dans la population d’étude Cx divisée par la somme des cas attendus dans la population
d’étude donne le rapport standardisé des mortalités (RSM).
Cx
RSM = g
∑t
i =1
si × n xi
, avec g = nombre de groupes d’âge
Population A Population B
VOIRE TABLE 1
Panama : Panama :
Population
structure
d’âge de la
type = ↓ structure
d’âge de la
Panama ↓
Suede
population population
Décès Taux de Déces
Taux de
Population attendus Population mortalité attendus
mortalité
(par 1000
(par 1000 pa)
pa)
0 – 29 ans 741000 x 1,1 = 830 741000 x 5,3 = 3904
30 – 59ans 275000 x 3,6 = 983 275000 x 5,2 = 1421
> 59 ans 59000 x 45,6 = 2689 59000 x 50,1 = 2956
Choix de la population-type
Les rapports standardisés de mortalité (RSM) sont surtout utilisés pour la comparaison d’une
population d’étude avec une population-type. Comme pour la standardisation directe, en
principe n’importe quelle population peut servir comme population-type, mais chaque
population-type résultera dans un autre RSM. Pour de raisons subtiles, il est déconseillé de
comparer les RSM l’un avec l’autre1. Pour qu’on puisse quand même comparer deux
populations d’étude, on choisit souvent l’une parmi elles comme population-type (p.e. la
population des non exposés).
On doit admettre qu’en pratique les RSM sont souvent comparés entre eux sans qu’une
inconsistance majeure soit introduite par cette pratique. On devrait s’attendre à une
inconsistance majeure surtout si les taux spécifiques (p.e. par âge) ou les effectifs par strate
sont très différents d’une population à l’autre (voir annexe).
1
Les RSM ne devraient pas à être comparés l’un avec l’autre pour la raison suivante : même s’ils sont
basés sur les taux de la même population-type, le nombre de décès attendus dans une certaine
population dépend de la structure d’âge de cette population d’étude. Ainsi, chaque RSM est
standardisé à une population spécifique avec une distribution d’âge spécifique ; ils ne sont pas
standardisés dans un sens universel. L’avantage de la méthode directe est son résultat universel.
Ceci sera illustré par un exemple : Si population A montre un rapport comparatif de mortalité (RCM)
de 3 comparé avec la population-type T, et le RCM de la population B s’élève à 2 comparé avec la
population T, le RCM de la population A comparée avec la population B sera 3/2 = 1,5. Cette
consistance peut manquer aux RSM de la méthode indirecte. Dans l’annexe, il y a un exemple pour
cette problématique.
Les différences principales entre les deux types de standardisation concernent l’origine des
paramètres qui entrent dans les calculs - les taux spécifiques et la taille des strates -, et la
validité des comparaisons entre différentes populations d’étude (tableau 6).
Comme règle générale, la standardisation directe est à préférer s’il est possible de l’utiliser,
vu ses avantages en ce qui concerne la consistance de ses résultats (voir note en bas de la
page précédente).
Cependant il est évident que dans l’absence des taux de mortalité par strate dans une
population d’étude - ce qui est souvent le cas -, la standardisation indirecte est la seule
méthode disponible.
Si les strates d’âge dans une population d’étude sont petites (disons, moins de 30
observations per strate), il est préférable d’utiliser la standardisation indirecte, car les taux de
mortalités par âge de la population d’étude sont instables et ont donc un grand potentiel de
fausser les résultats de la standardisation. Cela sera illustré par l’exemple suivant : manquer
un décès réduit le taux de mortalité de 60% à 40% dans une petite strate avec
5 observations, mais de 60% à 58% seulement dans la strate avec 50 observations (tableau
7).
Tableau 7 : Effet d’une évaluation incomplète dans une petite strate vs une grande
strate
30 20
Taux
15
20
10
10 5
0 0
0 - 29 30 - 59 > 59 15 – 19 20 – 24 25 – 34 35 – 44 45 – 54 55 – 64
Groupe d'âge Groupe d'âge
Des taux et rapports standardisés sont des mesures sommaires, qui sont par définition
moins détaillées que les mesures spécifiques par strate. Cela est un désavantage s’il y a un
détail qui devrait plutôt être rapporté que d’être aplani. Dans le graphique 4, on remarque
une hétérogénéité : chez une des populations, il y a une augmentation extraordinaire de la
mortalité dans la catégorie d'âge 25-34. La standardisation ferait disparaître cette information
essentielle, elle est donc déconseillée.
Phénomène extraordinaire
30
25
20
Taux
15
10
5
0
15 – 19 20 – 24 25 – 34 35 – 44 45 – 54 55 – 64
Groupe d'âge
Croisement
20
15
Taux
10
0
15 – 19 20 – 24 25 – 34 35 – 44 45 – 54 55 – 64
Groupe d'âge
Conclusion :
1. Taux cru : Taux réel et sommaire, mais souvent non appropriée pour comparer plusieurs
populations du à l’effet de confusion
2. Taux spécifiques par strate : Taux réels et détaillés, en principes appropriés pour la
comparaison, mais difficiles à rapporter
3. Taux standardisé (méthode directe) : Taux fictif et sommaire, ajusté pour le facteur de
confusion et approprié pour comparaisons entre plusieurs populations d’études
5. En général, la méthode directe est à préférer si elle est faisable (exception : petites
strates)
8. En principe, la standardisation peut être utilisée pour d’autres facteurs de confusion que
l’âge
Cet exemple illustre la problématique de comparer des RSM (standardisation indirecte) si les
structures d’âges sont très différentes dans les populations d’étude.
Pour l’exposition A :
Pour l’exposition B :
Ces rapport standardisés de mortalité permettent la conclusion que la mortalité ajustée est
plus élevée dans les deux populations exposées que dans la population générale, mais ils
ne permettent pas la conclusion que la mortalité ajustée est plus élevée dans la population A
que dans la population B (elle est identique) : il n’est pas valable de comparer des
rapports standardisés!
4,3 / 1000
RCM A = RCM B = = 2,9
1,5 / 1000
Dans quelle mesure le résultat d’un examen, ou d’un test, reflète-t-il la réalité ?
Exemple:
Un médecin soupçonne une tuberculose pulmonaire chez un patient. Il demande une
recherche de bacilles alcoolo-acido résistants (BAAR) dans les crachats de son patient.
- La recherche de BAAR dans les crachats est-elle un bon moyen de mesurer la présence
ou l'absence de la maladie 'tuberculose pulmonaire'? Quelle est la validité de la méthode
de mesure? (La validité d'une mesure exprime la distance entre ce que l'on veut
mesurer, et ce que l'on mesure en réalité).
- Si le test est répété, donnera-t-il les mêmes résultats? Quelle est la reproductibilité de
la méthode?
La valeur diagnostique d'une méthode de mesure est toujours relative à une méthode de
référence à laquelle les autres méthodes sont comparées. Ce test, le 'standard d'or' (gold
standard) fourni l'information diagnostique la plus proche de la réalité, dans l'état actuel des
connaissances scientifiques.
Validité
Elevée Faible
Faible
|--------------------------------------| |--------------------------------------|
1. Sensibilité et spécificité
Les critères suivants sont utilisés pour décrire les caractéristiques d'un test:
La sensibilité d'un test décrit sa capacité à identifier correctement les personnes malades.
La spécificité d'un test décrit sa capacité à identifier correctement les personnes NON
malades.
En comparant les résultats d’un test avec l’état réel, ou avec un test de référence, les
possibilités suivantes peuvent se présenter:
STATUT REEL
+ - Total
Vrais Faux
Nouveau +
positifs positifs
test
sous
étude Faux Vrais
_
négatifs négatifs
Total
• Supposons que nous connaissions, grâce à un test parfait (lequel n'existe pas pour la
tuberculose) que 100 personnes souffrent de tuberculose pulmonaire (TBP). Ces 100
patients subissent une radiographie de poumons.
• Supposons que nous avons exclu avec une certitude absolue, la tuberculose pulmonaire
chez 100 patients. Ces 100 personnes subissent une radiographie de poumons.
La sensibilité et la spécificité d'un test sont exprimées par un pourcentage et représentent des
probabilités.
• La sensibilité d'un test est la probabilité qu'une personne malade soit correctement
reconnue comme telle par ce test.
• La spécificité d'un test est la probabilité qu'une personne NON malade soit
correctement reconnue comme telle par ce test.
Exemple
Le test tuberculinique (TT) mesure la réponse immunitaire stimulée par le contact préalable
avec le bacille de Koch (BK). Cette réaction est mesurée par le diamètre de l'induration
cutanée causée par l'injection intradermique d'un antigène mycobactérien.
Chez les personnes infectées par le BK, la taille de l'induration peut varier fortement d'un
individu à l'autre. D'autre part, une réaction peu importante au TT peut exister également
chez les personnes non-infectées par le BK, par exemple en cas de contact préalable avec
une mycobactérie atypique. Il est donc nécessaire de choisir un seuil de positivité.
Combien de personnes Très peu de réactions TT, Plus de réactions TT, liées
non-infectées testeront suite à des mycobactéries aux mycobactéries atypiques
positives?? atypiques ou à un BCG ou à un BCG dépasseront ce
administré à l’enfance seuil
dépasseront ce seuil (plus de faux positifs)
(très peu de faux positifs)
Dans les exemples précédents, le vrai diagnostic était connu à l'avance, et les performances du
test (radiographie de poumon), étaient évaluées en relation avec ce diagnostic.
En pratique, on ne connaît pas à l'avance le vrai diagnostic (sinon on n'aurait pas besoin de
faire ce test). Quand on est confronté au résultat d'un test, ce que l'on souhaite savoir, c'est:
Si le test est positif, quelles sont les chances que le patient soit malade?
Si le test est négatif, quelles sont les chances que le patient ne soit pas malade?
La valeur prédictive positive d'un test No. de personnes malades avec un test positif
(VPP) est la probabilité qu'une personne No. de personnes avec un test positif
avec un test positif, soit réellement
malade.
La valeur prédictive négative d'un test No. de personnes non-malades avec un test négatif
(VPN) est la probabilité qu'une personne No. de personnes avec un test négatif
avec un test négatif, soit réellement non-
malade.
3. Résumé
Malade
Test Oui Non Total
Positif a b a+b
(VP = vrais positifs) (FP = faux positifs) (Total tests positifs)
Négatif c d c+d
(FN = faux négatifs) (VN =Vrais négatifs) (Total tests négatifs)
Total a+c b+d a+b+c+d
(Total malades) (Total non) (Total testés)
On suppose une sensibilité de 99%, et une spécificité de 98% pour le test de dépistage ELISA.
On teste 2 populations différentes : 100.000 donneurs de sang, parmi lesquels la prévalence de
VIH est de 0,1%, et 100.000 prostituées, parmi lesquelles la prévalence de VIH est de 20%.
Elisa - 1 (FN) 97.902 (VN) 97.903 200 (FN) 78.400 (VN) 78.600
Un résultat positif chez un donneur de sang a une probabilité de 5% d'être un vrai positif et
donc une probabilité de 95% d'être un faux positif. Par contre la probabilité d'un résultat
positif d'être un vrai positif, est de 93% parmi les prostituées.
Dans ce cas un test négatif est beaucoup plus fiable dans les 2 groupes: leur valeur
prédictive est presque de 100%.
Pour une sensibilité et une spécificité donnée, la VPP dépend de la prévalence dans la
population testée. Un test positif chez une prostituée (personne à haut risque d'infection par le
VIH) - a une probabilité beaucoup plus élevée d'être un vrai positif, qu'un résultat positif chez
une personne à faible risque (donneur de sang).
Se x P Sp x (1-P)
VPP = VPN =
Se x P + (1-Sp) x (1-P) Sp x (1-P) + (1-Se) x P
Exemples:
- Un commerçant d’Anvers se sentant fatigué, consulte un spécialiste en médecine interne.
Il tousse depuis quelques jours. Un check-up général inclut une radiographie de thorax,
car ce commerçant est un gros fumeur. Sur base de lésions atypiques, le radiologiste
émet une suspicion de tuberculose. Ce commerçant, a, en l’absence de facteurs de
risques connus pour la TB, une probabilité pré-test de tuberculose équivalente à la
prévalence de la tuberculose pulmonaire en Belgique (à peu près 20/100.000): une
probabilité très faible, mais non nulle. La valeur prédictive positive de ce diagnostic
radiologique sera extrêmement faible.
Une définition de cas clinique peut être considérée comme un test diagnostique.
Une épidémie de Dengue est survenue dans la ville de Santa Cruz, en Bolivie, en Février
1997. Lors d'une enquête aléatoire dans la population, on a interrogé les participants à
l'enquête quant à la survenue d'épisodes de maladie dans les 2 derniers mois, et en cas de
réponse positive, on a posé des questions sur les signes et symptômes de ces épisodes.
Des échantillons de sang ont également été prélevés pour sérologie.
Des 433 personnes inclues dans l'enquête, 5.9 % possédaient des anticorps IgM spécifiques
de la dengue. En utilisant les résultats de la sérologie comme ‘gold standard’, il a été
possible d'évaluer la sensibilité et la spécificité des différents signes et symptômes, ainsi que
la sensibilité, spécificité, et valeur prédictive de la définition de cas utilisée.
1) Sensibilité (%) et spécificité (%) des signes et symptômes inclus dans la définition
classique de la dengue:
La conclusion fut que la définition de cas existante, n'était pas adéquate pour le diagnostic
de l’infection ‘dengue’.
Le rapport de vraisemblance exprime les cotes (odds) qu’un certain résultat soit attendu
chez un malade, par opposition au même résultat chez une personne non malade.
Propriétés :
(1) RV ne dépend pas de la prévalence (ou de la probabilité pré-test)
(2) Pour les tests qui donnent des résultats sur une échelle numérique, les RV peuvent être
calculés pour différentes valeurs du seuil
(3) Les cotes pré-test x RV (+) = les cotes post-test
• RV- = 1-0.99/0.98=0.01
Un test - est 1/100 moins probable chez une personne VIH -, par rapport à une personne
VIH+ (100 fois plus probable chez une personne VIH-).
Une prostituée de Nairobi se présente à la consultation externe avec des signes cliniques
suggérant la tuberculose. Sachant que (1) la prévalence du VIH est élevée chez les
prostituées, et (2) la tuberculose est fréquente chez les personnes VIH+, le médecin estime
la probabilité pré-test de l'infection VIH, à 60%. Les cotes sont donc de 6 : 4 (60% vs 40%),
ou 1,5 : 1, pour l'infection VIH.
Le test Elisa est positif pour le VIH.
Cotes pré-test (HIV+) x RV (+) = Cotes post-test (VIH+)
1,5:1 x 49,5 = 74,25:1
Après le test, la présence de l’infection VIH est 74 fois plus probable que l’absence
d’infection.
Un important désavantage des RV est cette nécessité de passer des cotes aux probabilités,
et vice-versa.
NB:
Si le résultat du test ne change pas la prise de décision, alors il n’est pas justifié de faire le test.
Exemples
- Diagnostic: le test tuberculinique est souvent utilisé pour identifier les personnes
susceptibles de bénéficier de chimio prophylaxie tuberculeuse. Dans beaucoup de pays
cependant, la chimio prophylaxie n’est recommandée que pour certains groupes à
risque. Si la personne n’appartient pas à ces groupes à risque, il n’est pas justifié de
faire le test: même si le test est positif, la chimio prophylaxie ne sera pas offerte.
- Dépistage: un frottis de Papanicolaou positif demande une confirmation. Dans
beaucoup de PVD, la confirmation n’est pas disponible. Dans ces conditions, il n’est pas
justifié de faire le test.
Dans un exemple précédant, la valeur prédictive positive d’un test VIH était d’à peine 5 %.
On ne peut bien entendu pas baser un diagnostic sur une telle probabilité. Par contre, un test
positif rend possible d'identifier des personnes suspectes, candidates à un test de
confirmation.
- Caractéristiques souhaitables d'un test de dépistage : facile à utiliser, bon marché (car il
sera utilise sur un grand nombre de personnes), sensibilité élevée. Exemple : CATT test
pour la maladie du sommeil.
- Caractéristiques souhaitables d'un test diagnostic : spécificité et sensibilité élevée.
Cependant cela veut souvent dire que ces tests sont plus invasifs, et/ou plus chers. Exemple
: ponction lombaire pour le diagnostic de la maladie du sommeil, stade 2.
Il n’y a virtuellement pas de test qui soit 100% sensible, et 100% spécifique. Certains
résultats seront donc des faux positifs, d’autres des faux négatifs. La magnitude, et les
conséquences de ces erreurs, doivent être évalues.
Les conséquences des erreurs de classification varient selon la maladie testée – et l’objectif
du test (clinique? surveillance?). Un résultat VIH+ erroné a des conséquences dramatiques
pour le patient : seuls des résultats confirmés devraient lui être communiqués. D’un autre
coté une banque de sang ne peut pas se permettre de résultat VIH faux négatif. La maladie
du sommeil est toujours mortelle, (conséquences graves pour les faux -négatifs), d'un autre
côté le traitement présente un risque élevé de mortalité iatrogène élevée (conséquences
graves pour les faux-positifs).
Souvent on insiste sur le fait qu’il est particulièrement important pour un test de dépistage d'être
sensible, et pour un test diagnostic d'être spécifique (tout en restant sensible). Cependant les
conséquences des résultats faux positifs et faux négatifs devraient toujours être évaluées.
Les conséquences des faux négatifs sont potentiellement plus graves pour la communauté,
parce que ces patients peuvent transmettre la maladie. Il y a moins de faux négatifs avec la
définition de cas de ‘2 semaines’, mais la différence entre les 2 définitions signifie que quelques
patients seront contagieux pendant une semaine additionnelle seulement. Selon les normes TB,
ceci est négligeable.
Une définition de cas plus sensitive permet de détecter plus de cas – au coût de travail
additionnel pour le laboratoire. (Dans cet exemple 1500 tests étaient nécessaires pour détecter
20 cas supplémentaires). Le choix de la meilleure définition dépendra donc de la charge de
travail que le laboratoire est capable de gérer.
A. Définition
La reproductibilité est la capacité d'un test à donner le même résultat (qu'il soit correct, ou
incorrect), lors d'applications répétées pour un même état de la maladie (Rothmann).
On rencontre 3 types de variation des mesures prises:
• Le phénomène observé (par ex., les fluctuations de pression artérielle), la manifestation
sur laquelle le test est basé (la quantité de BK dans les expectorations varie entre les
échantillons)
• L'instrument de mesure: un microscope monoculaire, et un microscope binoculaire, ont
des performances différentes
• La variabilité due à l'observateur: variabilité inter observateurs, ou intra-observateurs
Exemple
Il n'existe pas de tableau radiologique absolument 'typique' de la tuberculose pulmonaire.
Dans une étude, la même radiographie a été lue par les mêmes radiologues à quelque mois
d'intervalle. Dans 19% à 24% des cas, le radiologiste a contredit le résultat de sa lecture
précédente.
B. Mesurer la reproductibilité
1. Méthodes inadéquates
• Une simple comparaison des totaux, ou proportions, peut induire en erreur, car même si
les totaux sont égaux, ils ne se réfèrent pas nécessairement aux mêmes observations.
• La corrélation (par exemple, le coefficient de corrélation) entre différents résultats (par 2
méthodes, 2 observateurs) est également une méthode incorrecte (bien que
fréquemment utilisée). La corrélation est différente de l'accord: Si 2 observateurs sont
systématiquement en désaccord, il existe une corrélation élevée entre les 2, puisque
qu'un résultat permet automatiquement de prédire l'autre!
• Pour la même raison, un test Chi2 est inadéquat (il teste l'association, pas l'agrément!)
L’approche appropriée est de comparer le résultat des différentes observations pour chaque
unité (ou chaque individu) testée et de les classifier pour quantifier l’accord.
Donc 26,2/85 = 31% des observations peuvent être concordantes, du seul fait du hasard.
Les radiologistes ont-ils fait beaucoup mieux que 31%?
L'accord maximum est 100%, ou 1. L'accord entre les radiologistes peut être exprimé par
rapport à l'éventail des possibilités qui correspondent à 'mieux que le hasard', cad 1 – 0,31.
Le coefficient (κ) Kappa est l'accord corrigé pour la chance. Une valeur de 0 indique que
l'accord n'est pas meilleur que celui qu'on pourrait attendre simplement par hasard, une
valeur de 1 indique un accord parfait, une valeur négative un accord pire que celui attendu
par hasard (-1: désaccord parfait)
Etude 1 Etude 2
Observateur 1 Observateur 2
+ - Total + - Total
Observateur 2 + 70 10 80 + 40 10 50
- 10 10 20 - 10 40 50
Total 80 20 100 Total 50 50 100
Kappa = 0.38 Kappa = 0,60
Comme nous allons le voir dans ce chapitre, le choix du type d'étude dépend :
Suivant leur nature, les études épidémiologiques peuvent être classées en études
expérimentales ou d’observations (non-expérimentales). Le tableau suivant en donne un
aperçu résumé.
Études expérimentales
Essais contrôlés randomisés Essais cliniques
Essais de terrain
Essais communautaires Études d'intervention communautaire
Études d'observation
Transversale Prévalence
Cas témoins
De cohorte De suivi
Écologique De corrélation
En fonction des objectifs, les études épidémiologiques peuvent être classées en:
- études descriptives
- études analytiques
A. Définition
C'est un type d'étude qui vise à déterminer l'impact d'une intervention. Une série
d'observations est menée de façon contrôlée et le chercheur organise les groupes d’étude
d’une telle façon que quelques sont exposé au facteur d’intérêt, et des autres ne sont pas.
Le chercheur agit à différents degrés sur les facteurs d'exposition en fonction de l'intérêt de
la recherche.
Exemples:
- essai clinique: essai contrôlé randomisé de différents traitements
- essai de terrain: essai de vaccination, essai de changement de comportement
- essai communautaire: essai pour voir l'impact d'un programme de prise en charge des
MST sur l'incidence du VIH.
B. Principes
Exemple : étude de terrain sur la vaccination contre une leishmaniose cutanée du Nouveau
Monde parmi des recrues de l'armée brésilienne.
Recrues de l'armée
(1436)
Exclusions
(124)
Randomisés
(1312)
Traitements Contrôle
(vaccination) (placebo)
Malades Oui Non Oui Non
32 635 37 608
C. Avantages et inconvénients
Avantages
- Possibilité d'agir sur le facteur d'exposition (avantage principal)
- Randomisation qui maximise la comparabilité entre les groupes et un contrôle sur les
facteurs de confusions connus et inconnus.
- Possibilité de s'assurer que l'exposition précède bien l'effet constaté
- Possibilité de reproduire l'expérimentation
- C'est le type d'étude qui donne le plus d’évidence pour une relation causale
Les études épidémiologiques expérimentales sont des instruments puissants pour démontrer
l'effet d'un traitement. Elles sont comparables à des expériences de laboratoire parce que le
chercheur peut contrôler les niveaux d'exposition (moment, dose, durée de l'exposition, taille
de l'échantillon et répartition de la population exposée).
- Ces études sont coûteuses et difficiles. Elles exigent de la rigueur au niveau des
protocoles et de la mise en œuvre.
- L'extrapolation du groupe étudié vers la population générale est souvent problématique.
La population étudiée n'est pas nécessairement représentative de la population
générale.
- Des problèmes éthiques rendent parfois l'expérimentation impossible. Il est parfois
impossible de manipuler des variables d'exposition telles que le tabagisme. On ne peut
pas refuser un traitement à ceux qui pourraient en bénéficier, si par exemple l'avantage
de ce traitement est déjà établi ou s'il est standardisé et qu'il ne peut plus être testé, etc.
- Il subsiste toujours le problème de la non-compliance/ les perdus de vues, spécialement
si la période de suivi est longue. Ceci peut amener un biais si les personnes perdues de
vue ne sont pas comparable avec les autres personnes encore suivi par l’étude. A part
de ce biais, cela va diminuer aussi la puissance statistique (power).
- Des problèmes pratiques peuvent rendre l'étude en aveugle impossible et ainsi réduire
la validité de l'essai. On peut citer la diète, la chirurgie, l'entraînement physique, etc. Par
exemple, que peut-on donner comme placebo au groupe contrôle lorsque l'on donne
une carotte par jour au groupe sous traitement.
A. Définition
Dans une étude d'observation, le facteur d'exposition ou d'intervention n'est pas contrôlé par
le chercheur. Il observe mais n'intervient pas.
Il arrive que les gens eux-mêmes soient exposés à diverses influences bonnes ou
mauvaises en fonction du hasard. Le chercheur observe l'apparition de la maladie dans les
groupes soumis à différents niveaux d'exposition. Mais si on observe, par exemple, des
différences significatives dans les taux de cancer entre les fumeurs et les non-fumeurs, on
ne peut pas immédiatement y rattacher une relation causale. En fait, il existe de nombreuses
différences entre ces deux groupes telles que l'âge, le sexe, le statut socio-économique, le
stress, les habitudes alimentaires, la boisson, etc. Et nombre de ces facteurs sont eux-
mêmes associés au cancer. Ils sont potentiellement ce qu'on appelle des facteurs de
confusion. Il est évident que l'interprétation d'une étude non-expérimentale est beaucoup
plus difficile que l'interprétation d’une étude expérimentale.
B. Objectif
Les études descriptives peuvent aussi bien être transversales (mesure de prévalence) ou
longitudinales (mesure de l'incidence). Le résultat d'une étude descriptive donnera des taux
(spécifiques), des graphiques et des cartes sur lesquelles on peut distinguer les
caractéristiques et peut-être l'évolution d'un phénomène.
Une étude descriptive ne répond pas à la question: "Pourquoi la maladie est-elle apparue",
mais permet de générer des hypothèses sur les éventuels facteurs de risque.
Exemples:
Les études épidémiologiques descriptives sont très utiles pour la planification et peuvent
permettre de générer des hypothèses qui devront être confirmées par des études
analytiques.
Essayent de trouver la réponse à la question: "Pourquoi tel événement est-il apparu ?".
Le plus simple exemple est l'analyse d'une épidémie où on essaye de trouver l'agent causal
(par exemple quel est l'agent responsable d'une intoxication alimentaire?)
Pour conclure à une causalité, il est important d'établir que l'exposition a bien eu lieu avant
l'événement étudié. Certains types d'études (par exemple les longitudinales et les cas
témoins) établissent plus précisément le moment de l'exposition que d'autres (comme les
études transversales).
Les résumés statistiques de cette association sont le rapport des taux, le rapport de risques
(RR) et le risque attribuable (RA), qui permet de mesurer l'impact d'un facteur X sur le
résultat (voir chapitre 7).
Dans les études analytiques, on essaie d'établir l'association entre un facteur X (= la cause
présumée) et le résultat (= la maladie, l'effet) en faisant attention de bien contrôler tous les
autres facteurs qui pourraient confondre l'association. Le problème ici réside dans les
multiples facteurs autres que X qui peuvent influencer le phénomène de santé étudié.
Exemple
Imaginons que l'on trouve plus de cancers du poumon dans le groupe des fumeurs que chez
les non-fumeurs. On peut remarquer aussi que les fumeurs sont plus souvent de sexe
masculin, qu'ils sont plus vieux, boivent plus, etc. Que peut-on conclure? Est-ce que le
tabagisme est lié au cancer du poumon? Ou est-ce la boisson? Ou encore l'âge? Ou le sexe
masculin?
Tous ces traits sont ce qu'on appelle des facteurs confondants (ou de confusion). Le but de
toute étude épidémiologique décente est de contrôler la confusion. Le niveau d’évidence
produite par une étude non-expérimentale est moindre que pour une expérimentale.
Dans ce genre d'étude, l'information sur les facteurs d'exposition et l'état de santé est
récoltée en même temps parmi les individus d'une population bien définie à un moment
donné. C'est un "instantané épidémiologique". Il fournit les taux de prévalence.
Ces études sont souvent utilisées à des fins de planification en santé publique et fournissent
des informations pour la formulation d'hypothèses étiologiques. On peut citer comme
exemple les ‘enquêtes de santé’ qui - dans un but d'administration et de planification
efficace- récoltent a l’échelle d’un pays des données sur:
Dans une étude transversale, on a essayé de déterminer une association entre tabagisme et
maladie coronarienne. La prévalence de la maladie coronarienne et du statut de fumeur
(non-fumeur, fumeur régulier, ancien fumeur) furent mesurés à un moment donné chez des
postiers volontaires. De façon très surprenante, la prévalence la plus élevée fut trouvée
parmi les anciens fumeurs. Que peut-on conclure? Est-ce que le problème cardiaque
précède ou suit l'arrêt du tabac? (Il est probable que les anciens fumeurs ont cessé de fumer
à cause des problèmes cardiaques).
Des données provenant de l'étude "Evans County" ont montré une prévalence plus basse de
maladies chroniques cardiaques parmi la population noire que parmi la blanche. Cela veut-il
dire que le développement des maladies chroniques cardiaques est plus bas chez les noirs
que chez les blancs? Que se passerait-il si les premiers développent eux aussi la maladie et
en meurent à un taux plus élevé que les seconds ?
Ces exemples montrent la difficulté d'interpréter les données transversales. Dans une étude
de prévalence, il est souvent difficile d'identifier correctement le temps séparant l'exposition
de la survenue de la maladie. D'autres types d'études prennent en compte le problème du
moment de l’exposition de façon plus valide.
a) Avantages
b) Inconvénients
- Ne convient pas toujours pour les maladies rares ou de durée courte puisque peu de
monde aura la maladie à un moment déterminé.
- Il est difficile de séparer les causes et les effets (dilemme de la "poule et de l'œuf"). Les
études transversales ne peuvent en général pas tester les hypothèses étiologiques.
Deux groupes de personnes non-malades sont suivis pendant une certaine période de
temps et observés en ce qui concerne l'apparition d'un problème de santé particulier. Un des
deux groupes est exposé au facteur de risque et l'autre pas. Comme les données sur l'état
de santé (avec aussi la possibilité d'étudier les facteurs d'exposition) sont collectées à des
moments différents, l'étude de cohorte est longitudinale. Les taux d'incidence peuvent être
calculés pour chaque groupe étudié.
Temps
Direction de l'enquête
Maladie
Exposé
Pas de maladie
Non
malade
Maladie
Non exposé
Pas de maladie
Exemple: un groupe de fumeurs et un groupe de non fumeurs sont suivis pendant une
période de temps. L'incidence du cancer du poumon est enregistrée dans chaque groupe
(voir plus loin).
a) Prospective
Une cohorte de gens exposés et non exposés est constituée. Le chercheur et le groupe
étudié "vieillissent" ensemble. Le chercheur observe si la maladie apparaît dans les groupes.
Ceci implique que le résultat apparaît après le début des investigations.
temps
to = début de l'étude ... vieillissement du chercheur
Exemple: Est-ce que la malnutrition est un facteur de risque pour la mortalité due à la
rougeole? Le 1/6/84, on a pris une cohorte d'enfants bien nourris et une cohorte de mal
nourris. Les deux groupes ont été suivis jusqu'au 31/5/85, en déterminant l'incidence des
décès par rougeole au fur et à mesure de leur survenue pendant cette période d'un an.
Il y aura peu de biais de sélection et d'information puisque ce que l’on étudie (décès par
rougeole) ne se passe pas avant le début de l'étude. Cependant, l'étude sera coûteuse et il y
aura le risque que de nombreux enfants soient perdus durant la période de suivi.
Pour réaliser une étude rétrospective de cohorte, on regarde ce qui est arrivé à une cohorte
pour laquelle son exposition passée à un facteur a pu être documentée. Ceci implique que
l'exposition (et éventuellement le résultat) a déjà eu lieu lorsque l'enquête démarre. C'est
seulement possible si la phase d'exposition passée (et éventuellement le résultat) a été
enregistrée de façon fiable et peut être retrouvé.
temps
to = début de la période d'observation ... vieillissement de la population étudiée
L'étude rétrospective longitudinale est plus facile à conduire et coûte moins cher que la
prospective. Cependant, il y a une sérieuse possibilité de rencontrer des biais de sélection et
d'observation. Elle nécessite d'avoir des données fiables et constantes dans le temps pour
tous les éléments de l'enquête.
Ces deux types d'études permettent le calcul du rapport de risques ou des taux (RR). Dans
une étude de cohorte, le rapport de risques d'une maladie associée à un facteur particulier
peut être calculé directement parce que l'incidence ou le risque de maladie est connu.
Exemple: Un groupe de fumeurs et de non fumeurs ont été suivis dans une étude
longitudinale. On y a enregistré le risque ultérieur de cancer du poumon. Les résultats
sont présentés dans le tableau qui suit.
Cancer du poumon
+ -
Fumeur Oui (+) Non (-)
Oui (+) 10 a 150 b 160 a+b
Non (-) 5c 100 d 105 c+d
15 a+c 250 b+d 265 a+b+c+d
On détermine les chances d'attraper la maladie en étant exposé au facteur de risque par :
Le Risque Relatif (RR) = le risque d'attraper la maladie chez les personnes exposées
. le risque d'attraper la maladie chez les non-exposés
= N° des cas de cancer du poumon chez les fumeurs / N° total des fumeurs .
N° de cas de cancer du poumon chez les non-fumeurs / N° total des non fumeurs
RR = 1,3 (1,3125)
Les fumeurs ont 30% plus de risque de développer un cancer du poumon comparé aux non-
fumeurs.
d) Inconvénients
- Peuvent être long, fastidieux, coûteux et compliqué
- Peuvent parfois nécessiter de longues périodes d'observation et de nombreux sujets.
Ce n'est pas toujours pratique pour les maladies rares comportant une longue période
d'induction.
- Ne peuvent étudier que peu de facteurs d'exposition
- La validité de l'étude peut être sérieusement affectée par les perdus de vue lors du suivi.
Temps
Exposés
Cas
Non exposés
Exposés
Témoins
Non exposés
Cancer du poumon
+ -
Fumeur Oui (+) Cas Non (-) Témoins
Oui (+) 10 a 150 b 160 a+b
Non (-) 5c 100 d 105 c+d
15 a+c 250 b+d 265 a+b+c+d
Dans une étude cas-témoin, le ratio des risques (RR) ne peut pas être calculé de manière
directe, parce que le dénominateur de “tous les exposés” n’est pas connu. La totalité des
160 fumeurs dans l’exemple précédent ne constitue pas un dénominateur significatif. En
1951, un an après la première étude par Doll et Hill, le statisticien J. Cornfield a propose
d’utiliser le “Odds Ratio” (OR) ou « rapport des cotes » pour estimer le risque relatif RR de la
population dans des études cas-témoin.
Une cote est une autre façon de représenter la probabilité. L’origine se trouve dans le monde
des jeux de pari, et représente les chances de gagner par rapport aux chances de perdre (ou
la probabilité de succès par rapport à la probabilité d’échec)
Par exemple: Le cheval nommé « Flèche de Bretagne » a une probabilité de 20% de gagner
la course. Cette probabilité peut également être exprimée en cote.
Cote = probabilité de gagner / probabilité de perdre = 0,2 / 0,8 = ¼ = 0,25 On dit que la cote
de Flèche de Bretagne est 1 contre 4.
Dans une étude cas-témoin, nous ne pouvons pas comparer des probabilités d’exposition,
mais nous pouvons comparer les chances d’être exposé parmi les cas avec les chances
parmi les témoins. Ceci nous donne un ratio de deux chances (odds), le fameux Odds ratio,
ou rapport des cotes!
a/c ad
OR = =
b/d bc
Alors calculons la valeur du rapport des cotes pour l’exemple précédent : Que signifie ce
chiffre de 1,33 ?
Ceci signifie littéralement que dans notre étude, les cotes de fumer étaient 1,33 fois
supérieures parmi les cas, comparées aux témoins. Le rapport des cotes mesure la force de
l’association entre l’exposition et la maladie.
1. Notez que le ratio de deux cotes dans la formule précédente a été réarrangé pour obtenir
ce qui est généralement appelé le « cross-product ratio » ad / bc, facile à calculer.
2. Notez également qu’un rapport des cotes est symétrique, dans le sens où elle ne montre
pas uniquement comment la cote d’exposition parmi les cas se rapporte à celle parmi les
témoins. La même valeur numérique s’applique également aux cotes d’être malade parmi les
exposés comparés aux cotes d’être malade parmi les non-exposés.
10 / 5 10 / 150
OR = = = 1, 33
150 / 100 5 / 100
C’est cette qualité qui rend le rapport des cotes tellement attractif, puisque nous avions
entamé l’étude cas-témoin justement pour apprendre quelque chose sur le risque relatif dans
la population. Notre rapport de cotes observé dans l’étude cas-témoin est l’estimation du
rapport des cotes réel dans la population, et ce rapport de cotes réel nous dit quelque chose
sur l’association entre exposition et maladie.
Voilà pourquoi dans beaucoup de textes il est dit que l’interprétation d’un OR ou rapport des
cotes est la même que celle d’un risque relatif. On peut en effet l’utiliser pour estimer la force
de l’association entre l’exposition et la maladie dans une population.
3. Le OR est d’autant plus proche du Risque Relatif que la maladie est rare (< de 20%). Le
OR exagérera toujours la taille de l’effet, comparé au Risque Relatif. Si le OR est moins que
1, il sera toujours plus petit que le RR. Si le OR >1, il sera toujours plus grand que le RR.
Des grands décalages n’apparaissent que pour des tailles effet larges. Par ex. un OR de 0,2
correspond à un RR vrai de 0,4. Un tel décalage ne risque pas de changer notre
appréciation, comme il exprime une large réduction de risque, peu importe la manière de le
regarder. (Source : Okle Davies et al. BMJ 1998).
a) Avantages
4. Études écologiques
Dans une étude écologique, les unités d'analyse sont les populations ou des groupes de
gens plutôt que les individus. Ceci implique que l'on ne peut pas déterminer les liens
individuels entre facteur d'exposition et effet.
Exemple: Dans une étude écologique chinoise, on a enregistré les taux de cancer de
l'œsophage dans des communautés avec différentes consommations de sel. De hauts
taux de mortalité dans certains contés de la province de Henan apparaissaient être liés à
une forte consommation de sel. (Lu & Qin, 1987). Cependant, il est difficile d'exclure
d'autres facteurs possibles tels que l'augmentation de la consommation d'alcool dans des
régions où il y a une grosse consommation de sel et où le cancer de l'œsophage est
fréquent. On sait bien que l'alcool est un facteur de risque connu de développer la
maladie.
Un biais ou erreur écologique se produira si des conclusions inappropriées sont tirées sur
base de données écologiques. L'observation d'association entre variables à un niveau de
groupe ne représente pas nécessairement ce que l'association qu’on pourrait observer au
niveau individuel. Cependant, les études écologiques ont parfois été le point de départ
d'études épidémiologiques plus élaborées.
IV. CONCLUSION
En général, la procédure commence par des rapports de cas, des séries de cas et des
études transversales qui peuvent suggérer une association. Ensuite, on réalisera des études
cas-témoins qui vont explorer l'association. Si l'on doit étudier les temps de latences, une
étude de cohorte pourra être menée. Finalement, des essais (cliniques) seront exécutés
pour répondre à des questions concernant l'efficacité thérapeutique.
1) Des rapports ont été publiés à propos d'observations cliniques concernant un petit
nombre de patients (séries de cas).
2) On a mené des études descriptives de la prévalence de la maladie dans diverses
populations et groupes géographiques (études transversales, études écologiques)
3) Ensuite on a fait des études analytiques pour identifier les risques et les facteurs
pronostiques (études cas-témoins et de cohortes)
4) Enfin, on a réalisé des évaluations du traitement et des mesures préventives (essais).
Dans les deux cas de figure, l’approche qui est enseignée est celle de l’Analyse Exploratrice
de Données (EDA, de "Exploratory Data Analysis"). EDA est une démarche qui permet
d’explorer de façon structurée l’information contenue dans un jeu de données. Elle attache
beaucoup d’importance à l’inspection visuelle de la distribution des données sur une
représentation graphique comme point de départ de l’analyse. Voir Tableau 1.
Tableau 1.
Les chercheurs souhaitent mesurer les caractéristiques des gens, des choses ou des
événements. Mesurer, au sens large, implique l’attribution d’une valeur aux objets ou aux
événements, suivant certaines règles. Par exemple le poids d’une personne peut être
mesuré grâce à une balance, qui donne une certaine valeur correspondant au concept de
poids. Des concepts abstraits, intangibles, comme la satisfaction du patient, peuvent
également être mesurés.
Une variable est une caractéristique mesurée qui peut prendre différentes valeurs. Il existe 3
types d’échelles de mesure pour des variables : nominales, ordinales, et numériques.
Ici les caractéristiques (des gens, des choses, des événements) sont classées en
catégories. Des valeurs numériques peuvent être données par exemple pour faciliter
l’enregistrement dans un ordinateur – mais ces valeurs numériques ne sont alors que des
‘étiquettes’ dont le choix est arbitraire.
Variable Valeur
Sexe 1= masculin; 2= féminin
Service de santé 1= public; 2= privé non lucratif
3= privé lucratif
Les variables qui ne peuvent prendre que 2 valeurs possibles (par exemple sexe, ou bien
présence ou absence d’une certaine caractéristique) sont appelées des variables
dichotomiques.
Dans ce cas les caractéristiques peuvent être classées en catégories, mais ces catégories
possèdent un certain ordre 'naturel' : l’attribution d’une valeur chiffrée n’est pas arbitraire.
Cependant la distance entre les catégories est inconnue. Par exemple si le statut socio-
économique ‘moyen’ est noté 2, cela ne veut pas dire 2 fois plus élevé que le statut socio-
économique ‘faible’ noté 1.
Variable Valeur
Statut socio-économique 1 = bas 2 = moyen 3 = élevé
Adhésion aux 1 = mauvaise 2 = moyenne 3 = bonne
recommandations cliniques
Echelle des salaires 1 = Senior (a) 2 = Senior (b)
3 = Moyen (a) 4 = Moyen (b)
5 = Junior (a) 6 = Junior (b)
Il peut exister une échelle numérique sous-jacente dans certaines échelles ordinales (échelle
des salaires).
Pour ce type d’échelle les distances entre les valeurs sont égales parce qu’il y a une unité
physique commune de mesure. Le poids de 20 kg est le double de 10 kg. Les variables
numériques peuvent être continues (en théorie, il n’y a pas de ‘rupture de continuité’ entre
les valeurs) ou elles peuvent être discrètes (il y a des ruptures de continuité entre les
valeurs).
Par exemple le poids est une variable continue uniquement parce que notre vue ou la qualité
de l’instrument de mesure ne nous permet pas de lire une échelle plus finement graduée. La
valeur du poids pourrait en théorie être 65,78521496321741…kg. A l’inverse, le nombre de
grossesses d’une femme est une variable discrète parce que le nombre de grossesses est
obtenu en comptant des unités indivisibles.
Les valeurs que peuvent prendre les variables nominales ou ordinales doivent être définies
de manière claire et explicite. Qu’entend-on exactement par ‘statut économique bas’ ? Est-il
défini par le revenu ? Le niveau de scolarisation ? Quelles sont les limites de chaque valeur?
Les valeurs proposées pour les variables nominales et ordinales doivent être exhaustives.
Imaginez un questionnaire demandant le niveau de scolarisation, et offrant seulement ces
valeurs possibles : primaire, secondaire, supérieur. Où placer les personnes qui n’ont pas
terminé l’école primaire ?
Parfois les valeurs proposées pour les variables nominales ne sont pas mutuellement
exclusives. Soyez attentif à la possibilité de réponses multiples. Si vous demandez : quel
type de services de santé avez-vous utilisé l’an passé ? Il est possible d’avoir utilisé plus
d’un type de services.
Les variables numériques peuvent être converties en variables ordinales ou nominales. Par
exemple le statut nutritionnel, mesuré par l’index poids/taille, est une variable numérique.
Cependant, à des fins opérationnelles ou de recherche, on pourrait classer les enfants, sur
base de cet index, en "normal", malnutrition modérée, malnutrition sévère (variable ordinale).
On pourrait aussi classer les enfants en "à admettre dans le centre de nutrition" ou
"admission pas nécessaire" (variable catégorielle dichotomique). Un taux d’hémoglobine
peut être converti en : pas d’anémie, anémie modérée, anémie sévère.
Convertir des variables numériques en variables nominales ou ordinales n’est pas toujours
indiqué si cela amène une perte d’information essentielle. Dans certains cas il existe une
bonne raison (physiologique, ou opérationnelle) de réaliser une telle conversion, mais il n’est
pas simple, ni sans conséquences de décider d’un seuil précis. Cela dépend également du
contexte. Le seuil d’admission d’un enfant mal nourri dans un centre de récupération
nutritionnelle peut dépendre de la situation (par exemple, surpopulation du centre). Le taux
d’hémoglobine qui définit l’anémie est différent en Afrique ou en Europe, pour les gens vivant
au niveau de la mer ou à la montagne, chez les femmes enceintes et chez les enfants, etc.
Quand les données sont organisées en valeurs ou catégories, et ensuite décrites avec titres
et légendes, le résultat est un tableau statistique. Les données sont en premier lieu
présentées sous la forme d’une distribution de fréquence, c’est à dire que l’on compte
combien de fois chaque valeur apparaît dans ces données. Pour les variables ordinales ou
nominales, il faut faire une liste (ordonnée si possible) et indiquer les fréquences pour
chaque catégorie. Il est utile d’y ajouter le pourcentage.
Cas de paralysie flasque aiguë, par sexe. Mbuji Mayi, Congo (ex-Zaïre), novembre 94-
juin 95
Sexe Fréquence %
Masculin 253 53,3
Féminin 221 46,5
Inconnu 1 0,2
Total 475 100
Source: Ministère de la santé - Épicentre
Enquête de couverture vaccinale. Enfants 12-23 mois. Mbuji Mayi, Congo (ex-Zaïre)
3-5/7/1995.
Pour les variables numériques, organiser les valeurs est habituellement la première étape de
la construction d’un tableau.
On perd toujours des détails quand on regroupe des valeurs, mais d’un autre côté on gagne
de l’information sur les groupements de valeurs (« clustering ») et la forme de la distribution.
Cependant, trop, ou pas assez de classes, risquent de masquer certaines caractéristiques
importantes de la distribution. Trop d’information est perdue si on a trop peu de classes. Par
contre si on a trop de classes, certaines seront vides ou contiendront trop peu d’informations,
avec des solutions de continuité dans la distribution. La meilleure approche est souvent de
commencer avec beaucoup de classes, puis de les réduire progressivement, en laissant les
données vous guider.
• Les limites de chaque classe doivent correspondre au degré de précision des données.
15 - 24 ans
25 - 34 ans
35 - 44 ans
Utilisez les tableaux uniquement pour mettre en évidence des faits majeurs. La plupart des
tableaux examinés pendant l’analyse des données ne doivent pas être présentés. S'il est
possible de décrire une observation correctement avec des mots, un tableau n’est pas
nécessaire. Trop de tableaux peuvent surcharger un rapport.
Le tableau doit être aussi ‘auto-suffisant’ que possible (pas besoin de lire le texte pour
comprendre de quoi il s’agit). Le titre doit mentionner la variable, où et quand ces données
ont été collectées (si c'est pertinent), et la taille de l’échantillon (temps, lieu, personnes). Les
titres doivent être brefs et clairs.
C. Graphiques
Les graphiques sont la représentation visuelle des distributions de fréquence. Ils donnent
une vision globale des données et aident à mieux les comprendre. Nous discutons ici des
types de graphiques les plus utilisés pour l’analyse univariée.
1. Diagramme en bâtons
Le diagramme en bâtons est le type de graphique qui convient pour la représentation des
données nominales ou ordinales. Quand on construit de tels graphiques, les noms des
catégories sont généralement alignés horizontalement suivant un ordre systématique, et les
bâtons dessinés verticalement représentent la valeur absolue, ou relative dans chaque
catégorie. Un espace sépare les bâtons, pour souligner la nature nominale ou ordinale de la
variable.
Le choix des espaces et de la largeur des bâtons est arbitraire, mais une fois choisis, tous
les espaces et les largeurs doivent être similaires. Si le nom de la catégorie est trop long, il
est parfois plus pratique d’aligner les catégories verticalement, et de dessiner les bâtons
horizontalement (voir fig. 1). Les diagrammes en bâton facilitent aussi les comparaisons
entre les distributions uni-variées. Deux distributions uni-variées ou plus peuvent être
comparées en utilisant un diagramme en bâtons combiné.
Polio
Autre trauma
Congenital
Medical
Inconnu
Guerre, combat
Mines
0 5 10 15 20 25 30 35
N = 90 Nombre de cas
Ceux-ci sont une alternative aux diagrammes en bâtons, pour des données qualitatives.
Seules les fréquences relatives (%) peuvent être représentées graphiquement, bien que les
valeurs absolues puissent apparaître en légende.
Polio
34%
Guerre, combats
2%
Congenital
19%
N = 90
inconnu Medical
Source : Handicap International 3% 18%
3. Histogrammes
Les histogrammes sont appropriés pour les variables numériques continues et discrètes. Ils
ressemblent aux diagrammes en bâtons, mais les bâtons sont côte à côte pour mettre en
évidence le fait qu’il s'agit de valeurs mesurées sur une échelle continue. Quand la surface
de chaque bâton représente une fréquence, ou un pourcentage, chaque histogramme a une
surface totale de 100%. L’histogramme est le graphique de choix pour une courbe
épidémique. La première décision dans la construction d'un histogramme consiste à choisir
le nombre de bâtons, c.a.d. le nombre de classes. S’il y a trop peu de bâtons, les données
vont être trop "tassées". S’il y a trop de bâtons, les données vont être trop détaillées. Une
courbe épidémique présente le nombre de cas rapportés par jour, par semaine, par mois…
160
N 140
o 120
m
100
b c
r a 80
e s 60
d 40
e 20
0
nov déc janv févr mars avr mai juin
M ois
Comme pour les tableaux, les graphiques doivent être autant que possible "auto-suffisants".
Le titre devrait présenter la variable et, si c'est pertinent, quand et où les données ont été
collectées (temps, place, personne). La taille de l'échantillon doit apparaître clairement. Les
axes doivent comporter des légendes et les unités utilisées. Le but du graphique est de
faciliter la compréhension sans dénaturer les faits, vous devez vous assurer qu’il présente
les choses honnêtement.
A. Introduction
Les variables qualitatives (en échelle nominale et ordinale) sont résumées par la fréquence
relative (la fréquence de cas par rapport à la totalité des cas) (Voir III.A)
Les caractéristiques des populations sont appelées des paramètres, celles des échantillons,
des statistiques. D'habitude, on utilise une lettre grecque minuscule pour les paramètres et
une lettre romane pour les statistiques.
Trois mesures de tendance centrale vont être discutées ici : moyenne, médiane et mode.
1. La moyenne
n ∑ indique la sommation
∑
i =1
X i x i = indique une valeur quelconque de la variable X
X = n = nombre des observations
n n
∑X
i =1
i
indique que la sommation se fait sur n observations en
commençant par la première.
Par exemple, la liste suivante des valeurs de durée de séjour à l'hôpital (en heures) pour un
échantillon de naissances par césarienne comporte 10 entrées: 61, 70, 112, 74, 104, 97, 85,
132, 125, et 70. La moyenne est la somme de toutes ces valeurs (930) divisée par le nombre
de toutes les valeurs (10), ce qui donne 93. Dans cet exemple, la moyenne est située près
du milieu des 10 valeurs. Chaque valeur dans la distribution contribue à former la moyenne.
Si la distribution comporte des valeurs extrêmes, cela peut fortement influencer la moyenne.
Dans l'exemple précédent, supposons que l'on remplace la valeur de 132 par 702. La
nouvelle moyenne sera donc 61 + 70 + 112 + 74 + 104 + 97 + 85 + 702 + 125 + 70 =
1500/10 = 150 heures. Cette moyenne ne sera donc plus située au milieu des 10 valeurs. Il
n'y aura qu'un seul patient dont la valeur sera plus grande que la moyenne. La moyenne
Lorsqu'on tire de façon répétée des échantillons aléatoires d'une même population, les
moyennes obtenues dans les différents échantillons vont moins varier entre elles que les
autres mesures de tendance centrale, et vont moins s’éloigner de la moyenne réelle de la
population. Dès lors, la moyenne est la mesure la plus fiable pour réaliser des inférences
d'un échantillon à une population.
La moyenne est surtout destinée à être utilisée avec des variables numériques lorsque ces
valeurs peuvent être additionnées. Cependant elle est assez souvent utilisée pour des
variables ordinales. Les ordinateurs, bien sûr, ne savent pas si les variables sont numériques
ou ordinales. Imaginez que la variable "sexe" est codée 1 pour masculin et 2 pour féminin. Si
on le demande à l'ordinateur il va calculer la moyenne pour cette variable. Comment peut-on
interpréter : moyenne de la variable sexe est 1,5?
2. La médiane
La médiane est la valeur au milieu d'une série de nombres présentés dans l’ordre. Elle est le
point, ou la valeur, en dessous de laquelle se trouvent 50% de la distribution. Cela veut dire
que quelle que soit la forme de celle-ci, 50% de l'échantillon se trouveront en dessous de la
médiane. On parle aussi du 50ème percentile (P50). La médiane n'est pas calculée mais
localisée. Pour la déterminer, il faut:
Dans l'exemple précédent concernant la longueur du séjour après césarienne, les 10 valeurs
arrangées dans l'ordre étaient 61, 70, 70, 74, 85, 97, 104, 112, 125, 132. Les deux valeurs
du milieu sont les valeurs n°5 et n°6, càd 85 et 97. Dès lors la médiane est (85 + 97)/2 = 91.
(la moyenne pour ces données était de 93 - assez proche de la médiane dans cet exemple).
C'est seulement le nombre des valeurs et les valeurs adjacentes au point central de la
distribution qui font l'objet de calcul. Si la valeur 132 est changée en 702 dans l'exemple
précédent, la distribution est 61, 70, 70, 74, 85, 97, 104, 112, 125, 702. La médiane est alors
toujours située entre 85 et 97 et reste 91 heures. Dès lors, la médiane n'est pas sensible
aux valeurs extrêmes (elle est "robuste"). Elle peut être utilisée avec des distributions
symétriques ou asymétriques, mais elle est particulièrement utile lorsque les données ont
une distribution de forme asymétrique (« skewed »). La médiane convient bien pour les
données numériques et ordinales mais pas pour les données nominales.
Le mode est la valeur ou la catégorie la plus fréquente. Dans l'exemple précédent, les 10
valeurs étaient 61, 70, 70, 74, 85, 97, 104, 112, 125, 132 heures. Le mode de cette
distribution est 70 parce que c'est la valeur qui apparaît le plus souvent. Le mode n'est pas
calculé mais simplement identifié par examen. C'est facile si les valeurs du graphique ou du
tableau sont rangées dans l'ordre. Si toutes les valeurs sont différentes, il n’y a pas de mode.
Si certaines valeurs apparaissent avec la même fréquence, il y a plusieurs modes. Si les
valeurs d'une distribution se regroupent en plusieurs places mais pas aux mêmes
fréquences, il y a un mode primaire et un mode secondaire. Le mode peut être utilisé avec
des variables numériques ou ordinales comme moyen grossier d'estimer la tendance
centrale.
Lorsque les données sont groupées en classes, le mode devient en fait la classe modale (la
classe modale dépend évidemment de la façon de grouper!)
La moyenne est la mesure de tendance centrale la plus commune. Elle est déterminée par
une formule. En général les chercheurs préfèrent l'utiliser à moins d'avoir une bonne raison
de ne pas le faire. C'est le cas le plus souvent quand la distribution a une forme très
asymétrique. L'effet des valeurs extrêmes sur la moyenne diminue si la taille de l'échantillon
augmente. Par conséquent, une autre raison de ne pas utiliser la moyenne est une petite
taille d'échantillon avec quelques valeurs extrêmes. La moyenne trouve son meilleur emploi
pour des distributions qui sont raisonnablement symétriques et qui n'ont qu'un seul mode.
La médiane est facile à comprendre si on considère le 50ème percentile. Elle n'a pas de
formule mais est localisée par une procédure de comptage. La médiane peut être utilisée
pour des distributions unimodales mais elle est surtout utile avec les distributions de forme
très asymétrique. Elle est peu sensible aux valeurs extrêmes.
La principale utilité du mode est d'éveiller l'attention sur des distributions dans lesquelles les
valeurs se regroupent à différents endroits. Elle est aussi utilisée pour faire des estimations
grossières. Elle n'est pas sensible aux valeurs extrêmes.
L'illustration suivante montre les positions relatives de ces trois mesures de tendances
centrales pour un polygone qui a une forme très asymétrique. Le mode est la valeur située
au plus haut point de la courbe. La moyenne est attirée vers la droite par les valeurs
extrêmes dans la queue de la distribution. La médiane se trouve en général entre les deux.
Croquis d'un polygone de fréquence pour une distribution étalée vers la droite,
montrant les positions relatives de la moyenne, de la médiane et du mode.
Mode Moyenne
Médiane
Dernière mise à jour : 07-08-2009 (NN) 80 /158
C. Mesures de dispersion
Ne rapporter que les mesures de tendance centrale, sans une mesure de dispersion risque
d'induire le lecteur en erreur. Souvent les chercheurs se focalisent sur la mesure de
tendance centrale et négligent comment les données sont dispersées alors que la dispersion
est au moins aussi importante. Deux jeux de données peuvent avoir la même moyenne mais
être très différents en ce qui concerne la dispersion des données.
Les trois mesures de dispersion qui sont discutées ici sont :
1. l'écart type (utilisé avec la moyenne),
2. l'intervalle interquartile (utilisé avec la médiane), et
3. l'amplitude
Contrairement aux mesures de tendance centrale, qui représentent une valeur centrale, les
mesures de la dispersion doivent être interprétées comme des distances sur une échelle de
valeurs.
Exemple de deux distributions de fréquence avec une même moyenne mais des
dispersions différentes.
Moyenne
Il est le plus largement utilisé pour mesurer la dispersion. L'écart type d'un échantillon (ET)
est défini par
∑ (X )
2
1
−X
n −1
(L'écart type d'une population est représenté par la minuscule grecque sigma σ. La formule
diffère par rapport à l'écart type d'un échantillon car le dénominateur est simplement n et non
n – 1).
La raison pour laquelle on divise par n-1 dans la formule de l’ET de l’échantillon, a à voir
avec la notion théorique des degrés de liberté. Ceci est surtout important pour de petits
échantillons.
Le tableau suivant illustre le calcul de l'écart type pour les dix valeurs de durée de séjour
pour césarienne. D'abord il faut calculer la moyenne, et ensuite la soustraire de chaque
valeur et vérifier que la somme des écarts fait bien zéro. On porte ensuite ces écarts au
carré. La somme de ces écarts au carré (ou la "somme des carrés") est ensuite divisée par
(n – 1). La valeur obtenue est appelée la variance. Quoique ce soit une mesure de
dispersion, la variance n'est pas utilisée comme mesure descriptive parce qu'elle n'a pas les
mêmes unités que les données. Par exemple la variance des données du tableau est de
616,67 heures au carré. C'est pour cela que l'on utilise la racine carrée pour ramener cette
statistique à l'échelle d'origine. La valeur résultante de 24,8 heures est l'écart type.
Calcul de l'écart type pour un échantillon de durée d'hospitalisation (en heures) chez
des femmes ayant subi une césarienne.
Xi Xi – X (Xi – X )2
61 61 – 93 = –32 (–32)2 = 1024
70 70 – 93 = –23 (–23)2 = 529
112 112 – 93 = +19 (+19)2 = 361
74 74 – 93 = –19 (–19)2 = 361
104 104 – 93 = +11 (+11)2 = 121
97 97 – 93 = +4 (+4)2 = 16
85 85 – 93 = –8 (– 8)2 = 64
132 132 – 93 = +39 (+39)2 = 1521
125 125 – 93 = +32 (+32)2 = 1024
70 70 – 93 = –23 (–23)2 = 529
∑X=930 ∑(X– X ) = 0 ∑(Xi– X )2 = 5550
X = 93 (somme des carrés)
Variance = 5550/9 = 616,67 heures au carré
Écart Type = √(5550/9) = 24,8 heures
2. Coefficient de variation
Lorsque l'on veut comparer des écarts type, le coefficient de variation (CV) est utile. Cette
statistique est définie par: CV = (écart type / X ) x 100
CV :
- Mesure la dispersion autour de la moyenne
- Est utilisé pour comparer la dispersion entre plusieurs distributions
- N'a pas d'unité. Cela permet des comparaisons entre des jeux de données qui utilisent des
unités de mesures différentes
- Fait disparaître les effets de la taille de la mesure (parce qu'il représente l'écart type comme
un pourcentage de la moyenne). Un petit CV implique que les valeurs sont groupées autour
de la moyenne. Des valeurs de CV élevées signifient de grandes variations autour de la
moyenne.
L'IIQ est défini comme l’ensemble des valeurs allant du 25ème percentile (P25, premier
quartile, Q1) au 75ème percentile (P75, 3ème quartile, Q3). Cette statistique permet de voir
comment les 50% de la partie centrale de la distribution sont dispersés. Il y a deux méthodes
pour calculer l' IIQ. Nous allons les appliquer toutes les deux à l'exemple des 10 valeurs de
durée de séjour vu plus haut (61, 70, 70, 74, 85, 97, 104, 112, 125 et 132).
Dans l'exemple:
Elle est plus facile à calculer. Pour localiser le premier quartile, il faut d'abord localiser la
médiane de la distribution. On déterminera Q1 comme la valeur du milieu de toutes les
données sous la médiane et Q3 comme la valeur du milieu de toutes les données au-dessus
de la médiane. Voici la formule de Tukey :
Pos ( mé ) + 1
Pos ( quartile 1) =
2
- Pos (mé) : position de la médiane, arrondie vers le bas (sans
chiffre après la virgule)
- en partant de la première des valeurs rangées dans l'ordre.
- Position de Q3: idem, - en partant de la dernière des valeurs rangées dans l'ordre.
L'amplitude est la plus simple des mesures de dispersion. C'est la différence entre la valeur
maximale de la distribution et la valeur minimale. Dans l'exemple des 10 valeurs (voir
Tableau 2), l'amplitude est (132 – 61) = 71.
L'écart type est la mesure de dispersion la plus utilisée. Il est calculé à partir d'une formule
et est l'estimation la plus fiable de la dispersion de la population. En général, les chercheurs
préfèrent utiliser l'écart type à moins d'avoir une bonne raison de ne pas le faire. Comme
pour la moyenne, on se gardera d'utiliser l'écart type si la distribution possède des valeurs
extrêmes et comporte plusieurs modes. Il convient le mieux avec des distributions qui sont
raisonnablement symétriques et n'ont qu'un mode.
L'intervalle interquartile (IIQ) est facile à comprendre. L' IIQ, allant de P25 (Q1) à P75
(Q3), délimite les 50% de la partie centrale de la distribution. Ces mesures n'ont pas de
formules mais sont localisées par une procédure de comptage. Elles peuvent être utilisées
pour des distributions unimodales mais sont particulièrement utiles avec les distributions très
asymétriques.
On va utiliser principalement l'amplitude pour attirer l'attention sur les valeurs extrêmes et
faire une estimation rapide et grossière de la dispersion.
Afin de choisir le type de mesure de façon appropriée, il faut avant tout connaître la forme de
la distribution. Toutes les mesures dont on a parlé sont surtout destinées à des variables
Les valeurs extrêmes sont des valeurs qui dévient fortement du gros de la distribution. Elles
ne ‘cadrent’ pas avec le reste des données. L'origine de ces données peut être :
La première étape est d'identifier les valeurs extrêmes par une méthode objective. Les
raisons d'adopter une méthode objective plutôt qu'un jugement isolé est de prévenir les
manipulations peu justifiées (peut-être malhonnêtes) de données telles que l'élagage des
très hautes et très basses valeurs qui ne sont pas réellement des valeurs extrêmes.
Une des méthodes possibles est de décider que les valeurs qui sont plus de 3 IIQ sous P25
(Q1) ou au-dessus de P75 (Q3) sont des valeurs extrêmes ‘majeures’ (major outliers). Les
valeurs comprises entre 1,5 et 3 IIQ sous P25 ou au-dessus de P75 sont des valeurs
extrêmes mineures (minor outliers).
Une fois que les valeurs extrêmes ont été identifiées, l'étape suivante est d'essayer de les
expliquer. S'ils représentent des erreurs dans l'encodage ou une défaillance dans la collecte
des données, alors, ces observations sont habituellement écartées ou parfois corrigées. Si
les valeurs extrêmes représentent des valeurs réelles, ou que l'explication est inconnue, un
chercheur doit décider comment les traiter. Une des suggestions fréquentes est d'analyser
les données de deux façons: avec les valeurs extrêmes de la distribution et sans elles. Si les
résultats sont similaires, comme cela devrait être la tendance si l'échantillon est grand, alors
les valeurs extrêmes éventuelles peuvent être ignorées. Sinon, il faudra utiliser une analyse
statistique résistante aux valeurs extrêmes (par exemple la médiane et l'IIQ).
Il faut noter que dans cet exemple, le nombre de décimales est au-dessus de la précision de
la mesure (qui n'est pas connue par l'ordinateur). Seulement une seule décimale devrait se
trouver sur le rapport.
Une fois que la distribution a été visualisée de cette manière, on peut voir ses
caractéristiques importantes comme suit:
6. Chercher les déviations importantes de la forme générale. Il peut y avoir des "trous" dans la
distribution ou des valeurs extrêmes. Ici, la valeur de "21 kg" semble suspecte. De combien
de IQ est-ce sous Q1? Voyons avec la méthode exacte:
7. Pos. Q1 = (n+1)/4 = 26/4= 6,5 => Q1 est situé entre la 6ème et la 7ème valeur. Q1 = 47
8. Pos. Q3 = (n+1) × 3/4 = 78/4= 19,75 => Q3 est situé entre la 19ème valeur (62) et la 20ème
valeur (65). Q3 = (62+65) / 2 = 63,5.
9. IIQ = Q3 – Q1 = 16,5.
Un diagramme en boîte est une représentation graphique qui utilise les statistiques
descriptives basées sur les percentiles. La longueur de la boite correspond à IQ (P25-P75,
ou Q1 – Q3). Une marque sur la boite indique la position de la médiane ou 50ème percentile.
En conséquence, la boîte fourni les informations sur la tendance centrale et la dispersion des
50% de la partie centrale de la distribution.
Les "moustaches" de la boîte vont s'étendre jusqu'aux plus petites et plus grandes valeurs à
l'exclusion des valeurs extrêmes mineures ou majeures. Ainsi donc les moustaches et les
valeurs aberrantes fournissent plus de détails sur la façon dont les 25% supérieurs et
inférieurs de la distribution sont répartis.
Les valeurs extrêmes sont représentées par des points individualisés.
La moyenne peut être représentée par une croix, pour visualiser où elle se positionne par
rapport à la médiane.
Exemple : Appliquons cette technique au jeu de données des 25 étudiants IMT :
Q1 Q2 Q3
+
45 80
47 51 65
45 50 60 70 80
Il n’y a pas de valeurs extrêmes (>1,5 x IIQ).
4000
2000
Il y a une valeur extrême dans les valeurs supérieures et plusieurs valeurs extrêmes dans
les valeurs inférieures.
La description des données quantitatives, transformées en échelle ordinale, suit les principes de
description des données ordinales.
Une association est une relation entre 2 variables telle que l'une varie en fonction de l'autre.
Deux événements sont indépendants s'il n'y a aucune association statistique entre eux.
Exemples
La taille en fonction de l'âge (taille = variable dépendante)
Le poids en fonction de la taille (taille = variable indépendante)
Un diagramme de dispersion est utilisé pour représenter graphiquement une relation entre 2
variables quantitatives.
4000
2000
Si (et seulement si) la relation apparaît linéaire, le coefficient de corrélation de Pearson peut
être utilisé pour mesurer la direction et la force de l'association.
La corrélation peut être considérée comme une mesure du degré avec lequel 2 variables
varient ensemble. La force de cette association est exprimée par le coefficient de corrélation.
Différents types de coefficients de corrélation sont fréquemment utilisés dans les études
épidémiologiques. Ils ont tous une échelle de valeurs située entre –1 (corrélation négative
parfaite) et +1 (corrélation positive parfaite). Le 0 indique l'absence de corrélation.
r=
∑ ( x − x) ( y − y )
[∑ ( x − x) ][∑ ( y − y)
2 2
]
Le diagramme de dispersion dans l'exemple plus haut montre une association linéaire,
positive et relativement forte entre le poids à la naissance et la durée de la grossesse.
Le coefficient de corrélation de Pearson (calculé par le logiciel Stata dans cet exemple) est
de + 0,74.
Un diagramme en boite peut être utilisé pour la représentation graphique. Dans ce cas, la
dispersion et les mesures de la tendance centrale sont comparées pour chaque catégorie de
la variable qualitative.
4000
2000
0
Garçons Filles
Percentiles Percentiles
25% 2900 25% 2800
50% 3290 50% 3120
75% 3610 75% 3400
Moyenne 3211,279 Moyenne 3044,127
Écart Type 665,9798 Écart Type 628,6603
Le diagramme indique une faible association entre sexe et poids de naissance: en moyenne,
les garçons sont légèrement plus lourds que les filles à la naissance.
4000
2000
Durée de gestation
0
< 32 semaines 32-35 semaines >= 36 semaines
Les données sont disposées dans un tableau. Les proportions sont comparées et le rapport
des proportions (ou des prévalences) est calculé.
Enquête de prévalence des handicaps. Personnes handicapées, par âge et par sexe.
Province de Kandahar, Afghanistan, 1996
Catégorie Handicap
Total étudiés
(variable indépendante) (variable dépendante)
Oui Non
Enfants (< 15 ans.) 90 6.211 6.301
Hommes (>=15 ans) 143 2.705 2.848
Femmes (>=15 ans) 42 2.874 2.916
Total 275 11.790 12.065
Chaque catégorie peut être comparée aux autres en calculant un rapport des prévalences.
La prévalence des handicaps 3,6 fois plus élevée chez les hommes que chez les femmes. Il
existe une association entre le sexe et la prévalence des handicaps.
Le rapport des prévalences est de (42/143) / (3/42) = 4,1. Les handicaps liés à la guerre sont
4 fois plus fréquents chez les personnes handicapées de sexe masculin, que chez les
personnes handicapées de sexe féminin.
L'extrapolation d'un échantillon à une population est conditionnée par deux questions
essentielles : quelle est la précision et quelle est la validité des résultats obtenus sur
l'échantillon? L'histoire du chasseur de lion peut expliquer ceci. Un mauvais chasseur est
celui qui rate à cause d'un mauvais tir (manque de précision). Cependant, un tir très précis
ne sera pas non plus satisfaisant s'il vise une mauvaise cible, tuant une gazelle à la place
d'un lion. Dans ce chapitre, on va étudier les règles de l'inférence statistique. Cela nous
donnera une idée de la précision de notre estimation sur la population. Le chapitre suivant,
traitant de la validité, nous aidera à apprécier si nous avons effectivement mesuré ce que
nous voulions mesurer, le "lion et non la gazelle".
A. Remarques préliminaires
Deux procédures peuvent être suivies dans l'inférence statistique: le test statistique et
l'intervalle de confiance (I.C.). Les deux seront abordées dans ce cours parce qu'il est
important de comprendre la logique qui les sous-tend. Cependant, on vous recommande
d'utiliser l'I.C. dans la mesure du possible.
En étudiant ce chapitre, vous devez toujours garder à l'esprit la distinction entre l'échantillon
et la population (dont l'échantillon a été tiré). Les statisticiens ont l'habitude d'utiliser le terme
général "statistique" pour toutes les mesures calculées sur l'échantillon (comme la moyenne
la médiane, une proportion). Lorsqu'ils parlent d'une moyenne, d'une médiane ou d'une
proportion au niveau d'une population, ils utilisent le terme de "paramètre". Donc nous nous
occuperons de statistiques d'échantillons et de paramètres de population.
Nous attirons votre attention sur les annotations utilisées qui peuvent être différentes de
celles que l'on trouve dans certains livres. On utilisera les lettres grecques pour les
paramètres de la population (par exemple π (lire PI) pour les proportions dans la population)
et les lettres latines pour les statistiques des échantillons (par exemple "p" pour les
proportions dans les échantillons).
B. Symboles utilisés
Lorsqu'on mesure la taille d'un groupe d'adultes suffisamment grand, on peut voir qu'elle est
distribuée d'une manière particulière. Certains sont très petits, d'autres sont grands et
beaucoup de personnes sont proches d'une hauteur moyenne par exemple de 1m65. Si on
représente graphiquement les valeurs de la taille, on va observer une courbe typique en
forme de cloche connue sous le nom de "courbe de distribution normale » ou encore courbe
de Gauss. Cette courbe est très commune en biologie. La figure 1, par exemple, montre la
distribution des poids de naissance des bébés de sexe féminin en Belgique.
μ = 3300 g ; σ = 500g
Exemple
La moyenne du poids de naissance des filles en Belgique est de 3.300 g et l'ET est de
500 g. Comme le poids de naissance est distribué normalement, on sait que 95 % des
poids sont situés entre 2.300 et 4.300 g. (3.300 +/- 2 ET)
Quel pourcentage des filles a un poids de naissance supérieur à 3.800 g?
Les statisticiens ont conçu une plus simple version de la courbe normale, la courbe normale
standardisée, montrée figure 2. Il s'agit d'une distribution normale dont la moyenne = 0 et
l'écart type = 1. Cet ET équivaut à 1 unité que l'on appelle Ecart-réduit (ou Z-score). Il
correspond à 1 ET de la distribution originale. Dans notre exemple, un écart réduit
correspond à 500 g du poids de naissance, 2,5 écarts réduits correspondent à 1250g, etc.
Chaque point de la distribution standardisée est identifié par le nombre d'écarts réduits le
séparant de la moyenne. Comme la courbe de distribution standardisée n'a plus les
dimensions de la distribution d'origine (kg, g, litre, etc.), il est aisé de comparer plusieurs
courbes différentes.
Figure 2
L'écart réduit est une mesure de la distance séparant chaque observation de la moyenne de
la population, dans une distribution normale standardisée.
Exemple :
Dans une population ayant une taille moyenne de 1 m 65 et un écart type de 10 cm, une
personne de 2 mètres de haut est située à + 3,5 écarts réduits de la moyenne. Cette taille
est située dans l'extrémité droite de la distribution et parait plutôt extrême.
Comme pour la distribution normale, la surface sous la courbe montre la proportion des
individus situés entre deux valeurs. De ce qui a été vu plus haut, on peut déduire que 95 %
de la population sont situés entre –2 et +2 écarts réduits et que les deux tiers se trouvent
entre –1 et +1 écarts réduits. Les statisticiens ont calculé des tables très détaillées, qui nous
donnent, pour toutes les valeurs possibles de l'écart réduit, les proportions correspondantes
(probabilité) d'observation au-dessus et en dessous de cette valeur (voir tableau 1). Par
exemple, un écart réduit de 2,00 correspond dans la table 1 à la probabilité de 0,023. Ceci
signifie que 2,3% de la population a un écart réduit ≥ 2,00.
Notez qu'il y a deux sortes de tables: les tables bilatérales montrant la probabilité d'être
"aussi bien à l'extrême gauche qu'à l'extrême droite" et les tables unilatérales qui donnent la
probabilité d'être à une seule des deux extrémités (pas inclus dans ce syllabus).
Quel est le lien entre la distribution normale et la distribution normale standardisée? Pour
aller de la première à la seconde, il faut transformer chaque valeur de la première distribution
en une valeur standardisée. On calcule alors l'écart réduit (z). La formule est simple:
x −μ
z= i
σ
xi = toute observation de la distribution originale
μ = la moyenne de la population
σ = l'écart type de la population.
Exemple
1. Quelle est en Belgique la proportion des bébés filles qui ont un poids à la naissance
inférieur à 2.300 g?
2. Quelle est la probabilité de voir naître en Belgique une petite fille de plus de 3.800 g ?
1. La distribution d’échantillonnage
Maintenant que vous avez compris toutes les caractéristiques de la distribution normale,
nous allons revenir à notre problème original : l'inférence statistique. Comment tirer des
conclusions sur une population si nous avons seulement l'échantillon à notre disposition?
Imaginons que l'on veut étudier le poids des hommes belges en considérant un échantillon
de 50 individus. Essayons cette expérience. Supposons que l'on tire tous les échantillons
possibles de 50 hommes de cette population, qu'obtiendra-t-on comme résultat? Pour
chaque échantillon, on calcule le poids moyen. Ceux-ci seront différents d'un échantillon à
l'autre. Le premier échantillon a, par exemple, un poids moyen de 84 kg, le second de 70 kg,
le troisième de 62 kg, etc. La même chose se passe lorsqu'on calcule les écarts types de ces
échantillons: 12 kg, 7 kg, 9 kg, etc. On va se demander lesquels parmi les échantillons
donnent une idée correcte des paramètres dans la population.
Lorsqu'on tire beaucoup d'échantillons de même taille dans une population (avec remise
dans la population de tout individu tiré avant d'effectuer le tirage de l'échantillon suivant), on
verra que les résultats obtenus (moyenne, écart type, médiane, quartiles) sont différents d'un
échantillon à l'autre. Quelle est la mesure de cette différence? La variation trouvée va
dépendre à la fois de la variabilité du phénomène que l'on étudie ainsi que de la taille de
l'échantillon.
Mais il semble que la distribution des résultats de ces échantillons présente une forme
familière. Si on dessine une distribution de fréquence de toutes les moyennes de poids
provenant des milliers d'échantillons tirés, on obtient la courbe familière en forme de cloche,
la distribution normale.
Une des lois fondamentales en statistique est que, même si les paramètres que l'on
étudie dans une population ne sont pas normalement distribués, les moyennes de
tous les échantillons possibles que l'on peut tirer de cette population seront
normalement distribuées (à la condition que n, la taille de l'échantillon, soit supérieure
à 30). Cette distribution théorique est appelée "la distribution d'échantillonnage".
Si la distribution de tous les résultats des échantillons est normale, quels seront la moyenne
et l'écart type de cette distribution?
Si la taille (n) de l'échantillon augmente, l'erreur standard diminue et notre estimation sera
plus précise. Si la variabilité dans la population augmente (σ), l'erreur standard augmente
aussi et une estimation sera moins précise. L'erreur standard est calculée en divisant l'écart
type de la population par la racine carrée de la taille de l'échantillon. (Dans notre exemple,
l'ET du poids des hommes belges /√ 50)
L'écart type σ mesure la dispersion des valeurs individuelles (xi) dans la population, tandis
que l'erreur standard σ/√n mesure la dispersion de moyennes d'échantillons (mi).
Figure 3
Cette loi statistique va nous aider à déterminer la probabilité d'observer une statistique
particulière d'échantillon pour un paramètre de population donné. C'est justement ce que l'on
recherche, puisqu'on ne peut pas se permettre le luxe de tirer tous les échantillons possibles
dans une population. On travaille avec le résultat d'un seul échantillon. En le "standardisant",
on peut jeter un coup d'œil à sa position sur la courbe normale standardisée, et voir à quel
point il est probable ou improbable, étant donnée la moyenne de la population. Il faut
transformer le résultat de l'échantillon pour obtenir son écart réduit correspondant.
m -μ
Z=
i
σ
n
Dernière mise à jour : 07-08-2009 (NN) 103/158
Exemple.
Dans un échantillon de 38 enfants hospitalisés, la durée moyenne de séjour est de 12
jours. La durée moyenne de séjour en pédiatrie est de 7 jours avec un ET de 1 jour.
Quel est l'écart réduit correspondant à cet échantillon de 38 enfants?
12 − 7
Z= = 30
1 / 38
p -π
Z=
π (1 − π )
n
En calculant l'écart réduit des statistiques d'échantillons, on peut localiser le résultat de cet
échantillon très précisément à l'intérieur de la distribution d'échantillonnage. Les écarts
réduits de faible valeur signifient que le résultat de l'échantillon se trouve près de la moyenne
de la distribution d'échantillonnage, et donc également près de la moyenne de la population,
μ. De hautes valeurs d'écarts réduits signifient que le résultat de l'échantillon se trouve aux
extrémités de la distribution d'échantillonnage, et donc très loin de la moyenne de la
population. Comme dans n'importe quelle distribution normale, 67 % de tous les résultats
possibles d'échantillons sont situés entre –1 et +1 écart réduit de la moyenne. De même,
95% de tous les résultats possibles d'échantillons se trouvent entre –2 et +2 écarts réduits
de la moyenne μ de la population. En dessous de –2 écarts réduits on va trouver 2,5 % de
tous les résultats possibles d'échantillons et au-dessus de +2 écarts réduits, on va en trouver
aussi 2,5%.
De cette façon, on est capable de donner, pour tout résultat d'échantillon, la probabilité
d'observer ce résultat en fonction d'une certaine moyenne de la population. On va utiliser la
table de l'écart réduit (table 1) parce qu'elle est plus précise que simplement jeter un coup
d'œil à la courbe en forme de cloche.
Exemple Un échantillon aléatoire simple de 100 écoliers vivants près d'une aire
industrielle a montré un niveau moyen de plomb dans le sang de 95 microgrammes/litre.
La concentration du plomb sanguin dans la population générale a une distribution
normale avec une moyenne de 90 et un écart type de 10. Est-ce que les enfants de cette
école sont intoxiqués?
95 − 90 5
Z= = = +5
10 / 100 1
Un test d'inférence statistique suit toujours la même procédure de base. En voici les étapes:
Lorsque quelqu'un doit comparaître devant la justice, il a toujours droit au bénéfice du doute.
Il est présumé innocent jusqu'à ce qu'il soit déclaré coupable. En réalité, cette personne est
soit coupable, soit innocente.
Sans connaître la vérité, le juge doit donner son verdict à la fin du procès. Il a seulement
deux options et elles sont mutuellement exclusives, coupable ou non coupable. Comment le
juge peut-il arriver à un verdict de culpabilité? Si et seulement si il a suffisamment
d'arguments pour douter de l'innocence de la personne. Si non, le juge continuera à douter
et déclarera l'accusé non coupable. Si, cependant, il a assez d'arguments, il rejettera
l'hypothèse d'innocence et déclarera la personne coupable. Le risque d'erreurs judiciaires est
double parce que:
- Le juge peut penser qu'il a assez d'arguments pour douter très sérieusement de
l'innocence et, en conséquence, il déclare l'accusé coupable alors qu'il/elle est innocent.
- Le juge peut considérer la preuve comme insuffisante et déclare l'accusé non coupable
alors qu'il/elle est réellement coupable.
La logique d'un test statistique est semblable à la logique d'une prise de décision judiciaire.
Le chercheur formule une hypothèse, semblable à la présomption d'innocence du tribunal, et
il cherchera alors à la réfuter. Son hypothèse de travail est appelée l'hypothèse nulle, Ho. Au
tribunal, on présume que l'accusé est innocent tant qu'il n'y a pas assez de preuve de
culpabilité.
De la même manière on suppose, en réalisant un test statistique, que l'Ho prévaut, à moins
que l'on réunisse suffisamment de preuves pour la rejeter. En général l'énoncé de l'Ho
suppose que la différence que l'on observe entre une statistique d'un échantillon et un
paramètre d'une population est entièrement due au hasard. En retournant l'énoncé, on
pourrait dire que la différence observée est due à la variabilité dans la distribution
d'échantillonnage. L'échantillon vient tout juste d'une extrémité de la distribution, mais il a
bien été tiré de cette population particulière avec cette moyenne particulière.
Les objectifs de toutes les réflexions qui vont suivre seront de vérifier si on a assez
d'arguments pour rejeter l'hypothèse Ho. Si oui, on va prononcer le verdict de différence,
c'est à dire rejeter Ho et accepter l'autre hypothèse, Ha.
Dans l'exemple, si on suspecte que la malnutrition est plus élevée à Antigua que dans la
moyenne nationale, l'hypothèse de travail sera: "il n'y a pas de différence" au niveau de la
population. "Dans la population d'Antigua, le niveau de malnutrition est identique à celui de la
population nationale". Notre hypothèse nulle peut aussi être écrite comme ceci:
Suivant l'Ho, il n'y a pas de différence entre la proportion réelle de la malnutrition parmi les
enfants d'Antigua et les enfants du reste du pays malgré la différence observée entre
l'échantillon pris à Antigua (34%) et les chiffres nationaux (20%). Il faut maintenant
déterminer si le résultat de 34% obtenu à partir d'un échantillon est compatible avec le π de
l'hypothèse nulle. Cela se fait par un test. Si ce test ne parvient pas à fournir assez de
preuves du contraire, on gardera l'Ho. Si le test offre assez d'arguments, on rejettera
l'hypothèse nulle et acceptera l'hypothèse alternative (Ha).
REMARQUE: L'Ha est formulée ici de façon bilatérale ce qui veut dire que la π
Antigua peut être supérieure ou inférieure à la π nationale. Dans des cas
exceptionnels, une hypothèse alternative peut être formulée d’une façon
unilatérale, en optant pour Ha : πAntigua > πnationale ou πAntigua > 20%, mais ceci est
à éviter. Ce n’est pas de bonne pratique statistique de postuler que l’erreur
aléatoire de statistique d’échantillonnage ne soit possible d’une coté du vrai
paramètre de population.
L’étape suivante est de décider entre H0 et Ha. Avant de faire ça, il faut apprendre certaines
choses sur les erreurs. En statistique, il n’existe pas de décision « parfaite », c.à.d. juste,
100% garantie ; il y aura toujours des risques d’erreurs α et β à en tenir compte.
Au tribunal, les juges peuvent commettre deux types d'erreurs judiciaires : condamner
l’innocent, et innocenter le coupable. Dans l'inférence statistique, c'est la même chose. Dans
certains cas, on conclut à tort qu'il y a une différence avec le niveau de la population, et on
commet une erreurα. On a rejeté l'hypothèse nulle alors que c'était la bonne affirmation.
Exemple
Si le chercheur à Antigua conclut qu'il y a une différence entre les enfants d'Antigua et la
population nationale, alors qu'il n'y a pas de différence, il commet une erreur α.
L'erreur β est faite quand on ne rejette pas l'hypothèse nulle par manque d'arguments
("puissance"), alors qu'en réalité, cette hypothèse nulle est fausse et il existe une différence
avec le niveau de la population.
Exemple: Si le chercheur à Antigua conclut qu'il n'y a pas de différence entre les
populations alors qu'en réalité il y en a une, il commet une erreur β.
Le test rejette Ho
Erreur α ou erreur de Décision correcte
(p<0.05) type I
Le test manque de
Décision correcte Erreur β ou erreur de
rejeter Ho
type II
(p>=0.05)
Le statisticien doit décider au préalable de la taille de l'erreur α qu'il est prêt à accepter. Ceci
constitue le seuil pour la décision. On l'appelle l'α critique. Par convention, les statisticiens
prennent très souvent un seuil de 5% parce qu'ils savent qu'à chaque fois qu'ils rejettent
l'hypothèse nulle, ils prennent un risque de 5% (dans ce cas Ho est vrai mais ils la rejettent).
Il y a cependant des circonstances dans lesquelles on est plus exigeant et on met l'α critique
à des valeurs plus basses telles que 1%.
L’erreur β devient très importante dans des études lorsqu’on compare deux échantillons,
comme dans les essais cliniques qui comparent la proportion de guérison dans deux
groupes de patients, l’un traité avec un médicament expérimental, l’autre avec le courant.
Voire annexe 1 pour en savoir plus sur l’erreur β et le concept de pouvoir.
On présentera plus tard un tableau qui vous aidera à choisir le test correct (voir chapitre IV).
Vous remarquerez que l'on vous oriente vers l'utilisation de l'intervalle de confiance (IC)
plutôt que le test statistique. Cependant, vous avez déjà appris un test, le test de l'écart
réduit (Z-test). Ce test est utilisé pour extrapoler la moyenne d'un échantillon (d'une taille
minimum de 30) vers la population d'origine.
m - μ
Z =
σ / n
Exemple: Notre chercheur à Antigua ne peut pas utiliser la même formule parce que le
paramètre de la population qu'il étudie est une proportion et non une moyenne. Dans ce
cas, il doit utiliser la formule de l'écart réduit vue plus haut.
p - π
Z =
π (1 - π) / n
34 - 20
= + 7,4 Ecarts-réduits
20 ∗ 80 / 450
Essayez de vérifier le test de l'écart réduit qui a été calculé pour l'exemple suivant:
19 4 9 3 12 7 43 25 8 6 2 5 17 21 3 8 27 5 3 6 12 10 18 4 31 8 14 6 5 5 31
3 8 12 7 11 10 20 8 6 2 14 7 5 et 11 jours.
Le test de l'écart réduit vaut 1,6 pour une Ho qu'il n'y a pas de différence entre la durée
d'hospitalisation cette année en comparaison des années précédentes.
La signification statistique d'un test s'exprime par la valeur-p (p-value). La valeur-p donne la
probabilité d'observer une différence entre la statistique de l'échantillon et le paramètre de la
population, si Ho est vraie. La valeur p a des valeurs comprises entre 0 et 1 et peut aussi
être exprimée en pourcentage.
Comment déterminer la valeur p? Les statisticiens utilisent des tables qui indiquent la
probabilité pour une valeur de test donnée. Notez qu'il y a des tables bilatérales et
unilatérales. Une hypothèse bilatérale correspond à une table bilatérale et une hypothèse
unilatérale correspond à une table unilatérale.
Actuellement, des logiciels de statistique affichent les valeurs p directement liées au résultat
du test. Cependant, on ne devrait jamais oublier la signification de "p"! Cette valeur p nous
dit quelque chose au sujet de la probabilité de Ho. Elle donne la probabilité d'observer la
valeur dans l'échantillon statistique, si Ho est vraie.
Si p est petit, cela signifie que des différences au moins aussi importantes que celles
observées ne devraient pas être attribuées à la chance (quoique cette différence puisse être
due à la chance pour une petite proportion des échantillons possibles). En conséquence, on
peut considérer improbable, quoique théoriquement possible, que les résultats observés
soient dus à la chance (variation aléatoire).
Si la valeur-p est très basse (par exemple p < 0,001), Ho n'est pas plausible et Ha devient
l'hypothèse la plus crédible. Si p est élevé (par exemple p = 0,50), il y a alors trop peu
d'arguments pour rejeter Ho, sans que l'on soit capable de prouver formellement que Ho est
vraie.
Cependant, où est le seuil? Quand a-t-on suffisamment d'arguments pour rejeter l'Ho? Nous
avons déjà déterminé cette limite! Dans le chapitre 3, on a vu que l'on a choisi une valeur
critique pour α de 5% comme la limite de l'erreur que l'on peut accepter. Maintenant, si le
test statistique produit une valeur-p en dessous du seuil critique (p < 5%), on rejettera Ho, en
reconnaissant une erreur α de 5%.
Dans le cas ou p > = 5%, nous n'avons pas assez d'arguments pour rejeter Ho.
Exemple 1: Si La valeur p < 0,001, on peut en conclure qu'il y a assez d'arguments
pour rejeter l'Ho. Le niveau de malnutrition dans la population d'Antigua est supérieur
au niveau national (α de 5%). On dit souvent que la différence est statistiquement
significative.
Une fois l'échantillon tiré, Il peut servir à estimer les caractéristiques de la population dont il
est issu. Si l'on observe la courbe de distribution d'échantillonnage de la figure 3, il faut être
conscient que la statistique de l'échantillon peut provenir de n'importe quel point de l'axe
horizontal mais qu'il est plus probable qu'elle soit située plus près du centre que des
extrémités. Dans 95 cas sur 100 (ou 95% de confiance), cette statistique est située à une
distance inférieure à 2 écarts réduits du paramètre µ de la population. En d'autres termes, si
beaucoup d'échantillons de la même dimension sont tirés d'une population et si l'on construit
des intervalles autour des résultats de l'échantillon de cette manière:
95 de ces intervalles sur 100 vont contenir le paramètre de la population. Cet intervalle est
appelé l'intervalle de confiance (IC) à 95%. En conséquence, on peut imaginer un intervalle
autour de n'importe quelle statistique d'un échantillon, qui contienne, avec une chance de
95%, le paramètre de la population. Cette probabilité de 95% est appelée le niveau de
confiance (on peut être plus exigeant et construire un IC de 99%).
Supposons que la population ait une distribution normale avec un écart-type σ, les formules
donnant les limites de l'intervalle de confiance à 95% autour de la moyenne (m) sont:
95% I.C.:
limite inférieure: m – 1,96 σ/√n
1. la taille de l'échantillon: plus celui-ci est grand, plus étroit est l'IC
2. la dispersion du phénomène étudié: plus elle est grande, plus large est l'IC
3. le niveau de confiance désiré: plus il est élevé, plus large est l'IC.
Quels sont les avantages des IC par rapport aux tests statistiques?
1. Ils donnent une idée de toutes les valeurs probables pour les paramètres de la
population et, par là, contiennent beaucoup plus d'informations que la simple valeur-p
2. Ils donnent immédiatement une impression de la précision de l'estimation. En tant que
tels, ils permettent une appréciation qualitative de la puissance statistique possible (ou
du manque de puissance). De très larges IC comportent un haut risque de faire une
erreur β.
1 échantillon 2 échantillons
chevauchent?
Proportion
(pq/n) χ2 = Σ{(0-E)2/E}
IC à 95%: p ± 1,96
(95% IC Risque Relatif (RR))
(95% IC Différence des
risques (DR))
Taux χ² pour les taux
n °de cas
IC à 95% = taux ± 1,96
n °de pa (IC Rapport des taux, IC
Différence des taux)
Les formules des IC sont données pour un degré de confiance de 95% (à titre d'exemple)
Il n'est pas obligatoire de connaître ce qui se trouve entre parenthèses (italique). C'est
réservé à ceux qui aiment vraiment l'inférence.
1. Une moyenne
Quand on veut faire une extrapolation d'une moyenne d'un échantillon à la population, il est
conseillé de calculer l'intervalle de confiance à 95% en utilisant la formule suivante:
IC à 95% : m ± 1,96 σ / n
Où:
- m est la moyenne de l'échantillon
- σ la déviation standard de la population mère, qui est en pratique souvent remplacée
par l'écart type de l'échantillon
- n la taille de l'échantillon
En conclusion: On sait, avec 95% de certitude que le contenu moyen du sirop est situé entre
267,9 et 238,1 µU/ml de substance active. Ceci constitue un problème puisque la norme
d'efficacité est de minimum 300 µU/ml de substance active. On ne peut donc pas utiliser ce
lot de sirop.
2. Une médiane
Si l'on veut faire une extrapolation de la médiane d'un échantillon à la population mère, il est
recommandé de construire un intervalle de confiance à 95% en utilisant la formule suivante.
~
IC à 95% : X ± 1,58 (q 3 - q1 )/ n
= 23 ± 1,16
Conclusion: On peut conclure avec une certitude de 95% que la longueur médiane de la
variété "N.Z. 97" est située entre 21,84 et 24,16 mm. On peut rejeter l'hypothèse nulle de
non-différence entre la taille de la NZ97 et la "véritable" moule de Zélande. Ces 46 moules
ne peuvent pas avoir le label NZ97. Quelqu'un a triché avec l'étiquetage.
Si l'on veut réaliser une extrapolation à partir d'une proportion d'un échantillon jusqu'à la
population mère, on recommande de construire un intervalle de confiance à 95% en utilisant
la formule suivante:
Condition d'application: n * p ≥ 5 et n * q ≥ 5
Conclusion: La couverture de la rougeole dans le district peut être estimée entre 27,6 et
40,4%, avec une certitude de 95%. Dès lors, on peut dire que l'objectif n'a pas été atteint.
4. Un taux
Si l'on veut faire une extrapolation d'un taux provenant d'un échantillon vers la population
mère, on recommande de construire un intervalle de confiance à 95% en utilisant la formule
suivante:
Exemple: 150 décès sont apparus dans un groupe de 20.000 personnes suivies pendant
1 an.
150
I.C. à 95% : 0,0075 / pa ± 1,96 ∗
20.000 pa
Conclusion: On peut conclure avec une certitude de 95% que les vrais taux dans la
population se situent entre 0,0063 et 0,0087 décès par personne année.
Dans le cas où vous devriez comparer deux moyennes d'échantillon, on vous réfère aux
manuels statistiques. Vous allez trouver la formule du test de Student (t-test). Dans ce cours,
on ne vous demande pas d'être capable de calculer ce test sans aide. Par contre, on vous
demande de savoir interpréter les résultats d'un t-test que vous pourriez rencontrer dans une
publication ou sur votre ordinateur.
D'un autre côté, comparer deux IC n'est pas une solution et il vaut mieux ne pas l'utiliser car
cela manque de "puissance". Pour de "gros échantillons", il vaut mieux utiliser à la place la
formule suivante de l'IC autour de la différence entre les moyennes d'échantillons:
~ (q - q 1 )
I.C. à 95% : X ± 1,58 3
n
Conclusion: Nous pouvons conclure avec une certitude de 95% que la médiane de l’IMC de
la population des étudiants en médecine n'a pas changée entre 1976 et 1996.
a) Le χ² de Pearson
Ho : π a = πb
χ2 = Σ{(0-A)2/A}
Exemple: Le district de Minitel est comparé au district de Porvenir, qui a aussi réalisé
une enquête de couverture vaccinale. Alors que l'échantillon de Minitel montrait 71/210
enfants vaccinés (34%), celui de Porvenir avait 288/480 enfants vaccinés (60%). Est-ce
que les couvertures sont différentes?
PROCÉDURE
1°. Formulation de l'hypothèse nulle: Il n'y a pas de différence entre les couvertures
vaccinales de la population de ces deux districts.
Minitel Porvenir
Vaccinés 71 288 359
Non-vaccinés 139 192 331
210 480 690
Minitel Porvenir
Vaccinés Attendus 359*210/690 = 109 359*480/690 = 250 359
(7 1 − 1 0 9 ) 2 (1 3 9 − 1 0 1)2 (2 8 8 − 2 5 0 ) 2 (1 9 2 − 2 3 0)2
χ2 = + + + = 4 0,1 5
109 101 250 230
d.d.l.= (2 – 1 ) * (2 – 1) = 1
Dans la table de χ², on peut lire sur la ligne "d.d.l. = 1", que la probabilité d'observer un χ²
égal ou supérieur à 10,827 est seulement de 0,001. Un χ² de 40,1 est encore plus à droite
sur la courbe, ce qui correspond à des probabilités encore plus basses.
Conclusion: On rejette l'hypothèse nulle car il existe une différence significative entre les
couvertures vaccinales des populations des deux districts.
Il existe une forme plus concise de χ² pour des tableaux de contingences à 4 entrées. Le
résultat est le même que celui obtenu avec le χ² de Pearson. De petites différences peuvent
apparaître à cause des arrondis.
Pour:
Maladie
+ -
Exposition + a c a+c
Exposition - b d b+d
a+b c+d T
(a∗ d − b∗ c)2 ∗ T
(1) χ 2 =
(a + b)(c + d )(a + c)( b + d )
[a − (a + b)(a + c) / T]2 ∗ T 2 (T − 1)
(2) χ 2 =
(a + b)(c + d )(a + c)( b + d )
Dans le but de comparer deux taux, une formule de χ² avec un ddl semblable à la formule (2)
ci dessus peut être utilisée. Elle sera interprétée de la même manière.
Pour:
Exposition
+ -
Cas a b (a+b)
Pa paa pab paT
[a − (a + b ) * pa a paT ] * [ paT ]
2 2
χ =2
pa a * pa b * (a + b)
Autour d'une différence de risque (DR) entre deux proportions pa et pb, l'IC de 95% est
calculé de la manière suivante:
p a q a p b qb
I.C. à 95% : DR ± 1,96 * +
na nb
Exemple: Soit un échantillon de 15 étudiants du PMSS dont 30% disent qu'ils ont
souffert de gastro-entérite. On le compare à un autre échantillon de 16 étudiants du
cours national dont 50% disent avoir souffert de la même maladie. La DR est de 20%
entre les échantillons. Pouvons-nous conclure que les étudiants du cours national sont
plus à risque de diarrhée que ceux du PMSS?
Interprétation : On peut être sûr à 95% que la différence réelle est située quelque part entre -
14% et 54%. Comme cet intervalle inclus 0%, nous ne pouvons pas conclure que les
étudiants du cours national sont plus à risque que ceux du CIPS. Il faut noter la petite taille
de l'échantillon et le large intervalle de confiance!
n°casa n°casb
I.C. à 95% : DT ± 1,96 * +
(n° paa ) 2
(n° pab ) 2
PMSS C.NAT.
+ +
Diarrhée oui 5 8 13
Diarrhée non 10 8 18
15 16 31
χ² = 0.88
RR= 1.67
CI à 95% limite inférieure: 1,67 exp (1- 1,96/ √0,88)= 1,67 exp -1,132 = 0,56
CI à 95% limite supérieure: 1,67 exp (1 + 1,96/ √0,88)= 1,67 exp 3,132 = 4,98
On peut être sûr à 95% que le RR réel est situé quelque part entre 0,56 et 4,98. On ne
peut pas conclure que les étudiants du cours national souffrent plus de diarrhée que ceux
du PMSS.
Ces méthodes sont particulièrement utiles quand il y a une non-normalité évidente dans une
base de données qui ne peut pas être corrigée par une transformation appropriée.
Les méthodes non paramétriques sont faciles à utiliser à condition que les données ne
concernent pas plus de 50 cas. Elles ont deux inconvénients importants. Premièrement, elles
font surtout un test de signifiance et, malgré qu’il est possible de dériver des intervalles de
confiance, elles sont compliquées et difficiles dans l’exécution. Deuxièmement elles sont
moins facilement extensibles à des situations plus complexes.
La puissance est la possibilité d’un test statistique de détecter une différence d’une certaine
grandeur. La puissance est définie par 1- β. Pour comprendre ce concept important de
‘puissance’, nous devons regarder les conséquences d’un test statistique comparant les
statistiques de deux échantillons, par exemple la moyenne d’un groupe expérimental avec la
moyenne d’un groupe de contrôle. Plus la différence entre le groupe expérimental et le
groupe de contrôle est grande, moins de chevauchement il y aura entre les distributions
d’échantillonnage des deux moyennes d’échantillons, et plus de puissance il y aura pour
détecter la différence. Plus le chevauchement est grand, plus la puissance est faible. Il sera
facile de détecter des grandes différences et il sera difficile de détecter les petites
différences.
Pour démontrer ceci plus en profondeur, nous montrons deux situations différentes – la
première où il n’y a pas de chevauchement entre les distributions d’échantillonnage du
groupe de contrôle et du groupe expérimental, et la seconde où les distributions
d’échantillonnage des moyennes des deux groupes présentent un chevauchement.
Observez la ligne verticale qui correspond à un niveau alpha de 0,05 et qui découpe 5% de
la queue de la distribution de contrôle. Dans ce cas-ci, ce n’est pas très pertinent puisqu’il n’y
a pas de chevauchement entre les deux courbes des distributions d’échantillon, donc
n’importe quelle moyenne d’échantillon tiré de la distribution du groupe expérimental sera
toujours significativement différente du groupe de contrôle. Nous ne rejetterons jamais par
erreur Ho, donc il n’y a pas de risque de faire une erreur α ou une erreur de Type I. De
même, il ne devrait pas y avoir des erreurs de Type II ou β où nous accepterions une
hypothèse nulle fausse, encore parce que les deux courbes sont distinctes. Il ne devrait pas
A. Principes de l'inférence
Dans les études épidémiologiques, on étudie d'habitude un groupe limité de gens. Ce que
l'on cherche à faire ensuite, c'est d'extrapoler les résultats obtenus à la population générale.
Population externe
Validité
externe
Population cible
Validité
interne
Population mère
Inférence
statistique
Population étudiée
( = échantillon)
B. Erreur aléatoire
Une erreur aléatoire résulte d’un manque de précision, alors qu'un biais résulte d’un
manque de validité d'une mesure.
Une erreur aléatoire (random error) est la divergence, due au hasard, des estimations faites
sur un échantillon, par rapport aux valeurs réelles de la population dont cet échantillon est
issu. La conséquence est un manque de précision dans les estimations.
La principale composante de l'erreur aléatoire dans les études épidémiologiques est due au
processus de sélection des sujets d'étude. Ce processus est désigné sous le nom
d'échantillonnage. La variation aléatoire l'accompagnant s'appelle l'erreur d'échantillonnage.
Elle doit être réduite à un niveau acceptable dans les limites imposées par des ressources
limitées.
Un chercheur peut réduire l'erreur d'échantillonnage (et les probabilités d’erreurs de type α et
β ) de différentes manières (voir plus loin pour les détails):
Pour chaque type de plan d'étude, des formules standard et des tables existent pour calculer
la taille minimum requise de l'échantillon nécessaire au test de l’hypothèse de recherche
avec des probabilités acceptables d'erreurs de type α et β.
Une étude a une validité interne si ses résultats peuvent être extrapolés à partir du groupe
étudié à la population cible. Cela implique qu'aucune erreur systématique n'a été faite
pendant la conception, l'exécution ou l'analyse et l'interprétation de l'étude.
Dans une étude idéale, la population cible doit correspondre autant que possible à la
population mère. La validité est complètement assurée lorsque θ° = θ
Dans ce cas, θ° est un estimateur correct de θ et les conclusions de l'étude sont valides.
Dans le cas contraire on parlera de biais.
Un biais peut être défini comme une erreur systématique dans une étude épidémiologique. Il
provient de l'estimation incorrecte d’un paramètre ou d'une association entre exposition et
risque de la maladie, en dehors des erreurs aléatoires.
- Il peut provenir de la sélection des sujets inclus dans l'étude (biais de sélection);
- Il peut être introduit au moment où on recueille des informations sur les sujets inclus
dans l'étude (biais d'information);
- Il est potentiellement présent dans les études d'observation, à cause du mélange des
effets des différents facteurs de risque (confusion).
Les biais de sélection et d'information sont introduits par ceux qui sont impliqués dans
l'étude, tandis que la confusion est un aspect de la réalité.
D. Validité externe
Une étude a une validité externe (on dit qu'elle est généralisable) si son résultat peut être
extrapolé à une autre population. Celle-ci peut être assez différente de la population cible par
un certain nombre de caractéristiques (temps, lieu, personnes).
La validité interne est une condition préalable à la validité externe. Cependant le processus
de généralisation est par ailleurs différent des soucis de validité interne et de conception de
l'étude. La généralisation exige une connaissance approfondie et un bon jugement tant des
phénomènes de santé étudiés que des caractéristiques de la population externe elle-même.
Si l'on utilise des critères différents pour sélectionner les sujets de l'étude, le résultat risque
d'être biaisé parce que les groupes (cas et témoins, exposés et non-exposés) ne sont pas
comparables. De cette façon, la véritable association entre l'exposition et la maladie ne sera
pas correctement estimée à partir des données collectées dans l'étude.
Si, dans une étude de cas témoins, la sélection des cas et des témoins est définie à partir de
critères qui peuvent avoir des liens avec les facteurs d'exposition, des biais vont apparaître.
De la même manière, dans une étude de cohorte, si la détermination du choix des individus
exposés ou non-exposés est liée à leur risque de présenter le phénomène de santé que l’on
étudie, des biais de sélection peuvent apparaître.
Des biais de sélection peuvent apparaître dans tout plan d'étude avant, au moment ou après
l'admission dans l'étude des groupes à comparer chaque fois qu'une différence existe au
niveau de leur procédure de sélection.
Par contre, dans une étude expérimentale, ces différences seront introduites seulement
après l'enrôlement des sujets à cause d'une perte sélective dans le suivi.
Dans une étude longitudinale prospective, il y a un peu plus de possibilités de voir apparaître
des biais de sélection au départ de l'étude. Cependant, les biais vont être introduits plus
souvent après l'enrôlement à cause de pertes sélectives dans le suivi.
Dans une étude cas-témoins, le risque de biais de sélection réside en général dans le choix
des témoins.
Dans une étude transversale, une possibilité de biais peut apparaître à cause d'un
échantillonnage défectueux ou d'une survie sélective.
Des biais de sélection vont apparaître dans une étude de cas témoins sur l'étiologie du
cancer du poumon si les témoins ont été sélectionnés à partir de patients souffrant de
maladies non-malignes du système respiratoire. Le fait de fumer est une cause de bronchite
et le choix de ces témoins aurait comme effet de surestimer les habitudes tabagiques de la
population dont proviennent les cas de cancer du poumon. En conséquence, la force de
l'association entre tabagisme et cancer du poumon sera sous-estimée.
Imaginons une étude longitudinale prospective basée sur des examens réalisés dans un
centre de santé sur une base ambulatoire. Si on n'organise pas de suivi des participants qui
ne reviennent pas, des résultats biaisés peuvent être produits entre autres si des patients
exposés sont plus gravement malades. Les patients les plus malades peuvent rester au lit à
la maison ou être hospitalisés (et donc ne pas être inclus dans l’étude).
Une fois que des biais de sélection sont présents, l'analyse des données ne peut pas les
corriger.
Dans l'interprétation des résultats d'études, la présence de biais de sélection nécessite d'être
soigneusement explorée.
La direction des biais est également importante. Si une association a été détectée et que le
biais a probablement comme effet de sous estimer la force d'une association, on peut être
sûr que l'association existe. Au contraire, si les OR ou RR sont surestimés, une conclusion
valide ne peut pas être faite.
Si des erreurs sont faites lors de la collecte des informations nécessaires pour comparer les
2 (ou plus) groupes sélectionnés pour l'étude, les associations observées entre la maladie et
le facteur d'exposition peuvent être biaisées.
- La qualité du travail des enquêteurs par exemple s'ils recherchent plus activement un
facteur d'exposition chez les cas ou une maladie dans les groupes exposés
- L'utilisation d'outils de recherche inadaptés tels que:
- Des questionnaires inappropriés (mal formulés, mal administrés…)
- De mauvaises techniques dues à: un manque de standardisation, des
différences de sensibilité, spécificité, reproductibilité
- Les répondants, à cause de pertes de mémoire différentielles (biais de mémorisation)
- Dans les études longitudinales et expérimentales, quand l'information sur les maladies
est obtenue de façon non comparable entre les groupes exposés et non exposés.
- Dans les études de cas témoins, quand l'information sur l'exposition est obtenue de
façon non comparable entre les cas et les témoins
- Dans les études transversales, lorsque l'information sur l'exposition est obtenue de
façon non comparable pour les malades et les non malades et / ou lorsque l'information
sur l'issue de la maladie est obtenue de manière différente chez les groupes exposés et
non exposés.
Les sujets de l'étude peuvent être mal classés par rapport a leur état de santé, leur
d'exposition ou les deux à la fois. Cette classification erronée peut être aléatoire (non
différentielle) ou non aléatoire (différentielle).
Supposons que les 2/3 de la population étudiée sont constituée de buveurs, mais que
seulement 50% d'entre eux le reconnaissent. Cela amènera une classification erronée non-
différentielle de certains buveurs pris pour des non buveurs (RR de 5 à 1,7) engendrant un
biais orienté vers la valeur nulle. Si la classification erronée se produit simultanément dans
les deux directions, cela va presque complètement effacer la différence entre les groupes
(RR = 1,2).
Exemple: Dans une étude cas-témoins sur les malformations congénitales, l'information
étiologique peut être obtenue de l'interview des mamans. Celles dont les enfants ont une
malformation vont se souvenir de facteurs d'exposition tels que des maladies
infectieuses, des traumatismes, la prise de médicaments… beaucoup mieux que les
mamans d'enfants sans malformation (biais de mémorisation, ou de rappel : recall bias).
Le résultat sera une surestimation des associations possibles.
On ne peut pas contrôler les biais d'information. Il faut les empêcher par:
- La formation des enquêteurs et du personnel médical, en utilisant plus d'une source
d'information et en réalisant les mesures les plus objectives possibles
- La détermination précise de tous les critères (définition de cas, facteur d'exposition)
avant que l'étude ne démarre. La standardisation des techniques, des méthodes et des
critères de test doit d'abord être testée (étude pilote ou pré-enquête).
- La dissimulation aux enquêteurs de l'état malade ou exposé (cela dépendra du type de
plan d'étude). Dans les études expérimentales, on peut obtenir cela par des procédures
en double ou triple aveugle. Dans les études non-expérimentales, ceci est beaucoup
plus difficile à obtenir.
- La dissimulation des hypothèses de l'étude aux enquêteurs et enquêtés et en noyant les
questions dans le contexte plus général d'une étude de santé.
Dernière mise à jour : 07-08-2009 (NN) 134/158
IV. LA CONFUSION
S'il existe des facteurs de risque ne faisant pas l'objet de l'étude mais qui sont associés
simultanément à l'exposition et à la maladie, la relation brute que l'on pourrait observer entre
ceux-ci risque d'être faussée à cause du mélange (confusion) des effets.
La distorsion introduite par un facteur de confusion peut être importante. Elle peut mener à
une sur ou sous-estimation d'un effet, dépendant de la direction des associations que le
facteur confondant a avec l'exposition et la maladie. La confusion peut même changer la
direction apparente d'un effet.
La figure suivante est une illustration des relations liant l'exposition (E), le facteur de
confusion (FC) et la maladie (M).
E M
FC
Comme illustré dans la figure, un facteur de confusion est une variable qui est associée au
facteur d'exposition et, indépendamment de ceci, est un facteur de risque pour la maladie.
Donc FC est un facteur confondant. Il est donc possible que la relation entre la
consommation de café et la maladie coronarienne reflète simplement l'association connue
entre le tabagisme et la maladie cardiaque. Dès lors, fumer confond l'apparente relation
entre la consommation du café et la maladie coronarienne.
Si une variable n'est pas associée, soit avec l'exposition, soit avec la maladie, elle n'est pas
un facteur de confusion.
Fig.1 Fig.2
E D E D
FC ? Non ! FC ? Non !
Exemple:
- Si on regarde l'association entre l'alcool et le cancer du poumon, on pourrait trouver
quantité de facteurs de confusion possibles tels que le tabac, l'âge, le statut matrimonial,
l'exposition professionnelle aux radiations, le sexe, etc.
- Le statut matrimonial est un facteur associé à l'alcool (exposition) mais n'est pas un
facteur de risque du cancer du poumon (la maladie). Il n'est donc pas un facteur de
confusion. (figure 1)
- L'exposition professionnelle aux radiations pourrait être un facteur de risque du cancer
du poumon mais il n'est pas associé à l'alcool. Il n'est donc pas un facteur de confusion.
(figure 2)
Les variables qui représentent une étape intermédiaire dans le chemin qui sépare
l'exposition étudiée et la maladie ne sont pas des facteurs de confusion.
E pas FC M
Exemple: Si on accepte qu’un faible poids de naissance soit une étape intermédiaire
dans la chaine causale qui lie le tabagisme maternel à la mortalité infantile, alors, le
faible poids de naissance n'est pas un facteur de confusion de cette association.
La confusion est minimale dans les études expérimentales grâce à la randomisation. Elle est
toujours présente dans les études non-expérimentales. A la différence des autres biais, elle
n'est pas une erreur du chercheur de l'étude mais le résultat des interactions complexes
entre divers facteurs d'exposition et la maladie (multicausalité).
La confusion doit toujours être considérée comme une explication possible de chaque
association observée dans les données.
Une façon de tester si un facteur de confusion potentiel en est un réellement, c'est de voir si
le risque relatif change lorsqu'on le contrôle (Est-ce que boire de l'alcool est toujours associé
aux risques de maladie cardiaque lorsqu'on étudie des populations dont le statut tabagique
est identique ?)
Pourrait-il y avoir une confusion par le tabac? Dans le groupe étudié, il y a des fumeurs et
des non fumeurs. Fumer est une cause possible de confusion :
Maintenant, les mêmes données vont être analysées en fonction du statut tabagique
Fumeurs
Cancer du poumon
+ - Total
Non-fumeurs
Cancer du poumon
+ - Total
Le facteur de confusion est en pratique le seul biais qui peut être corrigé!
Il existe différentes procédures pour contrôler (ou minimiser) les facteurs de confusion à la
fois lors de la conception de l'étude et pendant l'analyse des données.
Dernière mise à jour : 07-08-2009 (NN) 137/158
B. Méthodes pour contrôler la confusion dans le plan d'étude
I. DEFINITION
Quelques exemples
• Les travailleurs dans une usine sont exposés à un produit chimique qui est un facteur de
risque pour le cancer du poumon. Ils fument plus que les hommes du même âge dans la
population générale.
tabagisme
âge à la ménopause
Exemple
Une étude cas-témoins sur la relation entre la prise de contraceptifs oraux et le risque
d'infarctus du myocarde, concernait 153 cas et 178 témoins (n=331).
Dans cette étude, l'âge est suspecté être un facteur de confusion, puisque le risque
d’infarctus augmente avec l’âge. Comment peut-on vérifier que l'âge est en effet un facteur
de confusion ? Il y a deux manières de procéder :
On mesure ensuite la force de l'association dans chaque strate. Dans chacune des
strates (âge < 40 ans, âge > 40 ans) le OR est plus élevé que dans l'analyse brute.
On peut donc conclure que l'âge est un facteur de confusion.
Dans l’exemple précédent, les OR qu’on a observés dans les deux strates d’âge étaient
identiques, mais dans la réalité ceci est plutôt rare. D’habitude, les RR (ou les OR) des sous-
strates diffèrent dans l’analyse stratifiée. Même si elles sont identiques au niveau de la
population, elles finiront légèrement différentes dans l’analyse, due au hasard de
l’échantillonnage.
D’une autre coté, il est tout à fait possible que les vrais RR (OR) dans les différentes sous-
strates, ne soient pas identiques au niveau de la population, et qu’ils diffèrent clairement
entre les strates. Dans ces cas il s’agit du phénomène de la modification de l'effet. On
parle de modification de l’effet si la force de l’association entre un facteur d’exposition et une
maladie diffère d’un sous-groupe à l’autre de la population étudiée, c’est-à-dire lorsque le
risque relatif ou le odds ratio diffère d’une strate à l’autre. La modification d’effet n’est pas un
biais, c’est une information utile, et il n’y a pas d’intérêt à essayer de le contrôler.
La question qui en suit, est alors comment juger si on a à faire à une variation aléatoire d’un
seul et identique RR (OR) ou par contre à des vraies différences, indicatives pour une
modification d’effet ?
Il existe un test statistique, notamment le test d’hétérogénéité, qui vérifie l’hypothèse nulle
que le RR (OR) est homogène au niveau de la population. Si ce test est significatif (p<0.05),
on rejette l’hypothèse nulle, et on conclue que la modification de l’effet est présente.
Exemple:
La valeur du RR varie d'une strate à l'autre. Par exemple le RR dans la strate 10-24 ans est
beaucoup plus petite que dans la strate < 1 an. Le test de l’hétérogénéité des RR spécifiques
aux strates donne p<0,05. On peut donc conclure que l’'âge est un facteur modificateur de
l’effet. Une mesure pondérée de la force de l'association entre le vaccin et la maladie est
inappropriée et il faut présenter les résultats propres à chaque strate.
Σ( ai * LOi) / Ti )
RRM-H =
Σ ( ci * Lli) / Ti )
Σ ( ai * di) / Ti )
ORM-H =
Σ ( bi * ci) / Ti )
Le RRM-H et le ORM-H sont des moyennes pondérées des RR (OR) de la différente strate. La
formule donne plus de poids aux strates où il y a plus de données.
([Σa i ]
− ΣE(a i) − 0 ,5 )
2
x 2
M −H =
ΣVar(a i )
IC à 95% = ORM-H
[1 ± (1,96 / X2 ]
Stratifier sur V
Calcul RR strate-spécifique pour E ↔ D,
Sont-ils homogènes ?
OBJECTIFS DU CHAPITRE 7
Après avoir étudié les notes de cours, et assisté au cours, les participants doivent être
capables de:
Quelques définitions :
Risque
Le risque est la probabilité qu’un individu développe un résultat de santé donné durant
un intervalle de temps déterminé. Par ex., le risque indique la probabilité qu’un
individu tombera malade ou décèdera endéans une certaine période. Le risque est
une probabilité sans dimensions et varie ainsi entre 0 et 1.
"Risque 0" : l'individu ne subira aucun changement spécifique de son état de santé
pendant la durée de l'observation. "Risque 1 " : l’'individu présentera certainement un
changement spécifique de son état de santé pendant la durée de l'observation.
La façon la plus simple de mesurer le risque est de diviser le nombre de nouveaux cas
durant un intervalle de temps déterminé par le nombre de sujets en bonne santé au
début de la période de suivi. Ceci correspond au concept d’incidence cumulative
comme défini en chapitre 1.
Le risque requiert une notion de temps d'observation : sans cette notion le risque n'a
pas de sens.
Exemple
Le risque de mourir avant le premier anniversaire, étant donné que l’enfant est vivant à
la naissance, s’élève toujours à 10% dans de nombreux pays ; tandis que le risque de
décès s’élève à 100% s’il est calculé sur la durée d’une vie entière.
Un facteur de risque est un attribut d’un individu qui est associé avec une probabilité
augmentée d’un résultat spécifique, comme l’occurrence d’une maladie. Cet «attribut»
peut être un aspect dans le comportement ou le style de vie de l’individu, ou peut être
une exposition environnementale, ou un caractéristique inné ou hérité, qui à la base de
l’évidence épidémiologique est connu d’être associé avec des conditions de santé.
Le terme « facteur de risque » est utilisé par différents auteurs avec des significations
différentes, selon le genre d’association qui le lie à la maladie :
Le risque absolu est le risque qu’un individu a de développer un phénomène de santé (non
désiré) durant un intervalle de temps déterminé. Les mesures de risque absolu sont des
outils importants pour déterminer les priorités et pour l’évaluation. Il y a différentes
méthodes d’estimation. La méthode la plus simple et la plus répandue est celle de
l'incidence cumulative, qui est le rapport du nombre de nouveaux cas, développés pendant
une période donnée, sur le total des personnes à risque au début de la période
d'observation.
Exemple :
Récemment une enquête épidémiologique a été faite à Aceh en Indonésie pour
déterminer le risque absolu du tétanos néonatal; une cohorte de 4836 nouveaux nés a été
suivie pendant les 28 premiers jours, 101 cas mortels de tétanos néonatal ont été
détectés. L’incidence cumulative s’élevait à 2.1%.
101
= 0,021 = 2,1%
4836
Interprétation :
Dans cette cohorte, un nouveau né court un risque de 2,1% de développer un tétanos
néonatal. Pour faire l'inférence statistique à l'ensemble de la population, on place des
intervalles de confiance autour du risque absolu.
Les mesures d’association reflètent la force du lien entre un facteur d’étude et la maladie. Ils
sont très importants à juger si ce lien est « causal » ou pas.
A. MESURES DE RAPPORT
1. Rapport de risque
Le rapport de risque est estimé dans les études de cohorte. C’est le rapport du risque de la
maladie ou du décès parmi les personnes exposées divisé par le risque parmi les personnes
non-exposés.
Exemple
38 / 1158 3,28%
Rapport de risque, RR = = =1,92
63 / 3678 1,71%
Interprétation:
Le risque de mourir du tétanos néonatal dans l'échantillon d’Aceh, est presque 2 fois plus
élevé dans le groupe des enfants dont le cordon ombilical a été coupé par une tige de
bambou, que dans le groupe dont le cordon a été coupé par des ciseaux.
Le rapport des taux est également estimé dans les études cohortes, comme le taux
d’incidence parmi les exposés divisé par le taux d’incidence parmi les non-exposés.
Exemple
Tableau 2 – Données d’une étude cohorte prospective sur l’usage
d’hormones après la ménopause et les maladies coronaires parmi des
infirmières post-ménopausées
OUI 30 54.308,7
NON 60 51.477,5
TOTAL 90 105.786,2
Données de M.J. Stampfer et al., A prospective study of post-menopausal hormones and coronary
heart disease. N Engl J Med 313 :1044, 1985.
30 / 54.308,7 PA
Le rapport des taux = = 0,5
60 / 51.477,5 PA
Une valeur de 1 indique que le taux d’incidence de la maladie dans les groupes exposés et
non-exposés est identique et qu’il n’y a donc pas d’association entre l’exposition et la
maladie.
Une valeur au-dessus de 1,0 indique un risque augmenté parmi ceux qui sont exposés à un
facteur ou une association positive.
Une valeur en-dessous de 1,0 indique qu’il y a une association inverse ou un risque
diminué parmi les exposés ; dans l’exemple ci-dessus les femmes qui ont utilisé des
hormones après la ménopause avaient 0.5 fois, ou la moitié, de risque de développer une
maladie coronaire comparé aux femmes non-exposées.
Le rapport des cotes est estimé dans les études de cas-témoins. Dans le concept, le taux
de risque ne peut pas être estimé directement, et doit être estimé par le taux des produits
croisés (TPC) ou le rapport des cotes (OR).
Le rapport des cotes est le plus utilisé dans des études cas-témoins. Mais peut être calculé
aussi pour des études transversales et de cohorte, dans le cas que tous les participants ont
le même période de suivi. Pour les études cas-témoins, seulement le OR est correcte.
Exemple
Supposons qu’à Aceh une étude de cas-témoins a été faite comprenant tous les cas et
seulement 5% de témoins.
Tableau 3 – Etude cas-témoins, Aceh, pour évaluer l’association entre les instruments
utilisés pour couper le cordon et le Tétanos Néonatal
Bambou 38 56 94
38 / 63 38 ×181
OR = ou TPC = =1,95
56 / 181 63 × 56
Note : le terme Risque Relatif est utilisé pour différents taux, et vient du fait que pour les
maladies rares toutes les mesures de taux sont approximatives (par ex. le rapport des cotes
= le rapport des taux = taux de risque). Pour des maladies communes (par ex. la mortalité
néonatale dans les enfants ayant un poids de naissance en-dessous de 1500 g), ces
approximations ne comptent pas.
Les mesures de rapport sont souvent utilisées pour indiquer la force d’une association.
Peut être estimé dans les études de cohorte (rapport de risques ou rapport des taux) et
dans les études de cas-témoins (rapport des cotes).
Le taux « d’excès » des maladies coronaires dans les utilisateurs d’hormone après la
ménopause attribuable à l’usage d’hormone est de – 65 par 100.000 PA. Autrement dit,
l’usage d’hormone après la ménopause diminue le taux des maladies coronaires avec 65
par 100.000 PA.
Différence de risque =
risque dans les exposés – risque dans les non-exposés
DR = Re - Rn
Exemple de l’association du tétanos néo-natal/instrument pour couper le cordon ombilical,
Voir tableau 1
Différence de risque = Re – Rn = ICe - ICn
38 63
DR = − = 0,0157 = 1,57%
1158 3678
DR = Rn (RR – 1)
Interprétation : l’usage d’une tige de bambou pour couper le cordon ombilical est associé
avec un risque excessif de 1,6% pour développer le tétanos néo-natal dans les personnes
exposées comparé aux personnes non-exposées pour qui des ciseaux ont été utilisés.
Re − R n RR − 1
RA % dans les personnes exposées = ou
Re RR
Exemple du Tableau 1
1,92 − 1
RA % dans les personnes exposées = = 47,9%
1,92
Interprétation : Parmi les personnes exposées 47,9% des cas de tétanos néo-natal sont
dus au fait que le cordon ombilical a été coupé avec une tige de bambou.
Le RAP peut aussi être calculé du taux de différence entre les personnes exposés et les
personnes non-exposés multiplié par la prévalence d’exposition
RAP = (TI e – Ti n) . P e
RAP = (R pop – R n)
ou
RAP = (R e – R n). P e
Interprétation :
la différence de risque entre la population entière et les personnes non-exposées du à
l’usage de la tige de bambou pour couper le cordon ombilical est de 0,38%.
La FAP mesure la fraction de l’incidence totale de la maladie (ou risque) dans une population
attribuable à l’exposition à un facteur de risque donné.
Une fraction de risque attribuable dans la population ne dépend pas uniquement des taux
d’exposition spécifiques, mais également de la prévalence du déterminant dans la
population.
Pe ( RR − 1) où Pe = la prévalence d’exposition
Re = le risque dans les personnes exposées
[Pe ( RR − 1) ] + 1 Rn = le risque dans les personnes non-exposées
Rpop = le risque dans la population totale
Dans une étude de cas- témoins la FAP peut être estimée en utilisant la formule ci-dessus,
par la substitution du RR par OR, et en utilisant pour Pe = la proportion des témoins exposés,
si cette proportion est une estimation valable de la fréquence du facteur de risque dans la
population. Sinon, il faudra chercher de l’information sur Pe dans d’autres études publiées.
!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!
Dans toutes les formules mentionnées dessus le RR peut être remplacé par le OR venant
d’une étude cas témoins, seulement si la maladie est rare.
!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!
Exemple
Quel serait l’impact de changer l’instrument pour couper le cordon ombilical à Aceh et
d’utiliser des ciseaux au lieu d’une tige de bambou ?
1158
(1,92 − 1)
FAP = 4836 = 0,180= 18.0%
1158
(1,92 − 1) + 1
4836
Interprétation : 18% de tous les cas de tétanos néo-natal dans l’étude à Aceh sont dus à
l’usage d’une tige de bambou comme instrument pour couper.
L’importance de l’estimation de la FAP est assez évidente pour la planification : la
suppression de la tige de bambou pourrait réduire le risque de 18%, mais le résiduel 82%
n’est pas vulnérable, puisqu’il ne dépend pas de l’usage de la tige de bambou.
Exemple
Le Tableau 4 montre les résultats d’une étude de vaccination contre la coqueluche en
Angleterre dans les années ’40 quand le vaccin était encore nouveau. Les enfants étaient
alloués au hasard dans le groupe des « vaccinés » ou des « non-vaccinés », et ils ont été
suivis pendant 2 à 3 ans (Hill, 1962).
Vaccinés 1,74
Non-vaccinés 8,07
Quelle proportion du taux d’incidence a été évitée dans les enfants qui ont été vaccinés ?
Ceci est « la fraction prévenue chez les exposés » (par ex. dans les personnes exposées
au facteur de protection).
Quelle est la fraction évitable dans les non-vaccinés ? Ceci est, bien sur, égale à
l’efficacité du vaccin dans le group des enfants vaccinés.
Quel serait l’impact d’un programme de vaccination contre la coqueluche sur l’incidence
dans la population ?
Dans toute l’Angleterre, le taux d’incidence de la coqueluche était de 6 par 100 enfants
années.
L’utilisation du vaccin était inégale dans le pays, et le nombre d’enfants vaccinés était
inconnu. Assumons que les données en Tableau 4 réfèrent à des échantillons
représentatives des enfants vaccinés et non-vaccinés en Angleterre. En utilisant ces
chiffres, quel est l’impact de la vaccination sur l’incidence dans la population totale des
enfants ? Autrement dit, quelle proportion de l’incidence potentielle de la coqueluche était
évitée par la vaccination ?
En utilisant les mêmes chiffres, quel proportion de l’incidence réelle de la coqueluche dans
la population d’enfants aurait pu être évitée si tous les enfants avaient été vaccinés ? (Ceci
est la fraction évitable dans la population).