Cours de Biostatistique

UNIVERSITE CATHOLIQUE DE LOUVAIN
Ecole de santé publique
Statistique médicale
ESP3420
(Cours Pré requis : MED2430 Eléments de statistique médicale)
Professeur Annie ROBERT
2006 - 2007
TABLE DES MATIERES
CHAPITRE 1 : CONCEPTS DE BASE ..........................................................................................1

1.1. Définition de l'épidémiologie......................................................................................1
1.2. Définition de la statistique ..........................................................................................2
1.3. Lien entre la statistique et l'épidémiologie .................................................................2
Pourquoi la statistique dans une science humaine ? ................................................3
1.4. Signification statistique et causalité............................................................................4
1.5. Objectif explicatif ou objectif pragmatique ? .............................................................5
CHAPITRE 2 : MESURE DE LA SANTE .....................................................................................8

2.1. Contexte ......................................................................................................................8
2.2. Indices de mortalité.....................................................................................................9
2.3. Indices de morbidité..................................................................................................11
2.4. Indice d'agrégation....................................................................................................12
2.5. Standardisation des taux ...........................................................................................12
(1) Standardisation par la méthode directe ............................................................14
(2) Standardisation par la méthode indirecte .........................................................15
CHAPITRE 3 : CLASSIFICATION DES ENQUETES EPIDEMIOLOGIQUES .......................17

3.1. Etudes expérimentales à visée pragmatique .............................................................18
3.2. Les études ou enquêtes prospectives ........................................................................21
3.2.1. Exposés-témoins (schéma rarement utilisé) ............................................21
3.2.2. Cohortes .....................................................................................................22
3.3. Les études rétrospectives ..........................................................................................23
3.3.1. Cas-témoin (case-control)........................................................................23
3.3.2. Cohortes .....................................................................................................25
3.4. Les études transversales (cross-sectional) ...............................................................26
3.5. Les études normatives...............................................................................................27
CHAPITRE 4 : STATISTIQUE DESCRIPTIVE D'ECHANTILLON .........................................28

Introduction........................................................................................................................28
4.1. Cas d'une variable discrète........................................................................................31
4.1.1. La taille de l'échantillon.............................................................................31
4.1.2. La distribution de fréquence ......................................................................31
4.2. Cas d'une variable continue ......................................................................................33
4.2.1. La taille de l'échantillon : N.......................................................................33
4.2.2. La distribution de fréquence : ....................................................................33
4.2.3. Mesures de tendance centrale (location)....................................................35
4.2.4. Mesures de la dispersion ou de la variabilité.............................................37
4.2.5. Mesure de la symétrie α3 (Skewness) ....................................................39
4.2.6. Mesure de l'aplatissement (Kurtosis) α4 ....................................................40
4.2.7. Représentation graphique ..........................................................................41
CHAPITRE 5 : LOIS DE PROBABILITE RAISONNEMENTS PROBABILISTE ET
STATISTIQUE ..................................................................................................................46
Introduction........................................................................................................................46
5.1. Définition d'une probabilité et règles de calcul ........................................................46
5.2. La loi BINOMIALE (schéma de l'urne avec remise) ...............................................54
5.2.1. Définition ...................................................................................................54
5.2.2. Espérance et variance.................................................................................56
5.2.3. Condition d'approximation de la loi binomiale par la loi
normale : ....................................................................................................58
5.3. La loi NORMALE (Gauss - Laplace).....................................................................59
5.3.1. Définition ...................................................................................................61
5.3.2. Espérance, Déviation standard ou Variance ..............................................62
5.3.3. La loi Normale Centrée Réduite, Z............................................................63
5.3.4. Propriété de symétrie .................................................................................64
5.3.5. Manipulation des tables N .........................................................................65
5.3.6. Intervalle de prédiction sur une variable aléatoire gaussienne ⇒
sur un échantillon.......................................................................................68
5.3.7. Intervalle de prédiction sur une variable aléatoire binomiale et
sur une proportion dans un échantillon de taille N ....................................71
5.4. La loi du Chi-carré : χ2n.............................................................................................75
5.5. La loi de Student tn ....................................................................................................77
5.6. La loi de Fisher-Snedecor : Fn1;n2 ...............................................................................79
5.7. Le théorème Central Limite ......................................................................................80
CHAPITRE 6 : ESTIMATION DES PARAMETRES D'UNE LOI A PARTIR D'UN

ECHANTILLON ALEATOIRE SIMPLE i.i.d. ................................................................82
6.1. Définition d'un estimateur et qualités .......................................................................82
6.2. Lois de probabilité de ces "bons" estimateurs ..........................................................83
6.3. Intervalle de confiance sur une moyenne µ ..............................................................83
6.4. Intervalle de confiance sur une proportion p ............................................................85
CHAPITRE 7 : ANALYSE STATISTIQUE (ELEMENTAIRE) .................................................87

7.1. Principes des tests d'hypothèse .................................................................................88
7.1.1. Raisonnement.............................................................................................89
7.1.2. Démarche à suivre......................................................................................89
7.1.3. Les erreurs de type I (α) et de type II (ß) ..................................................93
7.1.4. Vérifier l'absence de vices .........................................................................95
7.1.5. Exercices sur les tests multiples.................................................................96
7.2. Comparer 2 groupes appariés ; le facteur est continu...............................................99
7.2.1. Cas des grands échantillons (N ≥ 30) : le test de Student t-pairé .............100
7.2.2. Cas des petits échantillons (N<30) et la différence est
gaussienne : le test t-pairé........................................................................103
7.2.3. Cas des petits échantillons (N<30) et la différence est non
gaussienne mais symétrique : le test de Wilcoxon (N0 ≤ 15 et N0
> 15) .........................................................................................................104
7.2.4. Cas des petits échantillons (N<30) et l'échantillon des
différences est non symétrique : le test du Signe (N0 < 10 et N0
≥ 10) .........................................................................................................106
7.3. Comparer deux groupes indépendants et le facteur est continu..............................109
7.3.1. Cas des grands échantillons (NA≥30 et NB≥30) : le test t-non
pairé des grands échantillons ou test de l'écart réduit (quotient
Z)..............................................................................................................110
7.3.2. Cas des petits échantillons (NA < 30 ou NB < 30) et les deux
échantillons sont gaussiens. .....................................................................111
7.3.3. Cas des petits échantillons (NA < 30 ou NB < 30) et au moins un
des deux est non gaussien : Test de MANN-WITHNEY ........................114
7.4. Comparer 2 groupes appariés ; le facteur est discret ..............................................116
7.4.1. Analyse des discordances : le test de Mc Nemar.....................................118
7.4.2. Analyse des concordances : le test de Kappa ..........................................119
7.5. Comparer g groupes indépendants (g ≥ 2), le facteur est discret à r
niveaux : le test d'homogénéité ( χ Pearson) .....................................................124
2
7.6. Comparer 2 facteurs discrets dans un groupe : le test d'indépendance (χ²

Pearson) ...............................................................................................................129
7.6.1. Cas particulier des tables 2 X 2 et min Eij ≥ 5 : estimation des
risques ......................................................................................................130
7.6.2. Cas particulier des tables 2X2 et 3 ≤ min Eij < 5 ....................................138
7.6.3. Cas particulier des tables 2X2 et min Eij < 3 : le test exact de
Fisher. ......................................................................................................140
7.7. Relation entre deux facteurs continus dans un groupe (cas linéaire)......................142
7.7.1. La régression linéaire simple ...................................................................142
7.7.2. La corrélation ...........................................................................................148
7.7.2. La corrélation ...........................................................................................149
7.7.3. Analyse statistique de la régression et de la corrélation ..........................155
7.8. Comparer g groupes indépendants; le facteur est continu : ANOVA
simple...................................................................................................................163
7.8.1. L'équation de l'anova ................................................................................165
7.8.2. Le test du rapport des variations (F ou VR).............................................167
7.8.3. Les comparaisons multiples (contrastes) .................................................170
CHAPITRE 8 : SIGNIFICATION STATISTIQUE ET SIGNIFICATION CLINIQUE ............176

Importance de la fiabilité .................................................................................................176
8.1. La réplication simple de la mesure .........................................................................176
8.1.1. ANOVA à un critère aléatoire .................................................................178
8.1.2. Estimation de la fiabilité ..........................................................................179
8.1.3. Augmenter la fiabilité en répliquant ........................................................182
8.2. L’étude inter-examinateur.......................................................................................183
8.2.1. L’ANOVA à deux critères .......................................................................183
8.2.2. Estimation de la fiabilité si le critère Examinateur est fixe .....................185
TABLES ......................................................................................................................................187
CHAPITRE 1 : CONCEPTS DE BASE
1.1. Définition de l'épidémiologie
L'épidémiologie est la science objective des problèmes de santé dans les populations humaines.
Elle inclut l'étude de la distribution des problèmes de santé et l'étude des facteurs qui déterminent
cette distribution.
La santé est le résultat des interactions entre l'individu et son milieu. Alors que le clinicien
s'intéresse à un individu (le malade), l'épidémiologiste va s'intéresser à la collectivité (la
maladie).
Ses champs d'activité peuvent être décomposés selon un processus temporel :
Signes de
Pas de problèmes de Soumission à un l’apparition d’un Apparition des Traitement des
santé facteur problème de symptômes symptômes
Etudes normatives d’exposition santé cliniques cliniques
temps
t1 t2 t3 t4
Détermination des populations à risque
Dépistage et diagnostic précoce
Etudes étiologiques
Etudes
cliniques
• Avant l'instant t1, la collectivité ne présente pas de problème de santé. Des études normatives
peuvent être réalisées pour caractériser la santé de la collectivité.
• À l'instant t1, la collectivité est soumise à un facteur d'exposition et, au temps t2, des signes
(stade pré clinique) vont indiquer qu'un problème de santé apparaît dans la collectivité.
Ultérieurement, au temps t3, apparaissent les symptômes cliniques (stade clinique) qui seront
traités au temps t4.
La détermination des populations à risque commence avant t1 (l'exposition) et se termine en t3.
Les études de dépistage et de diagnostic précoce sont réalisées entre t2 et t4.
• Après l'instant t4 (le traitement), on observe les conséquences à long terme du problème de
santé.
Les études étiologiques vont s'échelonner de t1 à après t4.
Les études cliniques ont pour but d'aider au diagnostic, d'évaluer le succès des thérapeutiques et
la qualité de la pratique clinique ; elles vont donc commencer en t3 et se terminer après t4.
UCL-MD Epidémiologie et biostatistique 1

• Les études de description et de surveillance des populations sont permanentes.
Dans une première phase, l'épidémiologiste va se donner des règles précises et claires de
diagnostic individuel pour détecter les individus malades dans la collectivité.
Dans une seconde phase, il va poser un diagnostic collectif si il observe une fréquence
inhabituelle d'un problème de santé.
La situation devra être précisée clairement : qui (individus), quand (temps) et où (espace).
Une épidémie est une fréquence inhabituelle limitée dans le temps et limitée dans l'espace.
Une endémie est une fréquence inhabituelle limitée dans l'espace mais pas dans le temps.
Une pandémie est une fréquence inhabituelle limitée dans le temps mais pas dans l'espace.
Préciser "qui" requiert la mesure de signes ou de caractères distinctifs entre les individus
malades et les individus non malades ; il faudra comparer ces signes entre les deux groupes.
1.2. Définition de la statistique
La statistique est l'étude mathématique des lois du hasard et le hasard est la cause fictive de ce
qui arrive sans raison apparente ou explicable.
La statistique s'applique à tous les phénomènes où les facteurs de variation sont complexes,
tellement nombreux et enchevêtrés qu'une étude exhaustive est impossible.
Les trois étapes d'une étude statistique sont la récolte des échantillons d'observations relatives au
phénomène, l'analyse de ces échantillons et la déduction sur les populations (et sur le
phénomène).
Ces trois étapes sont étroitement liées et dépendent l'une de l'autre; une mauvaise récolte
introduira des "biais de sélection", une mauvaise analyse introduira des "biais d'estimation" et la
déduction sera alors difficile, voire impossible.
Nous n'aborderons pas les problèmes de récolte dans ce cours.
1.3. Lien entre la statistique et l'épidémiologie
L'épidémiologie et la statistique ont en commun les problèmes de mesurer et de comparer ;

mesurer des facteurs d'environnement (tabac, pollution, âge, ...) et chercher si ils sont associés à
l'apparition du problème de santé. L'épidémiologie est souvent définie comme l'approche
statistique des problèmes de santé.

Pourquoi la statistique dans une science humaine ?
Pour un étudiant en sciences fondamentales, il est parfois difficile d'apprécier la variabilité des
données biologiques.
Si on plonge 100 fois un papier tournesol bleu dans une solution acide, il va virer au rouge, non
pas la plupart du temps (disons 95 fois), mais chaque fois (100 % du temps). La pénicilline a été
l'un des rares "miracles" thérapeutiques où les résultats étaient si évidents qu'il n'était pas
nécessaire de les évaluer. Par contre, si l’on donne de l'aspirine à une série de personnes souffrant
de maux de tête, elles ne vont pas toutes être soulagées.
Les mesures sur les individus humains donnent rarement les mêmes résultats d'une fois à l'autre.
Par exemple, si on mesure la tension artérielle d'une personne avec une précision inférieure à 1
mmHg, les chances de reproduire la mesure le lendemain à 5 mmHg près sont inférieures à 50%
(Armitage, 1966).
La variabilité est aussi inhérente aux réponses du "hasard biologique". Beaucoup acceptent
aujourd'hui le fait que fumer la cigarette provoque le cancer du poumon et/ou des maladies
cardio-vasculaires mais tout le monde connaît ou peut citer l'exemple d'une personne de 80 ans
ou plus qui fume depuis plus de 60 ans et qui est en très bonne santé. Bien qu'actuellement, plus
de 20 % des décès dans nos pays soient attribués à la cigarette, on oublie que jusque dans les
années 50, la cause de l'augmentation des cancers pulmonaires était un mystère, souvent
attribuée aux fumées des moteurs. La cigarette n'a été identifiée comme cause qu'après des études
cas-témoins et de cohortes très bien planifiées et analysées statistiquement (Doll, 1952,1964).
Avec une telle variabilité, il s'en suit que des différences vont presque toujours se produire dans
les comparaisons à faire dans un contexte médical. Ces différences peuvent être dues à des effets
réels, à une variation aléatoire ou aux deux.
Le travail d'un analyste est de décider quelle est la part de variation imputable au hasard et
d’ensuite pouvoir déclarer que toute variation restante peut être supposée due à un effet réel.
C'est l'art de la statistique. Le hasard ne se prouve pas, mais la loi du hasard (qui sera appelée
l'hypothèse nulle) va fournir une borne sur la variation. Si la variation observée dépasse la borne,
on pourra supposer que ce n'est pas le hasard qui cause la variation (le résultat sera dit
significatif).
C'est donc un raisonnement logique inductif que l'on utilise en statistique : A (le hasard) implique
B (la variation est inférieure à une borne), et si B se produit (i.e. est observé) alors on ne peut pas
conclure !
Il ne faudra jamais oublier qu'une étude bien planifiée et mal analysée pourra être sauvée en ré-
analysant les données mais une étude mal planifiée outrepasse la rédemption des statistiques les
plus sophistiquées.
Assurer que les résultats sont généralisables et comparables est une tâche du statisticien médical
qui est bien plus importante que l'analyse des données. A titre d'exemple, en 1975, Burke et al
ont mené une étude sur la relation entre la mortalité par cancer et la quantité de fluorine contenue
dans l'eau de distribution. Les auteurs ont comparé 10 villes (USA) ayant une eau de distribution
chargée en fluorine à 10 autres villes dont l'eau de distribution ne contenait pas de fluorine. Dans
les 10 premières villes, le taux de mortalité par cancer avait augmenté de 20% entre 1950 et 1970
alors qu'il n'avait augmenté que de 10% dans les 10 dernières, sur la même période. Les auteurs
ont conclu à un effet causal. En 1977, Oldham et Newell ont analysé la répartition âge, sexe et
race des 20 villes et ont montré que si les taux publiés par Burke et al avaient été corrigés pour

ces trois caractéristiques, les taux d'accroissement seraient devenus respectivement 1% et 4% !
Oldham et Newell ont conclu qu'il n'y avait aucune évidence que la fluorine provoque le cancer.
Ces deux auteurs n'ont pas jugé nécessaire de réaliser un test statistique alors qu'ils étaient tous
deux statisticiens et que leurs résultats étaient publiés dans ‘Applied Statistics’, une revue
statistique !!!
1.4. Signification statistique et causalité
Dans l'exemple de Burke et al, l'âge, le sexe et la race sont des variables de confusion. Toute
étude d'observation qui compare des populations différenciées par une variable particulière (la
présence de fluorine dans l'exemple, ou bien des fumeurs et des non fumeurs) et qui attribue les
différences trouvées dans une autre variable (le taux de cancer par exemple) à cette variable
particulière est à la merci des variables oubliées, dites de confusion. Ainsi, certains auteurs n'ont
pas hésité à attribuer les différences dans les taux de cancer du poumon chez les fumeurs et chez
les non fumeurs à des facteurs génétiques…
La difficulté des études d'observation réside dans le fait qu'il peut y avoir une infinité de
variables de confusion. Un investigateur peut mesurer toutes les variables qui lui paraissent
raisonnables, un critique pourra toujours penser à une autre variable, non mesurée, qui pourrait
expliquer les résultats.
Il n'y a que dans les études randomisées prospectives que cette difficulté peut être écartée. Dans
de telles études, la variable d'exposition (comme des traitements alternatifs par exemple) est
attribuée par un mécanisme purement aléatoire, ce qui permet de supposer que les variables de
confusion non mesurées sont comparables entre les (deux) groupes. Malheureusement, il n'est
pas possible de randomiser dans beaucoup de situations (c'est le cas des fumeurs : on ne peut pas
imposer à quelqu'un de fumer ou de ne pas fumer, pour étudier le cancer du poumon !) et donc,
des interprétations alternatives seront toujours possibles.
Dans une étude, si un facteur n'est pas statistiquement associé à une maladie (résultat NS, non
significatif), on n'aura pas l'explication logique ou la preuve que le facteur étudié est un facteur
de risque. Mais on n'aura pas non plus la preuve qu'il ne l'est pas puisque le raisonnement est
inductif.
Par contre, si le résultat montre une association statistique, il faut se poser un certain nombre de
questions avant de supposer un effet causal :
(1) la consistance : d'autres investigateurs ou d'autres études sur des populations différentes ont-
ils obtenu des résultats similaires ?
(2) la plausibilité : par exemple, si un facteur de risque est associé au cancer, contient-il des
carcinogènes connus ? Est-ce biologiquement plausible ?
(3) l'intensité (dose-réponse) : les sujets soumis à un risque plus intense ont-ils un risque plus
élevé de développer la maladie que les personnes soumises à un risque plus faible ?
(4) l'antériorité : les sujets ont-ils bien été soumis au risque avant de développer la maladie ?
(5) la force de la relation : une différence plus grande est plus convaincante qu'une petite. La

difficulté avec la signification statistique est qu'elle dépend aussi bien de la taille de l'échantillon
que d'un éventuel effet. Dans une étude où les groupes sont très importants, une toute petite
différence peut être statistiquement très significative !
(6) la spécificité : le facteur cause-t-il d'autres problèmes de santé ? i.e. le facteur est-il
spécifique de la maladie ? Si non, on parlera de facteur "favorisant" (pragmatique) plutôt que
causal (explicatif). Ceux qui refusent l'effet causal de la cigarette sur le cancer du poumon
prétendent que certaines personnes ont une susceptibilité génétique pour le cancer du poumon et
que c'est ce même gène qui les prédispose à fumer.
Si l’on peut supposer l'effet causal, il faudra préciser si l'action est directe ou indirecte. Si on ne
peut pas supposer l'effet causal, alors, il faudra tenter d'expliquer la signification statistique. Si
celle-ci n'est pas un artéfact, alors le facteur est-il un facteur de confusion ? [biais]. En effet, si la
taille des échantillons est grande, la signification statistique pourrait être un artéfact.
En 1986, Rose et Barker écrivaient : "Le biais frappe au coeur des comparaisons ; il est un dirty-
dirt (crasse - crasseuse) et il ne peut pas être toléré en épidémiologie".
Sans une perspective équilibrée, la tentation est grande de se concentrer sur le moins important
qui est de quantifier le rôle du hasard au détriment d'une tâche bien plus importante qui est la
recherche de biais possibles cachés dans le design.
1.5. Objectif explicatif ou objectif pragmatique ?
Toute étude requiert la formulation d’hypothèses (background, aim of a study, l’élaboration d’un
protocole d’inclusion d’individus et d’acquisition et traitement de données (material & methods),
la description et l’analyse des données récoltées (results) et l’interprétation des résultats
(discussion).
Une recherche étiologique a pour but d’étudier les causes d’une maladie, de comprendre
l’étiopathogénie et, par extension, le mécanisme de certains phénomènes physiologiques. Dans
une telle recherche, l’explication causale est souvent très difficile parce que beaucoup de
différences séparent les individus malades des non malades. Des différences peuvent être la
cause (il y a un mécanisme direct Action – Réaction), avoir un lien avec d’autres facteurs qui
sont eux-mêmes la cause (il y a un mécanisme indirect : Action – Médiateur(s) – Réaction) ou
bien résulter d’artéfacts ou d’erreurs techniques (biais systématiques). Des biais de confusion et
de modification sont potentiellement présents pour toute différence observée.
Les études expérimentales à visée explicative ont pour but d’isoler un ou deux facteurs
susceptibles d’expliquer l’origine d’une pathologie. C’est une tâche qui aboutit souvent à
l’incertitude, parfois à l’échec. Chaque fois que c’est possible, une recherche étiologique à visée
explicative devrait être accompagnée d’études fondamentales, c’est-à-dire de recherches in
vitro et d’expérimentations animales.
Aujourd’hui, plus de 90% des études de recherche étiologique ont un objectif pragmatique : elles
visent à prévenir plutôt qu’à expliquer.
Les études d’observation conduisent à déterminer des indicateurs de risque qui permettent

d’isoler des groupes dits « à haut risque ».
Ayant une visée exploratoire et pour seul objectif l’efficacité dans la prévision, les hypothèses
sont moins précises et la thèse est l’existence d’associations statistiques entre des facteurs et la
probabilité d’apparition de la maladie. Une telle pratique se justifie quand elle débouche sur une
politique de prévention réaliste.
Les études expérimentales à visée pragmatique, aussi appelées études d’intervention sur la
maladie ou ses complications permettent d’apprécier l’efficacité d’une prévention, qu’elle soit
primaire1, secondaire2 ou tertiaire3.
En particulier, les essais cliniques sont des études d’intervention non contrôlée en Phase I
(déterminer) et en Phase II (évaluer), des études d’intervention contrôlée par randomisation en
Phase III (prouver) et sont des études d’observation en Phase IV (surveiller).
1
Prévention primaire : tout acte permettant de réduire l’incidence d’un problème de santé dans une population.
2
Prévention secondaire : tout acte permettant de réduire l’évolution et/ou la durée d’une maladie.
3
Prévention tertiaire : tout acte permettant de réduire les invalidités fonctionnelles consécutives à la maladie.

Epidémiologie
=
Approche statistique des problèmes de santé
Mesurer et comparer
Facteurs Problèmes de
santé
• Tabac
• Pollution dddddd
• Âge dddddd
• Etc… ddd
Association
statistique
?
NON OUI
Preuve
Explication Cause
?
1. Consistance
2. Intensité
Biais 3. Spécificité
4. Antériorité
Paradoxe de 5. Plausibilité
Simpson
NON
OUI
(pragmatique)
Artefact ?
oui non
(explicatif) Action ?
“confusion,”
Paradoxe de Simpson
Directe Indirecte
Paradoxe de simpson ! Biais

CHAPITRE 2 : MESURE DE LA SANTE
2.1. Contexte
Toute mesure de la santé est basée sur l'évaluation d'un caractère spécifique (ex : décès, maladie,
handicap,...) dans une population. Il est très important de préciser comment est définie cette
population d'intérêt par :
• le nombre d'individus pour lesquels on évalue la présence ou l'absence du caractère,
• la période de temps pendant laquelle l'évaluation est réalisée,
• le lieu où l'évaluation est réalisée.
Mathématiquement, un rapport est le quotient de deux nombres quelconques. Les proportions,

les indices et les taux qui vont être définis ici sont toujours des rapports mais ce sont des rapports
particuliers.
Une proportion est une partie d’un tout : c’est un nombre compris entre 0 et 1.
Par exemple, dans un groupe de 100 hommes et de 50 femmes, la proportion (ou fréquence
relative) d'hommes dans le groupe est 100/150.
Si les 150 personnes constituent une population, alors le rapport 100/150 est un paramètre de
population.
Une probabilité est une mesure de l’incertitude qui peut avoir un lien avec une proportion… Si
on tire au hasard une personne parmi les 150, la probabilité (aussi appelée la chance par certains
et le risque par d’autres) que cette personne soit un homme est 100/150. La probabilité n’est
égale à la proportion que si l’on a tiré au hasard…
Si ces 150 personnes constituent un échantillon aléatoire simple (EAS)4 d’une population plus
importante, alors 100/150 (la proportion observée dans l’EAS) est une estimation du paramètre
inconnu « proportion d’hommes dans la population ».
Dans les sciences de la santé, un indice (ratio) est le quotient de deux entités ayant des caractères
distincts. Un indice peut être simplement une proportion (prévalence ou incidence), une cote5 ou
encore le rapport de deux proportions ou de deux cotes.
100
100 150 est le
Par exemple, dans un groupe de 100 hommes et de 50 femmes, le rapport =
150 50
150
« sex ratio », ou la proportion d’hommes par rapport à la proportion de femmes.
De manière générale, les indices permettent d'apprécier l'état de santé.
4
Important : Dans le terme échantillon aléatoire simple, aléatoire veut dire que chaque individu de la population avait une chance non nulle et non
certaine d’être choisi, simple veut dire que tout le monde avait la même chance d’être choisi.
5 odds en anglais = « proportion pour » / « proportion contre ».

Un taux (rate) est une proportion par unité de temps mais cette proportion a la particularité
d’être soit un paramètre - si on dispose des données pour l’ensemble de la population -, soit une
estimation sur échantillon représentatif (EAS).
Par exemple, dans le groupe de 100 hommes et de 50 femmes, 100/150 sera le taux annuel
d'hommes si ce groupe est la population suivie pendant une année. Un taux est toujours un
indice. L'inverse n'est pas vrai !
Les taux mesurent les fréquences par période et permettent d'estimer les probabilités d’apparition
pendant une période déterminée. En général, les taux s’expriment en personnes – année.
2.2. Indices de mortalité
• Le taux de mortalité brut, TMB (Crude Mortality Rate, CMR) est le nombre de décès par unité
de population pour un lieu donné et une période donnée (généralement, une année).
Par exemple, pour la Belgique, en 1987 :
n o m b re d e d écès en B elg iq u e en 1 9 8 7
TM B =
taille d e la p o p u latio n b elg e m i-1 9 8 7
105968
=
9870234
= 0 .0 1 0 7 4
= 1 0 . 7 4 p o u r m ille p erso n n es-an n ée
Pour Bruxelles, en 1987 :
11 922
TM B =
971 923
= 1 2 . 2 7 p o u r m i lle p e r s o n n e s -a n n é e
• Le taux de mortalité spécifique selon l'âge, TMS (age-specific mortality rate) est le nombre de
décès dans un groupe d'âge particulier par unité de population de cet âge, pour un lieu et une
période donnés.
Par exemple, pour Bruxelles, en 1987, de 25 à 44 ans :
441
TMS (25 - 44 ans ) =
283 075
= 1.56 pour 1000 personnes de 25 à 44 ans

• Le taux de mortalité spécifique selon la cause (cause-specific mortality rate) est le nombre de
décès dus à une cause spécifique par unité de population, pour un lieu et une période donnés.
Par exemple, pour Bruxelles, en 1987, pour les maladies cardio-vasculaires (MCV) :
nombre de décès par MCV à Bruxelles en 1987

TMS ( MCV ) =
taille de la population bruxelloise mi-1987
4199
=
971923
= 4.32 pour mille Bruxellois
• L'indice proportionnel de mortalité pour une cause (ratio PM) est le nombre de décès dus à
cette cause spécifique par rapport au nombre total de décès dans une population, pour un lieu et
une période donnée.
Par exemple, pour Bruxelles, en 1987, pour les maladies cardio-vasculaires,
nombre de décès par MCV à Bruxelles en 1987

RPM ( MCV ) =
nombre total de décès à Bruxelles en 1987
4199
=
11922
= 35%
• La létalité d'une maladie (ou potentiel létal d'une maladie) est le nombre de décès dus à cette
maladie par rapport au nombre de personnes ayant cette maladie dans la population, pour un lieu
et une période donnés. C'est un taux de risque lorsqu'il s'agit de maladies de propagation et de
durée stables, sinon c'est une proportion.
Par exemple, pour la Belgique, au 31 mars 1992, 596 cas de SIDA avaient déjà été
diagnostiqués. 24 ont été perdus de vue et 326 sont décédés,
326
Létalité globale du SIDA (en mars 1992) = = 57%
596 - 24
Avant 1986, 91 cas avaient été diagnostiqués et non perdus de vue dont 85 sont décédés entre
1987 et 1991 (5 ans de suivi),
85
Taux annuel moyen de létalité 1987-1991= 91 = 23.35% diagnostics - année
4
La létalité peut mesurer la probabilité de décès lorsqu’un cas est diagnostiqué.

2.3. Indices de morbidité
La prévalence P est le nombre de cas d'une maladie par unité de population, pour un lieu et un
moment précis (qui peut être une période). C’est une proportion.
Même s’il faut préciser le lieu et la période, le calcul n’intègre pas de notion ou référence à cette
période. Ce n'est donc pas un taux au sens strict. Pour les maladies chroniques (MCV ou cancers
par exemple) et les maladies infectieuses de longue durée (comme le SIDA), elle peut permettre
d’évaluer les taux.
L'incidence I est le nombre de nouveaux cas d'une maladie particulière qui sont diagnostiqués
pendant une période précise (souvent une année) par unité de population, pour un lieu.
C'est un taux qui permet d'estimer la vitesse de propagation d'une maladie ou d'évaluer les
mesures de contrôle d'un phénomène de masse.
Exemple sur une population de 10 individus (A à J) (Les flèches représentent les périodes de maladie)
7
Prévalence en 1991 = (A à G)
10
3
Prévalence au 15/3/91 = (C à E)
10
4
Incidence en 1991 = (A,B,D,F)
10
01/01/91 15/03/91 31/12/91 Temps
Remarques :
• Pour les maladies de propagation stable et/ou chroniques comme les cancers, les MCV, etc., P
est le produit de I et D :
Prévalence en fin de période ≈

Durée moyenne de la maladie * Incidence sur la période précédente
Si P diminue, c'est soit parce que D diminue (grâce à des traitements efficaces par exemple), soit
parce que I diminue (grâce à des mesures anti-épidémiques par exemple), ou encore que D et I
diminuent tous les deux. Si D augmente, par exemple, grâce à des traitements palliatifs mais non
curatifs, alors P peut augmenter alors que I ne change pas (souvent le cas des « progrès
thérapeutiques » pour les cancers ou les MCV).

Si P est élevée alors que I est faible et diminue, c'est que l'on assiste à l'éradication d'un processus
de masse.
• Lorsqu'un groupe d'individus est exposé à un risque pendant une période limitée (au cours
d'un repas pour une intoxication alimentaire, au cours de l'enfance pour des maladies
pédiatriques, au cours de la vie professionnelle pour des maladies professionnelles, au cours
de la vie entière pour des maladies d'étiologie mal connue, ...), le taux d'attaque pour la
maladie est l'incidence mesurée sur la période d'exposition entière.
2.4. Indice d'agrégation
Certains indices permettent d'agréger mortalité et morbidité. Par exemple, l'espérance de vie sans
incapacité fonctionnelle (EVSI) qui se calcule simplement (calcul actuariel) par la méthode
suivante : (COLVEZ, 1983)
Classes Nombre de Nombre de Années vécues Taux Années vécues

d'âges survivants décès d A=(5*S)+(2,5*d) d'incapacité sans incapacité
S t A*(1-t)
100 000
65-69 85486 14514 463715 0,078 427545
70-74 65127 20359 376533 0,137 324946
75-79 41307 23820 266085 0,243 201426
80-84 17769 23538 147690 0,31 101907
85-89 5841 11928 59025 0,615 22725
90 et plus 5841 19043 0,522 9102
1332091 1087651
1332091
• Espérance de vie à 65 ans = = 13.3 ans
100000
1087651
• EVSI = = 10.9 ans
100000
La différence entre les deux valeurs est le gain potentiel d'années qu'on pourrait obtenir en
supprimant les incapacités fonctionnelles.
En effectuant ce calcul par cause pathologique, on obtient le gain potentiel lié aux incapacités
fonctionnelles dues à cette cause particulière.
2.5. Standardisation des taux
Le taux de mortalité brut du Chili en 1981 était de 6.2‰ tandis qu'il était de 11.8‰ pour la
même période en Angleterre. Peut-on en déduire que les Chiliens étaient en meilleure santé que
les Anglais en 1981 ?

Ce qui est important à considérer, c'est que les Chiliens sont en moyenne plus jeunes que les
Anglais et, quelle que soit sa nationalité, une population jeune aura une mortalité plus faible
qu’une population plus âgée. Si l’on veut comparer ces TMB, il faut donc prendre l'âge en
considération.
On pourrait envisager de comparer les taux de mortalité spécifiques selon l'âge dans chaque
groupe d'âge (comparaison de deux proportions) mais on aurait alors autant de comparaisons
qu'il y a de groupes d'âge, et trop de comparaisons augmentent le risque d'erreur comme nous le
verrons dans le chapitre 7.
Il existe deux méthodes pour standardiser des taux de mortalité selon l'âge de manière à ce que
l'on ait qu'une seule comparaison à faire. Dans les deux cas, il y a une population cible pour
laquelle on veut ajuster les taux et il y a une population standard qui fournit soit une distribution
standard selon l'âge (méthode directe) soit des taux spécifiques standard selon l'âge (méthode
indirecte). Le choix de cette population standard est arbitraire.
Si on veut comparer la mortalité de deux régions d'un même pays, on choisit souvent la
population nationale comme population standard.
Pour des comparaisons au niveau mondial, l'Organisation Mondiale de la Santé (OMS) a publié
des tables de population standard selon 19 classes d'âge pour les types de répartition africain,
européen et mondial.
On voudrait, par exemple, comparer les taux de mortalité de la population V et de la population J

qui sont réparties en trois groupes d'âge comme suit en l'an 2024 :
Population V Population J
Méthode Méthode
taille décès TMS-âge taille décès TMS-âge directe indirecte
Classes d'âge Nv dv tv = dv/Nv (‰) Nj dj tj = dj/Nj (‰) ∆t = tj-tv tj/tv
0-19 ans 2500000 2500 1 5000000 40000 8 +7 8
20-49 ans 4000000 8000 2 4000000 20000 5 +3 2,5
50 ans et plus 3500000 105000 30 1000000 35000 35 +5 1,17
Total 10000000 115500 11,6 10000000 95000 9,5 - 2,1 0,82
Pour la population V, le TMB est de 11.6‰, soit supérieur au TMB de la population J qui est de
9.5‰ alors que les TMS-âge sont inférieurs dans chaque groupe d'âge. Les différences Λt sont
positives dans chaque groupe d'âge mais la différence est négative dans le groupe total. Ceci
indique déjà que la population J est plus jeune que la population V et donc, que les taux bruts ne
sont pas comparables.

(1) Standardisation par la méthode directe
On choisit une population standard en distribution d'âge, parfois appelée population-type qui va
servir de référence. On pourrait choisir NV ou bien NJ. Nous avons choisi celle de l'OMS, NS.
On applique alors les taux tV et tJ à cette population standard :
Classes d’âge Population standard Décès attendus si les Décès attendus si les
(OMS) taux sont tV taux sont tJ
NS d = NS * tV d = NS * tJ
0-19 ans 40 000 40 000 * 0.001 = 40 40 000 * 0.008 = 320

20-49 ans 40 000 40 000 * 0.002 = 80 40 000 * 0.005 = 200
50 ans et plus 20 000 20 000 * 0.030 = 600 20 000 * 0.035 = 700
Total 100 000 720 1220
Le taux global attendu pour la population standard NS est de 720/100 000 = 7.2‰ dans la
population V et il est de 1220/100 000 = 12.2‰ dans la population J, soit supérieur.
Les taux de mortalité standardisés dépendent de la population standard. Si on choisit la

population V comme standard, on trouve TMS (NV) = 11.6‰ et TMS (NV) = 16.25‰ pour les
populations V et J respectivement. Si on choisit la population J comme standard, on trouve TMS
(NJ) = 4.30‰ et TMS (NJ) = 9.50‰ pour les populations V et J.
Faites ces calculs !
Il est donc très important de préciser quelle est la population standard choisie pour calculer les
taux standardisés.
La méthode directe est applicable tant que Λt a le même signe dans toutes les catégories d'âge.
Elle peut s'utiliser aussi lorsque NV et NJ ne sont pas connus puisque ce sont les taux tV et tJ qui
sont appliqués à la population standard.
La méthode directe n'est pas très utilisée dans la littérature parce que les populations cibles (V et
J dans notre exemple) sont souvent de tailles faibles dans les groupes d'âge, ce qui a pour
conséquence un manque d'efficacité dans l'estimation des taux tV et tJ.

(2) Standardisation par la méthode indirecte
On choisit des taux standard, parfois appelés taux-type, qui vont servir de référence et on va
appliquer ces taux aux deux populations NV et NJ :
Classes d’âge Taux Décès attendus si la répartition Décès attendus si la répartition

standard est NV est NJ
tS (‰) d = NV * tS d = NJ * tS
0-19 ans 0.7 2 500 000 * 0.7 ‰ = 1750 3 500
20-49 ans 3.5 4 000 000 * 3.5 ‰ = 14 000 14 000
50 ans et plus 50.0 3 500 000 * 50 ‰ = 175 000 50 000
Total 190 750 67 500

115500 95000
ICM = 60.6% = 140.7%
190750 67500
L'indice comparé de mortalité (Standardised Mortality Ratio), ICM, est le rapport entre le
nombre de décès observés et le nombre de décès attendus.
L'ICM de la population J est supérieur à l'ICM de la population V, 2.32 fois supérieur pour les
taux standard choisis pour corriger l'effet de l'âge.
Si on avait choisi les taux tV comme standard, on aurait trouvé ICM (tV) = 100% pour la
population V et ICM (tV) = 220.9% pour la population J, soit 2.21 fois supérieur et si on avait
choisi les taux tJ comme standard, on aurait trouvé ICM (tJ) = 71.1% et 100% pour les
populations V et J respectivement, soit 1.41 fois plus pour la population J. ICM dépend aussi des
taux standard choisis, et est également le rapport entre le taux brut et le taux standardisé.
Le modèle statistique des hasards proportionnels (cox) est basé sur l'ICM.
La méthode indirecte est optimale tant que les rapports des taux spécifiques tJ/tV sont constants et
elle peut être appliquée si tous ces rapports sont soit >1, soit <1 dans toutes les catégories d'âge.
Dans l'exemple, ils sont tous supérieurs à 1.
On peut standardiser toutes sortes de taux (taux pour une maladie par exemple) et pour d'autres
variables que l'âge, comme la profession, la classe sociale, le sexe,... La population cible doit
toujours être bien définie en termes de temps et de lieu d'abord, mais elle peut aussi être un
groupe professionnel.
En 1978, Beral et al ont mené une étude pour répondre à la question : les grossesses protègent-
elles contre les cancers ovariens? Ils ont montré que les taux de cancer ovarien décroissaient
statistiquement quand la taille de la famille augmentait dans chaque pays étudié. En utilisant la
population britannique comme standard, ils ont calculé des indices comparatifs de cancer ovarien
par la méthode de standardisation indirecte pour l'âge. Ils ont trouvé un ICM de 49% pour le
Chili par exemple, soit inférieur statistiquement à 100% et ils ont conclu à un taux de cancer
ovarien plus faible au Chili qu'en Grande Bretagne étant donné une standardisation pour l'âge des
femmes.
En 1985, une étude a été menée pour comparer les taux de mortalité périnatale entre les
différents pays de la CEE. L'Italie avait un TMB périnatale de 28.6‰ alors que la Suède avait un
TMB périnatale de 14.1‰. En corrigeant ces taux pour l'âge de la mère (<20 ans, de 20 à 35 ans,
plus de 36 ans) par la méthode de standardisation indirecte avec les taux de la Suède comme
standard, cette différence s'estompait (le taux standardisé est le rapport entre le nombre total de
décès attendus si les taux étaient ceux de la Suède et le nombre total de grossesses menées à
terme dans le pays; taux standardisé = ICM / taux brut).
1985 Taux de mortalité périnatale pour 1000 grossesses menées à terme
Suède Belgique Italie Allemagne Irlande Royaume- France P-B Danemark

(EST) Uni
Bruts 14.1 21.3 28.6 23.2 23.1 21.3 20.3 16.4 14.6
Standard (St) 14.8 15.0 14.6 15.5 14.3 14.6 14.1 13.9

CHAPITRE 3 : CLASSIFICATION DES ENQUETES
EPIDEMIOLOGIQUES
Avant de définir le design d'une étude clinique, il faut définir les objectifs de l'étude en adressant
4 questions :
(1) Quel est l'objectif principal de l'étude?

(2) Est-il défini sans ambiguïté?
(3) Quel est son apport clinique?
(4) Les objectifs secondaires sont-ils clairement définis?
Il est souvent difficile d'identifier une simple question.

Par exemple, pour définir l'efficacité d'un nouveau vaccin, la question pourrait être : ce vaccin
est-il mieux que le vaccin standard utilisé dans les mêmes conditions? Une seconde question peut
concerner la détection d'éventuels effets secondaires et il se peut qu'il y ait encore d'autres
questions, toutes aussi importantes à considérer.
Malgré tout, il faut essayer de garder en vue un objectif principal et définir un minimum
d'objectifs secondaires le plus clairement possible. D'autre part, une étude peut mener à une
signification statistique mais n'avoir que peu de sens clinique et donc ne pas avoir d'impact sur la
pratique ultérieure. Une bonne connaissance de la littérature permet d'éviter les questions déjà
adressées et pour lesquelles les réponses sont déjà clairement établies. La forme de l'analyse
statistique est déterminée par le type de design utilisé pour l'étude.
Bailar a proposé (NEJM, 1986) la classification suivante des études biomédicales:
Type I : Etudes longitudinales Type II : Etudes transversales
Classe A : Prospectives Classe A : Description d'une maladie

(1) avec intervention intentionnelle
(a) randomisée Classe B : Diagnostic et stade
(b) non randomisée (1) études normatives
(2) ou d'observation seulement (2) sévérité de la maladie
Classe B : Rétrospectives Classe C : Processus de la maladie

(1) avec intervention intentionnelle
(2) d'observation seulement
La subdivision majeure se situe entre les études longitudinales qui investiguent un processus
dans le temps (essais cliniques, études de cohorte, études cas-témoins par exemple) et les études
transversales qui décrivent un phénomène fixé dans le temps (études en laboratoire de processus
biologiques, par exemple).

Les études longitudinales sont divisées en deux catégories.
Dans les études prospectives, les sujets sont regroupés selon un facteur d'exposition et on observe
l'apparition éventuelle d'un phénomène au cours du temps. Par exemple, l'utilisation ou non d'un
contraceptif particulier par une femme serait le facteur d'exposition et le phénomène observé
prospectivement serait l'apparition ou non d'un cancer du sein chez cette femme.
Dans les études rétrospectives, les sujets sont regroupés en général selon le phénomène et on
détermine rétrospectivement si les sujets étaient exposés. Dans notre exemple, les femmes
seraient subdivisées en cas i.e. cancer du sein, et en témoins i.e. sans cancer du sein et on
déterminerait rétrospectivement celles qui ont utilisé le contraceptif oral particulier.
Cette classification est importante non seulement pour la forme de l'analyse statistique mais aussi
pour établir la causalité. Cette classification est axée sur une notion de groupe et une notion de
temps par le processus naturel suivant :
t1 t2 t3
Temps
Exposition au Apparition de la
facteur E, maladie M
Oui (+) ou Non (-) Oui (+) ou Non (-)
3.1. Etudes expérimentales à visée pragmatique
t1 t2 t3
Temps
Population
cible ? n M+
M+ M-
n E+
?
E+
? nM– E-
N
? N
? n M+
n E-
? nM–
Evaluation

Au temps t1, un ensemble de N individus éligibles est constitué dans la population cible. Il est
ensuite subdivisé en deux groupes (ou plus) dont l'un sera exposé au facteur de risque étudié et
l'autre pas. On va alors observer au cours du temps t3, quels sont ceux qui, dans les deux groupes,
vont développer la maladie M. t1 est souvent une "période" de recrutement.
Ces études sont donc longitudinales, prospectives.
Remarques
• Si les N individus sont choisis aléatoirement ou bien constituent une cohorte, alors les
résultats seront plus facilement généralisables à la population cible.
Exemples :
- les essais cliniques (clinical trial) où les "individus" sont la cohorte des patients souffrant d'une
affection particulière, "l'exposition" est le traitement (nouveau ou standard, drogue ou placebo,
...) et la "maladie" est l'efficacité du traitement.
- Les enquêtes d'intervention (interventional survey) où les "individus" sont des usines prises
aléatoirement dans le secteur industriel ciblé, "l'exposition" est le changement des normes de
sécurité et la "maladie" est la réduction des accidents du travail.
Les interventions ont pour but de mesurer si une modification de l'exposition induit une
modification de la maladie.
• Si la subdivision en deux groupes est randomisée alors l'effet des facteurs de confusion sera
réduit au minimum. Comme un individu a une "probabilité" d'être exposé, tous les taux calculés
seront des probabilités par période.
Les études expérimentales satisfaisant ces deux points sont les méthodes de choix pour affirmer
un lien causal parce que les biais sont minimums mais, elles nécessitent beaucoup de temps, un
coût élevé, des effectifs importants et elles posent un problème d'éthique très important.
• Le design de la randomisation peut être parallèle (groupes indépendants) et c'est le hasard

seulement qui déterminera si un individu reçoit l'exposition ou non. Les individus sont évalués
une seule fois, au temps t3.
Exemple :
En 1987, Thomas, un médecin a déclaré aléatoirement à ses patients le consultant pour un

problème mineur, que leur consultation était soit "positive", soit "négative".
Après deux semaines, il a relevé que 64% des patients ayant reçu un + allaient mieux alors que
39% seulement des patients ayant reçu un – se sentaient mieux, malgré que les deux groupes
avaient reçu la même médication ! La différence était statistiquement significative. Il a conclu
que donner une consultation positive augmentait les chances d'aller mieux.

• Le design de la randomisation peut être croisé (cross-over).
Période de
sevrage
t1 t2 t3 (washout) t4 t5
Temps
Test Contrôle
Population
E+ E-
cible
n+ -
?
N
Contrôle Test
? E+
E-
n- +
Evaluation de l’effet M+, M- Reévaluation de l’effet

M+, M-
Les individus sont tous exposés (E+) et non exposés (E-) dans un ordre randomisé (n+- sont ceux
qui seront exposés et ensuite non exposés et n-+ sont ceux qui seront d’abord non exposés et
ensuite exposés). Ils sont tous évalués deux fois. Ainsi, chaque individu fournit une estimation de
la différence entre l'exposition et la non-exposition. Le design est utile pour évaluer un traitement
palliatif, non curatif dans les maladies chroniques stables comme le diabète ou l'arthrose.
L'analyse de ce design dépasse le cadre de ce cours bien que nous aborderons la comparaison de
deux échantillons appariés. Ici, il s'agit de 4 échantillons appariés : l'évaluation des testés en
première intention, des contrôlés en première intention, des testés en deuxième intention et des
contrôlés en deuxième intention. L'avantage de ce design est qu'il requiert moins d'individus
puisque chaque individu sera son propre contrôle mais les inconvénients sont nombreux : le
temps étant plus long, davantage de patients abandonnent (drop-out), la maladie peut ne pas être
tout à fait stable, la période de sevrage peut ne pas être assez longue,...
Un groupe contrôle est indispensable parce que dans les études pré- post- intervention, la
différence peut refléter l'effet de l'intervention mais aussi la variation d'autres facteurs au cours
du temps et il est quasi-impossible de distinguer ces deux variations sans groupe contrôle ! Mais
un groupe contrôle n'est pas toujours possible.
Par exemple, en 1986, Mills et al ont évalué l'effet d'une campagne d'information sur le SIDA,
menée par le gouvernement britannique. Des questionnaires ont été envoyés avant et après la
campagne à un échantillon aléatoire. Les investigateurs ont constaté par exemple que 33% de la
population connaissait le sens des initiales AIDS avant la campagne et seulement 34% après ! Un
groupe contrôle n'était pas possible puisque la campagne couvrait tout le pays.

3.2. Les études ou enquêtes prospectives
On commence à suivre les individus après l'exposition.
3.2.1. Exposés-témoins (schéma rarement utilisé)
t2 t3 Temps
? n M+
n
E+ M+ M-
? n M-
E+ nE+
? n M+ E- nE-
n
E- N
? n M+
Evaluation
Un échantillon d'individus exposés (E+) et un échantillon d'individus non exposés (E-) sont
suivis au cours du temps et l'observation de chaque individu commence au temps t2, c'est-à-dire
avant la maladie. Les individus sont évalués après l'apparition de la maladie, en t3.
Cette méthode est utilisée lorsque le facteur d'exposition est rare comme l'exposition à des
radiations nucléaires. Le design peut être parallèle mais généralement, il est apparié. Si on suit
tous les exposés et un échantillon aléatoire des non-exposés, on peut déterminer l'incidence chez
les exposés, l'incidence chez les non-exposés, mais pas l'incidence dans la population. On ne
pourra tirer des conclusions que conditionnellement à l'exposition.
Par exemple, dans le cas des travailleurs exposés à des radiations nucléaires, on peut associer à
chacun un conjoint qui serait un travailleur du même sexe, même âge, même catégorie
socioprofessionnelle... Lors de l'évaluation, ce sont les paires discordantes qui vont présenter un
intérêt.
On ne peut pas toujours randomiser les contrôles (non exposés).

Un bon exemple est la survie des transplantés cardiaques (exposés). Il est difficile d'imaginer une
randomisation sur la transplantation ! Le mieux que l’on puisse faire est de comparer la survie
des transplantés avec celle de patients historiques souffrant du même problème lorsque la
transplantation n'était pas disponible (contrôles historiques). Une alternative serait de les
comparer à ceux chez qui un donneur n'a pas été disponible avant la mort. Les deux approches
posent des problèmes de biais. La présence d'un temps d'attente pour un donneur compatible
implique que ce sont ceux qui sont dans un état moins critique qui vont survivre à ce temps
d'attente.

3.2.2. Cohortes
Une cohorte désigne souvent en épidémiologie un ensemble d’individus qui ont en commun
le vécu d’une même expérience ou de mêmes conditions. Par exemple, une cohorte de
naissance partage la même année ou période de naissance (cohorte des personnes nées en
1900) ; une cohorte de végétariens partage le même régime diététique ; la cohorte des
travailleurs d’une entreprise chimique, …
Dans l’étude, il peut y avoir une, deux ou plus de deux cohortes. Les groupes diffèrent par
l’étendue ou le type d’exposition à un facteur causal potentiel. Quand il y a deux cohortes
dans l’étude, l’une est la cohorte exposée, l’autre la cohorte non exposée ou cohorte de
référence. Ces individus sont suivis au cours du temps, de t2 à t3. t2 peut aussi être une période
de recrutement. Dans une cohorte prospective, l’investigateur assigne préalablement
l’exposition et attend ensuite jusqu’à la survenue de la maladie.
t2 t3 Temps
malades
? M+
E+ M+ M-
non maladies
COHORTE
malades
? M- E+ nE+
E- nE-
non
E- ? M+
N
? M-
Evaluation
Le but est de mesurer et souvent comparer l’incidence de la maladie dans une ou plusieurs
cohortes. Généralement, ces études sont menées pour déterminer et investiguer des facteurs
étiologiques. Elles sont souvent appelées études d'observation puisqu'elles observent simplement
la progression des individus au cours du temps. Elles sont sujettes aux facteurs de confusion
(biais). Il faut donc bien veiller à mesurer toutes les variables potentiellement influentes avant de
commencer l'étude. L'analyse finale prendra en considération les différences dans les variables
initiales, entre les deux groupes.
Exemples :
On veut déterminer si la vasectomie augmente le taux de maladies cardio-vasculaires. Il est clair

qu'on ne peut pas imposer une vasectomie à un homme et donc, une étude expérimentale est
impossible. Mais on peut prendre une cohorte d'hommes d'un certain âge dans une région précise
et comparer ceux qui ont opté pour la vasectomie à ceux qui ont opté contre ou qui ne se sont

simplement pas posé la question. La forme physique, l'éducation de ceux qui choisissent la
vasectomie peuvent être très différentes de celles des hommes sans vasectomie. Or, ces deux
facteurs sont des facteurs de risque connus pour les maladies cardio-vasculaires.
Schatzkin et al (1987) ont étudié 7188 femmes âgées de 25 à 74 ans qui avaient été examinées
entre 1971 et 1975 dans le cadre d'une enquête sur la nutrition aux USA (NHANE survey)
incluant des questions sur la consommation d'alcool. Les sujets de cette étude avaient été
observés entre 1981 et 1984 et les cas de cancer du sein avaient été identifiés.
Schatzkin et al ont trouvé que le risque de cancer du sein était de 50% plus élevé chez les
alcooliques que chez les non alcooliques malgré un ajustement pour des facteurs tels que la
ménopause, l'obésité et la cigarette. Le problème statistique a été de comprendre si c'était
réellement la consommation d'alcool qui produisait cet accroissement de l'incidence du cancer du
sein ou bien si c'étaient d'autres facteurs qui sont généralement associés à la consommation
d'alcool.
3.3. Les études rétrospectives
3.3.1. Cas-témoin (case-control)
Une étude cas-témoin commence en t3, par l'identification des personnes ayant la maladie (ou une
autre variable réponse) d'intérêt et un groupe de personnes n'ayant pas la maladie. La relation
entre un facteur de risque et la maladie est examinée en comparant les malades et les non
malades pour la fréquence (ou la valeur moyenne) de la présence du facteur de risque.
t2 t3 Temps
n E+ ?
M+ n
M+ cas
n E - ?
M+ M-
E+
n E+ ?
n
M+ M- témoins E-
n E - ?
N M+ nM-
non malades
Cette méthode est la plus répandue en milieu clinique. Elle permet de formuler des hypothèses
étiologiques. Elle est parfois appelée exploratoire.
Pour les maladies rares, elle reste une méthode réaliste. Le risque absolu (incidence) ne peut pas
être estimé, ni le risque relatif (incidence chez exposés / incidence chez non exposés) mais
seulement un odds ratio (rapport des cotes) et si la maladie est rare (I<10%), cet odds ratio
pourra être considéré comme étant le risque relatif.

Le choix des témoins est crucial et épineux. Il est quasiment impossible de choisir des témoins
qui soient pareils pour tous les facteurs sauf pour la maladie. En 1978, Horwitz et al ont étudié
l'effet des oestrogènes sur le cancer de l'utérus. Les témoins avaient été choisis parmi les femmes
soufrant de maladies gynécologiques bénignes et ayant subi une dilatation utérine et curettage ou
une hystérectomie. Un tel groupe témoins n'était pas approprié parce que les agents qui causent
une maladie dans un organe peuvent causer aussi d'autres maladies ou symptômes dans cet
organe. Les oestrogènes causent aussi des maladies de l'endomètre par exemple, qui peuvent
avoir aussi nécessité une dilatation et curettage ou une hystérectomie (over-matching). Les
témoins hospitaliers devraient être recrutés parmi des patients souffrant d’une maladie
étiologiquement indépendante du facteur d’exposition. Le risque des témoins dans cette étude
était surestimé et le risque relatif était alors sous-estimé !
Remarques
• Les témoins peuvent être choisis dans une population de non malades sans aucun appariement
(design parallèle ou groupes indépendants)
Exemple :
Olsen et al (1987) ont étudié 7 femmes ayant le syndrome de Raynaud (doigts blancs +
vasoconstriction), 10 femmes saines, 7 hommes ayant aussi ce syndrome et 8 hommes sains. Les
témoins étaient des étudiants en médecine. Les auteurs ont comparé la réponse vasoconstrictrice
de l'assise des doigts entre les cas et les témoins et ont obtenu un résultat statistiquement
significatif. La différence entre les cas et les témoins est-elle due à la maladie ou d'autres facteurs
peuvent-ils l'expliquer? Les étudiants sont probablement plus jeunes et en meilleure santé que les
personnes atteintes du syndrome.
• Les témoins peuvent être appariés sur deux ou trois variables connues comme influençant la
maladie (matched design, groupes dépendants). En général, on choisit l'âge, le sexe et la classe
sociale et, à chaque cas, on associe un témoin (ou plusieurs parfois). L'analyse statistique doit
tenir compte de l'appariement.
Exemple :
En 1987, Brown et al ont publié une étude sur tous les cas de cancer des testicules, dans une
région définie, du 1/1/76 au 30/06/86. Les témoins étaient des hommes du même hôpital que les
cas et appariés aux cas sur l'âge et la race. Ces témoins souffraient d'autres malignités que le
cancer des testicules. Les investigateurs ont conclu que les hommes dont les testicules n'étaient
pas descendus à la naissance avaient un risque plus élevé de développer le cancer étudié.

3.3.2. Cohortes
Les études de cohortes rétrospectives ou historiques sont beaucoup plus rares. Plusieurs études
de cohortes professionnelles sont rétrospectives dans le sens que les sujets sont sélectionnés
après que la maladie soit survenue. Elles impliquent l’identification et le suivi de sujets, mais
les sujets sont identifiés uniquement après que la période de suivi de l’étude soit finie.
C'est dans les études rétrospectives que les biais sont les plus importants. La sélection des
témoins est difficile et souvent la source de controverses. L’identification des sujets, leur
exposition, et leur devenir sont basés sur des enregistrements existants ou sur les mémoires.
Une personne malade se rappelle plus facilement (et est plus motivée à se rappeler aussi) si elle a
été exposée à un facteur de risque qu'une personne non malade. Dans les dossiers, on collecte
beaucoup d'information concernant la maladie dont souffre une personne mais très peu
concernant les maladies dont elle ne souffre pas ! Par contre, on n'est pas confronté au problème
de l'éthique dans de telles études. C'est pour ces raisons qu'elles sont plutôt considérées comme
génératrices d'hypothèses qui doivent être corroborées par une étude prospective au moins.
Simplement, l'antériorité du facteur d'exposition n'est parfois pas évidente : dans une étude sur
l'effet de l'herpès II sur le cancer du col, les cancéreuses montraient un taux d'anticorps plus élevé
que les témoins mais était-ce la cause ou la conséquence du cancer du col ?
«Vrai dans le tout mais faux dans chaque partie » : le paradoxe de Simpson est aussi un
problème des études rétrospectives.
Dans les données suivantes, l’exposition au facteur A semble augmenter le risque.
Problème de santé
présent (M+) absent (M -)
Exposition Oui 64 66 130 64/130 = 49 %
au facteur A Non 22 48 70 22/70 = 31 %
En considérant dans ces mêmes données la relation entre le facteur A et le problème de santé,
non plus globalement, mais selon qu’un autre facteur B est présent ou absent, on constate les
résultats des deux tableaux suivants : l’exposition au facteur A semble diminuer le risque lorsque
B est présent et l’exposition au facteur A semble diminuer aussi le risque lorsque B est absent.
Facteur B présent Facteur B absent

Problème de santé Problème de santé
présent absent présent absent
(M+) (M -) (M+) (M -)
Exposition Oui 63 17 80 63/80 = 79% 1 49 50 1/50 = 2%
au facteur A Non 17 3 20 17/20 = 85% 5 45 50 5/50 = 10%
B est un facteur de confusion tel qu'il inverse l'effet de A sur le risque de maladie. Cette inversion
est due au fait que B n’est pas distribué de la même manière entre les niveaux de A : B est

présent dans 80/130=61.5% des cas où A est positif et dans 20/70=28.6% des cas où A est
négatif.
Par exemple, plusieurs études ont rapporté que les asthmatiques avaient un risque plus bas de
cancer du poumon que les non asthmatiques. Cependant, les asthmatiques sont moins souvent
fumeurs et les non fumeurs sont moins à risque que les fumeurs ! Il aurait été plus approprié de
restreindre l'étude à des cas asthmatiques non fumeurs et des témoins non fumeurs.
3.4. Les études transversales (cross-sectional)
Dans un lieu et à un moment précis, on effectue une mesure simultanée du (ou des) facteur(s)
d'exposition et de la présence ou l'absence de la maladie :
t3
M+ M-
n (E+ M+)
E+ n E+, M+ n E+, M-
n (E+ M-)
E- n E-, M+ n E-, M-
n (E- M+)
n (E- M-)
Ces études sont réalisées en un temps minimum, à un coût minimum, sans problème d'éthique
mais elles sont truffées de biais et ne permettent pas du tout d'estimer un risque.
Elles permettent simplement d'estimer la prévalence (utile pour la planification des lits par
exemple) et de suggérer des hypothèses étiologiques mais moins bien que dans les études
rétrospectives.
Supposons par exemple que la taille et l'âge soient négativement associés dans l'analyse des
résultats de l'enquête. Parmi les interprétations possibles, on peut considérer, soit que les
individus régressent avec l'âge, soit que les générations plus jeunes ont des tailles plus grandes,
soit que les personnes plus grandes meurent plus vite !
Les études transversales sont plus indiquées pour étudier des facteurs qui ne changent pas au
cours du temps comme le sexe, le groupe sanguin ou des facteurs qui sont des habitudes
chroniques comme le tabagisme.
Les études transversales ressemblent aux études rétrospectives cas-témoins, excepté par le fait
que le nombre de cas n'est pas connu d'avance.

3.5. Les études normatives
Pour la plupart des tests diagnostiques, il faut établir un intervalle de normalité. Tout patient
suspect d'une pathologie peut être soumis au test et son résultat sera comparé à l'intervalle. Un
résultat hors de l'intervalle peut être considéré comme une confirmation de la pathologie.
Pour déterminer ces normes, il faut évaluer des volontaires normaux sains. Il faut éviter de les
choisir parmi les étudiants en médecine "anxieux d'apprendre" ou parmi les collègues exposés à
un même environnement de travail lorsqu'il s'agit d'une biochimie du sang par exemple. Cet
intervalle est souvent défini par 2 déviations standard de part et d'autre de la moyenne de la
mesure mais cela présuppose que la distribution de la mesure est normale. Sinon, on peut soit
transformer, soit utiliser les percentiles comme nous le verrons plus loin.

CHAPITRE 4 : STATISTIQUE DESCRIPTIVE
D'ECHANTILLON
Introduction
Dans une enquête, une expérience ou un essai clinique, toute l'information dont on dispose est
contenue dans les mesures qui ont été réalisées.
Dans le vocable statistique,
- Une variable aléatoire est une quantité ou une qualité (mesure) dont la valeur observée est
sujette aux variations selon les lois du hasard.
- Par contre, une variable mathématique est une variable déterministe : ses valeurs sont
déterminées par l'investigateur.
Par exemple, dans une étude rétrospective cas-témoin, la variable "maladie" est mathématique
parce que c'est l'investigateur qui choisit de regarder des cas (maladie présente) et des témoins
(maladie absente) mais dans une étude prospective de cohorte, la variable "maladie" est aléatoire
parce que c'est le hasard qui va déterminer si un individu de l'étude sera malade ou non.
- Un échantillon de taille N est une série de N observations d'une variable aléatoire pour une
valeur fixée d'une variable mathématique. Dans une étude cas-témoin, si on "mesure" l'âge de Nc
cas et l'âge de NT témoins, on dispose de deux échantillons. Si on mesure aussi le tabagisme et la
taille de tous les cas et les témoins, on dispose de six échantillons.
- Un échantillon est aléatoire si chaque individu (unité de mesure) a une probabilité connue non
nulle ( ≠ 0) et non certaine ( ≠ 1) d'être choisi.
- Un échantillon est aléatoire simple si la probabilité d'être choisi est la même pour tous les
individus. Dans ce cours, nous ne considérons que des échantillons aléatoires simples.
- La population cible est l'ensemble des individus auxquels on veut étendre (inférer) les résultats
des observations faites sur un échantillon.
Quand l'échantillon n'est pas pris aléatoirement dans la population que l'on veut cibler, on aura
un biais (erreur systématique) qui rendra l'extension impossible. Par exemple, dans une étude
normative, si on choisit des individus parmi une population consultante, il sera très difficile de
généraliser l'intervalle obtenu à une population urbaine parce que les individus sains ne
consultent pas généralement.

Populations et échantillons
Ω E2
E1
A B C
DF DG
D E F
G
n=2 n=2
N=7
X : Age (Années)
______________
A 17 D : 18 D : 18
B 19 F : 21 G : 19
C 20
D 18
E 19
F 21
G 19
________
µx 19 x = 19.5 x = 18.5
σ 2
x 1.43 s ² = 4.5 s ² = 0.5
σx 1.2 s = 2.1 s = 0.7
Population : valeurs exactes Echantillon : valeurs estimées
PARAMETRE ESTIMATION
(valeur inconnue) (valeur calculée)
FIXE ↓
ESTIMATEUR (v.a.)
Probabilité d'être choisi

Unité statistique cas1 cas2 cas3
A 0 1/2 1/7
B 1/6 1/12 1/7
C 1/6 1/12 1/7
D 1/6 1/12 1/7
E 1/6 1/12 1/7
F 1/6 1/12 1/7
G 1/6 1/12 1/7
NON ALEATOIRE ALEATOIRE
ALEATOIRE NON SIMPLE SIMPLE
Bon échantillonnage ⇒ Bons estimateurs

La méthodologie d'analyse statistique des résultats d'une étude requiert au départ :
• la connaissance du nombre d'échantillons, c'est-à-dire, le nombre de variables aléatoires × le
nombre de niveaux choisis pour la variable mathématique.
Exemple
Mesure de l'âge dans un essai Placebo/trait A/trait B ⇒ 3 échantillons

dans la cohorte des patients avec infarctus ⇒ 1 échantillon
chez des cas et des témoins ⇒ 2 échantillons
chez des exposés et des témoins ⇒ 2 échantillon.
• le type de variables aléatoires
♠ Au sens strict, une variable est discrète si elle ne peut prendre qu'un nombre fini de
valeurs ou de niveaux. Ainsi, une variable binaire est une variable discrète à 2 niveaux
(exclusifs et exhaustifs):
sexe = homme ou femme

décès = oui ou non
tabagisme = présent ou absent
♠ Une variable nominale est une variable discrète à r niveaux (exclusifs, exhaustifs et
non ordonnés) :
statut professionnel = indépendant ou bien ouvrier ou bien employé ou bien cadre ou bien
sans (r = 5)
le groupe sanguin = AB ou bien A ou bien B ou bien O (r = 4)
♠ Une variable ordinale est une variable discrète à r niveaux ordonnés (exclusifs et
exhaustifs aussi) :
état physique = amélioré ou bien inchangé ou bien détérioré (3 niveaux)

plainte thoracique = pas ou bien atypique ou bien suspecte ou bien typique (4
niveaux)
♠ Une variable est continue (quantitative) si elle peut prendre un nombre infini de
valeurs au sens mathématique : l'âge, le poids, le taux de glycémie, la quantité de
cigarettes fumées par jour,...
Si on mesure l'âge en années, le nombre de valeurs possibles est fini à cause de la

précision de la mesure ; si on l'avait mesuré en jours ou en heures, ou en minutes, c'est-à-
dire avec une unité de temps plus précise, "infiniment" précise, on obtiendrait un nombre
infini de valeurs possibles. C'est la précision de la mesure et non la variable elle-même
qui est en cause.
♠ Les variables ordinales sont à la frontière entre les variables discrètes et les variables
continues.

On les traite souvent avec les techniques non paramétriques développées pour les variables
continues lorsqu'elles ont beaucoup de niveaux. Des auteurs considèrent qu'une échelle
catégorique est une approximation d'une variable continue sous-jacente mais pas directement
mesurable (analyses Ridit). Si on utilise les techniques propres aux variables discrètes, on perd
l'information de l'ordre et on manque de puissance (l'erreur d'un résultat non significatif est trop
grande) et si on utilise les techniques paramétriques propres aux variables continues, les
paramètres n'ont pas de sens. Pour ces variables, c'est souvent le "bon sens" qui prévaut.
4.1. Cas d'une variable discrète
Pour décrire l'échantillon de mesures d'une variable discrète, il faut préciser :
4.1.1. La taille de l'échantillon : N (qu'on oublie parfois !)
4.1.2. La distribution de fréquence
• Préciser les niveaux possibles X :1 2 3 ... r

• Préciser les fréquences absolues n(x) : n1 n2 n3 ... nr
ou mieux,
• Les fréquences relatives f(x) : f1 f2 f3 ... fr
où ni est le nombre de fois que le niveau i est observé et fi = ni/N. Ne jamais cumuler les
fréquences si les niveaux ne sont pas ordonnés !
• Un graphique en barres (bar-chart). Ne jamais joindre les sommets si les niveaux ne sont pas
ordonnés !
Exemple
Au 31/3/92, 7814 personnes ont été confirmées comme étant séropositives pour le SIDA, par un
laboratoire belge. L'information relative à la nationalité est connue chez 3862 personnes.
La variable discrète X est la nationalité et N = 3862 (missing=0)
Nationalité
Cumulative
Frequency Percent Valid Percent Percent
Valid Africains et caraïbes 1296 33,6 33,6 33,6
Autres 242 6,3 6,3 39,8
Belges 1962 50,8 50,8 90,6
Européens non belges 362 9,4 9,4 100,0
Total 3862 100,0 100,0
ni
N fi

Histogramme de la variable discrète "Nationalité"
60
50
40
30
20
Percent
10
0
Africains et caraïbe Belges
Autres Européens non belges
Nationalité
Cases weighted by fréquences absolues
Si on disposait aussi des résultats des laboratoires français par exemple, on pourrait très bien
représenter le second échantillon sur le même graphique (et c'est même mieux si on veut
comparer ces résultats) en utilisant des barres hachurées par exemple et en le précisant dans la
légende.

4.2. Cas d'une variable continue
4.2.1. La taille de l'échantillon : N
4.2.2. La distribution de fréquence :
• Subdiviser l'échelle de mesure en classes exclusives et exhaustives c'est-à-dire que les classes
ne peuvent pas se chevaucher et qu’il existe un intervalle pour affecter toute valeur possible (de
préférence, des intervalles de longueur égale).
• Préciser pour chaque classe ci le centre xi, les fréquences absolues ni et relatives fi ou bien les
fréquences cumulées Fi :
i
Fi = f1 + f 2 + ... + f i = ∑ fi
j =1
Dans l'exemple ci-dessous, l'information relative à l'âge est connue chez 6209 personnes.
Si l’on forme des intervalles de longueur égale à 10 ans, corriger les fréquences relatives par la
longueur des intervalles (c’est-à-dire calculer les densités) ne change pas l’information
descriptive
Classes (centre) (Fréquences Fréquences Densités fréquences

ci absolues) relatives fi/longueur (ci) cumulées
ci ni fi (%) Fi (%)
[0-10[ 5 311 5.0 0.005 5.0
[10-20[ 15 120 1.9 0.0019 6.9
[20-30[ 25 2255 36.3 0.0363 43.3
[30-40[ 35 2090 33.7 0.0337 76.9
[40-50[ 45 870 14.0 0.0140 90.9
[50-60[ 55 399 6.4 0.0064 97.4
[60-70[ 65 127 2.0 0.0020 99.4
70 et plus (75) 37 0.6 0.0006 100.0
Total 6209 100.0 ±
• Pk, le pour centile k (percentile en franglais) est la valeur de la variable telle que k% des
observations sont inférieures à cette valeur et (100-k)% des observations sont supérieures à
cette valeur.
Pour connaître P25, par exemple, dans l’exemple ci-dessus, il faut :
• Repérer la classe dans laquelle ce percentile se trouve
C j = ⎡⎣ a j −1 ; a j ⎤⎦ où Fj −1 < 0.25 et Fj ≥ 0.25
Ici C j = [ 20 ;30[ où Fj −1 = 0.069 et Fj = 0.433
• Faire une interpolation linéaire (Règle du trapèze, théorème de Thalès) :
0.25 − Fj −1
P25 = a j −1 + l j
Fj − Fj −1
0.25 − 0.069
P25 = 19 + 10 = 23.97 = 24 ans
0.433 − 0.069
P25 s'appelle aussi le premier quartile ou quartile inférieur. 25% des observations sont
inférieures à cette valeur et 75% sont supérieures.
Les deux interprétations de la P25 calculées sont « Trois quarts des personnes ont plus de 24
ans » ou encore « Un quart des personnes ont moins de 24 ans ».
P50 s'appelle aussi la médiane.
P75 s'appelle aussi le troisième quartile ou quartile supérieur. 75% des observations sont
inférieures à cette valeur et 25% sont supérieures.
Si on dispose de toutes les valeurs, il vaut mieux estimer les percentiles à partir des valeurs
plutôt qu'à partir du regroupement tel que montré ci-dessus.
On range les observations par ordre croissant et x(i) est l'observation de rang i (x(1) est la plus
petite et x(N) est la plus grande).
Exemple :
On a mesuré l'âge de 20 femmes
Age 46 55 42 35 46 45 47 50 31 30
Rangs (14) (20) (9) (6) (13) (11) (16) (18) (3) (2)
Age 25 33 35 40 45 47 49 42 40 50
Rangs (1) (4) (5) (7) (12) (15) (17) (10) (8) (19)

Quand n est pair
1
P25 = ( x n + x n ).
4 4
+1 2
1 1
Dans cet exemple, P25 = ( x20 + x 20 ) ⋅ = ( x5 + x6 ) ⋅ = 35 ans puisque x5 = 35 et x6 = 35.
4 4
+1 2 2
Quand n est pair
Si l’on retire de l’échantillon la dernière observation x20=55, n est alors égal à 19 et

P25 = x n +1 = x 20 = x5 = 35 ans
4 4
4.2.3. Mesures de tendance centrale (location)
A. La moyenne arithmétique (mean, average) : X
• Si on dispose de toutes les observations,
X 1 + X 2 + ... + X N
X= ⇒ aX + b = aX + b
N
Donc, la moyenne d'une transformation linéaire est la transformation linéaire de la moyenne.
Pour l'âge des 20 femmes de l'exemple précédent, l'âge moyen est égal à
46 + 45 + 42 + ... + 50
= 41.65 ans.
20
Si on exprime l'âge en mois, la moyenne sera 12 × ( 41.65 ) mois = 499.8 mois
• Si on dispose des observations regroupées en classes,
X = ∑ xi i f i
où xi est le centre de la classe Ci et fi est la fréquence relative dans Ci.
Pour l'âge des 6209 séropositifs, l’âge moyen est
X = 5i( 0.05 ) + 15i( 0.019 ) + 25i( 0.363) + ... + 75i( 0.006 ) = 33.0 ans

B. La médiane
C’est le percentile 50, c'est la valeur de la variable telle que 50% des observations lui sont
inférieures et 50% lui sont supérieures. Elle est donc basée sur les rangs des observations et
non pas sur les valeurs elles-mêmes comme X .
C. Le mode
C’est la valeur de la variable la plus fréquente ou, si les données sont groupées en classes,
c'est le centre de la classe qui a la plus grande densité de fréquence (relative si les classes
sont de longueur égale).
Dans l'exemple de l’âge des séropositifs en Belgique, l’âge modal est de 25 ans puisque la
densité de fréquence maximale est 0.0363 pour la classe 20-29 ans (dont le centre est 25).
Le mode est très peu utilisé dans l'analyse statistique parce que sa valeur dépend de la
précision de la mesure de la variable.
D. Moyenne ou médiane ?
moyenne>mediane
moyenne=mediane moyenne<mediane
0.025
0.025
0.025
0.020
0.020
0.020
densite
0.015
0.015
densite
densite
0.015
0.010
0.010
0.010
0.005
0.005
0.005
0.0
10 20 30 40 50
skewness=0.48
x 0 20 40 60 80 100 10 20 30 40 50 60
mean=26 et median=19
skewness=0
x x -0.83
skewness=
mean=median=51 mean=39 et mediane=45
Si la moyenne est plus grande Si la moyenne est égale à la Si la moyenne est plus petite
que la médiane, la médiane, la distribution est que la médiane, la
distribution est asymétrique à symétrique . distribution est asymétrique à
droite. gauche.
α 3 >0 (right tail) Symétrie nulle α 3 <0 (left tail)
L'avantage majeur de la moyenne est que toutes les valeurs mesurées sont utilisées; la
moyenne est donc efficace au sens statistique. L’inconvénient, c'est qu'elle est fort influencée
par les observations singulières (outliers), c'est-à-dire les observations "anormales" ou
extrêmement différentes des autres.
Par exemple, dans l'échantillon de l'âge des 20 femmes, si on ajoutait une 21ème femme de 95
ans, la moyenne deviendrait 44 ans alors que la médiane passerait de 43.5 ans à 44.3 ans. De
telles observations doivent normalement être exclues des calculs mais doivent bien sûr
apparaître dans le rapport de l'analyse.
Si des données sont symétriques, la moyenne est une meilleure statistique et si elles sont

asymétriques, la médiane est moins influencée par la dissymétrie mais elle l'est quand même !
Il n'y a pas de prescription pour choisir l'une plutôt que l'autre; elles contiennent toutes deux
une information utile pour "centrer" un échantillon.
Centrer les observations consiste à leur soustraire la moyenne ( X = 41.65 ans)
Xi Xi- X Xi Xi- X
46 4,35 25 -16,65
55 13,35 33 -8,65
42 0,35 35 -6,65
35 -6,65 40 -1,65
46 4,35 45 3,35
45 3,35 47 5,35
47 5,35 49 7,35
50 8,35 42 0,35
31 -10,65 40 -1,65
30 -11,65 50 8,35
4.2.4. Mesures de la dispersion ou de la variabilité
Ces deux courbes nous permettent de visualiser le fait qu’un échantillon possédant une plus
grande déviation standard (DS=2) est un échantillon qui varie plus autour du centre (µ=0)
qu’un échantillon possédant une déviation standard moins élevée (DS=1). On dit du premier
échantillon (µ=0, DS=2) qu’il est plus « dispersé » que le second.

A. La déviation standard : S(X) S2 est la variance
La déviation standard est basée sur le moment d'ordre 2.
• Si on dispose de toutes les observations,
∑( X −X) S (aX + b) = │a│ ⋅ S(X)

2
S(X ) =
i
Donc,
N −1
S² (aX + b) = a² ⋅ S(X)
S est l'écart quadratique. Le fait qu'on divise par N-1 plutôt que par N vient du fait que N
observations centrées ont une liaison : Σ (Xi - X ) = 0 ! A cause de cette liaison, on n'a plus N
mesures qui peuvent fluctuer (degré de liberté) mais N-1 quand on travaille avec des
observations centrées. On note souvent simplement S au lieu de S(X).
L'inverse de la déviation standard s'appelle parfois aussi la précision.
Dans l'échantillon des mesures de l'âge de 20 femmes,
( 4.35) + (13.35) + ( 0.35) + ( −6.65) + ... + ( 8.35 )

2 2 2 2 2
2
S (âge) =
19
= 62.34 (ans) 2
S(âge) = 62.35 = 7.90 ans
• Si on dispose des observations regroupées par classes,
N
∑ ( X i − X ) i fi
2
S=
N −1
Dans l'exemple des séropositifs,
S2 =
6209
6208
( 2 2
)
( 5 − 33) 0.05 + ... + ( 75 − 33) 0.006 = 97.03 (ans)2
et S = 9.85 ans
B. L'étendue (range)
L'étendue peut être définie par un intervalle :
E = [ X(1) , X(N) ] qui sont les observations min et max, ou bien par la longueur de cet
intervalle.
Dans l'échantillon des mesures de l'âge de 20 femmes, E = [25 ; 55] ans ou bien E = 30 ans

C. L'interquartile IQR
IQR = [ P25 , P75 ]
Cet intervalle contient la moitié des observations (50%). Il accompagne généralement la

médiane.
Dans l'échantillon des mesures de l'âge de 20 femmes, IQR = [34.7 ; 47.3] ans
D. Le coefficient de variation CV
La moyenne et la déviation standard dépendent des unités de mesure. Ainsi par exemple, si
on avait mesuré l'âge des 20 femmes en mois, c'est comme si on transformait les données :
âge (mois) = âge (années) i 12
⇒ moyenne X = 41.65 * 12 = 499.8 mois

⇒ déviation S = 7.90 * 12 = 94.8 mois
Le coefficient de variation est un indice de précision qui permet de comparer les variations
indépendamment des unités de mesure :
S
CV =
X
Dans l'exemple, CV = 19% pour les deux unités de mesure.

Attention, il reste dépendant de la référence de l'échelle. Ainsi, si on mesure l'âge depuis 6
ans plutôt que depuis la naissance, il variera.
4.2.5. Mesure de la symétrie α3 (Skewness)
Il existe beaucoup d'expressions du manque de symétrie d'une distribution. Aucune n'est

"idéale" parce que chacune est affectée d'une manière ou d'une autre par les observations
singulières ou par le type de dissymétrie. Chacune de ces expressions analyse un aspect
différent. Aucune ne peut se substituer à l'analyse "graphique" des données. Nous citons ici le
moment d'ordre 3 qui est une des statistiques les plus utilisées dans les logiciels :
∑( X −X) ⎛
3
N ⎞
α3 =
i
i⎜⎜ ⎟⎟
N −S 3
⎝ N −1 ⎠
α3 ≈ 0 ⇒ la distribution est symétrique
α3 > 0 ⇒ la distribution est dissymétrique à droite
α3 < 0 ⇒ la distribution est dissymétrique à gauche

Dans l'échantillon de l'âge des 20 femmes, α3 = -0.42, ce qui suggère une asymétrie gauche.
Est-elle significative? Pour répondre à cette question, il faut connaître la déviation standard
de ce paramètre α3. Sous l'hypothèse d'une distribution normale, S(α3) ~ 6
N
α3
Le quotient Z = peut être comparé à 1.96 pour conclure.
6
N
Dans notre exemple, Z = 0.77, ce quotient est inférieur à 1.96; il n'est pas évident que la
distribution ne soit pas symétrique.
Ce quotient est très sensible à des valeurs extrêmes; il faut toujours confirmer par une analyse
graphique.
4.2.6. Mesure de l'aplatissement (Kurtosis) α4
C'est la deuxième mesure de forme (shape) d'une distribution. Elle est basée sur le moment
d’ordre 4.
⎧ N ( X − X )4 ⎫
⎪ ∑ i ⎪
α4 = ⎨ ⎬−3
⎪⎩ ( N − 1) i S ⎪⎭
2 4
0.010
moyenne=mediane
0.010
0.008
0.025
0.008
0.020
0.006
0.006
0.015
f
densite
f
0.004
0.004
0.010
0.002
0.002
0.005
0.0
0.0
-50 0 50 100 150

0.0
x
0 20 40 60 80 100
skewness=0
x
mean=median=51
Pour une courbe Courbe plus haute que la Courbe moins haute que la
« normale », Gaussienne, normale normale
α4 = 0 α4 > 0 α4 < 0
α4 est une mesure de l'aplatissement par rapport à la courbe de Gauss (normale) que nous
verrons plus loin.
Dans l'exemple de l'âge des 20 femmes, α4 = -0.88 ce qui suggère une courbe un peu plus
24
plate que la courbe normale. La déviation standard de α4 peut être approximée par et le
N
α4
quotient Z = peut aussi être utilisé pour conclure en le comparant à 1.96.
24
N

Dans notre exemple, Z=0.80 est inférieur à 1.96. L'aplatissement pourrait être considéré
comme normal mais il faut bien sûr aussi juger avec une analyse graphique.
Remarque : En plus de ces deux paramètres de forme, nous verrons une méthode graphique
pour déterminer si un échantillon est normal. Mais patience, il faut d'abord savoir ce qu'est la
loi normale !
4.2.7. Représentation graphique
A. Le diagramme tige-feuille (Stem-and-leaf)
Ce diagramme est utilisé pour les petits échantillons (moins de 100 données disons).
Reconsidérons l'exemple de l'âge des 20 femmes, ordonné :
25, 30, 31, 33, 35, 35, 40, 40, 42, 42, 45, 45, 46, 46, 47, 47, 49, 50, 50, 55
Le premier chiffre forme la tige et le second la feuille. Par exemple, pour le nombre 46, 4 est
la tige et 6 est la feuille. Si on avait des chiffres 0.25, 0.30, 0.31,... la première décimale serait
la tige et la seconde la feuille. Pour notre échantillon, en alignant bien les chiffres "feuilles",
l'allure montre comment sont distribuées les données. Si il y a peu de tiges, il peut être
difficile de voir la forme de la distribution. On peut alors diviser toutes les tiges en deux. La
tige 2 porte les feuilles 0 à 4 et la tige 2bis porte les feuilles 5 à 9.
Voici, un graphique réalisé sur base de ce qui vient d’être expliqué ainsi que celui fourni par
SPSS (pour l’âge des 20 femmes).
Tige Feuille
2 5 Stem-and-Leaf Plot
3 01355 Frequency Stem & Leaf
4 00225566779 ,00 2 .
1,00 2 . 5
3,00 3 . 013
5 005 1,00 3 . 5
4,00 4 . 0022
ou bien 7,00 4 . 5566779
2,00 5 . 00
2 1,00 5 . 5
2bis 5 Stem width: 10,00

Each leaf: 1 case(s)
3 013
3bis 55
4 0022
4bis 5566779
5 00
5bis 5

On ne rencontre pas souvent ce type de diagramme dans la littérature médicale et il est
pourtant bien utile ! La médiane et les quartiles sont très facilement évaluables à partir d'un
diagramme tige-feuille. Ici par exemple, la seconde représentation montre plutôt clairement
que les données sont plus concentrées dans la fin de la distribution, ce qui suggère une
asymétrie à gauche comme l'a montré le coefficient de symétrie de cet échantillon.
B. Le graphique des points (dot-plot)
C'est la méthode graphique la plus simple pour montrer toute l'information : tous les points
sont dessinés. Si on possède plusieurs groupes (hommes et femmes par exemple), ce
graphique montre clairement si les nuages de points se chevauchent ou non et si il y a des
observations singulières.
60
55
50 2S Le trait en pointillés représente la moyenne et 2

déviations standards de part et d'autre (l'intervalle de
45 prédiction à 95% comme nous le verrons plus tard).
40 Il ne faudra pas confondre un intervalle de
Prédiction/Probabilité avec un intervalle de confiance.
35 2S
30
25
20 Femmes (Hommes)
En présence de mesures répétées (échantillons pairés) le graphique des points est

particulièrement utile si les points "avant" et "après" sont joints.
Par exemple, Cohen et al (1987) ont étudié le taux de filtration glomérulaire chez 7
diabétiques sous insuline avant et après un régime à basse protéine.
140
Taux de filtration glomérulaire(ml/min/1.73
130
La figure montre un niveau plus
120 bas chez 6 diabétiques après le
régime à basse protéine, ce qui
110 régime normal
n'aurait pas semblé évident si
m2)
régime basse protéine les points n'avaient pas été

100
joints.
90
80 Ce graphique est réalisable si il

n'y a pas trop de points
70

C. L'histogramme des fréquences
En présence des grands échantillons, l'allure (pattern) des données ne peut se voir que sur un
histogramme de fréquences par intervalle ou classe de regroupement. Il vaut mieux choisir
les fréquences relatives plutôt que les fréquences absolues pour pouvoir comparer avec
d'autres études. Le choix du nombre de classes (de longueur égale comme déjà dit!) est
important. Avoir trop peu d'intervalles mène à une perte d'information et en avoir trop ne
permet plus de voir la forme de la distribution. On choisit généralement entre 5 et 15
intervalles mais le choix correct sera plutôt basé sur une impression subjective de
l'histogramme obtenu.
Dans l'exemple des séropositifs pour lesquels l'âge était connu chez 6209, nous avions formé
8 classes d'âge; une dissymétrie à droite apparaît dans la distribution (P50 = 31 ans, X = 33
ans)
classes d'âge
3000
2000
Frequences absolues
1000
Std. Dev = 12.36

Mean = 33.0
0 N = 6209.00
5.0 15.0 25.0 35.0 45.0 55.0 65.0 75.0
centres des classes d'âge
Cases weighted by FREQABS
Ne pas confondre un histogramme (les rectangles sont adjacents) et un graphique en barres

(les rectangles doivent être espacés)
L'épreuve graphique de normalité sera présentée plus tard.

D. Le graphique boîte-extrémité (box-plot)
Quand le nombre de points est important, un graphique-point peut être remplacé par un
graphique boîte-extrémité; il est plus compact que l'histogramme et montre la médiane et
deux mesures de dispersion : l'IQR et l'étendue. Plusieurs groupes peuvent aussi être
présentés dans le même graphique.
60
Max = 55
50
P75=47.3 ans
P50=43.5 ans
40
P75 = 55 ans
30 P25=34.7 ans
ÂGES
Min = 25 ans
20
N= 20
femmes
FEMMES
Analysis weighted by FREQABS
Ce graphique boîte-extrémité correspond à l'échantillon de l'âge des 20 femmes déjà présenté.

Dans la boîte, la médiane est plus proche de P75 que de P25, ce qui indique une dissymétrie à
gauche de l'échantillon. Pour un échantillon symétrique, P50 est à mi-hauteur dans la boîte.
E. L’histogramme
L’histogramme au sens statistique ou histogramme de densité de fréquences (i.e. fréquences

relatives/longueur de l’intervalle) a l’avantage que la somme des surfaces de tous les rectangles
(ou intégrale totale de la fonction de densité) vaut 1. Toute partie de surface aura donc une valeur
comprise entre 0 et 1.
L’intégrale des densités de fréquence devient ainsi une base de calcul des probabilités pour les
variables continues, comme nous le verrons pour la loi normale (section 5.3).

Un bon graphique vaut mieux que 10 pages pour décrire un échantillon mais attention à un
effet "de visu" correct !
(a) Toujours spécifier clairement les noms des axes et des symboles, et les unités de mesure
(si une transformation a été faite sur les données, des axes exprimés dans les unités initiales
sont plus faciles à lire)
(b) Ne jamais utiliser un volume pour représenter une hauteur ! Les graphiques à 3
dimensions exagèrent souvent un effet.
(c) Ne pas surcharger un graphique. Plusieurs graphiques plus petits clarifient souvent.
(d) Ne jamais interrompre un axe dans un nuage de points ou entre 2 nuages correspondant
à 2 groupes de points différents. Mieux vaut adapter une autre échelle mais unique.
(e) Ne pas oublier une mesure de dispersion avec la mesure de tendance centrale.

CHAPITRE 5 : LOIS DE PROBABILITE RAISONNEMENTS
PROBABILISTE ET STATISTIQUE
Introduction
Le raisonnement probabiliste est un raisonnement déductif :
SI "la population" ALORS "l'échantillon"
Si la population est soumise à une loi du hasard qui s'exprime sous forme d'un modèle
mathématique pour la distribution de fréquence théorique, alors tout échantillon aléatoire simple
extrait dans cette population a des caractéristiques bien précises, C.
Le raisonnement statistique est un raisonnement inductif :
Si "l'échantillon" alors "la population"
Si l'échantillon ne présente pas les caractéristiques précises C, alors la population de laquelle il

est extrait n'est pas soumise à la loi du hasard L. Remarquons que si ces caractéristiques précises
sont présentes, on ne peut pas affirmer, sauf pour de très grands échantillons, que la loi est L
(manque de puissance).
Exemple : Lorsqu'on veut comparer deux échantillons, l'hypothèse nulle consiste à dire en
quelque sorte que les deux échantillons proviennent de la même population. En analysant des
caractéristiques précises de ces deux échantillons, on inférera que l'hypothèse faite n'était pas
admissible ("statistiquement significatif") ou bien que l'hypothèse faite ne peut pas être rejetée: la
caractéristique (ou le facteur) qui distingue ces deux échantillons ne permet pas de distinguer les
populations.
Pour arriver au raisonnement statistique, il faut donc connaître ces lois qui modélisent le
hasard.
5.1. Définition d'une probabilité et règles de calcul
Une probabilité est une mesure théorique de la fréquence des réalisations d'un phénomène.
Cette mesure théorique peut être objective lorsqu'elle représente la fréquence asymptotique
d'un évènement
Par exemple, la Belgique compte environ 10.000.000 de Belges. Chaque année environ 100.000
Belges meurent et ces chiffres restent relativement stables. Sans information sur son âge, sa
santé, ... chaque Belge a 1% de chance (100.000 / 10.000.000) de décéder dans l'année. Par la

stabilité des chiffres, on peut prédire assez précisément le nombre de Belges qui vont mourir
(mais pas lesquels).
L'idée de base est que chaque année pourrait être un "essai" indépendant dans le sens où la
probabilité qu'il meure ou survive n'affecte pas les chances d'un autre individu. Si un individu
particulier meurt au cours de l'année, "l'évènement" se produit. L'estimation de la probabilité de
mourir pour chaque individu est le nombre de décès divisé par le nombre d'individus entrés dans
l'essai. La probabilité d'un événement est la proportion de fois qu'il se produit dans une longue
séquence d'essais.
Dans certaines situations, l'idée d'un échantillonnage répété n'est pas appropriée.
Par exemple, si un enfant a une fibrose cystique alors qu'aucun de ses parents n'en a une, on sait
que les parents ont chacun le génotype cC où c est le gène de la fibrose cystique et C est le gène
normal. Pour tout autre enfant naissant dans la famille, il y a 4 combinaisons possibles pour le
génotype: cc, Cc, cC, CC. Seule la combinaison cc conduit à la maladie, donc cet autre enfant
aura 1/4 chance d'être atteint de fibrose cystique aussi. Cette probabilité n'est pas basée sur un
examen répétitif des familles avec des cas de fibrose cystique, mais sur la théorie mendélienne de
la génétique et l'égalité des chances pour les 4 génotypes.
⇒ La mesure théorique ou probabilité est basée alors sur un modèle où chaque évènement
"reçoit" une probabilité de se produire.
La probabilité peut être subjective lorsqu'elle représente la force de croyance en la survenue

d'un évènement ("bayésiens").
Par exemple, les chances qu'un réacteur nucléaire explose sont moins d'un million par an. Cette
estimation n'est pas basée sur des observations répétées ! Lorsqu'un clinicien estime sur base des
plaintes de son patient, qu'il a 40% de chance d'être cardiaque, il exprime sa "force de croyance"
subjective et, avec des tests diagnostiques, il peut éventuellement modifier sa croyance a priori.
Quelle que soit l'approche, le calcul des probabilités est soumis à des règles. Les 3 premières
règles (R1 à R3) sont les axiomes de Kolmogorov et toutes les autres peuvent être démontrées à
partir de ces trois-là.
Soit Ω, l'espace de tous les évènements possibles (population).
Par exemple, on lance un dé non pipé une fois et X = nombre de points obtenus.
Ω = {1,2,3,4,5,6}.
Un évènement est un ensemble de réalisations possibles :

A = obtenir un nombre pair est un évènement,
B = obtenir le nombre 1 est un autre évènement.
A et B sont disjoints ou exclusifs ou incompatibles s’il est impossible que A et B se réalisent

ensemble.
A ou C sont exhaustifs s’il est certain que A ou C sera réalisé.

Règle 1
R1 : P(Ω) = 1
il est certain que Ω va se réaliser : on va obtenir un point entre 1 et 6
Règle 2
R2 : ∀A ⊂ Ω : 0 ≤ P(A) ≤ 1
Une probabilité est toujours comprise entre 0 et 1
Règle 3
R3 : ∀A ⊂ Ω et ∀B ⊂ Ω tels que A et B
sont disjoints, alors
P(A ou B) = P(A) + P(B)
A
P(A ou B) = P (X ∈ {2,4,6} ou X ∈ {1}) = 4/6
B
2 4
1
P(A) = P (X ∈ {2,4,6}) = 3/6
6
3 P(B) = P (X ∈ {1}) = 1/6
5
Ce sont 3 axiomes ! Des vérités qui paraissent évidentes si on en comprend le sens mais qui ne se
démontrent pas ...
Règle 4 : La règle conditionnelle
R4 : ∀A ⊂ Ω et B ⊂ Ω :
P(A et B) = P(A si B).P(B)
= P(B si A).P(A)
P(A si B) est la probabilité que A se réalise si on sait que B s'est déjà réalisé. C'est une
probabilité conditionnelle, notée P(A│B).

Toutes les règles des probabilités non conditionnelles s'appliquent aussi aux probabilités
conditionnelles.
Exemple : Ω│B ≡ B ⇒ P(B│B) = 1
A = X est pair (dans le lancé du dé) ⇒ P(A) = 3/6

B = X ≥ 5 ⇒ P(B) = 2/6
A et B = X est pair et X ≥ 5 ⇒ P(A et B) = 1/6
A si B = X est pair si X ≥ 5 ⇒ P(A│B) = 1/2
B si A = X ≥ 5 si X est pair ⇒ P(B│A) = 1/3
Règle 5 : La règle additive

Ω A B
R5 : ∀ A ⊂ Ω et ∀ B ⊂ Ω : A et B B et
P(A ou B) = P(A) + P(B) - P(A et B) non et non A
P( A ∪ B) B A
(A et B) est compté une fois dans A et une fois dans B

A = (A et non B) ou (A et B)
↑───────↑ R3
disjoints ⇒ P(A et non B) = P(A) - P(A et B)
B = (B et non A) ou (A et B)
↑───────↑ R3
disjoints ⇒ P(B et non A) = P(B) - P(A et B)
A ou B = (A et non B) ou (B et A) ou (B et non A)
↑────── ↑──────↑
disjoints 2 à 2 ⇒ P(A ou B) = P(A et non B) + P(A et B) + P(B et non A)
Exemple :
A = X est pair B = X ≥ 5
A ou B = X est pair (le 2, le 4, le 6) ou X ≥ 5 (le 5, le 6)
4 cas puisque le 6 est commun aux 2 évènements
⇒ P(A ou B) = 4/6 = 3/6 + 2/6 - 1/6

Règle 6 :
R6 : ∀ A ⊂ Ω, ∀ B ⊂ Ω
A et B sont DISJOINTS
si et seulement si, ,P(A et B) = 0
Ω A B Si A et B sont disjoints alors P(A et B)= 0

puisque par définition, ils ne peuvent pas se
produire ensemble.
Cette règle dit que l’inverse est vrai aussi : si
on calcule que P(A et B) = 0, c’est que A et
B sont disjoints.
Règle 7 :
Ω
A
R7 : A et B sont COMPLEMENTAIRES
si et seulement si, , non A
P (A et B) = 0 exclusifs
et P (A ou B) = 1 exhaustifs
A et non A sont complémentaires

Deux évènements peuvent être exhaustifs sans être complémentaires !
Exemple :
A = X est pair P(A) = 3/6
B=x≤5 P(B) = 5/6
A ou B = {2,4,6,1,3,5} = Ω exhaustifs
A et B = {2,4} non exclusifs !
Règle 8 : La règle multiplicative pour des évènements indépendants :
R8 : ! A et B sont INDEPENDANTS
si et seulement si, ,
P(A et B) = P(A) . P(B)

La règle R8 signifie que deux évènements sont indépendants si
P(A si B) = P(A) i.e. B n'apporte pas d'information sur la réalisation de A

et
P(B si A) = P(B) i.e. A n'apporte pas d'information sur la réalisation de B
Exemple :
Dans une famille de deux enfants

A = l'aîné est un garçon P(A) = 1/2
B = le second est un garçon P(B) = 1/2
Quelle est la probabilité d’avoir un garçon comme premier enfant ET un garçon comme second
enfant ?
GG
P(A et B) =
( GG ou GF ou FG ou FF )
P(A et B) = 1/4
De ces règles, on peut écrire :

R4 R4
P( A et B) P( B⏐A).P( A)
P ( A⏐B) = =
P( B) P( B)
mais B = (B et A) ou (B et non A)
disjoints
R3
P( B⏐A).P( A)
P ( A⏐B) =
P( B et A) + P( B et non A)
P( B⏐A).P( A)
P ( A⏐B) =
P( B⏐A).P( A) + P( B⏐ non A).P(non A)
Règle de BAYES simplifiée
P( B⏐A).P( A)
P ( A⏐B) =
P( B⏐A).P( A) + P( B⏐ non A).P(non A)
A et non A peut être étendu à une suite de N évènements complémentaires 2 à 2.

Application diagnostique :
M = l'évènement "être malade" pour le patient
P(M) est la probabilité a priori du clinicien quelque soit sa méthode d'estimation (subjective ou
objective). Cela peut être la prévalence.
P(non M) = 1 - P(M)
Le patient réalise un test diagnostique qui ne peut être que positif ou négatif : T+ ou bien T-.
P(T+ │ M) = taux de tests positifs chez les malades = sensibilité du test
P(T- │ non M) = taux de tests négatifs chez les non malades = spécificité du test
Ces deux caractéristiques d'un test peuvent être évaluées à partir d'une étude cas témoins si on
observe tous les cas et un échantillon aléatoire de témoins !
A partir de son a priori et de la connaissance de la sensibilité et de la spécificité du test que le

patient va réaliser, le clinicien va modifier sa conception de la probabilité de maladie en
appliquant la règle de Bayes.
Si le patient réalise un test positif : T+

a posteriori,
sensibilité
P(T +⏐M ).P( M ) 1

P ( M⏐T +) = =
P(T +⏐M ).P( M ) + P(T +⏐non M ).(1 − ( P( M )) 1 − spéc 1 − p
1+ .
sens p
1 - spécificité
P( M⏐T + ) s’appelle aussi la valeur prédictive positive; elle dépend de P(M) en relation directe.
Si le patient réalise un test négatif : T-
P(T −⏐M ).P( M ) 1

P ( M⏐T −) = =
P(T −⏐M ).P ( M ) + P(T −⏐non M ).(1 − P( M )) spec 1 − p
1+ .
1 − sens p
1 - sensibilité spécificité
P ( non M⏐T −) s’appelle aussi la valeur prédictive négative.

Par exemple, un clinicien estime a priori que son patient est "fort probablement" coronarien et, il
fixe P(M) à 95%. Il demande de réaliser une scintigraphie myocardique et il sait par la littérature
que ce test est sensible à 99% et spécifique à 70%. Le patient obtient un test négatif. Après ce
test, (a posteriori) le clinicien calcule :
(1 − 0.99)i0.95
P ( M⏐T −) = = 0.21 = 21%
((1 − 0.99)i0.95) + (0.70i0.05)
Il est nettement moins convaincu que son patient est malade !
Un test hautement sensible et peu spécifique va donner une plus grande confiance dans un
résultat négatif. (peu de "faux" négatifs et beaucoup de "faux" positifs).
Un test hautement spécifique et peu sensible va donner une plus grande confiance dans un
résultat positif. (peu de "faux" positifs et beaucoup de "faux" négatifs).
Etude cas-
témoins M non M
T+ vrais faux
positifs positifs
faux vrais
T-
négatifs négatifs
nM nnonM
Mais cette "plus grande confiance" dépend de l’a priori de la maladie (valeurs prédictives
positive et négative) et ne peut pas être évaluée sur base d'une étude cas-témoins.
La sensibilité et la spécificité ne dépendent pas du tout de l’a priori (ou prévalence) !
Les règles énoncées doivent être respectées, quel que soit le type de mesure de la fréquence
(probabilité) qui est choisi : fréquentiste, basé sur un modèle ou subjectif. Il y a cependant deux
grands modèles théoriques (lois) qui doivent être connus : la loi binomiale (Bi) et la loi normale
N parce que beaucoup de phénomènes sont soumis à ces lois et parce que la théorie statistique
repose sur deux grands théorèmes :
- celui de la loi faible des grands nombres

- celui de la loi forte des grands nombres, utilisant la loi N (le plus important).

5.2. La loi BINOMIALE (schéma de l'urne avec remise)
5.2.1. Définition
X La loi binomiale concerne les phénomènes dichotomiques c'est-à-dire les phénomènes

n'ayant que 2 réalisations possibles.
- la maladie : être malade ou bien ne pas être malade

- le sexe : être un homme ou bien être une femme
- la survie : mourir ou bien ne pas mourir dans l'année
⇒ le phénomène : "présent" ou bien "absent"
Y N mesures du phénomène sont réalisées de façon indépendante.
- la maladie est évaluée chez N individus

- le sexe de N individus est observé
- la survie de N individus est observée au cours de l'année
Z p, la probabilité que le phénomène soit "présent" est la même à chaque évaluation

(indépendance des évaluations)
- chaque individu a la même probabilité d'être malade

- chaque individu a la même probabilité d'être un homme
- chaque individu a la même probabilité de mourir dans l'année
Donc 1-p = la probabilité que le phénomène soit "absent" est aussi la même à chaque
évaluation.
Soit X la variable aléatoire qui représente le nombre de fois que le phénomène est présent
dans les N évaluations.
Si les trois points précédents sont satisfaits, alors, la distribution de probabilité de X est
binomiale de paramètres N et p
X ∼ Bi (N,p)
N ! = N i( N − 1)i( N − 2)i...i1 C'est la factorielle de N.

N! 0! = 1
0 ≤ a ≤ N : P( X = a) = pa (1− p)N −a
(N − a)! a!

Exemple :
Dans une population, la prévalence d'une maladie M est 10%. On décide d'examiner 5 personnes
tirées au hasard dans cette population.
X est satisfait : maladie M ou pas

Y est satisfait : N = 5
Z est satisfait : p =0.10 et "tirés au hasard" signifie que chaque individu a 10% de chance d'être
malade.
⇒ X = nombre de malades observés dans l'échantillon ∼ Bi (5,0.10)
a) Quelle est la probabilité que 2 personnes soient malades parmi les 5 ?
5! 5 ⋅ 4 ⋅ 3 ⋅ 2 ⋅1
7% parce que P ( X = 2) = (0.10) 2 (1 − 0.10)5− 2 = (0.10) 2 (0.9)3 = 0.07
(5 − 2)!2! (3i 2)(2)
b) Quelle est la probabilité qu'au moins 1 personne soit malade ?
P ( X ≥ 1) = 1 − P( X < 1) (règle des évènements complémentaires)

= 1 − P( X = 0)
⎧ 5! ⎫
= 1− ⎨ (0.10)0 (0.9)5 ⎬
⎩ 5!0! ⎭
= 1 − 0.59
= 0.41
Il est souvent plus simple de passer par l'évènement complémentaire quand l'expression "au
moins" ou "plus de" apparaît.
c) Quel est le nombre maximum de malades que l'on peut trouver ?
N=5
0≤X≤N

5.2.2. Espérance et variance
Pour toute variable aléatoire X soumise à un modèle théorique de probabilité quelconque,
si X est discret,
soient x1, x2, ..., xk les valeurs possibles de X

et p1, p2, ..., pk les probabilités associées à ces valeurs (qui sont fournies par le modèle)
alors, la moyenne attendue de X, que l'on appelle "Espérance" de X et que l'on note µ, est
définie par :
k
µ = EX = ∑ xi pi
i =1
et la variance attendue de X, que l'on note σ² est définie par l'espérance du carré de l'écart à µ :
k
σ 2 = E ( X − µ ) 2 = ∑ ( xi − µ ) 2 ⋅ pi
i =1
(µ et σ²) sont des paramètres théoriques qui ne varient pas, que la loi de probabilité soit connue
ou non.
σ est l'écart-type ou déviation standard théorique
X - µ est la variable centrée (E(X-µ) = EX - µ = µ - µ = 0; elle est d'espérance nulle)
x−µ
σ
est la variable centrée réduite : !!!
⎛ x − µ ⎞ EX − µ
E⎜ ⎟= =0
⎝ σ ⎠ σ
2
⎛ x−µ ⎞ ⎛ 1 ⎞ 2 σ2
σ ⎜
2
=
⎟ ⎜ ⎟ iσ ( X ) = =1
⎝ σ ⎠ ⎝σ ⎠ σ2
On connaît sa moyenne et sa variance (pas sa loi...) : une variable centrée réduite a toujours une
espérance nulle et une variance unitaire.
Pour la loi Bi (N,p), µ =EX = N.p et σ ( X ) = N . p (1 − p )

Dans notre exemple, X = le nombre de malades observés dans l'échantillon de 5 personnes tirées
d'une population où la prévalence est de 10%,
X ≈ Bi (5,0.10)
EX = 5 . (0.10) = 0.5 en moyenne, on s'attend à trouver ½ malade!

σ(X) = √5 . (0.10) (0.90) = 0.67 avec une déviation de 0.67 malades
Si on avait examiné 50 personnes, X ≈ Bi (50,0.10), EX = 5 avec σ(X) = 2.12
Soit Y = X/N la variable aléatoire représentant la fréquence relative théorique de "présence" du

phénomène.
EX
EY = ⇒ EY = p
N
σ p (1 − p )
σ (Y ) = ⇒ σ (Y ) =
N N
Dans notre exemple, si X ≈ Bi (5,0.10) le nombre de malades
alors Y, la fréquence théorique des malades

a EY = 0.10 on s'attend à trouver 10% de malades
σ(Y) = 0.13 avec une déviation de 13%.
Si X ≈ Bi (50,0.10)
alors Y, la fréquence théorique des malades
a EY = 0.10 on s'attend à trouver 10% de malades
σ(Y) = 0.04 avec une déviation de 4% (nettement moindre parce que N est plus grand).
Graphique en barres de la distribution de X si X~Bi(10,0.5)

0.30
0.25
Remarque : P(X=0) existe mais

n’est pas représenté sur ce
0.20
graphique.
f(x)=P(X=x)
0.15
0.10
0.05
0.0
1 2 3 4 5 6 7 8 9 10
x

5.2.3. Condition d'approximation de la loi binomiale par la loi normale :
La loi faible des grands nombres !!

Si X ≈ Bi (N,p)
Si N.p ≥ 5
Si N.(1-p) ≥ 5
Alors on peut considérer que X est distribué selon une loi Normale de moyenne N.p et de
déviation standard N . p.(1 − p ) ou de variance N . p.(1 − p )
X − N. p
⇔ ∼ Ν ( 0,1)
N . p.(1 − p )
La variable centrée réduite est Gaussienne et par conséquent,
X p.(1 − p )
Y= ∼ Ν ( p, )
N N
Y−p
⇔ ∼ Ν ( 0,1)
p (1 − p )
N
Dans notre exemple,
X ∼ Bi (5, 0.10) N.p = 0.5 < 5 ⇒ on ne peut pas approximer la loi Binomiale par la loi
Normale.
X ∼ Bi (50, 0.10) N(1-p) = 45 et N.p = 5 ⇒ tout juste! On peut approximer par la loi
Normale pour calculer les probabilités d'évènements.

5.3. La loi NORMALE (Gauss - Laplace)
Une parenthèse ...
Lorsqu'une variable aléatoire X est discrète, sa distribution de probabilité (objective ou

subjective) est entièrement définie lorsqu'on spécifie la probabilité associée à chacune des
valeurs possibles : f(x)=
P(X=x)
X : x1 x2 x3 ... xk
p3
f(x) = P(X=x): p1 p2 p3 ... pk
p2
On peut alors calculer la probabilité de tout évènement de X p1
P(X = x3) = p3
x1 x2 x3 X
P(X ≤ x3) = P(X = x1) + P(X = x2) + P(X = x3)
3
= ∑ P( X = x )
j =1
j
P(x1 < X ≤ x3) = P(X = x2) + P(X = x3)
= P(X ≤ x3) - P(X ≤ x1)

3 1
= ∑ P( X = x j ) − ∑ P( X = x1 )
j =1 j =1
Autrement dit, pour calculer la probabilité d'un "intervalle", on somme les probabilités associées
à toutes les valeurs qui sont dans cet intervalle.
Lorsqu'une variable est continue cette somme va devenir une INTEGRALE (surface, une
sommation infinitésimale....) f(x)=
P(X=x)
x3
P ( x1 < X ≤ x3 ) = ∫ f ( x).dx f(x3)

x1
f(x1)
x1 x3 X
f(x) s'appellera alors la densité de probabilité ou densité de distribution de X et, si f(x) est
connue alors toutes les probabilités sont calculables.
Les règles énoncées sont toujours d'application !

Exemple n°1 : Si X varie théoriquement entre a et b (c-à-d Ω=[a,b] est le domaine de définition
b
de X, la population de toutes les valeurs possibles), alors, P(Ω) = ∫ f ( x)dx = 1 .
a
f(b)
f(a)
a c d b X
Exemple n°2 : L'évènement A = {X est compris entre c et d}

d
P ( A) = ∫ f ( x)dx
c
L'évènement B = {X est plus grand que c}

b
P(B) = ∫
c
f ( x ) dx
P ( A ou B) = P( A) + P( B) − P( A et B )
d b d
= ∫ f ( x)dx + ∫ f ( x)dx − ∫ f ( x)dx
c c c
d
P( AetB) ∫ f ( x)dx
⇒ P( A⏐B) = = c
P( B) b
∫ f ( x)dx
c
Pour une variable continue, il faut noter que P(X = x) = 0 à cause de la continuité. En effet,
l'égalité est alors un évènement impossible, « entre deux valeurs, il y a toujours une infinité de
valeurs ».
P( X ∈ [ x, x + dx ]) = f ( x)idx
f(x)
Rectangle de surface
f(x)dx
x x+dx X

Si dx = 0, c'est qu'on a une précision infinie de mesure... pas possible ou bien X n'est pas
continue. Ainsi, avec des variables continues, les probabilités se mesurent toujours sur un
intervalle, même très petit.
⇒ P(X ≤ x) = P(X < x)
... fin de parenthèse.
5.3.1. Définition
X, une variable aléatoire continue, définie sur Ω = ]−∞, +∞[ = , est distribuée selon une loi
normale de paramètres µ et σ si sa densité de probabilité est:
X ∼ N ( µ ,σ )
1 x−µ 2
1 − ( )
f ( x) = e 2 σ
σ 2π
Tiens tiens, l'exponentielle de ... presque la variable centrée réduite !!
Exemple :
Si l'âge d'une population est une variable aléatoire gaussienne de paramètres µ = 50 ans et σ = 10
ans, alors sa distribution est :
2
1 ⎛ 50 −50 ⎞
1 − ⎜ ⎟
f (50) = e 2⎝ 10 ⎠
= 0.04
10 2π
2
1 ⎛ 40 − 50 ⎞
1 − ⎜ ⎟
f (40) = e 2⎝ 10 ⎠
= 0.024
10 2π
2
1 ⎛ 60 −50 ⎞
1 − ⎜ ⎟
f (60) = e 2⎝ 10 ⎠
= 0.024
10 2π
2
1 ⎛ −10 −50 ⎞
1 − ⎜ ⎟
f (−10) = e 2 ⎝ 10 ⎠ = 0.0000000006
10 2π
Pas 0 !! (quasi-nul mais jamais nul)

0.04
50
1
P ( X ≤ 50) =
−∞
∫ f ( x)dx =
2
0.03
puisque la courbe est

symétrique autour de 50 et
de surface totale égale à 1.
f(x)
0.02
40
P (30 < X ≤ 40) = ∫ f ( x)dx
30
0.01
Plus compliqué à calculer

mais calculable !
30 40 50 60 70
X=age
... le calcul va devenir "un jeu d'enfant" si on pense à centrer et à réduire ...
5.3.2. Espérance, Déviation standard ou Variance
si X ~ N(µ , σ)
EX = µ C’est la moyenne !
alors,
σ (X ) = σ C’est l’écart-type
+∞
∫ xi f ( x)dx = µ
−∞
Les matheux ont montré que +∞
∫ ( x − µ ) i f ( x)dx = σ
2 2
et
−∞

Ils ont aussi montré que toute transformation linéaire d'une variable gaussienne est encore
gaussienne.
X ∼ N ( µ , σ ) ⇒ ax + b ∼ N (aµ + b, a σ )
En particulier, ( X − µ ) ∼ N (0, σ )
⎛ x−µ ⎞
la réduction centrée, ⎜ ⎟ ∼ N (0,1)
⎝ σ ⎠
5.3.3. La loi Normale Centrée Réduite, Z
A cause de sa particularité, une variable aléatoire continue distribuée selon la loi normale centrée
réduite se désigne généralement par la lettre Z
Ζ ∼ N (0,1) GAUSS
1
1 − ⋅z2 -
si ∀z ∈ , f ( z ) = e 2
LAPLACE
2π
Il n'y a plus de paramètres sur cette distribution, elle est entièrement explicitée ....
0.4
0.3
f(z)
0.2
0.1
1
f (0) = 0.399
2π
0.0
1 − 12 (1)2
f (1) = e 0.242 = f (−1) -3 -2 -1 0 1 2 3
2π Z
1 − 12 ( 2)2
f (2) = e 0.054 = f (−2)
2π
1 − 12 ( 3)2
f (3) = e 0.004 = f (−3)
2π

5.3.4. Propriété de symétrie
La remarquable propriété de symétrie de la loi de Gauss va permettre de calculer les probabilités

pour toutes les lois Normales;
Ζ ∼ N ( 0,1)
-2 -1 0 1 2
X ∼ N ( µ ,σ )
−2σ + µ −σ + µ µ σ +µ 2σ + µ
X −µ
On pose Ζ= ⇔ X = σΖ + µ
σ
X −µ x−µ x−µ
⇒ P( X ≤ x) = P( ≤ ) = P( Ζ ≤ )
σ σ σ
En posant Z
Si on peut calculer les probabilités pour Z, on aura toutes les probabilités pour X.
Par la symétrie,
P( Z > z ) = P( Z < − z )
P ( Z > z ) = P (− z < Z < z ) = 1 − 2 P ( Z > z )
f(z)
0.4
0.3
f(z)
0.2
0.1
0.0
-3 -2 -1 0 1 2 3
-z Z z

5.3.5. Manipulation des tables N
Dans la table T1, (à utiliser pour trouver les valeurs de Z)
Pour la densité cumulée de Z ~ N (0,1), les ordonnées ont été tabulées :

zα
F ( zα ) = P( Z ≤ zα ) =
−∞
∫ f ( z )dz
Pour α = F ( zα ) = 0.00, 0.01, 0.02,..., 0.99 (100 valeurs)

la table fournit la valeur correspondante de zα le percentile α de la gaussienne.
f(z)
0.4
0.3
f(z)
α
0.2
0.1
0.0
-3 -2 -1 0 1 2 3
zα Z
Exemples :
(1) Trouver a tel que P(Z ≤ a) = 0.82
On lit dans la table ligne 0.80 colonne 0.02

a = +0.92
(2) Trouver a tel que P(Z > a) = 0.02
OU
P ( Z > a) = 1 − P( Z < a) P( Z > a) = P( Z < −a)
⇔ 0.02 = 1 − P( Z < a ) ⇔ 0.02 = P ( Z < − a)
⇔ P ( Z < a ) = 1 − 0.02 = 0.98 ⇒ − a = −2.05
⇒ a = 2.05 ⇔ a = 2.05

Exercice
Si l'âge d'une population est une variable aléatoire normale de moyenne 50 ans et de variance
100 ans.
Quelle est la probabilité qu'un individu pris au hasard ait entre 30 et 40 ans ?
L’âge, X ~ N(50,√100) ⇒
X − 50
Z= ∼ N (0,1)
10
30 − 50 X − 50 40 − 50
P (30 ≤ X ≤ 40) = P( ≤ ≤ = P(−2 ≤ Z ≤ −1) = P( Z ≤ −1) − P( Z ≤ −2)
10 10 10
0.16 − 0.02 = 0.14
f(z)
0.4
0.3
f(z)
0.2
0.1
0.0
-3 -2 -1 0 1 2 3
Rappel : la probabilité qu'un individu ait 30 ans : P (X = 30) = 0
Application à l'épreuve graphique de normalité (Normal probability plot)
Supposons qu'on ait 5 mesures de l'âge. On se demande si la distribution de cet échantillon est
normale ou pas:
Xi : 45, 50, 30, 52, 38
(a) ordonner l'échantillon
Xi : 45, 50, 30, 55, 38

rang : (3), (4), (1), (5), (2)

1
(rang − )
(b) calculer le score cumulatif normal : 2
N
SCN : 0.50, 0.70, 0.10, 0.90, 0.30
(c) trouver dans la table T1 les valeurs correspondantes pour zi
zi : 0.00, 0.52, -1.28, 1.28, -0.52
(d) porter en graphique les couples (zi , xi)
Normal Q-Q Plot of AGE

1,0
Si les points ne sont pas

,5
alignés (le long d’une droite)
alors, l'hypothèse gaussienne
est douteuse.
0,0
Ordonnée normale Z
Rem : l'âge médian correspond

à z = 0.0
-,5 Nous pouvons ainsi dire qu’il

n'y a pas un manque de
Âge median = 45 ans
normalité évident dans ces
-1,0 données-ci.
20 30 40 50 60
Age (années)
Dans la table T2, (à utiliser pour trouver les valeurs de P)
Pour les ordonnées des intervalles symétriques, la densité N (0,1) est tabulée :
1 - α = P(-zα < Z < zα) ⇔ α = P (│Z│ > zα)
Pour zα = 0.00, 0.01, 0.02, ..., 2.99, 3.00, 3.01,..., 3.09 (310 valeurs), la table fournit la probabilité
P(│Z│ > zα)

0.4
1−α
0.3
f(z)
0.2
α
α 2
2
0.1
0.0
-3 -2 -1 0 1 2 3
− zα Z z α
Exemples :
(1) Trouver la probabilité P(│Z│ > 1.96)
On lit dans la table (ligne 1.90 et colonne 0.06) 0.05

⇒ P(│Z│ > 1.96) = 0.05
(2) Trouver la probabilité P(-2.58 < Z <+2.58)

P(-2.58 < Z <+2.58)
P(-2.58 < Z <+2.58) = 1 - P(│Z│ > 2.58)
⇓ table
= 1 - 0.0099 = 0.9901
5.3.6. Intervalle de prédiction sur une variable aléatoire gaussienne ⇒ sur un

échantillon
Soit X ~ N (µ,σ)
L'intervalle de prédiction à (1-α).100% sur X est l'intervalle centré sur la moyenne, qui a une
probabilité de 1-α.
Il se note IP1-α (X).

Cas particuliers :
(1) α = 0.05
IP95% ( X ) [ µ − 2σ; µ + 2σ ] NOTION

PROBABILISTE
x−µ
En posant Z = ⇔ X =σZ +µ ,
σ
0.95 = P( µ − a < X < µ + a) On cherche un intervalle centré sur la moyenne µ (inconnue a)
µ − a) − µ x − µ ( µ + a) − µ
⇔ 0.95 = P( < < On centre et on réduit
σ σ σ
−a a f(x)
⇔ 0.95 = P( <Z< )
σ σ
0.4
a
⇔ 0.05 = P( Z > )
0.3
σ
Table T2 f(z)
0.2
0.95
a
⇒ = 1.96
0.1
σ
⇔ a = 1.96iσ 2σ
0.0
-3 -2 -1 0 1 2 3
−a Z
a
σ σ
Percentile Percentile
2.5 97.5
Donc, pour tout échantillon extrait d'une population normale, de moyenne µ et de déviation σ,
quelle que soit sa taille, l'intervalle [µ-2σ ; µ+2σ] est prédictif à 95%, c’est-à-dire que cet
intervalle va contenir théoriquement 95% des observations.
On choisit généralement cet intervalle pour définir les seuils de "normalité" dans les études
normatives si la mesure est N.
(2) α = 0.01
IP99% ( X ) [ µ − 2.6σ ; µ + 2.6σ ] ou bien µ ± 2.6σ
Certains auteurs n'hésitent pas à utiliser µ ± 3σ en approximation.

table
−a a a a
Par le même raisonnement, on arrive à 0.99 = P( < Z < ) ⇔ 0.01 = P( Z > ) ⇒ = 2.58 ∼ 2.6
σ σ σ σ
µ ± 3σ est en fait un IP à 1 - 0.0027 = 99.73%
2
µ ± σ est en fait un IP à 1 - 0.3173 = 68.27% ~
3

Remarque :
Si X ∼ N alors
0.4
S= 0.741i IQR
IQR = S i1.349
0.3
Vérifiez ceci !
f(z)
0.2
0.1
0.0
µ−σ µ +σ
-3 -2 -1 0 1 2 3
µ − 3σ µ − 2σ µZ µ + 2σ µ + 3σ
68.3 %
95 %
99.7 %
Dans les études normatives, si on veut une norme très spécifique, on choisira IP à 99.7% mais on
sera moins sensible (si on dit "pathologique", on se trompe rarement) → en « screening ».
Par contre, si on veut une norme très sensible, on choisira un IP à 95% ou même à 90% mais on
sera moins spécifique (si on dit "pas de pathologie", on se trompe rarement) → en « clinique ».

Exercice
L'âge d'une population est une variable aléatoire normale de moyenne 50 ans et de déviation
standard 5 ans. Donnez un IP à 99%, à 95% et à 90% pour l'âge.
(1) à 99 % âge X ~ N(50,5)

IP99% (âge)
= ⎡⎣50 − 2.6 ( 5 ) ;50 + 2.6 ( 5 ) ⎤⎦
= [50 − 13;50 + 13]
= [37;63] ans
(2) à 95 %
IP95% (âge)
= ⎡⎣50 − 2 ( 5 ) ;50 + 2 ( 5 ) ⎤⎦
= [ 40;60] ans
(3) à 90 %
pour α = 0.10, on trouve zα = 1.64 dans la table T2
IP90% (âge)
= ⎡⎣50 − 1.64 ( 5 ) ;50 + 1.64 ( 5 ) ⎤⎦
= [ 42;58] ans
5.3.7. Intervalle de prédiction sur une variable aléatoire binomiale et sur une
proportion dans un échantillon de taille N
Si la loi faible des grands nombres est d'application :
Si X ∼ Bi ( N , p )
et si N i p ≥ 5 (
alors X ∼ N N i p; N i pi(1 − p ) )
et si N i(1 − p ) ≥ 5
X ⎛ p(1 − p) ⎞
et si Y = Y ∼ N ⎜⎜ p; ⎟⎟
N ⎝ N ⎠
⇒ IP95% ( X ) = ⎡ N i p − 2 N i p (1 − p ) ; N i p + 2 N i p (1 − p ) ⎤
⎣ ⎦
⎡ p (1 − p ) p (1 − p ) ⎤
⇒ IP95% (Y ) = ⎢ p − 2 ;p+2 ⎥
⎢⎣ N N ⎥⎦
En fait il faut aussi faire une "correction de continuité" mais nous la négligeons volontairement.

Exercice
Dans une population ouvrière O, la prévalence de la pneumoconiose est de 10%.

Si on examine 60 personnes au hasard, quelle est la probabilité de trouver au moins 10 malades ?
Donnez un IP à 95% sur la proportion de malades que l'on devrait trouver et un IP à 99% sur le
nombre de malades que l'on devrait trouver.
X
X = le nombre d'ouvriers ayant une pneumoconiose et Y = ~ Bi (60,0.10)
60
N.p = 6 ≥ 5
et N.(1-p) = 54 ≥ 5 ⇒ on peut utiliser l'approximation
(
X ∼ N 6; 5.4 )
Y ∼ N (0.10;0.39)
⎛ X − 6 10 − 6 ⎞
(1) P ( X ≥ 10 ) = P ⎜ ≥ ⎟ = P ( Z ≥ 1.72 )
⎝ 5.4 5.4 ⎠
= 1 − P ( Z ≤ 1.72 ) = 1 − 0.96 (valeur la plus proche = 1.75)
= 0.04 T1
Il y a environ 4% de chance de trouver plus de 10 malades si la prévalence est de 10 % et si
l’échantillonnage est aléatoire simple (hypothèses maintenues ou conditions de validité du calcul).
⎡
IP95% (Y ) = ⎢ 0.10 − 2
( 0.10 )( 0.90 ) ;0.10 + 2 ( 0.10 )( 0.90 ) ⎤
⎥
(2) ⎢⎣ 60 60 ⎥⎦
= [ 0.023;0.177 ]
La proportion de malades que l'on devrait trouver se situe entre 2.3% et 17.7% avec 95 % de
probabilité.
IP99% ( X ) = ⎡⎣6 − 2.6 5.4;6 + 2.6 5.4 ⎤⎦

(3)
= [ −0.04;12.04]
Il y a 99% de chance qu'on trouve entre 0 et 12 malades dans le groupe examiné si la prévalence
est de 10 %.
Ces calculs ne requièrent aucune observation. Ils utilisent le raisonnement DEDUCTIF

ou probabiliste (et non statistique… !)

A propos des transformations
Si un échantillon n’est pas distribué normalement, il faut tenter de transformer la

variable Y = f ( x) . Même si la transformation dans une base logarithmique quelconque est de
loin la plus utilisée, elle ne peut s’appliquer que dans une situation bien précise.
Pour rechercher une transformation qui rend N, il faut diviser [ min X , max X ] (l’étendue) en
deux ou trois intervalles de même longueur et calculer la moyenne arithmétique, S2 et S dans
chaque intervalle et voir si une des conditions de ce tableau est satisfaite.
Cas où dans les Transformation Remarques

intervalles… Y=f(x)
(1) les effets sont multiplicatifs
αˆ 3 ( X ) > 0
Moy 1
constant ⎛ n ⎞n
Y=log(X)
S (2) antilog (Y ) = ⎜ ∏ X i ⎟ est
i.e. CV constant ⎝ i =1 ⎠
la moyenne géométrique de X
(3) s’applique souvent pour des
mesures de concentration
(1) αˆ 3 ( X ) > 0 mais le log produit
Moy Y= X une asymétrie<0
constant
S2 (2)s’applique souvent pour des
dénombrements
(1) αˆ 3 0
1 n
Moy × Moy 1 (2) = est la moyenne
constant Y= 1
S X
y
∑x
i
harmonique de X
(3) s’applique aux temps d’attente
Moy × S constant Y=X2 (1) αˆ 3 ( X ) < 0 asymétrie
gauche
S2 Y = a sin X s’applique aux proportions soit
constant petites (<0.25), soit grandes (>0.75).
Moy (1 − Moy )
Vérifier si Y est N et travailler avec Y sur le plan statistique

(tests et IC).

Exemple :
Taux sanguin d’hémoglobine fœtale (hbF) chez des patients mâles atteints de drépanocytose.
% patients
30
20
10
% HbF
La distribution de l’hémoglobine fœtale est fortement asymétrique. Pour de telles données, on ne
peut utiliser des méthodes qui supposent une distribution Normale (N).
y = ln ( HbF + 1)
HbF = e y − 1
% patients
15
10
0.5 1.0 1.5 2.0 2.5 3.0 ln (HbF+1)
Après avoir pris le logarithme, la distribution est à peu près Normale. Une variable dont la
distribution devient normale une fois que l’on en a pris le logarithme est dite une distribution
log-normale. Notez que dans ce cas-ci, nous avons utilisé les logarithmes naturels (base
« e »). C’est la touche « ln » de la calculatrice. On peut utiliser indifféremment les
logarithmes naturels ou ordinaires, puisque l’un est multiple de l’autre.

5.4. La loi du Chi-carré : χ2n
Si Ζ ∼ N (0,1) alors Ζ 2 ∼ χ12 donc Ω = [ 0, ∞[
Si Ζ12 ,..., Ζ n2 sont des variables aléatoires indépendantes et

et χ12 (donc χ12 ≡ N ( 0,1) )
n
alors ∑Ζ
j =1
2
j ∼ χ n2
L'histogramme dépend de n
n est appelé le degré de liberté (dl ou df)
6
Pour n=1 0.15 Pour n=4

5
4
0.10
y
w
2
0.05
1
0
0.0
0.0 0.5 1.0 1.5 2.0 2.5 3.0

x 0 2 4 6 8 10 12 14
z
La distribution de Z 2 est soumise à une loi mathématique bien précise aussi. On l’a appelée loi
du chi-carré à 1 dl.
Par exemple,
2
⎛ x−µ ⎞
⎟ ∼ χ1
2
si X ~ N(µ,σ) alors ⎜
⎝ σ ⎠
Donc, pour un échantillon aléatoire X1, ..., XN (c-à-d. N réalisations de X ou N mesures de X)

indépendant issu d'une population N (µ,σ), la variable aléatoire
2
N
⎛ x−µ ⎞
∑ ⎜
i =1 ⎝ σ
⎟ ∼ χn
⎠
2
Cette distribution est donc importante aussi; elle a été tabulée.

N ⎛1 N 2⎞
⇔ 2 ⎜ ∑ ( xi − µ ) ⎟ ∼ χ n2
σ ⎝ N i =1 ⎠
Cette expression fait

penser à la variance
estimée dans un
échantillon…
La table T3 : (à utiliser pour trouver les percentiles)
f xα
F ( xα ) = P ( X ≤ xα ) = ∫ f ( x)dx = 1 − α
0.15
χ∼χ 2
0
0.10
Pour α = 1 − F ( xα )
w
= 0.20, 0.10, 0.05, 0.04, 0.03, 0.02, 0.01, 0.001

0.05
1−α
0.0
0 2 4 6 8 10 12 14
xα z
X
la table fournit la valeur correspondante de xα, le percentile (1-α) de la chi-carré à n degrés de

liberté (df = degrees of freedom).
Exemple :
(1) Trouver p, la probabilité qu'une variable aléatoire ~ χ² à 10 dl soit inférieure à 18.31
X ∼ χ102 ⇒ p = P ( X ≤ 18.31) = 1 − P ( X ≥ 18.31)

table T3, ligne 10, colonne 3
= 1 - 0.05
= 0.95
(2) Trouver p, la probabilité qu'une variable aléatoire ∼ χ 2 à 10 dl

(a) soit supérieure à 18.50,
(b) soit supérieure à 12.0
(a) X ~ χ102 ⇒ p = P(X > 18.50)

table T3, ligne 10, colonne 3 et colonne 4
18.31 19.02
α = 0.05 α = 0.04
⇒ 0.05 > p > 0.04
(b) X ~ χ102 ⇒ p = P(X > 12.0)

table T3, ligne 10, colonne 1
13.44
α = 0.20 ⇒ p > 0.20

5.5. La loi de Student tn
Si Z ∼ N ( 0,1) Z
alors ∼ tn donc Ω = ]-∞,+∞[
et X ∼ χ n2 X
n
La distribution de ce quotient bien particulier est soumise à une loi mathématique qu'on a appelée
la loi de Student à n dl. Son histogramme dépend aussi de n.
C'est une "gaussienne aplatie".

0.4
n=30 Si n ≥ 30 alors on peut l'approximer par la

loi de gauss : n ≥ 30 tn ≡ N(0,1)
0.3
n
0.2
f
n=5
0.1
0.0
-2 -1 0 1 2 3
Elle a été tabulée aussi.
La table T4 est analogue à la table T2 mais on ne donne les ordonnées que pour 8 valeurs de α
pour chaque distribution t1,...,t30 et t∞ ≡ N(0,1).
0.4
0.3
0.2
f
1−α
0.1
0.0
-2 -1 0 1 2 3
−tα tα T

Exemples :
(1) Trouver p, la probabilité qu'une variable aléatoire T de distribution t à 10 dl soit, en valeur

absolue, supérieure à 2.
p = P(│T│ ≥ 2)
table T4, ligne 10, colonne 2 colonne 3
1.812 2.228
α = 0.10 α = 0.05
⇒ 0.05 < p < 0.10
(2) Donner un intervalle de prédiction à 99% pour T
IP99% (T) = [-3.169 ; +3.169] 1-α = 0.99 ⇔ α = 0.01
(3) Trouver la probabilité p que T soit supérieure à 2.359
1 1
p = P(T > 2.359) = P(│T│ > 2.359) = (0.04) = 0.02
2 2

5.6. La loi de Fisher-Snedecor : Fn1;n2
X1
Si X 1 ∼ χ 2
n1 n1 donc Ω = [0,∞[
alors ∼ Fn1 ;n2
Si X 2 ∼ χ 2
n2
X2
n2
Une distribution de Fisher-Snédecor est celle d'une variable aléatoire obtenue en divisant 2 χ²
corrigées pour leur degré de liberté respectif. La F a donc deux degrés de liberté : le premier
correspond au numérateur et le second au dénominateur (et il ne faut pas les confondre). Certains
auteurs notent parfois Fn1 / n2 pour rappeler cela.
Elle a les propriétés :

1 f
(1) F n1 ; n 2 =
F n 2 ; n1 0.6
(2) F1;n = tn2

0.4
y
1−α
⇒ F1;∞ = χ 2
1
0.2
α
0.0
0 1 2 3 4
x F
La table T5 comprend 4 panneaux
correspondant respectivement à α = 0.10, α = 0.05, α = 0.01, α = 0.001
Pour chaque panneau, l'indice de colonne correspond au dl du numérateur et l'indice de ligne
correspond au dl du dénominateur.
Exemples :
(1) Trouver p, la probabilité qu'une variable aléatoire distribuée selon une loi F à 4 et 10 dl soit
supérieure à 3.00
? p = P(F ≥ 3.00) ⇒ 0.05 < p < 0.10
α = 0.10 α = 0.05 α = 0.01 α = 0.001

2.61 3.48 5.99 11.28
table T5 1e panneau 2e panneau 3e panneau 4e panneau
(2) soit supérieure à 2.00 ? p = P(F ≥ 2.00) ⇒ p > 0.10
(3) soit supérieure à 15.00 ? p = P(F ≥ 15.00) ⇒ p < 0.001

5.7. Le théorème Central Limite
ou
! La LOI FORTE DES GRANDS NOMBRES (N ≥ 30) !
La théorie statistique repose sur ce théorème
Enoncé : soit X1, X2, X3,..., XN un échantillon aléatoire simple de taille N, tiré d'une population
X de moyenne µ et de variance σ²
Si les tirages sont indépendants (i i d)

⎛ σ ⎞
alors X ∼ N ⎜ µ , ⎟
⎝ N⎠
Ν→∞
Quand la taille d'un échantillon devient grande (en pratique N≥30), quelle que soit la distribution
de la population (ou de l'échantillon), la moyenne arithmétique va avoir une distribution normale
σ
dont la moyenne est celle de la population et la déviation standard est . Si N augmente, la
N
distribution de X se concentre de plus en plus autour de µ et se rapproche de plus en plus de la
loi de Gauss, même si la distribution de la population est tout à fait asymétrique comme dans
l'exemple 3 ci-après (simulation).
Exemple 1 Exemple 2 Exemple 3

gaussienne asymétrique
rectangulaire

Savoir que la moyenne d'un échantillon est distribuée normalement est très important, non
seulement pour faire des hypothèses sur la moyenne mais aussi sur la somme des observations.
Exemple :
Un remonte-pente est fabriqué avec une charge limite de 4500 Kg. On affirme une capacité de 50
personnes. Supposons que le poids moyen de toutes les personnes utilisant ce remonte-pente est
de 85 Kg avec une déviation standard de 10 Kg. Quelle est la probabilité qu'un groupe aléatoire
de 50 personnes dépassent la charge limite du remonte-pente ?
X : variable poids µx = 85 σX = 10
La question peut-être reformulée : Quelle est la probabilité que, dans un échantillon aléatoire de
50 personnes, le poids moyen dépasse 4500/50 = 90 Kg ?
Sans aucune autre spécification sur la distribution du poids, on peut répondre à la question par le
Théorème Central Limite :
⎛ 10 ⎞
X ∼ N ⎜ 85, ⎟
⎝ 150 ⎠
⎛ ⎞
⎜ X − 85 90 − 85 ⎟ 1
P ( X > 90) = P ⎜ > ⎟ = P ( Z > 3.54 ) = P ( Z > 3.54 )
⎜ 10 10 ⎟ 2
⎜ ⎟
⎝ 50 50 ⎠
Dans la table T2, on trouve P(│Z│ > 3.54) < 0.001
Donc, P(X > 90) < 1/2 (0.001)

P(X > 90) < 0.0005
Les chances d'une surcharge du remonte-pente sont inférieures à 5 pour 10 000 en admettant
maximum 50 personnes.

CHAPITRE 6 : ESTIMATION DES PARAMETRES
D'UNE LOI A PARTIR D'UN ECHANTILLON
ALEATOIRE SIMPLE i.i.d.
Un échantillon aléatoire est un ensemble de réalisations aléatoires d'une population.
La moyenne µ et l'écart type σ sont des constantes (généralement inconnues). On les appelle des
paramètres θ . Par contraste, la moyenne d'un échantillon X et la déviation standard S sont des
variables aléatoires; elles varient d'un échantillon à l'autre. On les appelle des statistiques
d'échantillon ou des "estimateurs", θˆ .
6.1. Définition d'un estimateur et qualités
Soit θ un paramètre à estimer

Soit X1, X2, ..., XN un échantillon d'observations
i indépendantes
i.d. tirées d'une distribution identique
θˆ est un estimateur de θ si e θˆ est une fonction des observations : θˆ = ϕ (X1, ..., XN)
(1) θˆ est sans biais pour θ si E( θˆ )= θ son espérance mathématique est le paramètre à estimer
(2) θˆ est de variance minimale si tout autre estimateur du paramètre a une plus grande
variance que celle de θˆ
Les "bons" estimateurs sont ceux qui satisfont (1) et (2).
Exemples FIXE ALEATOIRE

Paramètre θ "bon" estimateur θˆ
Dans le cas d'une variable continue :
moyenne µ 1
X=
N
∑X i
variance σ² 1
2
S2 =
N −1
∑( Xi − X )
Dans le cas d'une variable discrète :
proportion p X
N

6.2. Lois de probabilité de ces "bons" estimateurs
(1) La moyenne d'une variable continue
Par le théorème central limite, on sait que pour N grand,

⎛ σ ⎞
X ~ N ⎜ µ, ⎟
⎝ N⎠
mais c'est aussi vrai pour N petit si la population est N.
(2) La variance d'une variable continue
Par ce même théorème, on peut montrer que

⎛ χ2 ⎞
S 2 ~ ⎜ N −1 ⎟iσ 2
⎝ N −1 ⎠
et c'est aussi vrai pour N petit si la population est N.
(3) La proportion de succès pour une variable discrète
Par la loi faible des grands nombres (Np et N(1-p) > 5!)
X ⎛ p (1 − p ) ⎞
~ N ⎜ p, ⎟
N ⎜ N ⎟
⎝ ⎠
6.3. Intervalle de confiance sur une moyenne µ
⎛ σ ⎞
Par 6.2.(1), on sait que X ~ N ⎜ µ , ⎟
⎝ N⎠
X −µ
donc ~ N (0,1)
σ
N
S2 ⎛ χ N2 −1 ⎞ S χ N2 −1
Par 6.2.(2), on sait que ~ ⎜ ⎟ ⇔ ~
σ 2
⎝ N −1 ⎠ σ N −1

X −µ
S
X −µ N
donc le quotient suivant, t°, t 0 = =
S S
N σ
a une distribution du type Student t à N-1 dl pour autant que N ≥ 30 ou bien que l'échantillon soit
tiré dans une distribution gaussienne si N < 30. De plus, si N ≥ 30, la distribution de Student
peut être considérée comme une distribution N(0,1)
Cas des grands échantillons (N ≥ 30)
Au seuil α = 0.05, P(-a < t° < +a) = 0.95 ou 1-α
On trouve par la table T2 la valeur de a : a = 1.96 (ou 2)

X −µ
P (−1.96 < < 1.96) = 0.95
S
donc, N
⎛ S S ⎞
⇔ P ⎜ X − 1.96 < µ < X + 1.96 ⎟ = 0.95
⎝ N N⎠
⎡ S S ⎤
IC95% ( µ ) = ⎢ X − 2 ;X +2 ⎥
NOTION STATISTIQUE
⎣ N N⎦
La moyenne réelle de la population se trouve dans cet intervalle avec 95% de confiance. Ce n’est
plus un intervalle de probabilité puisque µ n’est pas variable, c’est un intervalle
d’INFERENCE.
Cas des petits échantillons gaussiens (N < 30)

Il faut observer un échantillon
Au seuil α = 0.05, P(-a < t° < +a) = 0.95 pour inférer à 95% sur µ .
Son calcul repose sur le
On trouve a dans la table T4 en fonction de N-1, le degré de liberté : raisonnement statistique.
si N = 10 alors a = t9;table
α = 0.05 = 2.262
si n = 20 alors a = t19;α = 0.05 = 2.093

table
donc ⎡ S S ⎤
IC95% ( µ ) = ⎢ X − t Ntable
−1;0.05 ; X + t Ntable
−1;0.05 ⎥
⎣ N N⎦

Exemple :
On suppose que le diamètre d'une artère coronaire droite saine est une variable aléatoire
gaussienne dont on ne connaît pas les paramètres. Chez 15 personnes, on a mesuré ce diamètre
et on a trouvé X = 3.10 mm et S = 0.30 mm.
Donnez un intervalle de confiance à 95% pour le diamètre moyen d'une artère coronaire droite
saine.
N = 15 et X= diamètre d'une artère coronaire droite saine,

est gaussienne
donc, t14;0.05
table
= 2.145
⎡ 0.3 0.3 ⎤
IC95% ( µ ) = ⎢3.1 − 2.145 ;3.1 + 2.145 ⎥ = [ 2.93mm;3.27 mm ]
⎣ 15 15 ⎦
Avec 95 % de confiance, le diamètre moyen est compris entre 2.93 mm et 3.27 mm.
Si on avait effectué la mesure chez 100 personnes, on n'a plus besoin de faire l'hypothèse d'une
distribution gaussienne.
N = 100 donc, z0.05

table
= 1.96 (ou 2)
⎡ 0.3 0.3 ⎤
et IC95% = ⎢3.1 − 2 ;3.1 + 2 ⎥ = [3.04;3.16] mm
⎣ 100 100 ⎦
L'intervalle est beaucoup plus étroit !
6.4. Intervalle de confiance sur une proportion p
Par le même raisonnement que pour une moyenne, le quotient
X
−p
z0 = N ~ N ( 0,1)
X
(1 − p )
N
N
⎡ X X ⎤
⎢X (1 − p ) X (1 − p ) ⎥
et donc, IC95% ( p ) = ⎢ − 2 N ; +2 N ⎥
⎢N N N N ⎥
⎢⎣ ⎥⎦

La proportion dans la population se trouve dans cet intervalle avec une probabilité de 95%. Dans
X
la section 5.3.7., on donnait un intervalle pour sachant p; ici, c'est pour p.
N
Ce calcul n'est correct que si : N.(borne inférieure) ≥ 5
N.(1 - borne inférieure) ≥ 5
N.(borne supérieure) ≥ 5
N.(1 - borne supérieure) ≥ 5
Exemple :
Dans un échantillon de 100 individus, on observe 15 malades. Déterminez avec une confiance de
99% la prévalence de la population.
N = 100
X/N = 0.15 fréquence observée de malades

table
z0.01 = 2.58
⎡ ( 0.15 )( 0.85 ) ;0.15 + 2.58 ( 0.15)( 0.85) ⎤ =

et, IC99% ( p ) = ⎢0.15 − 2.58 ⎥ [0.06;0.24]
⎢⎣ 100 100 ⎥⎦
Le calcul est valide car N (0.06) = 6 > 5

N (0.94) = 94 > 5
N (0.24) = 24 > 5
N (0.76) = 76 > 5
Avec 99%, on peut affirmer que la prévalence de la population est comprise entre 6% et 24%.

CHAPITRE 7 : ANALYSE STATISTIQUE
(ELEMENTAIRE)
Dans une étude, le choix d'un test statistique conditionne la validité des résultats : les résultats
d'un test n'ont de sens que si le test est adapté à la question posée et aux données recueillies
(variables).
Avant de choisir un test, il faut préciser :
(1) le type des données recueillies (discrètes ou continues)
(2) le nombre d'échantillons sur lesquels on a recueilli des données
(3) l'indépendance ou non de ces échantillons
(4) la question posée.
Le nombre d'échantillons est le nombre de regroupements que l'expérimentateur a choisi ;
Dans un essai clinique, des unités vont recevoir un placebo,

des unités vont recevoir le traitement A
et des unités vont recevoir le traitement B
⇒ on a 3 échantillons (par mesure)
Dans une étude cas-témoins,

des individus ont la pathologie P
des individus n'ont pas la pathologie P
⇒ on a 2 échantillons (par mesure)
Dans une étude de cohorte, tous les travailleurs de l'entreprise E

⇒ on a 1 échantillon (par mesure)
Rappelons qu'un échantillon regroupe un ensemble d'individus selon une caractéristique

déterminée (mathématique, non aléatoire).
L'indépendance des échantillons : des échantillons ne sont pas indépendants (appariés) si :
- soit les unités de mesure sont identiques (paired samples)

par exemple, - chaque patient est évalué avant et après un traitement
- chaque patient reçoit le traitement A et le traitement B
- chaque patient est évalué par le technicien A et par le technicien B
- chaque examen est lu par l'observateur A et par l'observateur B
- soit les unités de mesure sont appariées sur des variables concomitantes susceptibles

d'influencer le résultat (matched samples)
par exemple, à chaque fumeur est associé un non fumeur qui a même sexe,
même âge, même cholestérol, ...
Si des échantillons sont parallèles alors ils sont indépendants.
La question adressée en analyse élémentaire est de
- comparer 2 échantillons du point de vue d'une variable X
ou bien
- rechercher une liaison entre 2 variables dans un échantillon
Si on veut savoir par exemple si le poids est un facteur de risque dans l'hypertension artérielle, on
va constituer un échantillon d'individus hypertendus chez qui on va mesurer le poids et un
échantillon d'individus non hypertendus chez qui on va aussi mesurer le poids. Si, dans le
premier groupe, on trouve un poids moyen de 70 Kg avec une déviation standard de 2 Kg et que
dans le second groupe, on trouve exactement les mêmes valeurs, il ne faut bien sûr réaliser aucun
test pour conclure qu'il n'y a pas de différence de poids entre les deux groupes d'individus.
Rappelons qu'avant de parler de causalité (le poids n'est pas un facteur de risque dans
l'hypertension artérielle) il faut se méfier des biais exposés dans les trois premiers chapitres du
cours.
Par contre, si dans le second groupe des individus non hypertendus, on trouve un poids moyen de
65 Kg avec une déviation standard de 2 Kg, il y a une différence de poids entre les deux groupes;
en moyenne 5 Kg. Est-ce par hasard? Un test d'hypothèse va tenter de répondre, non, à cette
question. Mais il ne répondra jamais par oui !
7.1. Principes des tests d'hypothèse
Dans l'exemple précédent, le phénomène étudié est la présence d'une hypertension et la variable
ou le facteur de risque considéré est le poids. Puisqu'on observe une différence entre les deux
échantillons, il faut accepter qu'une erreur puisse être commise en répondant à la question, donc,
en décidant. On ne connaît que les conséquences des lois du hasard. Si ces lois ne sont pas
satisfaites, la décision consiste à "rejeter" le hasard et donc conclure que la différence observée
est significative pour un seuil d'erreur toléré. Mais pour ce même seuil d'erreur toléré, si les deux
échantillons satisfont les lois du hasard alors on ne pourra pas rejeter l’hypothèse du hasard et on
conclura que la différence observée est non significative ou trop petite que pour être
statistiquement discernable.

7.1.1. Raisonnement
L'hypothèse nulle, H0, c'est l'hypothèse du hasard :
i.e. le facteur n'explique pas le phénomène
- le poids moyen des hypertendus (µ1) est égal au poids moyen des non hypertendus (µ2)
H0 : µ1 = µ2
C'est l'hypothèse qui doit être testée avec un seuil de tolérance pour l'erreur qui doit être fixé
(arbitrairement) au départ. On l'appelle le seuil de signification, α :
α = P (rejeter H0 │ H0 vraie)
L'hypothèse alternative, H1, c'est l'hypothèse que l'on adoptera si on est amené à rejeter H0. On ne
la teste pas !
Il faut la choisir telle que H 0 ∩ H1 = ∅ ; elle est contradictoire avec H0.
Par exemple, H1 : µ1 ≠ µ2
7.1.2. Démarche à suivre
(1) fixer un seuil de décision α
Le seuil de décision α, c'est le taux d'erreur que l'on accepte pour décider de rejeter l'hypothèse
nulle.
En général, on choisit α = 0.05, mais ce choix est discutable et il vaudra mieux parfois utiliser α
= 0.10 ou encore utiliser α = 0.01 selon les tailles d'échantillons et le nombre de tests qui sont
réalisés.
(2) spécifier l'hypothèse alternative H1
H1 : But
L'hypothèse alternative est définie par le but recherché. Quand on veut savoir si le poids des
hypertendus (A) est supérieur au poids des non hypertendus (B), on spécifiera H1 : µA > µB. Si on
veut savoir simplement si le poids est un facteur de risque dans l'hypertension, on
spécifiera H1 : µ A ≠ µ B , c'est-à-dire H1 : µA > µB ou µA < µB.

Si on choisit la première alternative, le test est appelé unilatéral (one-tail) parce que la différence
ne peut avoir qu'un sens. Si on choisit la deuxième alternative, le test est appelé bilatéral (two-
tail).
Le choix entre une alternative unilatérale ou bilatérale ne peut jamais reposer sur
l'observation des valeurs dans les échantillons ! En général, il faut choisir un test bilatéral
sauf si par définition du problème, il est impossible d'avoir deux sens.
Par exemple, on chercherait à savoir l'impact d'une campagne publicitaire sur le tabagisme dans
un groupe d’individus.
Si on exprime le tabagisme par X, le total de cigarettes fumées au cours de la vie (et ça a un sens
dans le cancer du poumon ...), X ne peut pas diminuer au cours du temps et donc, la différence
entre la mesure de X après la campagne et la mesure de X avant la campagne ne peut être
que positive ou nulle : on peut choisir une alternative unilatérale. Si par contre, on avait
exprimé le tabagisme par Y, le nombre de cigarettes fumées par jour (et ça a un sens dans les
maladies cardio-vasculaires où l'impact de la cigarette est réversible), on doit choisir une
alternative bilatérale puisque Y peut augmenter ou diminuer au cours du temps.
(3) spécifier l'hypothèse nulle, H0
H0 : contraire du but
Si H1 est bilatérale alors H0, c'est l'égalité. Par exemple, H1 : µ A ≠ µ B et H0 : µA = µB
Si H1 est unilatérale alors H0, c'est aussi l'égalité parce que, on peut montrer que la puissance est
maximale dans ce cas-là. Donc, pour réaliser le test,
H0 : µA ≤ µB on réalise H0 : µA = µB
H1 : µA > µB H1 : µA > µB
L'égalité signifie une différence nulle. C'est de là que vient le nom de H0, hypothèse nulle.
(4) choisir une statistique de test, T
Par définition, une statistique est une fonction des observations. Donc, c'est une variable
aléatoire et elle possède une distribution de probabilité (DP) connue ou non.
Une statistique de test, c'est une statistique qui permet de réaliser un test. En choisissant une
statistique connue (littérature statistique), on connaît sa DP sous H0 et on peut alors évaluer
l'erreur de décision lorsqu'on déclare un résultat significatif. Pour chaque test vu dans ce cours, la
statistique de test sera proposée.
Exemple :
En Belgique, la surface moyenne d'un logement familial est de 90 m². On se demande si, dans la
région bruxelloise, cette estimation est valable aussi. Au hasard, on choisit 100 logements dans
cette région et on mesure la surface X : X1, X2,..., X100.

Dans ce problème, le test d'hypothèse s'écrit :
H0 : µX = 90
but → H1 : µ X ≠ 90 l'estimation n'est pas bonne.
(Attention, ce n'est pas un test sur X , la moyenne de l'échantillon mais sur µX, la moyenne de la
population bruxelloise ; on ne teste pas X , on calcule X )
Par la loi des grands nombre (N ≥ 30), on sait que

X −µ
t=
S
N
a une DP du type Student à N-1 degrés de liberté. On ne connaît pas µ mais si H0 est vraie alors
µ H 0 = 90 .
X − µ H0 X − 90
Donc, la statistique t = ici, t =
S S
N N
a une DP connue (Student à 99 dl) et elle mesure l'écart entre la moyenne de l'échantillon, X, et
la moyenne dans la population bruxelloise si l'hypothèse nulle est vraie, 90. Plus cet écart est
grand, moins H0 sera acceptable et si l'écart est nul (X = 90 aussi) t=0 et il n'y a rien à tester (on
est certain de se tromper si on dit que c'est faux, i.e. si on rejette H0 mais ... ça ne voudra pas pour
autant dire que c'est vrai puisqu'on n'a pas mesuré tous les logements bruxellois ...)
⇒ Plus une statistique de test, T, est grande, moins H0 est vraisemblable.
Distribution de probabilité de
0.4
T sous H0
ou
vraisemblance de T sous H0
0.3
y
0.2
Test bilatéral
0.1
p − value
p − value
2
2
-2 -1 0 1 2
−Tobs T
H0 le plus
Tobs T
vraisemblable
Tobs est la valeur de T dans l'échantillon, sans son signe.

85 − 90
Dans notre exemple, supposons que X = 85 m² et S = 40 m² donc, t obs = = 1.25 = 1.25
40
100
p-value ("les petits p" de la littérature), c'est le calcul dans l'échantillon de la probabilité de
l'erreur de rejet de H0. C'est la probabilité que l'écart soit encore plus grand que celui qu'on a
observé :
p-value = P (│T│ > Tobs │ H0 vraie) p-value = P (T > Tobs │ H0 vraie)
si le test est Bilatéral si le test est Unilatéral
N.B. Pour un test unilatéral, on calcule la p-value comme si le test était bilatéral et on la
multiplie ensuite par 2 grâce à la propriété de symétrie de Z et t.
Si p-value est très petite, ça signifie que si H0 était vraie, observer un écart aussi grand est peu
probable : l'échantillon est tel que H0 est peu vraisemblable.
p-value = 0.002 : si on rejette H0, le risque d'erreur est 2%.

p-value = 0.20 : si on rejette H0, le risque d'erreur est 20% !
Dans notre échantillon, tobs = 1.25 et la DP est Student avec 100-1 = 99 dl, donc on peut utiliser la
table de la normale, T2 :
p-value = P(│Z│ > 1.25 │ µ X = 90) = 0.2113
(5) décider si on rejette ou pas H0
Comme α est le seuil de signification ou seuil de décision, il va servir de limite de décision.
si p-value < α
alors décider de rejeter H0 avec un risque = p-value
« le résultat est significatif, p < ... »
si p-value > α le risque est trop grand

alors décider de ne pas rejeter H0 (non conclusion)
« le résultat est non significatif (NS), p > ... »

Dans notre exemple, comme p-value = 0.2113, on va, au seuil α=0.05, décider de ne pas rejeter
H0 et la conclusion sera : les observations ne permettent pas de conclure au seuil de 5% que la
surface des logements bruxellois est différente de la surface des logements belges en moyenne.
Base logique de ce raisonnement : (A ⇒ B) ⇔ (non B ⇒ non A)
H0 vraie
Probabiliste Non observable ⇒ p NS
= déduction “population” Observable
“échantillon
Statistique Si p< α alors H0 pas vraie « preuve de l’existence »

d’une variation
= induction Si p NS alors On ne peut rien dire à « aucune preuve de la
propos de H0, sauf si on non-existence »
a évalué toute la
population
7.1.3. Les erreurs de type I (α) et de type II (ß)
On peut se demander pourquoi tolérer une erreur de 5% par exemple sur la décision de rejet de
H0. Simplement parce que la décision du non rejet de H0 entraîne aussi un risque d'erreur et que
les deux risques sont liés.
Considérons le test suivant (alternative simple) :
H0 : µ = a
H1 : µ = b
Et T la statistique du test

Table de Décision (échantillon)
α = Pr (erreur de type I)
l'erreur non rejet de H0 rejet de H0 = Pr (rejeter H0 │ H0 vraie)
surface hachurée
si H0 vraie aucune type I
risque = 0 risque = α ß = Pr (erreur de type II)
= Pr (non rejet H0 │ H0 fausse)
H0 fausse type II aucune surface en points
(H1 vraie) risque = ß risque = 0
Si on diminue α alors ß augmente et (1-ß) qui est la puissance statistique d'un test va diminuer.
Diminuer α signifie qu'il est plus difficile de conclure ; de là, l'expression "manquer de
puissance".
Remarque : Le choix de α et la taille d'échantillon
p-value N=100
p-value N=10
Pour un même écart observé Tobs,

si N ↓ alors p-value ↑
La conséquence est que dans les petits échantillons, on aura difficile de conclure à 5% et dans les
trop grands échantillons, on conclura peut-être trop vite à 5%.
α1
N=100
N=10
Seuil de T tel que α 2 =0.05, N=10

⇒ β 2 augmente très fort (40 à 50%)
Seuil de T tel que α1 =0.05, N=100
β2 < 20%

Dans les petits échantillons (N≤10)
Pour ne pas manquer de puissance, il vaut mieux choisir α=0.01, réduire le risque puisque la
puissance est très grande.
Dans les grands échantillons (N>100)

Comme on approche la population, il vaut mieux choisir α=0.01, réduire le risque puisque la
puissance est très grande.
7.1.4. Vérifier l'absence de vices
Avant de conclure à un résultat significatif ou non, il faut s'assurer qu'il n'y a pas de vices cachés.
si p est significatif (p < α)
(1) Le modèle statistique peut ne pas être adéquat

Par exemple, on mesure le débit cardiaque simultanément par deux techniques différentes (la
thermodilution et le doppler) chez une série de N patients pour voir si ces deux techniques
fournissent les mêmes valeurs. Aucune de ces deux techniques ne fournit une valeur exacte du
débit cardiaque (pas de référence).
On approche le problème par la régression. On trouve r² = 0.98, et on conclut que la relation est
excellente.
Ce modèle ne répond pas à la question posée.
r 2 = 0.98
DC Doppler Par ce graphique, on voit que le doppler
p < 0.001
fournit des valeurs qui sont souvent
inférieures à celles données par la
thermodilution.
Il aurait fallu réaliser un test de t pairé.
DC Thermodilatation
(2) Les échantillons ne sont pas homogènes (biais de confusion)

Par exemple, on veut comparer la capacité physique des hommes à celle des femmes et on
mesure la consommation en oxygène (VO2) chez des hommes de 30 ans et chez des femmes de
60 ans. On va montrer que VO2 est beaucoup plus élevée chez les hommes que chez les femmes
mais cette différence sera plus due à l'âge qu'au sexe !
(3) Il existe une cause de variation systématique

Par exemple, on n'utilise pas le même appareil de mesure dans les deux groupes.

si p est non significatif (p > α)
(1) Le modèle n'est pas bon

Par exemple, on veut comparer le poids de 50 individus avant un régime hypocalorique
(moyenne = 85 Kg et déviation standard = 10 Kg) et après le régime (moyenne = 83 Kg et s = 10
Kg). Si on compare ces deux échantillons en négligeant l'appariement, on va conclure à un effet
non significatif du régime, même si tous ont perdu 2 Kg !
(2) Les échantillons ne sont pas homogènes

Par exemple, pour comparer la VO2 des hommes à celle des femmes, on choisit maintenant des
hommes de 70 ans et des femmes de 30 ans. La différence non significative que l'on va trouver
sera due à l'âge.
(3) Les tailles d'échantillons sont trop petites pour mettre en évidence une différence
(manque de puissance)
7.1.5. Exercices sur les tests multiples
Problème I Un statisticien décide d'adopter le seuil de signification 5%. Sur 100 études, quel
est le nombre moyen d'erreur commises ?
Soit N0, le nombre d'études où H0 est vraie

X, le nombre d'erreurs commises dans ces N+ études est X ~Bi (N0 , 0.05)
⇒ EX = (0.05)N0
Soit N1, le nombre d'études où H0 est fausse

Le nombre d'erreurs commises est 0 puisqu'il y a non conclusion si son résultat est NS et
pas d'erreur si son résultat est S.
Puisque N0 est au maximum égal à 100, le nombre moyen d'erreurs commises est au maximum
égal à 5.
Problème II Si ce même statisticien travaille avec un scientifique qui a beaucoup d'intuition et

ne lui donne à vérifier que les relations existantes à tous les coups, quel est le nombre moyen
d'erreurs commises sur 100 études?
N0 = 0
N1 = 100
Donc le statisticien ne commettra aucune erreur.

Problème III Si par contre, il travaille avec un scientifique qui n'a aucune intuition et qui
"essaie" successivement tout ce qui lui passe sous la main sans discernement, quel est le nombre
moyen d'erreurs commises sur 100 études ?
Dans ce cas de "screening", N0 sera à peine inférieur à 100 et donc, le nombre moyen d'erreurs
commises sera à peine moins de 5 !
Ces problèmes montrent qu'il ne faut pas faire trop de tests statistiques dans une étude. La
question majeure doit être simple et clairement définie. Plus on fait des tests (tester 100
variables) « à l'aveugle », plus on risque de voir apparaître des résultats significatifs à tort.
Soulignons à nouveau l'intérêt des études randomisées face aux enquêtes d'observations; dans ces
dernières, il y a souvent trop de facteurs potentiels de confusion à tester et donc un risque de
fausses conclusions plus grand aussi. Même dans une étude randomisée, il ne faut pas faire
une « fishing expedition ».
Dans les sections suivantes, nous allons aborder les techniques à utiliser pour répondre à la
question posée dans un problème mais ces techniques ne doivent pas faire oublier les éléments
importants décrits ci-dessus.

PLAN
Analyse statistique élémentaire

1. Comparer une variable X entre 2 groupes (échantillons)
Le facteur X
discret (r niveaux) continu
table r x r N paires
OUI Mc Nemar t pairé de Student

κ kappa de Cohen [Wilcoxon]
[Signe]
Groupes
(chap. 7.4 page 120) (chap. 7.2 page 103)
?
table g x r N1 N2
appariés χ 2 homogénéité de Pearson
t non pairé de Student
NON 2x2: - à variances égales
- χ 2 Yates - à variances ≠
[Mann-Whitney]
- exact Fischer
(chap. 7.3 page 113)
Paramétrique [Non paramétriques]
2. Comparer un facteur entre g groupes non appariés
facteur discret à r niveaux facteur continu
χ2 indépendance ANOVA simple F-test

de Pearson fixe
χ 2
homogénéité (chap.7.8 page 168)
3. Dans un groupe, rechercher une liaison entre 2 facteurs
2 facteurs continus 2 facteurs discrets 1 facteur continu et 1 binaire

régression tables g x r 2 niveaux
corrélation χ 2 indépendance t non pairé (chap. 7.3 p113)
g niveaux
ANOVA
chap. 7.7 page 147 chap. 7.6 page 133 chap. 7.8 page 168

7.2. Comparer 2 groupes appariés ; le facteur est continu
Exemples de groupes appariés à comparer pour un facteur continu :
(1) On désire comparer le taux de cholestérol des hommes à celui des femmes. Comme on
pense que les revenus d'un ménage influencent le choix de l'alimentation, on décide
d'échantillonner N couples vivant sous le même toit.
(2) On veut évaluer l'effet d'un entraînement physique sur la VO2. On choisit N individus
chez qui on mesure la VO2 avant et après l'entraînement physique.
(3) On veut comparer deux techniques de mesure du débit cardiaque; la thermodilution et le

doppler. Chez N individus, on mesure simultanément le débit cardiaque par les deux techniques.
Dans chacun de ces exemples, on récolte N paires d'observations. Pour chaque paire, on calcule
la différence parce que c'est l'effet différentiel qui présente un intérêt :
Numéro de la Première mesure Deuxième mesure différence

paire XA XB D = XA − XB
1 X A,1 X B ,1 D1 = X A,1 − X B ,1
2 X A,2 X B ,2 D2 = X A,2 − X B ,2
3 X A,3 X B ,3 D3 = X A,3 − X B ,3
... ... ... ...

N X A, N X B,N DN = X A, N − X B , N
Moyenne XA XB D
Déviation SA SB S(D)
standard
1
Remarquons que D =
N
∑ Di = X A − X B
mais S(D) ne peut pas être déduit à partir de S A et S B

7.2.1. Cas des grands échantillons (N ≥ 30) : le test de Student t-pairé
Nous choisirons le seuil de signification α=0.05 dans toute la suite.
Le test d'hypothèse s'écrit :

H 0 : µD = 0
H1 : µ D ≠ 0 si l'alternative est bilatérale
D−0
La statistique de test est : tobs =
S ( D)
N
Cette statistique a une distribution de probabilité du type Student à N-1 degrés de liberté si on
n'avait pas mis de valeur absolue.
0.0014
0.0012
0.0010
0.0008
z
0.0006
0.0004
p/2 p/2
0 200 400 600 800 1000
−t obs ( µD )H
x
0
=0 t obs t
Dans la table T4, on trouve la p-value correspondante.
Si N=25, D =20, S(D)=5 alors t obs =20 et p-value<0.001
puisque, sur la ligne 24, t obs >3.744

Donc, au seuil de 5%, une telle différence est significative.
Si N=25, D =10, S(D)=25 alors t obs = 2.00 et p-value>0.05
puisque 1.711 < tobs < 2.064 (ligne 24)

↓ ↓
Donc, 0.10 > p-value > 0.05
Au seuil de 5%, une telle différence est non significative.

Remarques
(1) Si on avait soustrait l'échantillon A à l'échantillon B plutôt que le contraire, on aurait

obtenu une valeur opposée pour D mais la même déviation standard et la
même statistique de test t obs .
(2) Si on avait testé une différence de a unités plutôt que une différence nulle, le test
d'hypothèse serait :
H 0 : µD = a
H1 : µ D ≠ a
D−a
et la statistique de test tobs =
S ( D)
N
a aussi une DP du type Student à (N-1) degrés de liberté.
Mais la conclusion serait « au seuil de 5%, la différence D est ou bien n'est pas
significativement différente de a ».
C'est en fait la version générale du test sur une moyenne dans un seul échantillon.
(3) Si l'alternative était unilatérale, le test d'hypothèse serait :

H 0 : µD = 0
H1 : µ D > 0 (ou bien µ D < 0)
et la p-value serait celle de la table T4, divisée par 2 puisque tout le poids de
l'erreur est du même côté :
0.0014
0.0012
0.0010
0.0008
z
0.0006
0.0004
p-value
0 200 400 600 800 1000
0x t obs
ou bien la table T1 par la remarque suivante.
(4) Si N > 30 alors t est Gaussienne et on peut utiliser la table T2 pour trouver la p-value.
(5) Dans la littérature, ce test porte aussi le nom de Z test pairé ou de test de l'écart
réduit pour paires.

Exemple (Hamilton, 1960)
Dans une étude comparant l'Imipramine, une drogue antidépressive, à un placebo, 60 patients
ont été appariés pour former 30 paires. Dans chaque paire, les 2 patients étaient enrôlés le
même mois, avaient le même sexe et moins de 10 ans d'écart l'âge. Un score (X) d'échelle de
dépression a été mesuré après 5 semaines de traitement chez tous les patients :
(Un score élevé indique une dépression plus sévère)
Paire Imipramine Placebo Différence Paire Imipramine Placebo Différence
1 6 4 2 16 6 8 -2
2 4 7 -3 17 10 10 0
3 6 12 -6 18 3 9 -6
4 7 10 -3 19 5 8 -3
5 5 2 3 20 4 5 -1
6 6 11 -5 21 6 8 -2
7 8 9 -1 22 7 7 0
8 7 5 2 23 5 6 -1
9 8 11 -3 24 6 9 -3
10 3 8 -5 25 3 3 0
11 9 7 2 26 10 5 5
12 4 6 -2 27 5 11 -6
13 8 8 0 28 4 7 -3
14 11 9 2 29 4 3 1
15 12 9 3 30 7 10 -3
moyenne 6.3000 7.5667 -1.267
déviation 2.3947 2.5955 2.9235
standard
Dans cette étude, la question posée est : l'Imipramine a-t-elle un effet antidépresseur
significatif au seuil de 5% chez des patients dépressifs traités pendant 5 semaines? L'effet est
mesuré par une variable continue, X, le score d'Hamilton.
Comme N≥25, on peut appliquer le test de Student pairé sans aucune hypothèse sur les
échantillons.

H 0 : µD = 0
Le test s'écrit
H1 : µ D ≠ 0
−1.267 −1.267 −1.267

La statistique de test : tobs = = = = 2.374
2.9235 2.9235 0.53
30 30
Le degré de liberté est 29 donc 0.03 < p-value < 0.02
Les patients sous Imipramine sont significativement moins déprimés que ceux sous placebo
(6.3 ± 2.4 vs 7.6 ± 2.6, p < 0.03). Comme c'était une étude randomisée double aveugle, on
peut conclure à l'effet antidépresseur de l'Imipramine.
7.2.2. Cas des petits échantillons (N<30) et la différence est gaussienne : le test t-
pairé
Dans les grands échantillons, grâce au théorème central limite ou loi forte des grands
nombres, il ne faut faire aucune hypothèse sur la distribution de fréquence pour appliquer le
test de Student pairé. (Si ce n'est bien sûr l'indépendance des paires observées, comme dans
tous les échantillons de ce cours)
Si on diminue la taille de l'échantillon, il faut faire des hypothèses supplémentaires. Certains

auteurs (Wonnacott) mettent la limite à N=20 plutôt que N=30 comme dans ce cours.
Si l'échantillon des différences est gaussien alors le test de Student pairé présenté dans le cas
des grands échantillons est aussi le test à appliquer.
Rappelons que pour qu'un échantillon puisse être supposé gaussien, il faut que la symétrie α3
soit presque nulle, que l'aplatissement α4 soit aussi presque nul et il faut confirmer par une
épreuve graphique de normalité.
Il s'agit bien d'une hypothèse sur l'échantillon des différences, quelle que soit la distribution
des deux échantillons de base A et B.

7.2.3. Cas des petits échantillons (N<30) et la différence est non gaussienne mais
symétrique : le test de Wilcoxon (N0 ≤ 15 et N0 > 15)
(Wilcoxon signed-rank test)
Pour une petite taille d'échantillon, si on ne peut pas supposer que l'échantillon des
différences est gaussien parce que α4 n'est pas suffisamment petit mais que l'échantillon est
symétrique (α3 est proche de 0 c'est-à-dire la moyenne des différences est approximativement
égale à la médiane des différences) alors, il faut faire un test de Wilcoxon pour comparer les
deux échantillons pairés. Ce n'est plus un test sur la moyenne, mais c'est un test sur la
médiane des différences. C'est l'ordre (rangs) et le signe des différences qui sera pris en
considération. Nous omettons volontairement les corrections de continuité et d'égalités.
Exemple :
On a mesuré le VEMS (volume expiré maximum par seconde) chez 6 asthmatiques avant et
après l'utilisation d'un bronchodilatateur (litres/sec) :
Paire Avant Après Différence rang

XA XB D = XA − XB │D│
1 1.5 1.7 -0.2 0.2 25

2 1.7 1.9 -0.2 0.2 25
3 2.1 2.2 -0.1 0.1 4
4 1.6 1.9 -0.3 0.3 4
5 2.4 2.4 0 0 -
6 2.0 1.6 +0.4 0.4 5
Le rang est la position relative des différences absolues (sans signe) non nulles.
La moyenne des différences, D = -0.07 et la P50 = -0.2333
H 0 : Me = 0 (la médiane théorique)

Le test d'hypothèse s'écrit:
H1 : Me ≠ 0
Soit N0, le nombre de différences non nulles

W+, la somme des rangs des différences positives
W − , la somme des rangs des différences négatives

N 0 ( N 0 + 1)
On peut vérifier que W+ + W− =
2
(1) si N0 ≤ 15
la statistique de test est W+obs
Sa distribution de probabilité est tabulée (table T6) et on trouve p-value dans cette table de
Wilcoxon (1945)
Dans notre exemple, N0 = 5 W+obs = 5 ( W−obs = 25 + 25 + 1 + 4 = 10).
On trouve p-value = 0.312 soit une différence (médiane) non significative.
(2) si N0 > 15
1
W+obs − N 0 ( N 0 + 1)
la statistique de test est : Z +obs = 4
N 0 ( N 0 + 1)( 2 N 0 + 1)
24
qui a une distribution gaussienne. Donc, on trouve p-value dans la table de la Normale (T2)
avec Z +obs .
Dans l'exemple de l'essai sur l'Imipramine de Hamilton, W+obs = 88.5, N0 = 26 donc Z +obs =│-
2.21│ = 2.21 donc, p-value = 0.0271 et on trouve la même conclusion mais c’était un
exemple où il valait mieux utiliser le test t-pairé.

7.2.4. Cas des petits échantillons (N<30) et l'échantillon des différences est non
symétrique : le test du Signe (N0 < 10 et N0 ≥ 10)
(Sign test)
Si l'échantillon des différences ne peut pas être supposé symétrique, la première attitude est
d'essayer de transformer les données pour la rendre symétrique et travailler avec les données
transformées (7.2.2. et 7.2.3.).
Des transformations Yi = ln Di ou bien Yi = log Di donnent souvent une symétrie acceptable

pour Yi.
Si on ne trouve pas de "bonne" transformation, on peut réaliser un test du Signe, basé sur le
signe des différences mais on perd beaucoup de puissance.
1
H 0 : la proportion des différences positives θ + =
2
Le test d'hypothèse s'écrit :
1
H1 : θ + ≠
2
Soient N0, le nombre de différences non nulles
S+, le nombre de différences positives ~ Bi (N0 , 1/2)
(1) si N0 < 10
La statistique de test est S +obs et on trouve p-value dans la table de la Binomiale de paramètres
N0 et 1/2 (table T7)
Dans l'exemple des 6 patients testés avant et après bronchodilatation, N0=5 et S +obs =1. Dans
la table T7, on trouve p-value=0.1875 soit un résultat non significatif.
(2) si N0 ≥ 10 (i.e. N0*1/2 ≥ 5 et N0*(1-1/2) ≥ 5)
La loi faible des grands nombres peut s'appliquer.

S+obs 1
−
N0 2 ⎛ S obs 1 ⎞
La statistique de test est Z + =
obs
⇔ Z +obs = 2 N 0 ⎜ + − ⎟
1⎛ 1⎞ ⎝ N0 2 ⎠
⎜1 − ⎟
2⎝ 2⎠
N0
et on trouve la p-value dans la table de la gaussienne, (table T2) avec Z +obs

Dans l'exemple de Hamilton, N0=26 et S +obs =8 donc, Z +obs = │-1.961│ = 1.961 et on
trouve p-value = 0.05 tout juste significatif…. c'est parce qu'on manque de puissance avec le
test du signe. On aurait pu devenir non significatif (par manque de puissance) uniquement en
ne choisissant pas le test adéquat (t-pairé). Insistons à nouveau sur l'importance de bien
choisir le test à appliquer ...
Remarque :
On aurait pu considérer une autre proportion que 1/2. Dans le cas (2), on obtient alors la
version générale d'un test sur une proportion pc à condition bien sûr que N0*p0 ≥ 5 et N0 (1-p0)
≥5:
H 0 : p = p0 p obs − p0
le test est et la statistique Z + =
obs
peut être comparée à la table T2
H1 : p ≠ p0 p0 (1 − p0 )
N0
pour trouver la p-value.
Exercices
(1) Dans un centre médical scolaire, un groupe de 15 garçons âgés de 12 ans ont été
mesurés par deux infirmières différentes :
GARCON TAILLE (cm) GARCON TAILLE (cm)

Infirmière Infirmière Infirmière Infirmière
A B A B
1 142.9 143.0 9 142.1 142.5
2 150.9 151.5 10 159.9 160.0
3 151.9 152.1 11 141.9 142.0
4 158.1 158.0 12 140.8 141.0
5 151.2 151.5 13 147.1 148.0
6 160.2 160.5 14 143.6 144.0
7 157.8 158.0 15 139.9 141.0
8 150.1 150.0
Ces données justifient-elles la conclusion que les deux infirmières n'ont pas la même
exactitude pour mesurer la taille des enfants au seuil de 5% ?
(1) en supposant la différence gaussienne
(2) en supposant la différence non gaussienne mais symétrique
(3) en supposant la différence non symétrique.

Dans le cas (1), donnez un intervalle de confiance à 95% sur l'écart moyen entre les deux
mesures.
(t=3.45 , p<0.01) (IC = [-0.5 ; -0.1] ou bien [0.1 , 0.5])
(2) Avant de lancer un programme de vaccination contre la rubéole dans une ville V, une
enquête révèle que 150 enfants sont immunisés contre la rubéole parmi 500 enfants
choisis au hasard dans les écoles primaires de la ville. Ces données sont- elles
compatibles avec l'hypothèse que moins de 50% des enfants en âge de scolarité
primaire sont immunisés dans la ville V? (seuil de signification α=0.05)
Donnez un IC à 95% sur la proportion dans la ville V.
C'est un test d'hypothèse sur une proportion :

1
H0 : p =
bilatéral 2
1
H1 : p ≠
2
1
H0 : p =
2
ou unilatéral
1
H1 : p <
2
1
X, le nombre d'enfants immunisés, sous H0 est Bi(500, )
2
1
L'approximation des grands nombre est valide : 500( ) = 250>5
2
1
500(1- ) = 250>5
2
1 150 1
pobs − −
donc, on peut utiliser la statistique : Z obs = 2 = 500 2 = −8.94 ⇒ p-value<10-6
1⎛ 1⎞ 1
⎜1 − ⎟ 2000
2⎝ 2⎠
500
pour rejeter H0 au seuil de 5 %. Ces données montrent 150/500=30% d’immunisation, soit un
taux significativement inférieur à 50%.(p<0.000001)

7.3. Comparer deux groupes indépendants et le facteur est continu
Dans cette section, il s'agit de comparer 2 groupes A et B qui sont indépendants (parallel
design) en ce sens que tous les individus sont randomisés entre le groupe A et le groupe B sur
base des critères d'entrée dans l'étude mais il n'y a aucune relation entre les individus du
groupe A et ceux de groupe B (aucun appariement). Si il n'y a pas randomisation, on utilise
les mêmes procédures mais on se méfie des biais (causalité).
Exemple (Meyer, 1948)
Les données suivantes sont tirées d'une étude cas-témoins. Le niveau de lysozyme dans le suc
gastrique a été mesuré chez 29 patients ayant un ulcère gastrique (groupe A) et chez 30
patients n'ayant pas d'ulcère gastrique (groupe B). Les rangs figurent entre parenthèses. Le
taux de lysosyme est-il plus élevé dans les cas d'ulcère gastrique ?
MEYER cas témoins

1948 groupe A (n1 = 29) groupe B (n2 = 30)
0.2(1.5) 10.4(39) 0.2(1.5) 5.4(29)

0.3(3.5) 10.9(40) 0.3(3.5) 5.7(30)
0.4(5.5) 11.3(41) 0.4(5.5) 5.8(31)
1.1(8) 12.4(42) 0.7(7) 7.5(32.5)
2.0(13.5) 16.2(45) 1.2(9) 8.7(34)
2.1(15) 17.6(48) 1.5(10.5) 8.8(35)
3.3(19) 18.9(49) 1.5(10.5) 9.1(36)
3.8(21) 20.7(51.5) 1.9(12) 10.3(38)
4.5(22) 24.0(53) 2.0(13.5) 15.6(43)
4.8(24) 25.4(54) 2.4(16) 16.1(44)
4.9(26) 40.0(56) 2.5(17) 16.5(46)
5.0(27) 42.2(57) 2.8(18) 16.7(47)
5.3(28) 50.0(58) 3.6(20) 20.0(50)
7.5(32.5) 60.0(59) 4.8(24) 20.7(51.5)
9.8(37) 4.8(24) 33.0(55)
Taille NA = 29 NB = 30
Moyenne X A = 14.31 X B = 7.68
Déviation st. SA = 15.74 SB = 7.85
Somme des RA =976 RB = 794 59 ( 59 + 1)
rangs
RA + RB = = 1770
2

7.3.1. Cas des grands échantillons (NA≥30 et NB≥30) : le test t-non pairé des
grands échantillons ou test de l'écart réduit (quotient Z)
(ce test est déjà très puissant lorsque NA≥25 et NB≥25)
H 0 : µ A = µB H 0 : µ A − µB = 0
Le test d'hypothèse s'écrit : ou bien
H1 : µ A ≠ µ B H1 : µ A − µ B ≠ 0
Par la loi forte des grands nombres, on sait que les deux moyennes sont gaussiennes. Donc, la
différence des moyennes sera aussi gaussienne, de moyenne µA-µB et de variance σ²(µA-µB) =
σ²(µA) + σ² (µB) = σ²A / NA + σ²B / NB.
Il ne faut donc faire aucune hypothèse sur la distribution des deux échantillons.
(X A − X B ) − ( µ A − µB )H
La statistique de test à utiliser est t obs = 0
2 2
S S
+
A B
N A NB
Cette statistique a une distribution de probabilité du type Student à (NA-1)+(NB-1)=NA+ NB-2

degrés de liberté.
En comparant │tobs│ à la table T4, on trouve la p-value et on peut conclure si la différence
observée est statistiquement significative au seuil α=0.05. Si le degré de liberté est supérieur
à 30, il faut utiliser la table T2 de la loi normale réduite (Z). C'est toujours le cas comme on
suppose des grands (échantillons).
Exemple : Supposons qu'on applique la loi des grands nombres aux données de Meyer.
H 0 : µ A − µB = 0
Le test d'hypothèse est :
H1 : µ A − µ B ≠ 0
La statistique de test est : t obs =

(14.31 − 7.68) − 0 = 2.04
(15.74 ) + ( 7.85 )
2 2
29 30
Le degré de liberté est 29+30-2 = 57. Dans la table T2, on trouve p-value = 0.0414, soit p-
value<0.05. Avec ce test, on va donc conclure que le taux de lysosyme est plus élevé
statistiquement (p<0.05) chez les patients souffrant d'un ulcère gastrique. (? cause ou
conséquence).
Si le test était unilatéral, p-value = 0.0414/2=0.0207.

7.3.2. Cas des petits échantillons (NA < 30 ou NB < 30) et les deux échantillons sont
gaussiens.
Le choix du test repose alors sur l'hypothèse d'égalité des variances. Avant de choisir, il
faut d'abord faire un test préliminaire sur l'égalité des variances. Nous présenterons ici le
plus simple, le test de Bartlett.
Remarquons que si S²A = S²B, il n'y a aucun test à faire.
⎪⎧ H 0 : σ A = σ B ⎪⎧ H 0 : σ A / σ B = 1
2 2 2 2
Le test de Bartlett s'écrit : ⎨ ⇔⎨

⎩⎪ H1 : σ A ≠ σ B ⎪⎩ H1 : σ A / σ B ≠ 1
2 2 2 2
Comme les échantillons sont gaussiens par hypothèse, on sait que S A2 , l'estimateur de la
variance est du type chi-carré et S B2 aussi. Donc, on va choisir le rapport comme statistique
de test parce qu'il sera du type Fisher-Snedecor.
max ( S A2 , S B2 )
La statistique de test est : F obs
= (toujours >1 !!)
min ( S A2 , S B2 )
Elle a une distribution de probabilité du type Fisher (F)

à (NA-1) et (NB-1) degrés de liberté si S²A > S²B
ou bien
à (NB-1) et (NA-1) degrés de liberté si S²B > S²A.
Comme le test est bilatéral dans notre cas, on détermine p-value en multipliant par2 la p-
value donnée par la table T5. Et on conclut au seuil α=0.05 si l'hypothèse d'égalité des
variances est admissible.
Dans l'exemple de Meyer, S A2 = (15.74)² = 247.75 et S B2 = (7.85)² = 61.62
donc Fobs = 4.02. Comme S A2 est la plus grande valeur, les degrés de liberté sont 28 et 29. En
arrondissant à ν1= 30 et ν2 = 29, comme Fobs=4.02 > 3.27, on trouve p-value < 0.001 dans la
table T5. Au seuil α=0.05, on ne peut pas supposer que les variances sont égales (p<0.002)
dans les deux échantillons.
7.3.2.1. Les variances peuvent être supposées égales : le test t non pairé des variances
égales.
Rappelons que notre problème est de comparer deux moyennes.

H : µ − µB = 0
Le test d'hypothèse s'écrit : 0 A
H1 : µ A − µ B ≠ 0

Si les variances σ²A et σ²B (pas S²A et S²B !) peuvent être supposées égales, on calcule
l'estimation de la variance TOTALE, S²
S2 =
( N A − 1) S A2 + ( N B − 1) S B2
N A + NB − 2
(X A − X B ) − ( µ A − µB )H
La statistique de test est : t obs = qui est une statistique de
0
1 1
S +
N A NB
distribution de probabilité t student à NA + NB - 2 degrés de liberté. On détermine alors p-
value à partir de la table T4 et on conclut.
Exemple : (Armitage, 1987)
Un groupe de 7 rats est soumis à un régime basse protéine entre le 28e jour et le 84e jour de
vie. Le gain en poids est mesuré et on obtient une valeur moyenne de 101.0g avec une
déviation standard de 20.6 g. Un second groupe de 12 rats est soumis lui à un régime haute
protéine pendant la même période et le gain moyen en poids est de 120.0 g avec une
déviation standard de 21.4 g. Les deux régimes ont-ils un effet sur le gain en poids chez les
rats ? (Suppposer les gains gaussiens) α=0.05.
groupe A : NA = 7 X A = 101.0 SA = 20.6

groupe B : NB = 12 X B = 120.0 SB = 21.4
Les deux groupes sont indépendants et le facteur est continu. Pour choisir la statistique de
test pour comparer les 2 moyennes, il faut d'abord réaliser un test de Bartlett.
(1) Test sur l'égalité des variances

( 21.4 )
2
F obs
= = 1.08
( 20.6 )
2
Les degrés de liberté sont ν1 = 11 et ν2 = 6. Comme Fobs = 1.08 < 2.94 (table T5, p = 0.10), p-
value>0.20 et on peut supposer que les variances σ²A et σ²B sont égales.
(2) Pour répondre à la question, il faut réaliser le test d'hypothèse :

H 0 : µ A − µB = 0
H1 : µ A − µ B ≠ 0
( 7 − 1)( 20.6 ) + (12 − 1)( 21.4 )
2 2
La variance totale, S² estimée est : S = = 446.1

2
7 + 12 − 2
S = 21.12

La statistique de test est : t obs =
(101.0 − 120.0 ) − 0 = −1.89
1 1
21.12 +
7 12
Le degré de liberté est (7+12-2)=17. En comparant │tobs│ = 1.89 à la table T4, on trouve
p-value compris entre 0.05 et 0.10, soit p-value > 0.05. On peut donc conclure qu'au seuil de
5%, le gain en poids ne diffère pas significativement entre les deux régimes. Comme l'étude
était randomisée, on conclut que les deux régimes n'induisent pas un gain en poids entre
le 24e et le 84e jour statistiquement différent chez le rat.
7.3.2.2. Les variances ne peuvent pas être supposées égales : le test non pairé pour des
variances différentes
(problème de Behrens-Fisher sans solution exacte)
Longtemps débattu, Cochran (1964-1967) a proposé une solution satisfaisante au problème

de Behrens (1929) - Fisher (1941) mais elle ne fait pas encore l'unanimité actuellement.
Il est vrai que lorsqu'on veut comparer deux groupes, pourquoi se poser la question de
l'égalité des moyennes si on n'a pas l'égalité des variances...
Solution de Cochran :
H 0 : µ A − µB = 0
Pour résoudre le test d'hypothèse :
H1 : µ A − µ B ≠ 0
(X A − X B ) − ( µ A − µB )H
Choisir la statistique de test des grands échantillons : t obs = 0
2 2
S S
A
+ B
N A NB
2
⎛ S A2 S B2 ⎞
⎜ + ⎟
Calculer son degré de liberté comme suit : ν = ⎝ N A NB ⎠
( S A2 / N A ) + ( S B2 / N B )
2
N A −1 NB −1
Avec ce degré de liberté, comparer │tobs│ à la table de Student (table T4) pour trouver la p-
value.
Exemple : Le problème de Meyer présenté au début de cette section.
Si les échantillons sont gaussiens, on peut répondre à la question par le test (on a rejeté
l'égalité des σ²)
H 0 : µ A − µB = 0
H1 : µ A − µ B ≠ 0

On a calculé la statistique de test (des grands nombres) : tobs=2.04
2
⎛ (15.74 )2 ( 7.85 )2 ⎞
⎜ + ⎟
⎜ 29 30 ⎟
On estime le degré de liberté ν par ν = ⎝ ⎠ = 40.8
((15.74) / 29) + (( 7.85) / 30)
2 2 2
28 29
soit 41, inférieur à celui des grands nombres (56). Comme il est encore supérieur à 30, on va
trouver p-value dans la table de Z (table T2) et la conclusion sera inchangée.
7.3.3. Cas des petits échantillons (NA < 30 ou NB < 30) et au moins un des deux est
non gaussien : Test de MANN-WITHNEY
(Mann-Withney-Wilcoxon rank test)
Si un échantillon n'est pas gaussien, il vaut toujours mieux essayer de le transformer pour le
rendre gaussien et choisir un test paramétrique car ils sont plus puissants. Sinon, on peut
réaliser un test non paramétrique sur les rangs.
H 0 : MeA = MeB
Le test d'hypothèse s'écrit : (à nouveau, ce sont des médianes théoriques, de
H1 : MeA ≠ MeB
population !)
Soient n = la taille du plus grand échantillon

m = la taille du plus petit échantillon
La statistique de test est : Rmobs , la somme des rangs du plus petit échantillon.
(1) Si n ≤ 10 (donc m aussi)

Trouver p-value dans la table T8 de Mann-Withney pour Rmobs
(2) Si m > 10 (donc n aussi)

⎛ m + n +1⎞
Rmobs − m ⎜ ⎟
⎝ 2 ⎠
Utiliser la statistique Z obs =
nm ( m + n + 1)
12
et trouver la p-value dans la table T2 de la gaussienne.
Exemple : (Chilton, 1982)
On a compté le nombre de lactobacilles dans la salive de 7 sujets vaccinés contre un certain

bacille (heat-killed bacilli) et chez 6 contrôles. Les auteurs ont pris comme variable X, de
comparaison, la racine du nombre obtenu. Pour cette variable, y a-t-il une différence

significative (α=0.05) entre les 2 groupes ?
A groupe vacciné B groupe contrôle

X (rang) X (rang)
89.02 (7) 56.20 (1)
125.07 (12) 60.57 (2)
132.14 (13) 77.01 (4)
103.95 (10) 75.48 (3)
96.44 (9) 91.27 (8)
86.42 (6) 108.73 (11)
79.35 (5)
NA = 7 NB = 6
n=7 m=6 13*14
Vérification : Rn+Rm=
Rn = 62 Rm = 29 2
Pour réaliser le test de Mann-Withney, il faut d'abord attribuer un rang aux (NA+NB=13)
observations.
L'échantillon B est le plus petit échantillon (n=7 et m=6), c'est donc la somme des rangs du
groupe B qui sera utilisée comme statistique de test : Rmobs = 29
Dans la table T8, on trouve p-value = 2(0.037)=0.073 non significative au seuil de 5%. On
peut donc conclure que le nombre de lactobacille n’est pas significativement plus élevé
(calculer P50) dans le groupe vacciné que dans le groupe non vacciné (p<0.07).
(Remarque : tobs=2.14 (p=0.056) plus puissant)
Dans l'exemple de Meyer, si on utilise un test non paramétrique pour comparer les cas et les
témoins,
m = 30
n = 29
Rmobs = 794
⎛ 60 ⎞
794 − 30 ⎜ ⎟
Comme n ≥ 10, on peut faire l'approximation normale : Z obs = ⎝ 2 ⎠ = −1.61
( 29 )( 30 )( 60 )
12
soit une p-value = 0.1074 (table T2), NS.

Cette conclusion, assez différente des 2 autres tests est en fait celle retenue par les auteurs
mais en réalisant un test de t à variances égales après une transformation logarithmique des
données pour rendre les échantillons gaussiens.
Ils ont trouvé tobs=1.40, soit p-value > 0.20. Des études ultérieures ont confirmé leurs
résultats.
Une fois encore soulignons l'importance de bien choisir le test à réaliser, un mauvais choix
peut mener à des conclusions erronées. Une description détaillée des deux échantillons est
indispensable pour aider à choisir la bonne méthodologie de comparaison d'échantillons.
Une transformation logarithmique signifie que l'effet d'un traitement est multiplicatif plutôt
qu'additif. Lorsque des variances sont différentes mais que le coefficient de variation est
comparable entre les deux groupes, il faut aussi penser à une transformation logarithmique.
7.4. Comparer 2 groupes appariés ; le facteur est discret
Dans cette section, il ne s'agit plus d'une variable continue mais d'une variable discrète à r
niveaux possibles. On s'intéresse à des proportions ou des fréquences absolues.
De plus, les 2 groupes à comparer sont appariés.
Nous considérons dans ce cours, qu'il n'y a pas d'ordre sur les niveaux.
Exemples :
- On veut évaluer l'effet d'une campagne publicitaire sur l'opinion politique d'un groupe
social. N individus sont choisis au hasard et expriment leur tendance politique en terme de
gauche, droite ou centre avant la campagne publicitaire. Après la campagne, ces N individus
sont à nouveau interrogés sur leur tendance politique.
L'effet de la campagne sera mesuré par soit le nombre qui a changé d'avis (discordances), soit
le nombre qui n'a pas changé d'avis (concordances). Les deux échantillons sont pairés
puisque chaque individu répond 2 fois.
- On désire comparer le diagnostic donné par 2 experts. N personnes sont évaluées

indépendamment par les 2 experts. A nouveau, comme chaque personne est évaluée 2 fois,
les deux échantillons sont pairés. Les discordances de diagnostic entre les 2 experts ou les
concordances entre les deux diagnostics présentent un intérêt pour la comparaison.
- Pour comparer la perméabilité à 5 ans des pontages mammaires et veineux, on forme N

paires de patients adressés pour pontage coronaire chez le même chirurgien. Dans chaque
paire, les 2 patients ont même âge, même sexe et même type de lésion coronaire; l'un va subir
un pontage mammaire et l'autre va subir un pontage veineux aléatoirement. Après 5 ans, on
détermine si le pont est perméable ou non chez les 2N individus. Les 2 échantillons sont
appariés et ce sont à nouveau soit les paires discordantes soit les paires concordantes qui vont
permettre de comparer les 2 sortes de pontage. L'intérêt de ce design est le contrôle des
facteurs d'appariement.

Dans tous ces exemples, l'information fournie par les deux échantillons peut être représentée
par une table de contingence r x r (r lignes x r colonnes : table carrée) comme ci-après.
SECONDE évaluation
Niveaux du facteur
PREMIERE
évaluation
1 2 3 … r
Niveaux du 1 O11 O12 O13 … O1r L1

facteur
2 O21 O22 O23 … O2r L2
3 O33 L3
r Or1 Orr Lr
C1 C2 Cr
N
Oij est le nombre observé de paires qui répondent i à la première évaluation et j à la seconde
évaluation. Le premier indice est généralement la ligne et le second est la colonne.
Donc si i ≠ j, Oij et Oji sont des discordances symétriques

si i = j, Oii sont des concordances (diagonale)
Li est le total de la ligne i

Cj est le total de la colonne j
Reprenons l'exemple de la campagne publicitaire et supposons que l'on obtienne la table

suivante :
Avant la campagne
Gauche Droite Centre
Après la Gauche 15 15 30 60
campagne Droite 10 10 20 40
Centre 5 25 20 50
30 50 70 150
Les concordances sont (gauche, gauche) O11 = 15

(droite, droite) O22 = 10
(centre, centre) O33 = 20
Il y en a r=3

Les paires de discordances symétriques possibles sont :
1) (droite, gauche) et (gauche, droite)

O21 = 10 O12 = 15 O21 + O12 = 25
2) (centre, gauche) et (gauche, centre)
O31 = 5 O13 = 30 O31 + O13 = 35
3) (centre, droite) et (droite, centre)
O32 = 25 O23 = 20 O32 + O23 = 45
r ( r − 1) 3i2
Il y en a = =3
2 2
En fait, il y en a au maximum 3 car on doit retirer celles où Oij + Oji = 0
7.4.1. Analyse des discordances : le test de Mc Nemar
C'est un test sur les paires discordantes. Il est applicable
SI (1) la symétrie est possible :

Quelle que soit la réponse à la première évaluation, toutes les réponses sont possibles
à la seconde évaluation.
Donc, ce test ne peut pas être utilisé pour choisir un seuil de décision
diagnostique!
(2) Oij + Oji ≥ 10 i≠ j

La somme des paires discordantes doit être au moins égale à 10.
Le test d'hypothèse s'écrit : (test des symétries)(Mc Nemar test of symetry)

H 0 : pij = p ji ∀i ≠ j
H1 : ∃i ≠ j : pij ≠ p ji
H0 signifie que toutes les paires discordantes ont la même fréquence. L'alternative consiste à
dire qu'il existe au moins une paire discordante dont les fréquences sont différentes.
Pour tester l'égalité, on va tester si la différence est nulle. La statistique de test à utiliser est :
(O − O ji )
2
=∑
obs ij
MN
Oij + O ji
i< j
Elle a une distribution du type χ² à ν degrés de liberté où ν est le nombre de paires

discordantes possibles.
On va donc trouver p-value dans la table T3 et on pourra conclure au seuil α=5%.

Exemple 1 L'exemple de la campagne publicitaire
(15 − 10 ) ( 30 − 5 ) ( 20 − 25)
2 2 2
MN obs
= + + = 19.4 Le degré de liberté est 3.
15 + 10 30 + 5 20 + 25
Dans la table T3, on trouve p-value < 0.001 puisque MNobs= 19.4 > 16.27
On peut donc conclure que les personnes ont changé significativement d'avis après la
campagne électorale (p<0.001). Est-ce dû à la campagne électorale? (causalité) Difficile de
juger puisqu'il n'y a pas de groupe "contrôle", d'autres changements ont pu se produire...
La différence la plus importante (30-5) vient de la seconde paire; beaucoup de centristes
(30/70) avant la campagne sont devenus gauchistes après alors que peu de gauchistes avant
(5/30) sont devenus centristes après.
Exemple 2: Supposons que dans l'exemple 1, la table de contingence observée soit la

suivante :
Avant Il y a une paire discordante possible

G D C (D,G) et (G,D) dont l'effectif total est nul.
Après G 15 0 45 60 Les totaux des lignes et des colonnes sont
D 0 20 20 40 inchangés.
C 15 30 5 50
30 50 70 150
( 45 − 15 ) ( 30 − 20 )
2 2
Alors MN obs
= +
= 17.0 et le degré de liberté est 2.
45 + 15 30 + 20
Dans la table T3 de la χ² à 2 degrés de liberté, on trouve p<0.001.
Dans ces 2 exemples, on pouvait appliquer un test de Mc Nemar puisque toutes les sommes
dans les paires discordantes (15+10, 30+5, 20+25, 45+15 et 30+20) étaient ≥10
7.4.2. Analyse des concordances : le test de Kappa

(Cohen’s Kappa test of reliability)
Le test de Kappa porte sur les paires concordantes. Il est applicable si N ≥ 2.r²
H 0 : pii = pi. ⋅ p.i ∀i
Le test d'hypothèse est :
H1 : ∃i : pii ≠ pi. ⋅ p.i
C'est une hypothèse d'indépendance : la fréquence de la diagonale est le produit des

L C
fréquences marginales sur la ligne et la colonne correspondante : pˆ i. = i et pˆ .i = i .
N N

Soient
∑O ii
po = le taux de concordance observé
N
∑ L .Ci i
pe = le taux de concordance attendu (espéré) sous l'hypothèse que la concordance
N2
est due au hasard(H0)
∑ min ( L , C )i i
pm = le taux de concordance maximum possible
N
po − pe
Ko = le coefficient Kappa observé (coefficient de concordance)
1 − pe
pm − pe
Km = le coefficient maximum Kappa; c'est la valeur maximale possible pour Ko
1 − pe
Ko
est le taux de concordance Kappa
Km
(1) On peut conclure directement à partir de K0, le coefficient Kappa observé (FLEISS,
1981)
K0 varie toujours entre -1 et +1(comme un coefficient de corrélation en régression)

si K0 < 0.40 alors il n'y a que peu de concordance (no agreement)
si 0.40 < K0 < 0.75 alors il y a une bonne concordance
si K0 > 0.75 alors il y a une excellente concordance
si K0 < 0 alors il y a plutôt discordance ! (disagreement)
(2) On peut utiliser une approximation gaussienne si non seulement N ≥ 2.r² mais aussi si
N ≥ 25 (Fermanian, 1984)
K o N (1 − pe )
La statistique Z obs = a une distribution de probabilité du type
pe
Normale.
On peut utiliser la table T2 pour trouver la p-value et conclure.
Dans l'exemple 1 sur la campagne électorale, N=150, r=3 donc N ≥ 2.r², on peut analyser
les concordances au sens du Kappa de Cohen.

15 + 10 + 20
po = = 0.3 30% de concordance observée
150
30 ⋅ 60 + 40 ⋅ 50 + 50 ⋅ 70
pe = = 0.32
(150) 2
min ( 60,30 ) + min ( 40,50 ) + min ( 50, 70 ) 30 + 40 + 50
pm = = = 0.80
150 150
0.80 − 0.32
Ko = = 0.71
1 − 0.32
Ko
= 0.04 Il y a seulement 4% de concordance entre les avis politiques avant et ceux
Km
après la campagne électorale.
−0.03 150 (1 − 0.32 )

Si on veut donner une p-value, on va calculer Z obs = = −0.536
0.32
Dans la table T2, on trouve p-value = 0.5892, soit une concordance franchement non
significative.
Exemple 2 (Chamberlin, 1975)
Dans une politique de détection précoce du cancer, en présence d'une induration découverte
dans un sein, il est conseillé de faire une radiographie de profil dite mammographie. Si le
résultat fait craindre la présence d'un cancer, l'image est dite douteuse. Sachant que la lecture
de la mammographie entraîne une décision où l'erreur par excès ou par défaut, a de lourdes
conséquences, des auteurs ont cherché à mesurer la concordance d'interprétation en
soumettant 1214 clichés à deux radiologues A et B très compétents. En l'absence de critère de
certitude, l'objectif était de mesurer la concordance et non pas l'exactitude des diagnostics
radiologiques. Au total, le radiologue A en a déclaré 63 douteux et le radiologue B en a
déclaré 52 douteux. Les auteurs ont conclu à une bonne concordance de jugement entre les
deux radiologues.
Explications :
données : Table 2 x 2
Radiologue A Radiologue A
Radiologue B douteuse Bénigne Radiologue B douteuse bénigne
D 39 52 D 39 13 52
B B 24 1138 1162
63 1214 63 1151 1214

(1) Test de symétrie MN (applicable : 24+13 ≥ 10)
( 24 − 13)
2
MN obs
= = 3.27 et degré de liberté = 1
24 + 13
Dans la table T3 de la loi du chi-carré, on trouve 0.05 < p-value < 0.10 donc, au seuil de 5%,
on ne rejette pas l'hypothèse d'une symétrie entre les diagnostics des radiologues (p> 0.05) ; il
n'y a pas une dissymétrie significative dans les discordances entre les diagnostics.
(2) Test des concordances (applicable : 2r² = 8 ⇒ N ≥ 2r²)
39 + 11.38
po = = 0.97 le taux de concordance observé est de 97%
1214
52 ⋅ 63 + 1162 ⋅1151
pe = = 0.91 le taux de concordance aléatoire est de 91%
(1214) 2
Remarquons que dans toutes les opérations de dépistage d'une maladie à faible prévalence, p0
et pe sont élevés parce que l'effectif des sujets "normaux" est beaucoup plus élevé que celui
des sujets dépistés.
Comme N≥25, on peut utiliser l'approximation normale pour conclure :
0.667 ⋅ 1214 (1 − 0.91)

Z obs = 7.31
0.91
Dans la table T2, on trouve p-value < 10-6

Au seuil de 5%, il y a concordance de jugement entre les deux radiologues (p<10-6).
Cette approche est utilisée aussi pour comparer la sensibilité (ou bien la spécificité ou bien
l'exactitude (accuracy)...) de deux tests diagnostiques. Si le test de Mc Nemar est non
significatif, il y a symétrie dans les réponses (ou il n'y a pas un manque de symétrie
significatif) ⇒ les taux de réponses ⊕ donnés par les deux techniques sont comparables mais
elles peuvent être interchangeables ou bien se compléter selon qu'elles sont concordantes ou
non (test du kappa).
Cas 1 Symétrie (sans Cas 2

test car aucune
discordance) Symétrie (MN=0)
A Concordantes
A Non concordantes
+ - (K0=1) + - (K0=-1)
+ 100 0 100 ⇓ + 0 100 100 ⇓
B - 0 100 100 A, B B - 100 0 100 A, B se complètent
interchangeables
100 100 200 100 100 200

Si le test de Mc Nemar est significatif, les discordances ne sont pas symétriques ⇒ les taux
de réponses ⊕ donnés par les deux techniques diffèrent significativement et donc, l'une va
surpasser l'autre mais la plus faible peut être concordante avec la première (amorce de
stratégie diagnostique) ou non :
Cas 3 Cas 4
A A
+ - Non Symétriques + - Non Symétriques
(MN=20 p<0.001)
+ 80 0 80 Concordantes
+ 40 40 80 (MN=4 p<0.05)
B - 20 100 120 (K0=0.8) B - 60 60 120 Concordantes

(K0=0.0)
100 100 200 100 100 200
⇓ ⇓
Stratégie possible : réaliser B
Si B dit + : arrêter Abandon de la plus
Si B dit - : réaliser A mauvaise technique

7.5. Comparer g groupes indépendants (g ≥ 2), le facteur est discret à r
niveaux : le test d'homogénéité ( χ Pearson)
2
Dans le cas d'un facteur discret à r niveaux, nous généralisons directement la comparaison de
2 groupes à g groupes car la méthodologie est semblable. Dans cette section, les groupes sont
indépendants. La question porte sur la distribution du facteur entre les niveaux : est-elle la
même dans les g groupes?
Exemple (Meinert, 1986)
En 1977, le NIH (National Institutes of Health, financement gouvernemental des essais

cliniques au USA) a financé 746 essais cliniques. 56% de ces essais concernaient la
recherche dans le domaine du cancer (C), 12.5% concernaient le secteur des allergies et des
maladies infectieuses (AI), 7.1% concernaient la recherche sur la santé des enfants et de la
communauté (E), 3.2% allaient aux maladies cardiopulmonaires (CP) et 21.2% allaient aux
autres secteurs de recherche (A). En 1978, le NIH a financé 845 essais dont 60.9% pour C,
11.7% pour AI, 4.6% pour E, 2.4% pour CP et 20.4% pour A. En 1979, il a financé 986
essais dont 66.3% pour C, 12.2% pour AI, 3.2% pour E, 2.0% pour CP et 16.2% pour A.
Pour ces 3 années, la répartition entre ces cinq secteurs de recherche, des essais financés par
le NIH est-elle différente ?
La table de contingence :
Nombre (%) d'essais financés par le NIH

Années : 1977 1978 1979
Secteur de C 418 (56.0) 515 (60.9) 654 (66.3)
recherche AI 93 (12.5) 99 (11.7) 120 (12.2)
E 53 (7.1) 39 (4.6) 32 (3.2)
CP 24 (3.2) 20 (2.4) 20 (2.0)
Autres 158 (21.2) 172 (20.4) 160 (16.2)
Total 746 845 986
Le facteur est le secteur de recherche. Il y a 5 niveaux. Les 3 groupes sont les années 1977,
1978 et 1979.
Pour un secteur donné, le pourcentage d'essais financés par le NIH n'est pas exactement le
même chaque année. Ces différences sont-elles significatives ?
C'est la question de l'homogénéité au cours des trois années de la répartition des essais entre
les secteurs de recherche.

L'hypothèse d'homogénéité (H0) est :
H0 : ∀ i = 1, 2, ..., r pour tous les niveaux i
pi /1 = pi / 2 = ... = pi / g la fréquence de ce niveau i dans le premier groupe ( pi /1 ) est la

même que dans le second groupe ( pi / 2 ) ... et est la même que dans le ge groupe ( pi / g )
En d'autres termes, sur chaque ligne du tableau précédent, les 3 pourcentages théoriques sont
identiques (les pourcentages observés ne le sont pas !)
La négation de cette hypothèse est (H1) qu'il existe (∃) au moins un niveau dans lequel un des
pourcentages au moins n'est pas pareil aux autres pourcentages de ce niveau. Il n'est pas
précisé lequel !
Le test d'homogénéité peut permettre de conclure à un manque significatif d'homogénéité
mais sans préciser d'où ça vient.
Formellement, le test d'hypothèse s'écrit :

H 0 : ∀i = 1,..., r pi /1 = pi / 2 = ... = pi / g
H1 : ∃i et j , k : pi / j ≠ pi / k
Pour résoudre ce test d'hypothèse, il faut (comme pour toutes les tables de contingences)
d'abord construire une seconde table, la table des effectifs espérés (ou attendus).
Table Observée (Oij) Table Espérée (Eij)

groupe
1 2 … j … g 1 2 … j … g
1 O11 O12 L1 1
F 2 2
a . .
c . .
t . Li ⋅ C j
. Eij=
e i Oij Li i N
u . .
r . .
. .
r r
C1 C2 … Cj … Cg N

Dans notre exemple :
Table observée
1977 1978 1979
C
418 515 654 1587
AI
93 99 120 312
E
53 39 32 124
CP
24 20 20 64
Autre
158 172 160 490
s
746 845 986 2577
Table espérée (Eij) (on garde généralement une décimale)
1977 1978 1979

C 1587 ⋅ 746 1587 ⋅ 845 1587 ⋅ 986
= 459.4 = 520.4 = 607.2
2577 2577 2577
AI 312 ⋅ 746 312 ⋅ 845 312 ⋅ 986

= 90.3 = 102.3 = 119.4
2577 2577 2577
124 ⋅ 746 124 ⋅ 845 124 ⋅ 986

E = 35.9 = 40.7 = 47.4
2577 2577 2577
CP 64 ⋅ 746 64 ⋅ 845 64 ⋅ 986

= 18.5 = 21.0 = 24.5
2577 2577 2577
Autre 490 ⋅ 746 490 ⋅ 845 490 ⋅ 986

= 141.8 = 160.7 = 187.5
s 2577 2577 2577
E32 total 3e ligne x total 2e colonne

case 32 (3e ligne, 2e colonne) c'est
total table
On peut résoudre le test d'homogénéité sous la condition : Eij ≥ 5 ∀i,j

(loi faible des grands nombres)

Toutes les cellules de la table espérée (et non pas observée !!) doivent avoir un effectif
supérieur à 5. En pratique, on calcule l'effectif minimum attendu en multipliant le minimum
min ( Li ) ⋅ min ( C j )
des lignes par le minimum des colonnes / N : min Eij =
N
Dans notre exemple, cette condition est satisfaite car : min (Li) = 64 et min (Cj) = 746
64 ⋅ 746
donc, min Eij = = 18.5 > 5
2577
Si cette condition n'est pas satisfaite, il faut regrouper des lignes et/ou des colonnes pour
qu'elle devienne satisfaite.
Il existe plusieurs statistiques (le rapport de vraisemblance généralisé, le score de Rao, le χ²

de Pearson) pour résoudre ce test d'hypothèse. Elles ont une puissance comparable. La plus
connue dans la littérature médicale est celle de Pearson; c'est celle que nous présentons ici.
(O − Eij )
2
La statistique de test (Pearson χ² test) est : χ = ∑

obs ij
sur ttes Eij

les cases
Sous l'hypothèse d'homogénéité, cette statistique a une distribution de probabilité du type χ² à

(r-1) . (g-1) degrés de liberté. On va donc trouver p-value dans la table T3 et conclure
au seuil α=0.05.
Dans notre exemple,
( 418 − 459.4 ) ( 515 − 520.4 ) ( 654 − 607.2 )

2 2 2
χ = obs
+ +
459.4 520.4 607.2
( 93 − 90.3) ( 99 − 102.3) (120 − 119.4 )
2 2 2
+ + +
90.3 102.3 119.4
( 53 − 35.9 ) ( 39 − 40.7 ) ( 32 − 47.4 )
2 2 2
+ + +
35.9 40.7 47.4
( 24 − 18.5) ( 20 − 21.0 ) ( 20 − 24.5)
2 2 2
+ + +
18.5 21.0 24.5
(158 − 141.8) (172 − 160.7 ) (160 − 187.5 )
2 2 2
+ + +
141.8 160.7 187.5
= 29.98
Comme g=3 et r=5, le degré de liberté est 8. Dans la table T3, on trouve p-value< 0.001. Au
seuil de 5%, on va conclure que la répartition des essais entre les secteurs considérés n'est pas
la même pour les 3 années avec p < 0.001.

En regardant les différents pourcentages, de 1977 à 1979, le taux d'essais dans le secteur C a
augmenté alors que celui des secteurs E et Autres a diminué. Avant de conclure à un
changement d'attribution, il ne faut pas oublier les facteurs de confusion : peut-être les
secteurs E et A ont-ils soumis moins de demandes, ou des demandes dont les budgets sont
plus élevés ...?
Problème (Delbauve, 1993)
On désire comparer le risque bruit auquel sont soumis les travailleurs dans 4 entreprises ayant
une activité différente. Le risque bruit est exprimé par 3 niveaux : aucune exposition (1), une
exposition à un bruit < 95 dB (2) et une exposition à un bruit > 95 dB (3). Une attitude
différente des partenaires sociaux peut bien sûr s'expliquer par une différence de répartition
du risque dans les 4 entreprises. Peut-on considérer que le risque bruit est également
réparti dans les 4 entreprises sur base de la table observée suivante :
Nombre de travailleurs (%)

Entreprise
I II III IV (Total)
risque bruit 1 226 (68.5) 406 50.2) 24 (17.3) 176 (23.8) (832)
2 99 (30.0) 103 (12.7) 61 (43.9) 304 (41.1) (567)
3 5 (1.5) 300 (37.1) 54 (38.8) 259 (35.0) (618)
Total 330 809 139 739 (2017)
Réponse : min Eij = 39.1 → Xobs = 384.3 dl = 6, p<0.001

7.6. Comparer 2 facteurs discrets dans un groupe : le test d'indépendance
(χ² Pearson)
Cette section aurait pu s'appeler "relation" entre deux facteurs discrets. Il y a un seul groupe
de N individus. Chez chaque individu, on évalue un facteur discret à r niveaux et un autre
facteur discret à s niveaux. Les deux facteurs A et B sont indépendants si la connaissance
d'un niveau de l'un ne modifie pas la répartition entre les niveaux de l'autre
( P ( A B ) = P ( A ) ou bien P ( B A ) = P ( B ) ou bien P(A et B) = P(A) . P(B) ).
Ca revient à dire que l'un est homogène dans l'autre.
Le test d'indépendance va donc se résoudre exactement de la même façon que le test

d'homogénéité.
La seule différence, c'est que pour le test d'homogénéité, c'est l'expérimentateur qui a choisi
l'effectif total de chacun des g groupes. Le pourcentage d'individus dans chacun des g
groupes par rapport à l'effectif total N n'est donc pas une probabilité. Dans une étude cas-
témoin par exemple, le % de cas n'est pas une probabilité. Dans une étude exposé-témoin, le
% d'exposés n'est pas une probabilité.
Par contre, dans une étude d'observation, prospective de cohorte, les pourcentages de malades
observés sont des probabilités parce que le nombre de malades observés est déterminé par
l'aléa ; le statut de maladie est une variable aléatoire et on peut parler de test d'indépendance
entre deux variables aléatoires (cas des essais aussi).
χ obs
Le coefficient V = mesure la force de liaison entre les deux facteurs.
N ⋅a
V∈ [0,1] et s'appelle le coefficient de CONTINGENCE de Cramer et a=min(#ligne-1 ; #col-

1).
Exemple
Dans une étude chez 141 patients ayant une tumeur cérébrale, des auteurs ont regardé si le
type de la tumeur dépendait du site de la tumeur. Ils ont observé la table suivante :
Type
Bénigne Maligne Autre Total
Frontal 23 9 6 38
SITE Temporal 21 4 3 28
Autre 34 24 17 75
78 37 26 141

Les deux critères de classification sont des variables aléatoires, donc, il s'agit d'un problème
d'indépendance.
26 ⋅ 28
L'effectif minimum espéré, min Eij = = 5.16 > 5
141
Donc le test du χ² de Pearson peut être utilisé pour conclure à une dépendance significative
ou pas.
La statistique de test, χobs = 7.84 et le degré de liberté est (3-1) . (3-1) = 4. Dans la table du
chi-carré, T3, on trouve 0.05 < p-value < 0.10, soit p-value > 0.05. Au seuil de 5%, on ne
peut pas conclure à une relation significative entre le type et le site d'une tumeur cérébrale à
7.84
partir de ces données. Le coefficient de contingence vaut ici, V = = 0.17 , soit 17%
141* 2
de liaison entre ces 2 variables mais il ne fallait pas le calculer puisque le résultat est non
χ obs
significatif. Si le tableau est 2x2, V = se note Φ .
N
7.6.1. Cas particulier des tables 2 X 2 et min Eij ≥ 5 : estimation des risques
En épidémiologie, le risque est synonyme de probabilité. Ainsi, le risque absolu pour une
maladie dans une population, c'est l'incidence de la maladie.
7.6.1.1. Le risque relatif, RR
Le risque relatif est une mesure de l'importance relative de deux risques.
Il peut être estimé dans un essai

dans une étude prospective de cohorte
dans une étude prospective exposé-témoin
C'est-à-dire les études où on peut parler d'indépendance et où les taux de malades estiment les
probabilités.
Maladie Proportion
oui (+) non (+) Total de malades
Exposition oui (+) n++ n+− nE + n++
= f+
nE +
non (+) n−+ n−− nE − n−+

= f−
nE −
Total nM + nM − N

taux de malades chez les exposés
Le risque relatif (estimé) =
taux de malades chez les non exposés
f+
RR = Le fait d'être exposé au facteur multiplie le risque de maladie par RR.
f−
Exemple :
Dans un essai randomisé parallèle, 210 patients ayant des maux de tête chroniques sont
enrôlés. 110 vont être traités par aspirine et 100 par placebo en double aveugle. Après 6 mois
de traitement, on évalue si oui ou non le mal de tête est encore présent. L'aspirine diminue-t-
elle le mal de tête après 6 mois de traitement chez des patients avec un mal de tête
chronique sur base des résultats suivants :
Mal de tête Proportion avec

non oui Total mal de tête
Traitement Placebo 30 70 100 0.70
Aspirine 55 55 110 0.50
Total 85 125 210
85 ⋅100
min Eij = 40.5 > 5 On peut faire un test d'indépendance (essai) du χ² Pearson :
210
χobs = 7.89 et le degré de liberté est 1 donc, par la table T3, on trouve 0.01 > p-value > 0.001
soit p-value < 0.01 et la force de la relation, Φ = 19%
A ce stade, on ne sait pas si l'aspirine augmente ou diminue significativement le mal de tête

0.70
RR = = 1.4
0.50
ne pas traiter avec l'aspirine multiplie le risque de garder un mal de tête par 1.4 avec p<0.01
NB La signification statistique (p-value) du risque relatif est exactement celle du test du

χ² d'indépendance mais le test consiste à comparer RR à 1 (égalité des risques).
Remarque : Si on avait considéré le groupe aspirine comme le groupe exposé, on aurait trouvé:
1
RR = 0.71 soit
1.4
et la conclusion resterait la même : traiter avec aspirine les patients ayant un mal de tête
chronique diminue 1.4 fois le risque de garder des maux de tête si on ne les traite pas (c'est
aspirine versus placebo). Ca ne veut pas dire que l'aspirine est un traitement de choix; il faut voir
si d'autres traitements agissent aussi !

7.6.1.2. Le rapport des cotes OR (odds ratio)
Dans les études cas témoin, on ne peut pas estimer le risque relatif RR puisque les proportions de
malade ne sont pas des probabilités (des risques). On estime alors un autre rapport, l'odds ratio,
OR. Il ne faut pas confondre ces deux rapports ! Une cote de maladie, c'est le taux de malades / le
taux de non malades.
f+
(1) chez les exposés, la cote de maladie est (mais on ne sait pas l'estimer dans une
1 − f+
étude cas-témoin)
f−
(2) chez les non exposés, la cote de maladie est
1 − f−
f+ ⎛ 1 − f− ⎞
L'odds ratio est le rapport entre ces deux cotes : ⎜ ⎟
f− ⎝ 1 − f+ ⎠
On peut l'estimer car les dénominateurs des taux se simplifient :
n++ ⎛ n−− ⎞
nE + ⎜ nE − ⎟
OR = ⎜n ⎟
n−+
nE − ⎜⎝ ⎟
+−
nE + ⎠
n++ ⋅ n−− produit de la diagonale
⇒ OR = =
n−+ ⋅ n+− produit de la diagonale inverse
Exemple (Vessey, 1983)
Dans une étude cas-témoin non appariés sur l'utilisation des contraceptifs oraux et le cancer du
sein, des auteurs ont comparé 1176 cas de cancer du sein prouvé histologiquement à 1176
témoins qui étaient des femmes mariées, de 16 à 50 ans et hospitalisées dans le même centre. 639
parmi les cas et 622 parmi les témoins n'avaient jamais utilisé de contraceptifs oraux.
Contraceptif
oral déjà utilisé cas témoins
oui 537 554 (exposés)
non 639 622
Total 1176 1176
Les femmes ayant un cancer du sein sont légèrement moins utilisatrices de contraceptifs oraux
(vérifiez que le test d'homogénéité χ² Pearson est NS)

OR < 1 indique un effet protecteur (léger et NS) de l'exposition, (ici, l'utilisation de
contraceptifs oraux) mais on ne peut pas tirer de conclusion causale. L'hypothèse
pragmatique potentielle n'est pas vérifiée dans cette étude.
On n'a aucune estimation du risque relatif dans cette étude!
Un odds ratio est significatif ou non de la même manière que la statistique du χ² de Pearson.
7.6.1.3. Lien entre RR et OR
f+ ⎛ 1 − f− ⎞
Nous avons vu que la valeur théorique de OR est : OR= ⎜ ⎟
f− ⎝ 1 − f+ ⎠
⎛ 1 − f− ⎞
⇒ OR = RR ⋅ ⎜ ⎟
⎝ 1 − f+ ⎠
(1) si f + > f − alors (1 − f − ) > (1 − f + )
⇒ OR > RR
Un odds ratio supérieur à 1 surestime toujours le risque relatif.

Si on trouve par exemple OR = 4.0, on peut seulement dire que le risque relatif est compris
entre 1 et 4.
(2) si f + < f − alors (1 − f − ) < (1 − f + )
⇒ OR < RR
Un odds ratio inférieur à 1 sous-estime toujours le risque relatif.

Si on trouve par exemple OR = 0.94, on peut seulement dire que le risque relatif est compris
entre 0.94 et 1 dans les données dont on dispose.
(3) Si la maladie est RARE (en pratique, une prévalence < 10%)
alors OR ≅ RR puisque f − et f + sont faibles. Donc, une étude cas-témoin donnera une
bonne estimation de RR.
7.6.1.4. Intervalle de confiance sur OR et RR (méthode de Miettinen)
Dans la notation utilisée, nous n'avons pas distingué le paramètre théorique de son estimation
dans les échantillons (la stat). Bien sûr, OR et RR étant des fonctions des observations, ce sont
des statistiques et on peut donc évaluer un IC à 95% par exemple avec la statistique OR (ou RR).
La méthode de Miettinen repose sur l'hypothèse que la statistique ln OR est gaussienne pour

autant que min Eij ≥ 5 avec une moyenne ln OR, paramètre et avec une déviation standard
ln ORˆ
estimée à S ( ln OR ) = où χ obs est la valeur observée de la statistique de test χ² Pearson.
χ obs
Donc, tout comme IC95% ( µ ) = ⎡⎣ X − 1.96 ⋅ S ( X ) , X + 1.96 ⋅ S ( X ) ⎤⎦ est un intervalle de confiance

à 95% sur la moyenne théorique (paramètre) et X et S ( X ) sont des statistiques qui s'évaluent
dans l'échantillon, on aura
⎡ ⎤
⎛ ⎞ ⎢ ˆ ˆ ⎥
ˆ − 1.96 ln OR ;ln OR
IC95% ⎜ ln OR ⎟ = ⎢ln OR ˆ + 1.96 ln OR ⎥
⎝ paramètre ⎠ ⎢ χ obs χ obs ⎥
⎢ ⎥
⎣ estimation (statistique) ⎦
En prenant l'exponentielle des deux bornes, on trouve un IC95% pour l'odds ratio (ou pour RR
théorique).
L'intervalle de confiance à 95% est aussi l'ensemble de toutes les valeurs non significatives
pour l'odds ratio !
Exemple :
Soit la table observée suivante chez 1000 travailleurs
Bronchite chronique Proportion de

bronchite
oui non Total chronique
Exposition oui 200 100 300 2/3
professionnelle
non 300 400 700 3/7
TOTAL 500 500 1000 1/2
500 ⋅ 300
min Eij = =150>5 ⇒ χ 2 Pearson applicable
1000
χ obs = 47.6 et le degré de liberté est 1 donc p-value < 0.001
(1) si c'est une étude de cohorte ou exposé-témoin

Il y a une relation significative entre le facteur et la maladie avec p<0.001 (pas forcément
causale...). Le coefficient de contingence Φ est de 22%.
2
RR = 3
3
= 1.56 Le risque est augmenté d'une fois et demi par la présence d'une exposition
7
professionnelle (p<0.001)

⎡ ln(1.56) ln (1.56 ) ⎤
IC95% ( ln RR ) = ⎢ln (1.56 ) − 1.96 ;ln (1.56 ) + 1.96 ⎥
⎣ 47.6 47.6 ⎦
= [ +0.31; +0.57 ] les bornes peuvent etreˆ négatives
IC95% ( RR ) = [1.36;1.71] les bornes sont toujours positives
Avec 95% de vraisemblance, le risque relatif est compris entre 1.36 et 1.77 dans cette étude.
Remarquons que 1 n'est pas dans l'intervalle puisque la p-value < 0.001 ie. le résultat est
significatif à 5%.
(2) si c'est une étude cas-témoin

La fréquence d'exposition est statistiquement plus élevée en présence d’une bronchite chronique
qu’en l’absence (40% vs 20%, p < 0.001).
On suggère une relation. Comme la proportion de bronchite chronique (1/2) dépasse 10%, on ne
peut pas estimer RR. Même l’intervalle de confiance à 95% sur OR ne contient pas la valeur de
RR !
200 ⋅ 400
ORˆ = = 2.67
100 ⋅ 300
IC95% ( ln OR ) = [ 0.704;1.26] ⇒ IC95% ( OR ) = [ 2.02;3.53]
(Méthode de Katz-Woolf)
En partant du modèle logistique pour exprimer le risque ou probabilité de maladie PM en fonction

des variables d’exposition et/ou confondantes potentielles, Woolf a établi une autre expression
pour la déviation des logarithmes népériens des indices de risque.
M+ M- PM
X=1 a b logit ( PM ) = ln = α +βx
1 − PM modèle
X=0 c d déf
logistique
donc ln OR = logit ( PM x = 1) − logit ( PM x = 0 )

D’où le nom de METHODE DU LOGIT
( )
ˆ = 1+1+1+ 1
S ln OR
a b c d
Déviation de K-W sur ln (indice)
b d
( ˆ =
S ln RR ) a + c
a+b c+d
⇒ IC95% ( ln ( indice ) ) = ⎡⎣ln ( estimation ) ± 1.96 ⋅ Déviation ⎤⎦

⇒ IC95% ( indice ) = exponentielle des bornes

7.6.1.5. Calcul d'un risque relatif (ou odds ratio) lié à un facteur en ajustant simultanément
sur plusieurs autres facteurs : La méthode de MANTEL-HAENSZEL
Exemple : Dans une étude cas-témoin (VITALIANO, 1978), des auteurs ont voulu étudier l'effet
d'une exposition au soleil sur le cancer de la peau.
Estimation du risque relatif approché de cancer cutané

lié à l'exposition au soleil chez les sujets au teint mat
Sensibilité au Peau sensible au soleil Peau bronzant aisément

soleil
âge 0 - 59 ans 60 ans + 0 - 59 ans 60 ans +
K Té Tot K Té Tot K Té Tot K Té Tot
Exposés 1 2 3 2 1 3 9 5 14 17 8 25
Non-exposés 11 11 22 17 9 26 30 67 97 55 61 116
Total 12 13 25 19 10 29 39 72 111 72 69 141
Comme l'âge et la sensibilité au soleil sont des facteurs de confusion potentiels, on peut estimer
un RR (ou OR) après ajustement sur ces deux facteurs par la méthode de Mantel-Haenszel
(1959) et tester sa signification statistique (méthode ROBINS, 1986).
Table Table Table Table SOMME

i=1 i=2 i=3 i=4
ai + di 1 + 11 2+9 9 + 67 17 + 61
Pi = = 0.480 = 0.379 = 0.685 = 0.553
ni 25 29 111 141
bi + ci 2 + 11 17 + 1 5 + 30 8 + 55
Qi = = 0.520 = 0.621 = 0.315 = 0.447
ni 25 29 111 141
R+ = ∑ Ri = 13.848
ai ⋅ di 1⋅11 2⋅9 9 ⋅ 67 17 ⋅ 61
Ri = = 0.440 = 0.621 = 5.432 = 7.355
ni 25 29 111 141
S + = ∑ Si = 5.938
bi ⋅ ci 2 ⋅11 17 ⋅1 5 ⋅ 30 8 ⋅ 55
Si = = 0.880 = 0.586 = 0.315 = 3.121
ni 25 29 111 141
Pi ⋅ Ri 0.212 0.2354 3.7209 4.0673 8.2348
Pi ⋅ Si 0.4224 0.2221 0.9254 1.7259 3.2958
Qi ⋅ Ri 0.2288 0.3856 1.7111 3.2877 5.6132
Qi ⋅ Si 0.4576 0.3639 0.4256 1.3951 2.6422

R+
L'odds ratio ajusté de Mantel-Haenszel est la statistique ORMH =
S+
Dans cet exemple, ORMH = 2.33 et lnORMH = 0.847
En 1986, Robins & Breslow ont donné une estimation de la variance logarithmique
∑ PR ∑ ( PS
i i i i + Qi Ri ) ∑Q S i i
Var ( ln ORMH ) = + +
2 R+2 2 R+ S+ 2S +2
8.2348 3.2958 + 5.6132 2.6422

var ( ln ORMH ) = + +
Dans notre exemple, 2 (13.848 )
2
2 (13.848 )( 5.938 ) 2 ( 5.938 )2
= 0.1131
Si (1) min Eij ≥ 1 dans toutes les tables
(2) 80% des cellules ont Eij ≥ 5
alors (méthode de Miettinen)
ln ORMH ⎧ H : OR = 1
Z obs = est la statistique de test à utiliser pour tester ⎨ 0
var ( ln ORMH ) ⎩ H1 : OR ≠ 1
Sa distribution est gaussienne donc on trouve p-value dans la table T2.

L'intervalle de confiance à 95% sur le risque relatif ou l'odds ratio ajusté s'obtient de la même
manière que pour le cas non ajusté.
Dans notre exemple,

0.847
Z obs = = 2.52 soit p<0.0117 ou p-value<0.02
0.1131
En ajustant pour la sensibilité au soleil et l'âge, l'exposition au soleil multiplie le risque de

cancer de la peau par 2.33 (p<0.02) chez les sujets au teint mat.
IC95% ( ln OR ) = ⎡⎣0.847 − 1.96 0.1131;0.847 + 1.96 0.1131 ⎤⎦

= [ 0.1879;1.5062]
IC95% ( OR ) = [1.21; 4.51]

Est-ce valide comme approche ?
1) min Eij = 1.44 (table 1) = 1.03 (table 2) = 4.91 (table 3) = 12.23 (table 4)
2) 11 cellules / 16 ont Eij ≥ 5 et 12/16 ont Eij ≥ 4.9. Donc 75% des cellules ont une fréquence
acceptable. On manque un peu de puissance.
Si l'ajustement n'avait pas été réalisé (additionner les 4 tables) on aurait trouvé OR=2.37,
χ12 =6.907, Z = χ12 =2.63, p<0.0085, soit un résultat plus significatif à cause des deux facteurs
de confusion.
7.6.2. Cas particulier des tables 2X2 et 3 ≤ min Eij < 5
La condition d'application du χ² Pearson est que l'effectif minimum espéré soit au moins égal à 5.
Dans les tables à plus de 4 cases, si au moins 80% des cases ont un effectif espéré Eij > 5 et que
tous les effectifs espérés Eij ≥ 2.
Armitage (1987, Armitage & Berry) a montré que le χ² Pearson restait une statistique puissante.
Sinon, il faut regrouper des lignes et/ou des colonnes pour augmenter les effectifs espérés,
jusqu'à ce que la condition soit satisfaite pour réaliser le test.
Pour les tables 2X2, on ne sait plus regrouper !

Des tests alternatifs ont été développés pour ces tables UNIQUEMENT.
Le test du χ² corrigé de Yates
Yates a proposé, si 3≤min Eij<5, de corriger la statistique de Pearson par :

2
⎛ 1⎞
⎜ ij
O − Eij − ⎟
2⎠
χYates
obs
=∑⎝
Eij
et de la comparer aussi à une chi-carré à 1 dl. Ca revient à retirer 1/2 à tous les écarts absolus
entre les effectifs observés et espérés.
Donc la χYates
obs
est toujours inférieure à la χ Pearson
2
. Si χ Pearson
2
est NS alors celle de Yates aussi (pas
l'inverse).

Dans une table 2X2, on peut montrer que l'écart absolu ∆ = ⏐Oij - Eij⏐ est constant.
Donc,
⎛ 1 1 1 1 ⎞
χ obs ( Pearson ) = ∆ 2 ⎜ + + + ⎟
⎝ E11 E12 E21 E22 ⎠
2
⎛ 1⎞ ⎛ 1 1 1 1 ⎞
χ (Yates ) = ⎜ ∆ − ⎟ ⎜
obs
+ + + ⎟
⎝ 2 ⎠ ⎝ E11 E12 E21 E22 ⎠
⎛ 1⎞
⎜∆ − ⎟
2
χ obs (Yates ) = χ obs ( Pearson ) ⋅ ⎝ 2 ⎠
∆
Exemple :
Nombre de décès dans les 6 mois après une fracture du col du fémur dans un centre spécialisé en
orthopédie (A) et dans un centre général (B) :
centre Eij
A B Total
Décès 4 4
oui 2 6 8
non 18 14 32 16 16
Total 20 20 40
8 ⋅ 20
Dans cette table, min Eij = = 4.0 et ∆ = 2
40
La statistique χ Pearson
obs
= 2.50 0.05 < p-value < 0.10, ne peut pas être utilisée; il faut faire une
( 2 − 0.5 )
2
correction de Yates : χ obs

= ⋅ 2.5 = 1.41 et on trouve, dans la table T3 avec dl=1, p-
( 2)
Yates 2
value>0.20.
Au seuil de 5%, on peut conclure que les décès ne sont pas plus fréquents dans le centre B que
dans le centre A (homogénéité).

7.6.3. Cas particulier des tables 2X2 et min Eij < 3 : le test exact de Fisher.
Dans les tables 2X2, avec N<20 ou bien avec N<40 et min Eij < 5, Cochran a recommandé de
toujours utiliser un test exact de Fisher. Avec les ordinateurs aujourd'hui, c'est facile mais
manuellement...
Donc, nous considérons ici que le test exact ne doit vraiment être utilisé que lorsque min Eij<3.
Ce test s'appelle un test exact parce qu'il ne repose sur aucune hypothèse de distribution
asymptomatique (lois des grands nombres).
La p-value est calculée exactement.
Soit la table Tobs

1 2
1 a b L1
2 c d L2
C1 C2 N
La probabilité d'observer une telle table est (sans démonstration à partir du modèle binomial)
C !C !L !L !
P (T obs ) = 1 2 1 2
N!a!b!c!d!
On calcule ensuite la probabilité d'observer d'autres tables qui auraient les mêmes totaux de
lignes et de colonnes mais qui montrerait une association encore plus forte entre les deux critères.
On somme alors toutes les probabilités obtenues et c'est la p-value exacte de Fisher si
l'alternative est unilatérale (one tail). Si l'alternative est bilatérale, la p-value exacte de Fisher est
la somme des probabilités associées aux tables ayant P ≤ P(Tobs).
Exemple
Supposons qu’on ait la table T0 suivante :
T0 6* 20
4 2 6 min Eij = = 2.93
41
17 18 35 la correction de Yates n’est pas applicable
21 20 41
(1) La probabilité d’observer une telle table T0 est

21! 20! 6! 35! ( 21⋅ 20 ⋅19 )( 20 ⋅19 ⋅18 )( 6 ⋅ 5 )
P (T 0 ) = = = 0.2529
41! 4! 2!17!18! ( 41⋅ 40 ⋅ 39 ⋅ 38 ⋅ 37 ⋅ 36 ) 2
(2) Pour les mêmes totaux des lignes et des colonnes, toutes les tables observables sont A
à G : (il y en a 6 = min (L1, L2, C1, C2))

T P(T) p-value p-value La table observée
unilatérale bilatérale Tobs = E
A
0 6
21 14 0.0086 0.0086 0.0086
Pour calculer p-value unilatéral
B
1 5 upper P = P(E) + P(F) + P(G)
20 15 0.0724 0.0810 0.0931 = 0.3555
lower P = P(A) + P(B) + P(C) +

C P(D) +P(E) = 0.8974
2 4
19 16 0.2263 0.3073 0.4099 p-value est le minimum de ces
deux valeurs
⇒ p-value = 0.3555
D
3 3
18 17 0.3372 0.6445 1.0000
Pour calculer p-value bilatéral
E Les tables A, B, C, F et G ont

4 2
une probabilité inférieure à
17 18
0.2529 0.3555 0.6628 P(E). Donc, p-value = P(A) +
P(B) + P(C) + P(F) + P(G) +
F P(E).
5 1 ⇒ p-value = 0.6628
16 19 0.0905 0.1026 0.1836
G
6 0
5 20 0.0121 0.0121 0.0207

7.7. Relation entre deux facteurs continus dans un groupe (cas linéaire)
Pour examiner la relation entre deux variables discrètes, nous avons vu qu'il faut utiliser des tests
du type chi-carré. Lorsque les deux variables sont continues, la relation la plus simple qu'on
puisse établir entre elles est une relation linéaire.
La corrélation répond à la question de l'existence d'une association linéaire entre deux variables
et la force de la relation est mesurée par le coefficient de corrélation.
Si on croit qu'une variable est la cause directe d'une autre, ou si la valeur d'une variable change,
alors l'autre variable change aussi comme une conséquence directe, ou bien, si le but principal de
l'analyse est de prédire une variable à partir de l'autre alors il faut investiguer la relation entre les
deux variables par la régression linéaire plutôt que par la corrélation simple. La méthode la plus
simple pour décrire une relation entre deux variables continues, c'est d'utiliser une droite; une
variable change proportionnellement à l'autre.
Par exemple, étudier la relation entre la pression artérielle et l'âge est un problème de corrélation.
Si on veut estimer l'importance de l'augmentation de pression artérielle avec l'âge, ça devient un
problème de régression. Etudier si la dose injectée d'une drogue influence la fréquence cardiaque
est un problème de corrélation mais quantifier l'augmentation de fréquence cardiaque pour une
dose injectée est un problème de régression.
Par la régression, on exprime la nature d'une relation et avec la corrélation, on exprime la force
de cette relation.
7.7.1. La régression linéaire simple
Le terme régression est dû à Galton (1900). Galton a beaucoup travaillé avec Mendel sur les lois
de l'hérédité. En étudiant la relation entre la taille du fils et celle du père, Galton avait remarqué
un phénomène qu'il a appelé "la régression dans l'hérédité" : la progéniture issue de parents petits
avait tendance à être plus grande et à se rapprocher de la taille moyenne de la population (I) et la
progéniture issue de parents grands avait tendance à être plus petite, se rapprochant ainsi aussi de
la taille moyenne de la population (II).
200
Y Taille du
fils en cm
(II) Pour expliquer la taille du fils (Y) par la

taille du père (X). Galton a développé la
moyenne méthode de régression linéaire simple.
(I)
100 200
moyenne
X Taille du père en cm UCL-MD Epidémiologie et biostatistique 142
Dans un problème de régression, il faut exprimer les variations d'une variable Y en fonction des
variations de l'autre variable X par une relation linéaire (le modèle) :
Y = α + ßX
Y s'appelle la variable dépendante ou à expliquer.
X s'appelle la variable indépendante ou explicative.
α est le paramètre constant; c'est la valeur de Y si X=0 (intercept).
ß est le paramètre de pente; si X augmente d'une unité alors Y va augmenter de

ß unités.
ß>0 signifie que la relation est directe (X et Y vont dans le même sens, si X grandit
alors Y grandit).
ß<0 signifie que la relation est inverse (si X augmente alors Y diminue).
Le problème de la régression consiste à déterminer les valeurs des paramètres α et ß.
Par exemple, si Y = 4 − 3 X , on sait que si X augmente d'une unité, Y va diminuer de 3 unités

( β = −3) et on sait aussi que si X vaut 10 alors Y = 4 − 3 ⋅10 = −26 .
Donc, c'est bien la valeur de α et ß qui explicite la valeur que Y (la variable dépendante) va
prendre si X prend une valeur déterminée (X, la variable indépendante).
Pour résoudre le problème, on dispose d'un échantillon de N couples d'observations; chez les N
individus, on a mesuré simultanément X et Y. A partir de ces N observations, on va déterminer
une valeur a pour α et une valeur b pour ß. Comme a et b sont des estimations, a et b seront des
variables aléatoires; a et b varieront d'un échantillon à l'autre...
observation N° X Y
1 X1 Y1
2 X2 Y2
3 X3 Y3
N XN YN
Taille N
moyenne X Y
déviation- stand SX SY
La première étape consiste à faire un graphique point de Y en fonction de X.

Exemple
Des chercheurs ont rapporté une relation entre les malformations du système nerveux central
(SNC) et la dureté de l'eau de distribution. Selon eux, le taux de malformations du SNC pourrait
être expliqué en partie par la dureté de l'eau. Pour étayer cette thèse, ils ont mesuré le taux de
malformations congénitales du SNC (en unité pour mille naissances) et la dureté de l'eau (en
unité ppm) dans 10 zones géographiques distinctes :
Zone Dureté de Taux de

l'eau malformations
X (ppm) du SNC
Y ( ‰ naissances)
1 15 (1) 11.2 (10)
2 25 (2) 8.1 (7)
3 50 (3) 7.2 (6)
4 75 (4) 9.3 (8)
5 100 (5) 9.4 (9)
6 150 (6) 5.0 (4)
7 180 (7) 5.8 (5)
8 220 (8) 4.8 (3)
9 250 (9) 3.3 (1)
10 275(10) 3.6 (2)
N=10
Moyenne 134 6.77
Déviation st. 9.8 2.69
le rang figure entre parenthèses
12
Taux de malformation du SNC(pour mille)
10
8 Ce graphique montre que si la

dureté de l'eau est plus faible, le taux
6
de malformations du SNC est plus
élevé (relation inverse) mais de
4
combien? Il faut déterminer a et b.
2
0 100 200 300
Dureté de l'eau (ppm)

7.7.1.1. Estimation des paramètres par moindres carrés ordinaires (MCO)
(Ordinary Least Squares - OLS)
La méthode d'estimation par moindres carrés ordinaires ne repose sur aucune hypothèse
statistique sur l'échantillon !
C'est une solution obtenue par le calcul différentiel et l'algèbre. Elle peut donc s'appliquer à tous
les échantillons.
La "meilleure" droite Y = a + bX qui peut être adaptée aux N observations est celle qui va rendre
minimum les écarts entre les valeurs Yi observées et les valeurs Yî données par la droite, Yî = a
+ bXi
Y
Yi Yi observé
ei
Yî Yî = a + bX i Pour l'observation (Xi, Yi),
l'écart à la régression ou résidu
MODELE : Y=a+bX
de la régression est :
ei = Yi − Yî
Yˆj Yˆj = a + bX j
ej = Yi − ( a + bX i )
Yj Yj observé
Xi Xj X
Comme l'écart peut être positif (cas i) ou négatif (cas j), on ne peut pas additionner les écarts. On
pourrait additionner les écarts absolus ⏐ei⏐ mais les mathématiciens n'aiment pas les valeurs
absolues pour leurs mauvaises propriétés (elles ne se dérivent pas facilement). Le carré de l'écart
est plus facile à manipuler mathématiquement. La méthode des moindres carrés va donc
déterminer a et b tels que ∑ ei2 est minimale.
Procédé mathématique pour les matheux (dictionnaire : les amoureux des maths)
∑ e = ∑ (Y − Yˆ )
2
2
i i i
= ∑ (Y − a − bX )
2
i i
= ∑ (Y + a + b X − 2aY − 2bX Y + 2abX )

i
2 2 2
i
2
i i i i
= ∑ Y + Na + b ∑ X − 2a ∑ Y − 2b∑ X Y + 2ab∑ X
i
2 2 2
i
2
i i i i

Rendre minimum ∑e 2
i , c'est trouver les valeurs a et b qui annulent les différentielles partielles.
∂
(1)
∂a
∑ ei2 = 0
⇔ 2 Na − 2∑ Yi + 2b∑ X i = 0
⇔ a − Y + bX = 0
⇔ a = Y − bX
∑e 2
i =0
⇔ 2b∑ X i2 − 2∑ X iYi + 2a ∑ X i = 0
⇔ b∑ X i2 − ∑ X iYi + aNX = 0
(2) ⇔ b∑ X i2 − ∑ X iYi + NXY + bNX 2 = 0
⇔ b ( ∑ X i2 − NX 2 ) = ∑ X iYi − NXY
⇔b ( ∑ ( X − X ) ) = ∑ ( X − X )(Y − Y )
i
2
i i
⇔b=
∑ ( X − X )(Y − Y )
i i
∑( X − X )
2
i
La solution analytique des moindres carrés est :
(1) Estimer la pente à partir de l’échantillon par b =

∑ ( X − X )(Y − Y )
i i
∑( X − X )
2
i
(2) Estimer l’ordonnée à l’origine ensuite par a = Y − bX
Y = a + b( X )
Remarquons que si X = X alors = (Y − bX ) + bX
=Y
Donc, la droite passe toujours par ( X , Y )
Si on applique la méthode à l'exemple du taux de malformations du SNC (Y) en fonction de la

dureté de l'eau (X) -tableau suivant-, on trouve
b = -0.025
a = 10.15
et la droite de régression a pour équation : Y = 10.15 - 0.025 X
* Cette droite exprime bien une relation inverse à savoir, si la dureté de l'eau augmente, le taux
de malformations congénitales diminue et cette diminution est de 0.025 pour mille par ppm.

* Pour une dureté de l'eau égale à 200, on s'attend à trouver en moyenne un taux de
malformations du SNC de 10.15 - 0.025 (200) = 5.15 pour mille naissances.
* Si on change les unités pour exprimer X alors la valeur de pente va changer aussi (pas
l'ordonnée a) : si X est mesuré en 100 ppm alors b = 2.5 (X divisé par 100 alors b est multiplié
par 100)
et si on change les unités pour exprimer Y alors les valeurs de pente b et d'ordonnée a vont
changer aussi : si Y est mesuré en % alors a=1.015 et b=0.25.
variation variation variation variation

totale commune expliquée résiduelle
(X −X) (Y − Y ) (X − X )(Yi − Y ) Yî = a + bX i (Yˆ − Y ) (Y − Yˆ )

Xi Yi 2 2 2 2
i i i i i i
15 11.2 (-119)² (+4.43)² -527.17 9.77 (+3.00)² (+1.43)²

25 8.1 (-109)² (+1.33)² -144.97 9.52 (+2.75)² (-1.42)²
50 7.2 (-84)² (+0.43)² -36.12 8.89 (+2.12)² (-1.69)²
75 9.3 (-59)² (+2.53)² -149.27 8.26 (+1.49)² (+1.04)²
100 9.4 (-34)² (+2.63)² -89.42 7.63 (+0.86)² (+1.77)²
150 5.0 (+16)² (-1.77)² -28.32 6.37 (-0.40)² (-1.37)²
180 5.8 (+46)² (-0.97)² -44.62 5.61 (-1.16)² (+0.19)²
220 4.8 (+86)² (-1.97)² -169.42 4.61 (-2.16)² (0.19)²
250 3.3 (+116)² (-3.47)² -402.52 3.85 (-2.92)² (-0.55)²
275 3.6 (+141)² (-3.17)² -446.97 3.22 (-3.55)² (+0.38)²
n=10 80840 64.941 -2038.8 51.419 13.522
X = 134 Y = 6.77 ⇓
−2038.8 SCR 13.522
S x = 94.8 S y = 2.69 b= = −0.025 S = N − 2 = 8
= 1.30
80840
CV 71% 40% S2
a = Y − bX = 10.15 1.69
Sb = = = 0.0046
∑( i )
2
Sx X − X 80840
r =b = −0.89
Sy
S a = Sb
∑ X i2
= 0.74
r = 0.79
2
N
Y = 10.15 − 0.025 X

12
Taux de malformation du SNC(pour mille)
10
Déviation Déviation résiduelle
8
totale Yi − Yî
Yi − Y
Déviation expliquée par la
Y = 6.77
régression
Yî − Y
6
2
0 100 X = 134 200 300
Dureté de l'eau (ppm)
Xi : 15 25 50 75 100 150 180 220 250 275
Yi : 11.2 8.1 7.2 9.3 9.4 5.0 5.8 4.8 3.3 3.6
r2 = 0.79 : 79% de la variation du taux de malformations du SNC est expliqué par les variations
de la dureté de l’eau

7.7.2. La corrélation
7.7.2.1. Notion de covariance entre deux variables
La covariance (ou variance commune) entre deux variables aléatoires X et Y est définie par
COV ( X , Y ) = E ( X − µ X ) ⋅ (Y − µY )
et, dans un échantillon aléatoire de taille N, elle est estimée par
COV ( X , Y ) =
∑ ( X i − X )(Yi − Y )
N −1
Donc Cov(X,X) = Var(X) : la covariance d'une variable avec elle- même, c'est sa variance.
Ce paramètre est intimement lié à la régression puisque, dans une régression linéaire simple, la
solution des moindres carrés ordinaires est en fait :
COV ( X , Y )
b= et a = Y − bX
Var ( X )
Dans notre exemple, COV ( X , Y ) = b ⋅ S x2 = −0.025 ⋅ ( 94.8 ) = −224.7

2
Ce chiffre, tout comme la variance, dépend des unités de mesure choisies pour X et Y et il est
donc difficilement interprétable. En définissant la corrélation entre deux variables, on va trouver
une expression de la relation entre X et Y qui ne dépendra plus des unités de mesure.
7.7.2.2. Le coefficient de corrélation linéaire simple de Bravais-Pearson, r
Le coefficient de corrélation linéaire simple entre deux variables X et Y est le paramètre défini
par :
COV ( X , Y )
ρ ( X ,Y ) =
σ XσY
Il est estimé dans un échantillon de taille N par (on note généralement r plutôt que r(X,Y)) :
1
∑ ( X i − X )(Yi − Y )
r = N −1
Sx ⋅ S y
Ce paramètre est donc de nouveau lié à la régression puisque la solution des MCO peut se
réécrire :
S
b = r⋅ Y
SX
et
a = Y − bX
94.8
Dans notre exemple, r = −0.025 ⋅ = −0.89 . Nous verrons quel est son sens dans la section
2.69
suivante.

A ce stade-ci, on peut déjà remarquer que
La connaissance de X , S X , Y , SY et r détermine
entièrement la droite de régression, SANS
AUNCUNE HYPOTHESE si ce n’est toujours
l’indépendance des observations, comme dans
tout ce cours.
7.7.2.3. Le coefficient de détermination, r²
Yi
Non expliquée ou résiduelle
Yî
Totale
expliquée
Y
Y = a + bX
Xi X X
Reconsidérons le point (Xi,Yi) et la droite de régression Y = a+bX.
La valeur Yi observée participe pour ( Yi − Y ) à la variation de Y puisque c'est cet écart qui
apparaît dans l'expression de la variance.
En construisant une droite pour expliquer les variations de Y, on a estimé que la valeur qui devait
correspondre à Xi était Yî = a + bX i . Donc, étant donné la variable explicative = Xi, la variation
attendue devrait être ( Yˆ − Y ). Le reste, ( Y − Yˆ ) est la partie de la variation de Y qui n'est pas
i i i
expliquée, c'est le résidu ei de la régression :

Variation de Y
totale expliquée résiduelle
(Y − Y ) = (Yˆ − Y ) + (Y − Yˆ )
i i i i
⇒ ∑ (Yi − Y ) = ∑ Yî − Y ( ) ( )
2 2
+ ∑ Yi − Yî
2
Les "matheux" pourront montrer sans problème, que le carré de la somme est bien ici la somme
des carrés.
∑ ( i ) = ∑ Yî − Y ( ) ( )
2 2
+ ∑ Yi − Yî
2
Y − Y
Somme des Carrés Somme des Carrés Somme des Carrés
Totale Expliquée Résiduelle
SCT SCE SCR
* Le degré de liberté (ou nombre de termes indépendants) de SCT, c'est (N-1) puisqu'il y a N
observations et qu'en calculant X , on a introduit une liaison ∑ (Yi − Y ) = 0
* Le degré de liberté de SCE, c'est 1 puisque 2 points déterminent entièrement une droite et
qu'elle passe par ( X , Y ).
* Le degré de liberté de SCR, c'est (N-2) puisqu'il y a N observations et qu'en calculant Yˆ , on a i
deux liaisons par la détermination de a et b.
Par la régression, on décompose la variance de Y et on obtient une équation d'analyse de

variance :
SCT = SCE + SCR
Degré de liberté N-1 1 N-2
SCE
Le rapport exprime donc le pourcentage de la variation de Y qui est expliquée par la
SCT
régression sur X.
∑ (Yˆ − Y )
2
SCE i
=
∑ (Y − Y )
2
SCT i
∑ ( a + bX − Y )
2
=
i
( N − 1) ⋅ SY2
Regardons ce rapport de plus près :
∑ ( Y − bX + bX )
2
−Y
=
i
( N − 1) ⋅ SY2
b2 ∑ ( X i − X )
2
=
( N − 1) ⋅ SY2
b 2 ( N − 1) S X2 ⎛ S X ⎞
2
= = = r2
( N − 1) ⋅ SY2 ⎜⎝ SY ⎟⎠
b

Ce rapport est donc le carré du coefficient de corrélation. Comme il représente le pourcentage de
la variation de Y qui est expliqué par la régression sur X, on lui a donné le nom de coefficient de
détermination; r² mesure la force de la relation (Y,X).
C'est un pourcentage donc mais aussi : 0 ≤ r2 ≤ 1

−1 < r < +1
Si r²=1 (SCR=0) alors tous les points sont alignés.

Si r²=0 (SCE=0) alors la variation de Y n'est pas du tout expliquée par X.
Dans notre exemple, r=-0.89 donc r²=0.79 soit 79% des variations du taux de malformations
congénitales du SNC est expliquée par la dureté de l'eau. Ca ne signifie pas un lien causal (biais
de confusion)!
Le tableau suivant donne les nuages de points qui correspondent aux différentes valeurs
possibles de r.
Rappelons qu'il s'agit d'une relation supposée linéaire
Si Y est une fonction quadratique de X (par exemple, Y=2X²) alors le coefficient de corrélation
linéaire r sera nul !

Corrélation Nuage de points correspondant
SX
r =b b<r b=r
SY
S X > SY S X = SY S X > SY
r=1
Relation
linéaire
directe
r proche
Pentes
positives de 1
b>0
0<r<1 mais pas

trop proche ni
de 0 ni de 1
r proche
Pas de
relation
de 0
linéaire
-1<r<0 mais pas

trop proche ni
de 0 ni de -1
Relation
linéaire
inverse r proche de
Pentes -1
négatives
b<0
r = -1
L'analyse graphique des points est fondamentale!
Anscombe (1973) a simulé les quatre exemples suivants :
Paire Exemple I Exemple II Exemple III Exemple IV

n° X Y X Y X Y X Y
1 10 8.4 10 9.14 10 7.46 8 6.58
2 8 6.95 8 8.14 8 6.77 8 5.76
3 13 7.58 13 8.74 13 12.74 8 7.71
4 9 8.81 9 8.77 9 7.11 8 8.84
5 11 8.33 11 9.26 11 7.81 8 8.47
6 14 9.96 14 8.10 14 8.84 8 7.04
7 6 7.24 6 6.13 6 6.08 8 5.25
8 4 4.26 4 3.10 4 5.39 19 12.5
9 12 10.84 12 9.13 12 8.15 8 5.56
10 7 4.82 7 7.26 7 6.42 8 7.91
11 5 5.68 5 4.74 5 5.73 8 6.89
N=11
moyenne 9.0 7.50 9.0 7.50 9.0 7.50 9.0 7.50
déviation st 3.3 2.03 3.3 2.03 3.3 2.03 3.3 2.03
r 0.8162 0.8162 0.8162 0.8162
Même valeur pour X , S X , Y , SY , r et N , donc même droite de régression linéaire Y = 3 + 0.5 X

pour les quatre exemples.
Exemple I Exemple II
15 15
10 10
5 5
0 0
Y
0 10 20 0 10 20
X X

Exemple III Exemple IV
15 15
10 10
5 5
Y
0
Y
0 10 20 0 10 20
X X
Les graphiques correspondants sont très différents; seul le premier est valide. Dans le second, la
relation est quadratique. Dans le troisième, une observation singulière fausse l'estimation de la
droite et dans le dernier, c'est une observation singulière qui induit la droite.
7.7.3. Analyse statistique de la régression et de la corrélation
Après avoir spécifié la relation linéaire (régression) et mesuré la force de cette relation
(corrélation), il faut se poser la question de la signification statistique de ce qui a été estimé, α, ß
et ρ . La signification clinique sera laissée à l'utilisateur.
Avant d'envisager des tests d'hypothèse sur a, b et r, il faut faire une analyse graphique des
résidus ei. L'allure de ce graphique peut être déduite directement du graphique point.
Au vu de ce graphique, on peut considérer si oui ou non les résidus sont indépendants et de

variance constante.
(1) des résidus ne sont pas indépendants si il y a une relation entre eux.
Exemples :
Anscombe IV Ascombe III
2,0 3
Regression Standardized Residual
Regression Standardized Residual
ei = Yi − Yî 0,0 1
-2,0 -1
-5,0 0,0 5,0 -2,0 0,0 2,0
Regression Standardized Predicted Value Regression Standardized Predicted Value

Anscombe II
Regression Standardized Residual 2,0
0,0
0
-2,0
-2,0 0,0 2,0
Regression Standardized Predicted Value
(2) des résidus ne sont pas de variance constante si on observe une hétérogénéité
dans le graphique du type :
Variance Variance
grande petite
Combinaison
“entonnoir”
d’entonnoirs
Si les résidus sont indépendants et de variance constante (et Gaussiens si N ≤ 30 alors la

déviation standard des résidus peut être estimée par :
SCR
Se = où SCR est la somme des carrés résiduels
N −2
(standard error of estimate)
et on peut faire des tests d'hypothèse sur les estimateurs a, b et r.

7.7.3.1. Test et Intervalle de confiance sur la pente
On va donc supposer les résidus indépendants et de variance constante.
Pour appliquer ce qui va suivre, il faut en plus

* soit N>30 (loi forte des grands nombres)
* soit N<30 et les résidus sont Gaussiens
Sans démonstration, la déviation standard de la pente est

Se S 2 − b 2 S X2
S (b ) = = Y
Sx N −1 SX N − 2
(1) Pour résoudre le test d'hypothèse
H0 : ß=0
H1 : ß≠0
b − ( β )H
on va utiliser la statistique de test t obs = qui a une distribution de probabilité du type
0
S (b )
Student avec N-2 degrés de liberté. On trouve p-value dans la table de Student T4 avec la valeur
absolue de tobs.
Dans notre exemple, b=-0.025 et S(b)=0.0046, donc, tobs=-5.43 et dl=10-2=8 donc, p-

value<0.001.
Au seuil de 5%, on va rejeter l'hypothèse d'une pente nulle avec p<0.001.

On généralise sans problème à d'autres valeurs à tester pour la pente. Par exemple, si on veut
tester si un accroissement de 1 unité en X entraîne un accroissement d'au moins 4 unités
en Y:
H0 : ß = 4
H1 : ß > 4
b−4
On va utiliser la statistique t obs = pour conclure.
S (b)
(2) L'intervalle de confiance à 95% sur la pente ou l'ensemble des valeurs de pente non
rejetables à 95% est :
IC95% ( β ) = ⎡⎣b − t Ntable
−2 ⋅ S ( b ) ; b + tN −2 ⋅ S ( b )⎦
table
⎤
− 2 = 2.306 pour α = 0.05

Dans notre exemple, N-2=8 donc t Ntable
IC95% ( β ) = ⎡⎣ −0.025 − ( 2.306 )( 0.0046 ) ; −0.025 + ( 2.306 )( 0.0046 ) ⎤⎦

= [ −0.036; −0.014]

7.7.3.2. Test et intervalle de confiance sur l'ordonnée à l'origine
Il faut maintenir les mêmes hypothèses que pour la pente (résidus indépendants, de variance
constante et gaussiens si N<30) quand on doit réaliser un test d'hypothèse sur l'ordonnée à
l'origine α.
Sans démonstration, la déviation standard de l'ordonnée à l'origine, a, est :
S ( a ) = S (b) ⋅
∑X i
2
Pour résoudre le test l'hypothèse,

H0 : α = 0 (la droite passe par l'origine)
H1 : α ≠ 0
a − (α ) H
on va utiliser la statistique t obs = qui a une distribution du type Student à N-2 degrés
0
S (a)
de liberté et on trouve p-value dans la table T4 aussi.
IC95% (α ) = ⎡⎣ a − t Ntable
−2 ⋅ S ( a ) ; a + tN −2 ⋅ S ( a )⎦
table
⎤
7.7.3.3. Test sur la dépendance linéaire
Ce test n'est pas un test d'hypothèse au sens général sur la force de liaison (H0 : ρ = ρ0) parce
que réaliser ce test requiert des approches plus élaborées (Fisher, 1921 - Hotelling, 1953).
Nous ne donnerons dès lors pas non plus un IC à 95% pour ρ. Nous n'avons pas non plus donné
l'intervalle de confiance à 95% sur la droite de régression elle-même (ne pas le confondre avec
celui de la pente) parce qu'il est une fonction de X.
Tester si il y a une dépendance linéaire entre Y et X revient à tester si le coefficient de corrélation

n'est pas nul.
Ce test requiert aussi les hypothèses maintenues sur les résidus : les résidus sont indépendants, de
variance constante, et, si N<30, il faut aussi que les résidus soient gaussiens.
Le test d'hypothèse s'écrit donc :

H0 : ρ = 0 X et Y sont linéairement indépendants
H1 : ρ ≠ 0 X et Y ne sont pas linéairement indépendants
On peut résoudre ce test en utilisant la statistique r qui est le coefficient calculé et, avec sa valeur
absolue, on trouve directement p-value dans la table T9 avec N-2 degrés de liberté.

Dans notre exemple, r =-0.89 et N-2=8 donc on trouve p<0.01 dans la table T9. Il y a une
corrélation significative entre le taux de malformations du système nerveux central et la dureté
de l'eau dans l'échantillon recueilli.
On rencontre parfois une statistique t pour réaliser ce test ou une statistique F. La statistique de
test F à 1 et N-2 degrés de liberté n'est autre que la statistique de variance ratio de l'analyse de
variance en régression :
SCE
1 carré moyen de la variance Expliquée
F obs =
SCR carré moyen de la variance Résiduelle
( N − 2)
SCE
⋅ ( N − 2) r 2 N − 2
= SCT =
( )
SCR 1− r 2
SCT
La statistique t à N-2 degrés de liberté n'est autre que la racine de Fobs. Comme la table T9 a été
construite à partir de la distribution F (ou t), ces trois statistiques r, Fobs et t vont donner
exactement les mêmes p-value.
Remarques
SX
(1) Puisque r = b ⋅
, réaliser un test de dépendance linéaire à partir de r ou bien tester si la
SY
pente est nulle revient au même (F=t2).
Conceptuellement, il y a une distinction : r concerne la corrélation et b concerne la régression. En

régression, la variable explicative X n'est pas aléatoire; c'est l'expérimentateur qui choisit
théoriquement les valeurs possibles de X et aucune hypothèse de distribution n'est ainsi requise
sur X. Par contre, en corrélation, on peut montrer que l'hypothèse gaussienne sur X est
nécessaire. Dans le cas ou X n'est pas gaussienne, approcher le problème par la corrélation est
une erreur, il faut utiliser la régression dans ce cas-là.
(2) Exemple de la littérature (Bell, 1987 Lancet)
90
Une erreur typique
80
Cette figure montre la relation entre le
contenu en eau (%) et le temps de
relaxation du cortex.
70
Les auteurs décrivent un groupe de 19
patients et 30 points apparaissent sur le
graphique. Donc, certains patients ont été
% d'eau
60
mesurés au moins 2 fois !
200 300 400 500 600 700 800
Temps de relaxation

Dans cet exemple, les résidus sont forcément autocorrélés et l'estimation est à mettre en question
sérieusement. Dans le cas où on a effectué plusieurs mesures chez un même individu, une
alternative consiste à moyenner les mesures d'un même individu et considérer ces moyennes
comme une simple observation. Sinon, il faut passer par des schémas élaborés d'analyse de
variance.
La linéarité et l'indépendance des résidus sont des hypothèses qui, si elles sont violées, faussent
tous les résultats.
(3) Lorsqu'il y a un manque sérieux de linéarité, il faut trouver une transformation de Y qui
linéarise.
type exponentiel (Y=eX)

Transformer Y* = ln Y ou Y* = log Y
La réponse à un dosage est souvent de ce type.
type quadratique
ou
Transformer Y* = √X

Régression : Résumé technique
Modèle Y =α + β X +ε
Estimation Y = a + bX
SY unité de Y
Pente b=r
SX unité de X
Ordonnée à l’origine a = Y − bX unité de Y
Carré moyen résiduel S 2

=
(1 − r ) ( N − 1) S
2
2
N −2
e Y
ou variance résiduelle
Si les résidus sont indépendants

de variance constante Hypothèses de validité des lois
gaussiens si N ≤ 30 de probabilités
⇓
TEST SUR FORMULATIO ESTIMATION DEVIATION STATISTIQU LOI DE
N E DE TEST PROBA ⇒
STATISTIQUE P-VALUE
Corrélation H0 : ρ = 0 r r 2 ( N − 2)
H1 : ρ ≠ 0 ou
1− r2 F1 et N − 2
r2
Pente H 0 : β = b0 Se2 b − b0
S (b) =
H1 : β ≠ b0 b ( N − 1) S X2 S (b) tN −2
Intercept H 0 : α = a0 N−1 2 2 a − a0
S( a) =S( b) ⋅ SX +X
H1 : α ≠ a0 a N S (a) tN −2

7.7.3.4. La corrélation de rangs de Spearman
Les résidus doivent être indépendants et toujours de variance constante.

Si N<30 et que les résidus ne peuvent pas être supposés gaussiens, on peut calculer un
coefficient de corrélation non paramétrique pour quantifier la force de la relation linéaire.
Le coefficient de corrélation de rangs de Spearman, rs, est le coefficient de corrélation linéaire de

Pearson calculé non pas sur les observations, mais sur les rangs des observations.
Il s'interprète de la même manière que le coefficient r de Bravais-Pearson.
rs (X,Y) = r (RX,RY) où RX sont les rangs de X

RY sont les rangs de Y
Dans notre exemple, les rangs figurent entre parenthèses à côté des observations (taux de
malformations du SNC et dureté de l'eau)
RX = 5.5 et RY = 5.5
rs =
∑(R Xi − RX )( RYi − RY ) = −0.87
(∑ ( R ) ) ⋅(∑ ( R ))
2 2
Xi − RX Yi − RY
Pour tester l'hypothèse d'une dépendance linéaire, on utilise la table T10 pour trouver la p-value
correspondante à⎮rs⎮selon la taille N de l'échantillon.
Dans notre exemple, N=10 donc p-value<0.002.
Si, dans un plus grand échantillon (N>30), on a calculé rs, on peut aussi réaliser le test sur la
dépendance linéaire en utilisant la statistique Z = rs N − 1 et en cherchant p-value dans la table
de la gaussienne, T2.

7.8. Comparer g groupes indépendants; le facteur est continu : ANOVA
simple
L'analyse de variance (ANalysis Of VAriance) est un terme statistique qui désigne l'ensemble
des techniques -et il y en a beaucoup- qui permettent de comparer les moyennes de plusieurs
groupes. S’il n'y a que deux groupes, faire une ANOVA ou faire un test de t, c'est faire
exactement la même chose. Nous n'envisagerons pas les cas où les groupes sont dépendants
(généralisation du test t sur groupes appariés). Nous n'envisagerons pas non plus les cas où la
désignation des groupes est basée sur plusieurs critères comme par exemple 4 groupes où il
s'agirait des hommes jeunes, hommes âgés, femmes jeunes, femmes âgées : deux critères (sexe et
âge) interviennent dans la définition des groupes.
Nous envisagerons uniquement l'ANOVA à 1 critère fixe de classification à g niveaux, c'est-à-

dire la comparaison de g groupes indépendants et définis selon un seul critère. X est la variable à
comparer.
De plus, nous n'envisagerons que le cas où les variances des g groupes sont supposées égales.
Beaucoup d'études ont montré que l'hypothèse que les g échantillons sont tous gaussiens peut
être relaxée.
Nous supposons sans test que σ 1 = σ 2 = σ 3 = ... = σ g
max ( S1 , S2 , S3 ,..., S g )
En pratique, cette hypothèse est acceptable si <2
min ( S1 , S 2 , S3 ,..., S g )
la plus grande déviation standard divisée par la plus petite déviation standard reste inférieure à 2.
Exemple
Une usine doit procéder au remplacement de ses machines. Quatre modèles (A, B, C, D) sont
disponibles sur le marché. Avant de procéder au remplacement général, on décide de tester ces
quatre modèles du point de vue du stress qu'il impose aux ouvriers. Une machine de chaque type
est introduite dans l'usine. 20 ouvriers sont pris au hasard et divisés aléatoirement en 4 groupes
de 5 ouvriers. Les ouvriers du 1er groupe vont travailler sur le modèle A, les ouvriers du 2e groupe
vont travailler sur le modèle B, les ouvriers du 3e groupe vont travailler sur le modèle C et les
ouvriers du 4e groupe vont travailler sur le modèle D. Après 6h de travail, on mesure chez les 20
ouvriers la résistance physique en kilocycles.

GROUPE 1 GROUPE 2 GROUPE 3 GROUPE 4
Modèle A Modèle B Modèle C Modèle D TOTAL
206 201 202 200
209 216 218 202
214 238 229 210
231 257 248 214
249 263 198 236
Taille n1 = 5 n2 = 5 n3 = 5 n4 = 5 N = 20
Moyenne X 1 =221.8 X 2 =235.0 X 3 =218.0 X 4 =212.4 X = 221.8
Déviation St. S1 =18.02 S2 =26.43 S3 =18.72 S4 =14.38 S = 20.14
Rappel
n X +n X +n X +n X
X= 1 1 2 2 3 3 4 4
n1 + n2 + n3 + n4
La déviation standard commune de 2 groupes se généralise aussi :
s=
( n1 − 1) s12 + ( n2 − 1) s22 + ( n3 − 1) s32 + ( n4 − 1) s42
n1 + n2 + n3 + n4 − 4
N = n1 + n2 + n3 + n4
Le test d'hypothèse de l'Anova est :

H 0 : µ1 = µ2 = ... = µ g les g groupes ont la meme
ˆ moyenne
H 1 : ∃j ≠ k : µ j ≠ µ k il y a au moins deux moyennes qui diffèrent
Pour résoudre un tel test d'hypothèse, on se base sur une décomposition de la variance totale (ou
de la somme des carrés des écarts)

7.8.1. L'équation de l'anova
Soit X ij i = 1,..., n j
la ie observation dans le je groupe.
j = 1,..., g
Sa participation à la variation totale de X est ( X ij − X ) .
Au sein de son groupe j, elle participe à la variation de X pour ( X ij − X j ) .
On a l'égalité suivante :
(X ij −X)= (X ij −Xj) + (X j −X)

écart total résiduel factoriel
Ecart au sein du Ecart du je groupe
je groupe à la moyenne totale
analogue à l'inexpliqué analogue à l'expliqué

de la régression de la régression
C'est le niveau j du "facteur"
de classification qui crée cette
différence
On peut montrer que ça reste vrai pour les carrés
nj nj nj
∑ ( X ij − X ) = ∑ ∑ ( X ij − X j ) + ∑ ∑( X j − X )
g g g
∑
2 2 2
j =1 i =1 j =1 i =1 j =1 i =1
Somme des Somme des Somme des

Variation de X Carrés Carrés Carrés
Totale Résiduelle Factorielle
SCT = SCR + SCF

est l'équation de l’anova.

On ne calcule généralement pas SCT
g ⎛ nj ⎞
2
SCR = ∑ ⎜ ∑ ( X ij − X j ) ⎟ SCR = ∑ ( n j − 1) ⋅ S 2j
g
j =1 ⎜ i =1 ⎟
⎝ ⎠ j =1
g ⎛ nj ⎞
2
SCF = ∑ n j ( X j − X )
g
2
SCF = ∑ ⎜ ∑ ( X j − X ) ⎟
j =1 ⎜ i =1 ⎟ j =1
⎝ ⎠
Dans notre exemple,

SCR = ( 5 − 1)(18.02 ) + ( 5 − 1)( 26.43) + ( 5 − 1)(18.72 ) + ( 5 − 1)(14.38 )
2 2 2 2
= 6322.0
et
SCF = 5 ( 221.8 − 221.8 ) + 5 ( 235.0 − 221.8 ) + 5 ( 218.0 − 221.8 ) + 5 ( 212.4 − 221.8 )
2 2 2 2
= 1385.2
Le degré de liberté de SCT, c'est (N-1) puisqu'il y a au total N observations et, en calculant X ,
on a introduit une liaison.
Le degré de liberté de SCR, c'est (N-g) puisqu'en calculant X 1 , X 2 ,..., X g on a introduit g
liaisons.
Le degré de liberté de SCF, c'est (g-1) puisque il y a g termes (les g moyennes) mais en calculant
X qui intervient aussi, on a introduit une liaison sur ces g termes.
En divisant une somme de carrés par son degré de liberté, on trouve un carré moyen (l'écart
quadratique moyen par analogie avec la définition de la variance).
Habituellement, on rapporte toutes ces informations dans une table, la table de l'anova.
Variation Somme des Degré de Carré Variance

carrés liberté moyen ratio
SC dl SC/dl VR
Factorielle SCF g-1 CMF VR=CMF/CMR
Résiduelle SCR N-g CMR
Totale SCT N-1
Remarquons que CMR = S² c'est l'estimation de la variance commune dans les groupes.

Dans notre exemple,
SCF 1385.2
CMF = = = 461.7
g −1 4 −1
CMR =
SCR 6322.0
=
N − g 20 − 4
= 395.1 ( CMR = 20.14 )
461.7
VR = = 1.17
395.1
et la table de l'anova serait :
Variation Somme des Degré de Carré

carrés liberté moyen VR
Machine 1385.2 3 461.7 1.17

Résiduelle 6322.0 16 395.1
7.8.2. Le test du rapport des variations (F ou VR)
La somme des carrés factorielle, SCF, représente la partie de la variation de X qui est due au
regroupement, c'est la variation entre les groupes, inter-groupes.
La somme des carrés résiduelle, SCR, représente la partie de la variation de X sans explication
(aléa); c'est la variation dans les groupes, intra-groupes.
Si un groupe a une moyenne très différente, le rapport inter/intra sera important.

Si tous les groupes ont des moyennes quasi semblables, les écarts inter seront faibles et donc le
rapport inter/intra variation sera faible. (N'oublions pas que l'on suppose que la variation intra est
la même dans tous les groupes). Il est donc tout à fait sensé d'utiliser ce rapport pour tester
l'égalité des moyennes.
Pour la question de la connaissance de la distribution de probabilité de la statistique utilisée

( χ a2 χb2 ) on ne va pas utiliser directement le rapport des sommes des carrés mais le rapport des
carrés moyens.
Pour résoudre le test d'hypothèse H0 sur l'égalité des g moyennes, on va utiliser la statistique de
test VR (appelée F dans la littérature)
CMF
VR =
CMR
Ce n'est valide que sous l'hypothèse faite sur les variances !
C'est une statistique qui, sous H0, a une distribution de probabilité du type Fisher- Snedecor
avec (g-1)-numérateur- et (N-g)-dénominateur- degrés de liberté.
On va donc trouver p-value dans la table T5 pour conclure.
Dans notre exemple, g=4 et N=20, VR=1.17 et max Sj/min Sj = 26.43/14.38 = 1.84 < 2.
Nous admettons l'égalité des σ j . Les degrés de liberté sont (4-1) = 3 et (20-4) = 16.
Dans la table T5, 2.46 correspond à p=0.10. Donc ici, on a p-value > 0.10. Le résultat est
non significatif au seuil de 5%. On ne peut pas rejeter l'hypothèse que les 4 machines sont
comparables : les résultats ne permettent pas de conclure qu'une machine impose un stress
différent des autres machines.
Remarquons que dans le cas où le résultat est significatif, ce test ne permet pas de dire où est la
différence. Il faut comparer les groupes 2 à 2 pour trouver la source de la différence. Mais quand
le résultat est non significatif, il ne faut bien sûr pas faire ces comparaisons multiples.
Lorsque les variances des groupes sont différentes, il faut aussi essayer de transformer la variable
X.
Quand la variable X est un taux (taux d'hémoglobine dans le sang par exemple), la
transformation X * = arcsin X stabilise souvent les variances.
Quand la variable X est un nombre, un comptage (le nombre d'accidents du travail

pendant une année par exemple), la transformation X * = X stabilise souvent les variances.
Quand on porte en graphique ( Si , X i ) i = 1,..., g
S Si on observe une relation linéaire entre S et X , la

transformation X* = ln X stabilise souvent les variances.
si on observe une relation quadratique entre S et X , la

transformation X* = 1/X stabilise souvent les variances.

30
Dans notre exemple, nous avons pu admettre l'égalité

20 X des variances.
Le graphique ( X ,S) des quatre groupes suggère
Déviation standard
D quand même une linéarité légère entre S et X .

C
10 A
200 210 220 230 240 250
Moyenne
Si on effectue une transformation lnX sur les données, on obtient la table suivante:
X = ln (résistance physique)
Machine A Machine B Machine C Machine D Total
5.33 5.30 5.31 5.30
5.34 5.38 5.38 5.31
5.37 5.47 5.43 5.35
5.44 5.55 5.49 5.37
5.52 5.57 5.29 5.46
Taille n1 = 5 n2 = 5 n3 = 5 n4 = 5 N=20
Moyenne 5.399 5.454 5.382 5.357 5.398

Déviation st 0.079 0.114 0.085 0.066 0.089
SCF = 5(5.399-5.398)² + 5(5.454-5.398)² + 5(5.382-5.398)² + 5(5.375-5.398)² = 0.0258

⇒ CMF = 0.0258 / 3 = 0.0086
SCR = (5-1)(0.079)² + (5-1)(0.114)² + (5-1)(0.085)² + (5-1)(0.066)² = 0.1242

⇒ CMR = 0.1242 / 16 = 0.0078 (= S² = (0.089)²)
Le rapport max Sj / min Sj = 0.114/0.066 = 1.73 est (légèrement) plus faible que celui des
données initiales : on a un peu plus stabilisé les variances.

La table d'anova :
Variation Somme des Degrés de Carré VR

carrés liberté moyen
Machine 0.0258 3 0.0086 1.11
Résiduelle 0.1242 16 0.0078
La statistique de test VR est un peu plus faible (conclusions inchangées) mais ce n'est pas
toujours le cas.
7.8.3. Les comparaisons multiples (contrastes)
Lorsque le résultat de l'analyse de variance est significatif, il faut chercher quel est ou quels sont
le(s) groupe(s) qui diffère(nt). Lorsqu'on a g groupes à comparer 2 à 2, le nombre de
g ⋅ ( g − 1)
comparaisons possibles est .
2
Ainsi, pour 4 groupes, il y a 6 comparaisons possibles, A vs B, A vs C, A vs D, B vs C, B vs D,
C vs D. Pour chaque comparaison, il y a un risque d'erreur α * . Si on choisit de travailler au seuil
g ⋅ ( g − 1)
global de 5%=α, il faut réduire α * pour que la somme des risques reste inférieure à
2
5%.
Plusieurs méthodes ont été proposées pour réduire α * . Nous en présenterons ici deux :celle de
Bonferroni parce qu'on la rencontre souvent dans la littérature biomédicale et celle de Newman-
Keuls parce qu'elle est plus puissante que celle de Bonferroni et qu'elle est simple.
7.8.3.1. La méthode de Bonferroni
(Bonferroni adjustments for pairwise mean comparisons)
Cette méthode concerne les contrastes sur des paires de moyennes (2 à 2) : on contraste µi avec
µ j dans le test d'hypothèse :
H 0 : µi = µ j le groupe i a la meme
ˆ moyenne que le groupe j
H1 : µi ≠ µ j

La statistique de test à utiliser dans la méthode de Bonferroni est
X j − Xi
t Bobs =
⎛1 1⎞
CMR ⎜ + ⎟
⎜n n ⎟
⎝ i j ⎠
qui a une distribution du type Student à ni + n j − g degrés de liberté. Dans la table T4, on trouve
la p* − value avec t Bobs . La correction de Bonferroni consiste à considérer que l'erreur globale a
g ⋅ ( g − 1) *
un risque estimé à p − value = ⋅ p − value
2
Ce qui veut dire que pour obtenir un seuil global de 5%, on ne peut déclarer significative qu'une
p* − value inférieure à 0.05/(g.(g-1)/2). Par exemple, si on a 4 groupes, g(g-1)/2 = 6 donc on
doit travailler avec un risque de 0.05/6 = 0.00833 dans les comparaisons multiples.
La réduction du seuil explique le manque de puissance de cette méthode (il est difficile d'obtenir
un résultat significatif).
Remarquons que la statistique t Bobs ressemble très fort à celle utilisée pour comparer deux
groupes indépendants lorsque les échantillons sont gaussiens et de variances égales.
La différence entre ces deux statistiques vient de l'estimation de la variance : CMR dans la
première donc (N-g) au dénominateur et S² dans la seconde, donc (n1+n2-2) = (N-2) au
dénominateur. La première sera donc plus grande.
7.8.3.2. La méthode de Newman-Keuls
La méthode de Newman-Keuls est une adaptation de la méthode de Tukey. La méthode de

Tukey ne compare que la plus grande moyenne à la plus petite moyenne. L'adaptation de
Newman-Keuls permet de comparer deux moyennes quelconques parmi les g moyennes. Elle est
valide s’il n'y a pas un groupe de référence.
Par exemple, dans un essai placebo/traitement A/ traitement B où on ne s'intéresse pas

directement à la différence entre les deux traitements mais plutôt aux différences (trait A et
placebo) et (trait B vs placebo), on peut considérer que seulement 2 comparaisons multiples
s'imposent et non pas 3. Alors, les contrastes de Dunett sont plus puissants.
Par contre, si on s'intéresse d'emblée à l'écart entre les deux traitements aussi, la méthode de
Newman-Keuls doit être appliquée.
Le test d'hypothèse est le même :

H 0 : µi = µ j
H1 : µi ≠ µ j

La statistique de test à utiliser dans la méthode de Newman-Keuls est :
X j − Xi ⎛ obs t Bobs ⎞
obs
t NK = ⎜ t NK = ⎟
⎛1 1⎞ ⎝ s⎠
CMR ⎜ + ⎟ ⋅ s
⎜n n ⎟
⎝ j i ⎠
où s = rang de X j − rang de X i + 1
obs
t NK a une distribution du type Student avec N-g degrés de liberté. On trouve p-value dans la
table T4 et on peut conclure.
Application à un exemple de la littérature (Foldes, 1950)
Des auteurs ont étudié l'effet de 4 anesthésiants sur le niveau des phosphates inorganiques dans le
sérum. La table suivante est rapportée dans l'article :
Quantité de phosphate inorganique sérologique

Anesthésiants Taille Moyenne Déviation standard
Ether 5 4.64 1.099

Cyclopropane 7 4.63 0.860
Thiopental 9 3.53 0.450
Spinal 8 3.08 0.740
Les auteurs ont réalisé une analyse de variance à un critère sur ces données. Ils ont obtenu un
résultat significatif (F=7.37 , p<0.01). En comparant les moyennes 2 à 2, ils ont conclu à un
niveau de phosphates inorganiques significativement supérieur avec l'éther ou le cyclopropane
qu'avec le thiopental ou le spinal.
Dans cette étude, l'anova réalisée n'était pas valide puisque max Sj / min Sj = 1.099 / 0.450 =
2.44 ; On ne pouvait pas supposer les variances égales.
Si on réalise un graphique ( X ,S) :
1,2
1,0
,8 La relation est du type quadratique; il aurait fallu

,6
essayer de transformer par √X ou 1/X pour stabiliser les
variances.
Comme les données complètes ne sont pas disponibles,
Déviation standard
,4
,2
nous n'effectuerons pas la transformation.
0,0
3,0 4,0 5,0
Moyenne

Considérons quand même que l'égalité des variances est admise et établissons la table de l'anova.
N = 5 + 7 + 9 + 8 = 29 et g = 4
5 ( 4.64 ) + 7 ( 4.63) + 9 ( 3.53) + 8 ( 3.08 )
X= = 3.86
29
SCF = 5 ( 4.64 − 3.86 ) + 7 ( 4.63 − 3.86 ) + 9 ( 3.53 − 3.86 ) + 8 ( 3.08 − 3.86 ) = 13.04
2 2 2 2
13.04
CMF = = 4.347
4 −1
SCR = ( 5 − 1)(1.099 ) + ( 7 − 1)( 0.86 ) + ( 9 − 1)( 0.45 ) + ( 8 − 1)( 0.74 ) = 14.72
2 2 2 2
14.72
CMR = = 0.589
25
S = CMR = 0.767
CMF 4.347
VR = = = 7.38
CMR 0.589
Table de l'anova
Variation Somme des Degré de Carré VR

carrés liberté moyen
Anesthésiants 13.04 3 4.347 7.38
Résiduelle 14.72 25 0.589
Totale 27.76 28 0.990
Si les auteurs avaient calculé la déviation standard dans le groupe total des 29 patients, ils
auraient trouvé √0,99 = 1.00 soit une valeur supérieure à la déviation standard commune aux 4
groupes, S = √CMR = 0.767.
Au centième près, on retrouve (VR = 7.38) la valeur F publiée dans l'article (F=7.37). Les degrés
de liberté sont g-1=3 et N-g=29-4=25. Dans la table T5, on trouve pour p= 0.01 la valeur 4.68 et
pour p= 0.001 la valeur 7.45. Comme VR est compris entre ces deux valeurs, on trouve p-value <
0.01 comme mentionné dans l'article.

Pour trouver l'origine de cette différence, les auteurs ont comparé les groupes 2 à 2. Ils ont réalisé
3
4 ⋅ = 6 comparaisons sans préciser la méthode utilisée. Nous laissons au lecteur le soin de
2
réaliser tous les contrastes, nous n'avons réalisé ici que le contraste Ether vs Thiopental par les
deux méthodes proposées.
(1) Par la méthode de Bonferroni
H 0 : µ Ether = µThiopental
H1 : µ Ether ≠ µThiopental
4.64 − 3.53
t Bobs = = 2.593
⎛1 1⎞
0.589 ⎜ + ⎟
⎝5 9⎠
Le degré de liberté est 5+9-2 = 12. Dans la table T4, on trouve 0.03 > p*-value > 0.02. Comme il
y a 6 comparaisons possibles, l'ajustement de Bonferroni consiste à considérer que
(0.03).6 > p-value > (0.02).6

0.18 > p-value > 0.12
Au seuil de 5%, on ne peut pas considérer, avec la méthode de Bonferroni, que le niveau des
phosphates inorganiques est significativement plus élevé avec l'anesthésiant "Ether" qu'avec
l'anesthésiant "Thiopental".
(2) Par la méthode de Newman-Keuls
Il faut calculer s :
Ether Cyclopropane Thiopental Spinal

X 4.64 4.63 3.53 3.08
rang 4 3 2 1
donc s = ⎮4-2⎮+1 = 3
La statistique de Newman-Keuls est
Le degré de liberté est 29-4 = 25. Dans la table T4, on trouve p-value comprise entre 0.10 et 0.20
soit p-value > 0.10; dans ce cas-ci, les deux méthodes concluent à un résultat non significatif.

(3) Si on ignore les corrections de risque pour les comparaisons multiples et qu'on réalise un
test de t non pairé classique sur les deux groupes, on trouve
4.64 − 3.53
t obs =
⎛1 1⎞
S*2 ⎜ + ⎟
⎝5 9⎠
( 5 − 1)(1.099 ) + ( 9 − 1)( 0.450 )
2 2
avec S 2
* = = 0.538
5+9−2
soit tobs = 2.174 avec un degré de liberté égal à 12, on trouve p-value<0.02 dans la table
T4 et on conclut erronément à une différence significative.
Si on compare le groupe Ether au groupe Spinal, on va trouver t Bobs = 3.566, dl=11 soit
0.001<p*-value<0.01 donc 0.006<p-value<0.06 : on ne sait pas conclure au seuil de 5% avec
la correction de Bonferroni. Avec la méthode de Newman-Keuls, on va trouver s=4 donc
obs
t NK = 1.78, dl=25 soit p-value>0.10
Si on compare le groupe Cyclopropane au groupe Spinal, on va trouver t Bobs = 3.902, dl=13

soit 0.001<p*-value<0.01 donc 0.006<p-value<0.06, on ne sait pas non plus conclure. Avec la
méthode de Newman-Keuls, on va trouver s=3 donc t NK
obs
= 2.253, dl=25 soit p-value<0.03.
C'est la seule différence qui est significative et qui explique le résultat de l'anova. Les
conclusions des auteurs étaient donc sérieusement à mettre en question !!

CHAPITRE 8 : SIGNIFICATION STATISTIQUE ET
SIGNIFICATION CLINIQUE
Importance de la fiabilité
La mesure d’une variable est imprécise lorsque, quand elle est à nouveau effectuée dans les
mêmes conditions, on peut obtenir une valeur différente de la première. La mesure d’un
critère de jugement strictement objectif comme le décès par exemple, n’est pas une mesure
imprécise ; c’est une mesure dite fiable (reliable).
Dans une étude bien menée, exiger des mesures fiables est aussi important que demander la
randomisation, le caractère double aveugle, le contrôle sur les variables pronostiques, etc…
Une imprécision des mesures a des conséquences désastreuses qu’aucun design ne pourra
contourner ; les tailles d’échantillons seront plus grandes, des estimations seront biaisées
voire même les échantillons le seront. Evaluer la fiabilité de la mesure du critère de jugement
en particulier mais des autres mesures aussi est donc capital. Nous verrons une mesure de
fiabilité pour une variable continue. Remarquons que pour une variable binaire codée 0-1, la
moyenne arithmétique représente bien la proportion de 1 observés ; approcher les variables
binaires codées 0-1 par les techniques développées pour les variables continues n’est pas
dénué de sens.
8.1. La réplication simple de la mesure
Exemple (Clarck, 1981).

Chez 10 sujets, un Holter-24 heures est interprété par deux logiciels différents et on considère
la variable T = ln (DVP+1) où DVP est le nombre de dépolarisations ventriculaires
prématurées par heure. Les deux interprétations ordinateurs fournissent les résultats suivants :
Sujet (i) k(i) Mes 1 Mes 2 moy

Patient 1 2 0,3501 0,1198 (i) var (i) Variabilité Inter-sujets :
Patient 2 2 0,1308 0,0992 0,235 0,0265 moy(i) représente la moyenne
Patient 3 2 0,1600 0,1200 0,115 0,0005 des 2 mesures dans chaque
Patient 4 2 0,0000 0,0000 0,140 0,0008
Patient 5 2 0,3298 0,4402
sujet. Ces valeurs varient très
0,000 0,0000 fort d’un sujet à l’autre (de 0.0
Patient 6 2 2,6392 2,6708
0,385 0,0061
Patient 7 2 0,0395 0,0905 à 3.9 autour d’une moyenne
2,655 0,0005
Patient 8 2 0,3098 0,4402 générale de 0.845). Dans la
0,065 0,0013
Patient 9 2 0,5900 0,5700 variance totale (TSS), elle
Patient 10 2 4,0300 3,7700 0,375 0,0085
contribue à une part
0,580 0,0002
importante.
3,900 0,0338
0,8450 0,0078

T-Test
Paired Samples Statistics
Std. Error
Mean N Std. Deviation Mean
Pair MES1 ,857920 10 1,3566991 ,4290259
1 MES2 ,832070 10 1,2987987 ,4107162
Paired Samples Test
Paired Differences
95% Confidence
Interval of the
Std. Error Difference
Mean Std. Deviation Mean Lower Upper t df Sig. (2-tailed)
Pair 1 MES1 - MES2 ,025850 ,1289902 ,0407903 -,066424 ,118124 ,634 9 ,542
Oneway
ANOVA
MES1
Sum of
Squares df Mean Square F Sig.
Between Groups 31,673 9 3,519 449,942 ,000
Within Groups ,078 10 ,008
Total 31,751 19
⎧ ⎫ 10 k
⎪ 2⎪
∑ ⎨ ∑ ( ) ⎬ = ∑∑ ( X ij − X ) = 31.751
i
2
TSS = somme des carrés totale = mesures − moy totale
tous les ⎪ mesure du ⎪ i =1 j =1
patients ⎩ie patient ⎭
{ }
10
BSS = somme des carrés des écarts entre les patients = ∑ ( X i − X ) ∗ ki = 31.673
2
i=1
alors que la variabilité dans les sujets est beaucoup plus faible (colonne var(i)), indiquant une très
bonne reproductibilité.
10
WSS = somme des carrés des écarts dans les patients= ∑ ( ki − 1) ∗ Si2 = 0.078
i=1 variance
dans le sujet (i)
Si il n’y a pas de structure sur la répétition des mesures, l’analyse de reproductibilité est basée
sur une ANOVA à un critère aléatoire.

8.1.1. ANOVA à un critère aléatoire
Typiquement, l’information se présente sous la forme d’un tableau :
sujet Nombre de mesures moyenne variance

1 k1 X1 S12
i ki Xi Si2
N kN XN S N2
Total K X S2
L’équation générale de l’ANOVA s’écrit :

N ⎧ ki
2⎫
N ki N ki
∑ ⎨∑ ( ij ) ⎬ ∑∑ ( ij i ) ∑∑ ( X i − X )
2 2
X − X = X − X +
i =1 ⎩ j =1 ⎭ i =1 j =1 i =1 j =1
( K − 1) S 2 = ∑ {( ki − 1) Si2 } + ∑
i i
{k ( X − X ) }
i i
2
Totale = intra (W) + inter (B)

Within Between
Le nombre de termes indépendants (dl, degrés de liberté) pour la somme des carrés inter-sujets
(BSS, between sum of squares) est N-1 puisque ∑ ki X i = KX et le nombre de termes
indépendants pour la somme des carrés intra-sujets (WSS, within sum of squares) est K-N
puisqu’on a N liaisons.
On obtient la table d’ANOVA :
Source de variation SS dl MS=SS/dl VR

inter-sujets
∑ {k ( X −X) } N −1 BMS/WMS
2 BMS
i i
i
intra-sujets ∑ {( k
i
i − 1) Si2 } K−N WMS
Total ( K − 1) S 2 K −1 S2
Le rapport des variations VR est distribué selon une loi F à N-1 et K-N degrés de liberté.

8.1.2. Estimation de la fiabilité
Dans le modèle linéaire où T est la variable à mesurer et X est la mesure de la variable avec
une erreur de mesure e chez un sujet,
X=T+e
On suppose que T a une moyenne µ et une variance σ T2 et, chez un même sujet, on suppose
que l’erreur e est indépendante de T, de moyenne nulle et de variance σ e2 . Donc σ X2 = σ T2 + σ e2 ;
la variabilité dans une série de mesures a deux composantes : l’une fixe (steady-state) et
σ T2
l’autre due à l’erreur de mesure. Le rapport va donc exprimer l’amplitude relative des
σ X2
deux composantes : le coefficient de corrélation intrasujets ou la fiabilité de X, est définie par
σ T2
R= 2 .
σ T + σ e2
Dans l’ANOVA,
K
k =
N
∑(k − k ) ⎫⎪
2
sk2
= ⎬ → k0 = k −
2 i
s
N −1 ⎪
k
K
⎭
Dans le cas d’un nombre constant de mesures pour tous les sujets, k0 est exactement ce
nombre.
WMS est un estimateur sans biais de σ T2 .
VR − 1
Donc, Rˆ = est une estimation de la fiabilité de X. Elle est asymptotiquement sans
VR + k0 − 1
biais pour R.
Se = WMS s’appelle l’erreur standard de mesure.
Pour l’exemple, la table de l’ANOVA est :

B inter-sujets 31.6727 10-1 3.5192 451.179
W intra-sujets 0.0782 20-10 0.00782
Se = 0.00782 = 0.08843
et la fiabilité des mesures est estimée à 0.9956, presque parfaite. L’erreur standard de mesure Se=
0.088.
!! Ce n’est pas l’erreur sur la différence

Ce n’est pas l’erreur sur la moyenne des différences

Si un sujet est mesuré une seule fois, X ± 2Se est un intervalle de confiance à 95% pour T.
Par exemple, chez un sujet, l’ordinateur fournit DVP =3.67 donc X = ln (3.67 + 1) = 1.54 et
IC95% (T) = [1.36 ;1.72] soit, IC95% (DVP) = ⎡⎣ e1.36 − 1; e1.72 − 1⎤⎦ = [ 2.90; 4.58] .
2Se
Si un sujet est mesuré m fois, X ± sera l’intervalle de confiance à 95% pour T.
m
Intervalle de confiance à 95%
Si T et e ont une distribution gaussienne, on peut estimer un intervalle de confiance unilatéral à

95% pour la fiabilité, il sera exact si les ki sont égaux.
Soit F, le percentile (100 − α % ) de la distribution de Fisher à N-1 et K-N degrés de liberté. Par
VR − F
l’ANOVA, on peut montrer que R ≥
VR + ( k0 − 1) F
Représentation graphique
mes1-mes2
Différence moyenne + 2Se
0.03
0 Moy (i)
Différence moyenne - 2Se
!! L’approche par la régression n’est pas correcte quand il n’y a pas de structure de
répétition.

Il faut parfois recourir aux transformations avant d’analyser la reproductibilité /fiabilité.

Dans notre exemple, N-1 = 9 et K-N = 10, donc F = 3.02 et VR = 451.179, k0 = 2 donc R ≥ 0.987.
L’intérêt n’est pas de tester si R = 0 mais plutôt d’avoir une limite inférieure sur la fiabilité réelle
présente dans les données. Ici, elle est élevée mais ce n’est pas toujours le cas.
8.1.3. Augmenter la fiabilité en répliquant
Ce qui est vrai pour la précision est aussi vrai pour la fiabilité : la moyenne de plusieurs
mesures est plus fiable qu’une seule mesure.
Supposons qu’on réplique m fois la mesure de X et R ≠ 0 est la fiabilité de X pour mesurer T
(i.e. W = T + e)
alors
EX = µ
σ e2
σ 2 ( X ) = σ T2 +
m
mσ 2
⇒ Rm = T
mσ T2 + σ e2
mR
donc Rm, la fiabilité de la moyenne de m réplications : Rm =
1 + ( m − 1) R
dRm
Rm augmente bien avec R >0
dR
Rm converge vers 1 car lim Rm = 1

m →∞
Rm>R puisque ( Rm − R ) > 0 et s’annule ssi m=1

⎛ ⎞
⎜ 1− R ⎟
Si m>0, Rm − R = R ⎜ ⎟>0
1
⎜⎜ + R ⎟⎟
⎝ m −1 ⎠
Pour améliorer la fiabilité, une solution consiste à répliquer.

mR R (1 − R )
Rm = ⇔m= m
1 + ( m − 1) R R (1 − Rm )
Ainsi, supposons que R = 0.75 et que l’investigateur désire atteindre R* = 0.90, il suffit
0.90 (1 − 0.75 )
d’effectuer m réplications de la mesure chez chaque sujet où m = = 3 et de
0.75 (1 − 0.90 )
considérer la moyenne de ces 3 mesures comme réponses du sujet dans l’étude.

8.2. L’étude inter-examinateur
8.2.1. L’ANOVA à deux critères
Pour évaluer la fiabilité d’une mesure, on peut répliquer k fois la mesure chez N sujets (design le
plus simple). Dans une échelle de gradation par exemple, l’examinateur peut (en aveugle et
indépendamment) évaluer plusieurs fois l’échelle.
Mais dans cet exemple, pour assurer l’indépendance entre les évaluations, il vaut parfois mieux
recourir à un design plus compliqué : k examinateurs évalueraient chacun individuellement
l’échelle de chaque patient. L’examinateur constitue alors un critère supplémentaire dans
l’ANOVA qui est dit fixe si les k examinateurs seront aussi ceux qui participeront à l’étude.
Sinon, le critère examinateur est aléatoire si on peut considérer que les k examinateurs
constituent un échantillon de la population des examinateurs possibles.
La table d’ANOVA sera la même dans les deux cas mais l’évaluation de la fiabilité sera
légèrement différente.
Les données se présentent sous la forme :
Examinateur
Patient 1 2 3 … k Moyenne
1 X 11 … … … X 1k X 1.
2
X ij X i.
N
Moyenne X .1 … X. j … … X
(
X ij − X = ( X i. − X ) + ( X . j − X ) + X ij − ( X i. + X . j − X ) )
Total Patient Examinateur Résiduelle
et la table d’ANOVA devient :

Patients SSP = k ∑ i ( X i. − X )
2 N −1 PMS PMS
VRP =
RMS
SSE = N ∑ j ( X . j − X ) k −1 EMS
2
Examinateurs EMS
VRE =
RMS
Résiduelle SSR = SST − SSP − SSE ( N − 1)( k − 1) RMS
SST = ∑ i ∑ j ( X ij X ) Nk − 1
2
Totale

Le premier rapport des variations, VRP, est distribué selon une loi de Fisher à (N-1) et
( N − 1) ∗ ( k − 1) degrés de liberté ; c’est la statistique qui mesure l’effet « Patients ».
Le second rapport des variations, VRE, est distribué selon une loi de Fisher à (k-1) et
( N − 1) ∗ ( k − 1) degrés de liberté ; c’est la statistique qui mesure l’effet « Examinateurs ».
Exemple :
Pour étudier la fiabilité de la mesure du score dentaire (nombre de défauts sur la surface des
dents d’un patient), 10 patients ont été évalués par 4 dentistes différents :
Examinateur
Patient 1 2 3 4 Moyenne
1 8 7 11 7 8.25
2 13 11 15 13 13.00
3 0 0 2 1 0.75
4 3 6 9 6 6.00
5 13 13 17 10 13.25
6 19 23 27 18 21.75
7 0 0 1 0 0.25
8 2 0 4 5 2.75
9 18 20 22 16 19.00
10 5 3 8 3 4.75
Moyenne 8.10 8.30 11.60 7.90 8.975
La table de l’ANOVA de ces données montre que les quatre dentistes n’évaluent pas les patients
de la même façon (p<0.001) :

Patients 2031.75 9 225.747 81.93
Examinateurs 92.675 3 30.892 11.18
(p>0.001)
Résiduelle 74.575 27 2.762
Totale 2198.975

8.2.2. Estimation de la fiabilité si le critère Examinateur est fixe
dans le modèle linéaire ou Ti est la variable à mesurer chez le patient numéro i, Xij est la
mesure du patient i par l’examinateur j : Xij = Ti + rj + eij
on suppose : Ti gaussienne de moyenne µ et de variance σ T2

rj constantes reflétant un effet additif ou soustractif sur µ telles que
∑ j = 0 k rj = 0
eij gaussiennes de moyenne 0 et de variance σ e2
Ti et eij sont indépendantes.
Puisque le critère examinateur est fixe (c’est la population), var (rj) =

(∑ r )
2
j
(on divise
k
par k).
Si l’effet examinateur est non significatif, ce qui signifie que les k examinateurs ne
diffèrent pas en moyenne dans leurs mesures (pas de biais) alors,
(
var X = E var X rj + var E X rj ) ( )
= E (σ T2 + σ e2 ) + var ( µ + rj )
= σ +σ 2 2
+
(∑ r ) 2
j
T e
k
σ T2
La fiabilité de X est définie par R = .
1
σ + σ + ∑ rj2
2
T
2
e
k
Dans l’ANOVA,
E ( RMS ) = σ e2
E ( PMS ) = σ e2 + kσ T2
N
E ( EMS ) = σ e2 +
k −1
∑ rj2
donc
( PMS − RMS ) est un estimateur sans biais pour σ 2 et
( EMS − RMS ) ∗ ( k − 1) est sans
k
T
( Nk )
biais pour
(∑ r ) . 2
j

Ainsi, on trouve un estimateur pour la fiabilité :
N (VRP − 1)
Rˆ =
N (VRP ) + ( k − 1) VRE + ( N − 1)( k − 1)
Il n’y a pas de méthode simple, exacte ou approchée, pour calculer un intervalle de confiance
sur cette estimation. Dans l’exemple, si le critère examinateur est fixe,
10 ( 81.73 − 1)
Rˆ = = 0.92 soit une fiabilité élevée.
10 ( 81.73) + 3 (11.18 ) + ( 9 )( 3)
Représentation graphique
La corrélation peut avoir un sens dans le cas où il y une structure de répétition ; deux
représentations sont utilisées en général.

TABLES


Cours de Biostatistique

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Cours de Biostatistique

Transféré par

Droits d'auteur :

Formats disponibles

UNIVERSITE CATHOLIQUE DE LOUVAIN

Ecole de santé publique

(Cours Pré requis : MED2430 Eléments de statistique médicale)

Professeur Annie ROBERT

CHAPITRE 1 : CONCEPTS DE BASE ..........................................................................................1

CHAPITRE 2 : MESURE DE LA SANTE .....................................................................................8

CHAPITRE 3 : CLASSIFICATION DES ENQUETES EPIDEMIOLOGIQUES .......................17

CHAPITRE 4 : STATISTIQUE DESCRIPTIVE D'ECHANTILLON .........................................28

CHAPITRE 6 : ESTIMATION DES PARAMETRES D'UNE LOI A PARTIR D'UN

CHAPITRE 7 : ANALYSE STATISTIQUE (ELEMENTAIRE) .................................................87

7.6. Comparer 2 facteurs discrets dans un groupe : le test d'indépendance (χ²

CHAPITRE 8 : SIGNIFICATION STATISTIQUE ET SIGNIFICATION CLINIQUE ............176

1.1. Définition de l'épidémiologie

Ses champs d'activité peuvent être décomposés selon un processus temporel :

Détermination des populations à risque

Dépistage et diagnostic précoce

UCL-MD Epidémiologie et biostatistique 1

1.2. Définition de la statistique

1.3. Lien entre la statistique et l'épidémiologie

L'épidémiologie et la statistique ont en commun les problèmes de mesurer et de comparer ;

UCL-MD Epidémiologie et biostatistique 2

UCL-MD Epidémiologie et biostatistique 3

1.4. Signification statistique et causalité

UCL-MD Epidémiologie et biostatistique 4

1.5. Objectif explicatif ou objectif pragmatique ?

UCL-MD Epidémiologie et biostatistique 5

UCL-MD Epidémiologie et biostatistique 6

UCL-MD Epidémiologie et biostatistique 7

• le nombre d'individus pour lesquels on évalue la présence ou l'absence du caractère,

• la période de temps pendant laquelle l'évaluation est réalisée,

• le lieu où l'évaluation est réalisée.

Mathématiquement, un rapport est le quotient de deux nombres quelconques. Les proportions,

UCL-MD Epidémiologie et biostatistique 8

2.2. Indices de mortalité

Par exemple, pour la Belgique, en 1987 :

Pour Bruxelles, en 1987 :

Par exemple, pour Bruxelles, en 1987, de 25 à 44 ans :

UCL-MD Epidémiologie et biostatistique 9

nombre de décès par MCV à Bruxelles en 1987

nombre de décès par MCV à Bruxelles en 1987

La létalité peut mesurer la probabilité de décès lorsqu’un cas est diagnostiqué.

UCL-MD Epidémiologie et biostatistique 10

01/01/91 15/03/91 31/12/91 Temps

Prévalence en fin de période ≈

UCL-MD Epidémiologie et biostatistique 11

2.4. Indice d'agrégation

Classes Nombre de Nombre de Années vécues Taux Années vécues

2.5. Standardisation des taux

UCL-MD Epidémiologie et biostatistique 12

On voudrait, par exemple, comparer les taux de mortalité de la population V et de la population J

UCL-MD Epidémiologie et biostatistique 13

On applique alors les taux tV et tJ à cette population standard :

0-19 ans 40 000 40 000 * 0.001 = 40 40 000 * 0.008 = 320

Total 100 000 720 1220

Les taux de mortalité standardisés dépendent de la population standard. Si on choisit la

UCL-MD Epidémiologie et biostatistique 14

Classes d’âge Taux Décès attendus si la répartition Décès attendus si la répartition

0-19 ans 0.7 2 500 000 * 0.7 ‰ = 1750 3 500

20-49 ans 3.5 4 000 000 * 3.5 ‰ = 14 000 14 000

50 ans et plus 50.0 3 500 000 * 50 ‰ = 175 000 50 000

Total 190 750 67 500

1985 Taux de mortalité périnatale pour 1000 grossesses menées à terme

Suède Belgique Italie Allemagne Irlande Royaume- France P-B Danemark