APolycopié UE3!22!23

ÉDITION 3
UE3
Biostatistiques
Année universitaire 2022 – 2023
Présentation
Polycopié UE3
Introduction
Informations générales sur les polycopiés
Les polycopiés du Tutorat Lyon-Est sont mis à votre disposition comme compléments possibles à
votre méthode de travail. Ils n'ont pas vocation à remplacer votre présence en cours. Les polycopiés
ont été rédigés à partir des cours de l'année précédente, il est donc possible que certaines parties ne
soient plus au programme ou soient devenues inexactes. Nous vous conseillons de vous approprier au
maximum ces polycopiés en les annotant, en les surlignant, en les corrigeant et en les modifiant en
fonction du nouveau cours.
La parole du professeur au cours de la présente année universitaire fera toujours foi.
⚠ Ce polycopié a été rédigé à partir du cours PASS de l’année dernière. Il est donc possible que
certaines parties de ces cours se retrouvent hors-programme. Il est donc primordial de se rendre en
cours magistral donné en amphithéâtre par l'enseignant.
UE1 UE2 UE3 UE4 UE5

Tronc commun
S1
SSH Chimie Biostatistiques Médicaments Cellule
UE6 UE7 UE8

S2
Biophysique Anatomie Physiologie
Enseignements de spécialités du S2
Maïeutique UFP
- - - AAR - - - - - - BDR - - -
Médecine-Kiné MEAG H & BC
- - - ATC - - -
Odontologie MCFO
Module MAPS
Pharmacie Module Bases Fondamentales Module Diamant
Description de l'UE3
L'UE3 est la matière qui a pour but d'enseigner la connaissance des biostatistiques.
L’an passé :
✓ L’enseignant responsable de l’UE était le Pr. P. ROY ;
✓ Les durées des examens intermédiaires et finaux étaient respectivement de 30 et 45 minutes ;
✓ Coef. PASS 1,5 (Maïeutique = 10 / Médecine-Kiné-Ergo = 10 / Odontologie = 10 / Pharmacie = 10).
3 Année 2022 – 2023

UE3 – Biostatistiques
Table des matières

Nom des chapitres Dates et nombres de lectures
Statistiques descriptives
Probabilités
Variables aléatoires & Lois classiques
Évaluation des tests diagnostiques
Fluctuation d’échantillonnage
Principe d’un test statistique
Comparaisons de moyennes et de variances
Corrélation – Régression
Essais cliniques
Statistiques pour l’épidémiologie
Analyse de la survie
Intelligence artificielle (hors-programme)
Note de la rédaction du Tutorat – Ce tableau est là à titre indicatif pour présenter l’UE et pour aider à
organiser son travail. Cependant pas de panique, il n’est là que pour aider dans le planning et dans la
gestion des révisions : certains chapitres exigent d’être davantage vus que d’autres, il faut donc être
vigilant avec les cours qui nécessitent un apprentissage plus long !
Le Tutorat recommande de venir participer aux épreuves majeures chaque semaine dans les
amphithéâtres de la faculté. Cela permettra de réviser, de s’entraîner, de s’évaluer et de se classer par
rapport aux autres étudiants.
Épreuves EM1 CCB EM2 EB
Date
Fait
Les polycopiés du Tutorat étant rédigés à partir des cours de l'année précédente, ils n'ont aucune
valeur officielle de cours. Ils ne peuvent en aucun cas servir de référence opposable à une épreuve
majeure, à un concours blanc du Tutorat ou aux examens PASS. La seule référence qui fait foi pour les
examens PASS est le cours magistral donné en amphithéâtre par l'enseignant.
Le Tutorat déconseille fortement de se fier uniquement aux polycopiés et de négliger les cours
magistraux. Une écoute active associée à une prise de notes efficace, puis un recopiage au propre
reste la méthode la plus appropriée à l'apprentissage des cours.
Tutorat Santé PASS Lyon-Est 4

Présentation
Sommaire
Statistiques descriptives ............................................................................................................. 11

I. Introduction ........................................................................................................................... 11
II. Statistiques descriptives........................................................................................................ 12
A. Notions .............................................................................................................................. 12
B. Variables ............................................................................................................................ 12
C. Statistiques descriptives d’une variable quantitative ....................................................... 14
III. Loi normale........................................................................................................................... 16
A. Distribution de probabilité................................................................................................ 16
B. Loi normale centrée réduite ............................................................................................. 17
IV. Distribution à deux variables qualitatives............................................................................ 18
V. Conclusion ............................................................................................................................. 19
Probabilités ................................................................................................................................ 21
I. Introduction ........................................................................................................................... 21
II. Probabilités ........................................................................................................................... 21
A. Expérience aléatoire et évènements ................................................................................ 21
B. Probabilité ......................................................................................................................... 24
III. Probabilités conditionnelles ................................................................................................. 26
A. Définition .......................................................................................................................... 26
B. Formules des probabilités composées, totales et formule de Bayes ............................... 26
IV. Indépendance ...................................................................................................................... 28
V. Exercices................................................................................................................................ 30
A. Exercice : évènements ...................................................................................................... 30
B. Exercice : calcul de probabilités ........................................................................................ 30
C. Exercice : probabilités conditionnelles ............................................................................. 31
D. Exercice : formule des probabilités totales ...................................................................... 31
E. Exercice : formule des probabilités totales ....................................................................... 32
F. Exercice : probabilités ....................................................................................................... 33
Variables aléatoires discrètes et continues Lois classiques ........................................................... 35
I. Variables aléatoires continues et discrètes............................................................................ 35
A. Définition .......................................................................................................................... 35
B. Lois de probabilité et fonctions de répartition ................................................................. 36
C. Espérance et variance ....................................................................................................... 38
D. Variables aléatoires indépendantes ................................................................................. 40
5 Année 2022 – 2023

II. Lois classiques ....................................................................................................................... 40

A. Lois discrètes : Bernoulli, binomiale, Poisson ................................................................... 40
B. Lois continues : loi normale ou loi de Laplace-Gauss ....................................................... 43
III. Conclusion ............................................................................................................................ 46
De l’évaluation des tests diagnostiques à l’analyse de la décision médicale.................................. 47
I. Évaluation des tests diagnostiques ........................................................................................ 47
A. Valeurs intrinsèques du test ............................................................................................. 47
B. Les valeurs prédictives positive et négative...................................................................... 52
C. Ratio de vraisemblance, probabilité pré et post-test ....................................................... 52
D. Odds .................................................................................................................................. 53
E. Représentativité d’un échantillon (notion phare du cours) .............................................. 53
II. Analyse de la décision médicale............................................................................................ 56
A. Choix d’un test diagnostique ............................................................................................ 56
B. Choix d’un traitement ....................................................................................................... 57
Fluctuations d’échantillonnage – Estimations ponctuelles et par intervalles de confiance............. 59
I. Introduction : principe des statistiques inférentielles ........................................................... 59
II. Échantillonnage ..................................................................................................................... 59
III. Estimations ponctuelles et estimateurs ............................................................................... 60
A. Généralités ........................................................................................................................ 60
B. Qualité d’un estimateur .................................................................................................... 61
C. Estimateur de l’espérance : M .......................................................................................... 62
D. Estimateur de la variance : s2 ............................................................................................ 62
E. Estimateur d’une proportion : F ........................................................................................ 63
IV. Intervalles de fluctuations et intervalles de confiance ........................................................ 63
A. Intervalle de fluctuation / pari .......................................................................................... 63
B. Intervalle de confiance ...................................................................................................... 64
Principe d’un test statistique ...................................................................................................... 67
I. Introduction ........................................................................................................................... 67
II. Comparaison d’une moyenne à une valeur théorique : test d’hypothèse ........................... 67
A. D’une question d’ordre général à une hypothèse ............................................................ 67
B. Test de l’hypothèse nulle .................................................................................................. 68
C. Risque de première espèce ............................................................................................... 69
D. Significativité ..................................................................................................................... 70
E. Conclusion ......................................................................................................................... 71
III. Comparaison d’une proportion observée à une proportion théorique............................... 71
A. Approximation par la loi normale – Test bilatéral ............................................................ 71

Présentation
B. Test du Chi-2 – Test bilatéral............................................................................................. 72

C. Approximation par la loi normale – Test unilatéral .......................................................... 73
D. Test du Chi-2 – Test unilatéral .......................................................................................... 73
E. Conclusion ......................................................................................................................... 74
IV. Comparaison d’une distribution observée à une distribution à k modalités ...................... 74
V. Comparaison de deux proportions ....................................................................................... 75
A. Exemple............................................................................................................................. 75
B. Approximation par la loi normale ..................................................................................... 75
C. Test du Chi-2 ..................................................................................................................... 76
D. Conclusion......................................................................................................................... 77
VI. Risques  et  ...................................................................................................................... 78
VII. Conclusion ........................................................................................................................... 78
Comparaisons de moyennes et de variances ............................................................................... 81
I. Introduction (rappel du cours précédent) ............................................................................. 81
II. Comparaison d’une moyenne à une valeur théorique ......................................................... 82
A. Rappel ............................................................................................................................... 82
B. Théorie .............................................................................................................................. 82
C. Exemples ........................................................................................................................... 83
III. Comparaison de deux moyennes (échantillons indépendants) ........................................... 84
IV. Comparaison de deux moyennes (échantillons appariés) ................................................... 86
V. Comparaison de plusieurs moyennes : analyse de variance ................................................ 86
A. Introduction ...................................................................................................................... 86
B. Principe de l’ANOVA.......................................................................................................... 87
C. Exemple ............................................................................................................................. 89
VI. Prévalence et incidence ....................................................................................................... 89
A. Prévalence ......................................................................................................................... 89
B. Incidence ........................................................................................................................... 90
Corrélation – Régression ............................................................................................................. 91
I. Corrélation ............................................................................................................................. 91
A. Introduction ...................................................................................................................... 91
B. Quantification de la relation ............................................................................................. 93
C. Coefficient de corrélation ................................................................................................. 94
II. Régression ............................................................................................................................. 96
A. Introduction ...................................................................................................................... 96
B. Régression linéaire ............................................................................................................ 96
C. Relation Régression-Corrélation ....................................................................................... 99
7 Année 2022 – 2023

III. L’essentiel ........................................................................................................................... 102

IV. Exercice d’entrainement .................................................................................................... 103
Essais cliniques ..........................................................................................................................105
I. Introduction ......................................................................................................................... 105
A. Historique........................................................................................................................ 105
B. Définitions ....................................................................................................................... 105
C. Démarche ........................................................................................................................ 105
D. Principaux acteurs........................................................................................................... 106
II. Protocole ............................................................................................................................. 106
A. Questions posées ............................................................................................................ 106
B. Les phases de développement ........................................................................................ 107
C. Échantillon....................................................................................................................... 107
D. Population de l’étude ..................................................................................................... 110
E. Taille de l’étude ............................................................................................................... 111
III. Conduite et analyse ............................................................................................................ 113
A. Conduite .......................................................................................................................... 113
B. Analyse statistique .......................................................................................................... 113
IV. Réglementation.................................................................................................................. 114
V. L’essentiel ........................................................................................................................... 114
Statistiques pour l’épidémiologie...............................................................................................115
I. Introduction ......................................................................................................................... 115
II. Épidémiologie descriptive ................................................................................................... 115
A. La prévalence d’une maladie .......................................................................................... 116
B. Incidence d’une maladie ................................................................................................. 118
C. Risque de la maladie ....................................................................................................... 119
III. Épidémiologie analytique ................................................................................................... 120
A. Principe ........................................................................................................................... 120
B. Tableau de contingence .................................................................................................. 121
C. Détermination de l’association entre maladie et facteur de risque ............................... 121
D. Mesure de l’ampleur de l’association facteur de risque-maladie .................................. 122
E. Exemples ......................................................................................................................... 124
IV. Biais potentiels : QCM de cours ......................................................................................... 129
A. Biais de sélection............................................................................................................. 129
B. Biais de confusion ........................................................................................................... 129
C. Biais de mesure ou de mémoire ..................................................................................... 129
Analyse de la survie ...................................................................................................................131

Présentation
I. Introduction ......................................................................................................................... 131

II. Base de l’analyse de la survie .............................................................................................. 131
A. Contexte .......................................................................................................................... 131
B. Censure ........................................................................................................................... 132
III. Méthode de Kaplan-Meier et Test du Log-Rank ................................................................ 134
A. Kaplan-Meier................................................................................................................... 134
B. Comparaison de la survie dans deux groupes................................................................. 136
C. Test du Log-Rank ............................................................................................................. 136
IV. Taux de mortalité ............................................................................................................... 138
V. Survie paramétrique / exponentielle par intervalle ........................................................... 138
A. Modèle paramétrique ..................................................................................................... 140
B. Modèle exponentiel, relation entre R, S et λ .................................................................. 140
C. Modèle de Weibull, relation entre R, S et λ .................................................................... 140
D. Estimation par intervalle................................................................................................. 140
VI. Approximation actuarielle ................................................................................................. 141
A. Sans censure ................................................................................................................... 141
B. Avec censure ................................................................................................................... 142
VII. Modèle à taux proportionnel ............................................................................................ 142
A. Ajustement pour une variable de confusion .................................................................. 143
B. Survie ajustée .................................................................................................................. 143
Intelligence artificielle (hors-programme) ..................................................................................145
I. Variabilité ............................................................................................................................. 145
II. Modèles ............................................................................................................................... 145
A. Modèle diagnostique ...................................................................................................... 145
B. Modèle pronostique ....................................................................................................... 146
C. Modèle théranostique ou de réponse thérapeutique .................................................... 146
D. Exemple concret : le modèle linéaire ............................................................................. 146
III. Estimation .......................................................................................................................... 146
A. Modèle linéaire simple ................................................................................................... 146
B. Modèle linéaire et Moindres Carrés Ordinaires ............................................................. 147
C. La vraisemblance ............................................................................................................. 148
D. Maximum de vraisemblance du modèle linéaire ........................................................... 149
IV. Part de la variance expliquée ............................................................................................. 149
V. Intelligence artificielle ......................................................................................................... 149
A. Définition ........................................................................................................................ 149
B. Création de l’IA et développement ................................................................................. 150
9 Année 2022 – 2023

C. L’IA et les données .......................................................................................................... 150

VI. Deep Learning, l’apprentissage profond............................................................................ 150
A. L’apprentissage supervisé ............................................................................................... 150
B. L’apprentissage profond, ou deep learning .................................................................... 151
C. L’apprentissage par renforcement .................................................................................. 151
VII. Réseaux neuronaux........................................................................................................... 151
A. Réseau ............................................................................................................................. 151
B. Perceptron monocouche ................................................................................................ 152
C. Réseau neuronal multicouche ........................................................................................ 154
D. Les différentes architectures des réseaux neuronaux .................................................... 156
E. L’apprentissage supervisé ............................................................................................... 156
F. Performances d’un réseau de neurones utilisé pour la classification sur un échantillon test
..................................................................................................................................................... 156
VIII. Big Data – Données de grandes dimensions .................................................................... 157
IX. Conclusion .......................................................................................................................... 158
X. Le mot du tutorat ................................................................................................................ 159

Rédigé à partir du cours du Pr. ROY
Note de la rédaction – Ce cours est une introduction et un aperçu de notions qui seront développées
par la suite dans le semestre. Il ne faut pas s’inquiéter s’il ne paraît pas clair, petit à petit ce sont des
notions que vous allez apprivoiser.
I. Introduction
La médecine est une médecine factuelle, c’est l’Evidence Based Medecine (EBM). Chaque
information a un niveau de preuve scientifique, la littérature scientifique médicale permet la diffusion
des connaissances : cette communication scientifique permet un accès aux découvertes de façon
compréhensible en préservant l’intégrité de l’information. Il n’y a pas de sciences sans quantification
des résultats : une question, un dessin d’étude, un niveau de preuve.
Un patient n’est jamais identique à un autre, sa maladie, sa réponse au traitement, son pronostic,
tout varie. Comment alors analyser, comprendre, décider dans un monde où la variabilité est la règle ?
Pour répondre à des questions d’ordres générales, nous utilisons des échantillons représentatifs de la
population dont ils sont issus.
En effet, il existe des variabilités de résultats. Avec un test parfait, nous distinguerions
parfaitement les malades des non malades. Or, dans la réalité, il existe des faux positifs (des non
malades positifs au test) et des faux négatifs (des malades négatifs au test). Dès lors, il va falloir définir
un seuil pour lequel nous considérons le test positif, ce seuil représente un compromis entre les faux
positifs et les faux négatifs, par exemple nous pouvons avoir un test où nous n'aurons aucun faux
négatif qui serait hypothétiquement « toutes les personnes testées négatives sont non malades », ainsi
nous ne passerons pas à côté des malades (car ceux-ci auront un test forcément positif) mais nous
aurons un nombre de faux positifs énorme. Ainsi, il va falloir choisir un seuil qui permet de détecter le
plus de malades sans se tromper.
Choix du seuil avec Sp = Spécificité et Se = Sensibilité (notion revue plus tard dans le semestre).
L’inférence statistique correspond à une interprétation, ce n’est pas une simple analyse
descriptive ; nous tirons des conclusions générales à partir de cas particuliers.
11 Année 2022 – 2023

L’intervalle de confiance correspond à l’intervalle comprenant la vraie valeur du risque à 95 % de

chance. C’est-à-dire que si l’étude était reproduite un très grand nombre de fois, 95 % des intervalles
de confiance obtenus contiendraient la vraie valeur du paramètre estimé. Vous pouvez également
comprendre que lorsqu’on vous donne l’intervalle de confiance d’un paramètre, il y a 95% de chance
que la vraie valeur se trouve entre les deux bornes, mais également un risque de 5% que la vraie valeur
ne s’y trouve pas.
La méthodologie de la recherche correspond à :

▪ Une seule question ;
▪ Dessin d’étude adapté ;
▪ Plan d’analyse adapté ;
▪ Déroulement de l’étude ;
▪ Analyse des résultats ;
▪ Interprétation des résultats.
Comment analyser les études ? Par une collecte des données puis une analyse déductive ou
descriptive et une analyse d’inférence ou inductive, c’est-à-dire généraliser à partir d’une étude.
II. Statistiques descriptives

A. Notions
La population est un ensemble d’individus bien défini (qui, où, quand). Souvent, l’étude ne peut
être faite sur la population totale, nous utilisons donc un échantillon. Cependant pour faire de
l’inférence statistique il faut un échantillon représentatif, donc sélectionné au hasard.
Nous définissons également l’unité statistique, qui est un élément de l’échantillon. L’ensemble
des unités statistiques constituent l’échantillon. On remplacera volontiers par la suite le terme « unité
statistique » par le terme « individu ».
La distribution statistique correspond à l’ensemble des couples (xi, ni) où xi est une modalité de
la variable X et ni le nombre de fois où cette modalité est observée (c’est-à-dire l’effectif ou la
fréquence absolue). Cette distribution peut être également l’ensemble des couples (xi, fi) où fi est la
fréquence relative (ou proportion) de la modalité xi.
𝑛𝑖
𝑓𝑖 = (avec 𝑛 l'effectif total des observations)
𝑛
Remarque – Autrement dit, une distribution est une fonction qui associe une fréquence d'apparition à
une classe de valeur.
B. Variables
1. Variables qualitatives nominales

Ce sont des variables sans relation d’ordre.
Exemples – Sexe, groupe sanguin.
Elles peuvent être binaires, c’est-à-dire ne prendre que deux modalités, comme la variable sexe
(→ femme ou homme).

Répartition de la fréquence des hommes et des femmes dans un groupe donné (variable qualitative binaire).
2. Variables qualitatives ordinales

Nous ne pouvons pas faire de moyenne des valeurs prises par ces variables. Il existe une notion
d’ordre entre les différentes modalités de la variable.
Exemples – Intensité d’une douleur, stade d’une maladie.
Score de killip.
3. Variables quantitatives
Elles sont discrètes (exemple : nombre d’enfants, titres d’anticorps sériques) ou continues
(exemples : taille, poids).
Pour les variables continues, nous pouvons faire de la discrétisation c’est-à-dire l’arrondir
(exemples : taille en cm par exemple ou âge en année).
4. Séries
En mathématiques, on utilise le terme « série statistique » pour parler d’une liste de valeurs d’un
même ensemble.
Ci-contre se trouvent des exemples

de série :
▪ Statistique ;
▪ Triée ou classée ;
▪ Double.
13 Année 2022 – 2023

C. Statistiques descriptives d’une variable quantitative
1. Classements et représentations d’une variable quantitative

Nous allons prendre un exemple, le délai d’incubation (en jours) d’une maladie infectieuse virale,
n = 150. Si nous prenons les valeurs brutes, nous ne pouvons rien en tirer :
Valeurs brutes des délais d’incubation.
Mais si nous faisons un tableau de valeurs ou une division en classes avec un histogramme, nous
arrivons à mieux analyser la situation :
Valeurs déduites des valeurs brutes.
Nous pouvons également calculer la fréquence cumulée ce qui donne une fonction en escalier
(car les valeurs sont discrètes ; en effet, nous ne pouvons pas avoir 2,5 enfants par exemple et la durée
d’incubation est discrétisée en jours).
Histogramme des fréquences cumulées.
Remarque – Si nous avons des classes inégales dans un histogramme, nous pouvons calculer la densité
de fréquence :
𝑓𝑖
𝑑𝑖 =
𝑎𝑚𝑝𝑙𝑖𝑡𝑢𝑑𝑒𝑖

2. Paramètres de variables quantitatives

Nous allons ensuite pouvoir approfondir l’étude des valeurs prises par notre variable grâce à
différents paramètres.
Paramètres de position
▪ Moyenne arithmétique :
∑ xi
x̅ = (avec ∑ xi la somme des différentes valeurs de X et n le nombre total)
n
▪ Médiane :
Elle partage la série des valeurs triées en deux parties de même effectif, c’est-à-dire qu’il y a
autant de valeurs inférieures que de valeurs supérieures à la médiane.
- si n est impair, valeur de rang (n+1)/2 ;
- si n est pair, toute valeur de ]x(n/2)+x((n/2)+1)[.
En pratique, la médiane est la moyenne de ces deux valeurs.
▪ Mode ou classe modale :
Le mode est la valeur observée avec la plus grande fréquence. Sa valeur s’obtient directement à
partir du tableau statistique ou du diagramme en bâtons.
La classe modale est celle qui correspond au plus grand effectif si toutes les classes ont la même
amplitude.
Paramètres de dispersion
Le problème de la moyenne est sa sensibilité aux valeurs extrêmes, ainsi nous allons calculer des
paramètres de dispersion.
▪ Variance :
∑(X i − x̅)2 ∑ X i 2
σ2 = = − x̅ 2
n n
▪ Écart-type :
σ = √variance
▪ Extrêmes et étendue :
C’est la différence entre les valeurs extrêmes.
▪ Coefficient de variation :
σ
CV =
x̅
▪ Quantile de p :
Valeur de rang p(n+1).
Q1, Q2, Q3 sont les quartiles, Q2 est la médiane.
15 Année 2022 – 2023

Illustration des quantiles et moyenne.
III. Loi normale

A. Distribution de probabilité
La distribution normale est entièrement décrite par sa moyenne µ et sa variance σ² ou son écart-
type σ. C’est une méthode statistique nécessitant une fonction de répartition continue, pour laquelle
nous allons étudier la dérivée, permettant d’obtenir la densité de probabilité définie par l’équation
(n’est pas à apprendre) :
1 (𝑥−µ)2
−
𝑓(𝑥) = 𝑒 2𝜎2
𝜎√2𝜋
La densité est une fonction symétrique par rapport à la moyenne :
Distribution normale décrite par sa moyenne et écart-type.
La fonction de répartition est l’intégrale de la densité.

Fonction de répartition de la distribution normale.
B. Loi normale centrée réduite

C’est une valeur plus pratique d’utilisation, la valeur est centrée sur sa moyenne et divisée par
son écart-type = écart réduit :
x𝑖 − µ
𝜀=
𝜎
Si X suit une distribution normale de moyenne µet d’écart-type σ, alors l’écart-réduit suit une
distribution normale standard de moyenne 0 et d’écart-type 1.
Remarque – On dit que nous centrons et que nous réduisons.
Distribution normale centrée réduite.
Lorsque nous centrons et que nous réduisons, nous observons :
Intervalle et pourcentage des valeurs.
17 Année 2022 – 2023

En représentation graphique cela donne :
Représentation graphique d’une distribution normale centrée réduite.
IV. Distribution à deux variables qualitatives

Nous avons deux variables aléatoires X et Y avec des indices qui dépendent de la modalité, si nous
faisons le total des effectifs, nous avons un effectif total n1 en gardant X constant et Y variable de i à n.
Nous pouvons également le faire pour des fréquences relatives, dans ce cas il ne faut pas oublier
de diviser par n. Nous obtenons alors comme valeur totale 1.
Exemple 1 de distribution à deux variables.
Exemple 2 de distribution à deux variables.

V. Conclusion
Présentation des données, tableaux et graphes :
▪ Tableau des effectifs et des proportions de la distribution ;
▪ Diagrammes et histogrammes.
Résumés quantitatifs des données (données en nombre fini) :

▪ Paramètres de position :
∑ xi
- moyenne arithmétique : x̅ = ;
n
- médiane : partage la série des valeurs triées en 2 parties de même effectif ;
- mode : Mo ou Valeur la plus fréquente ;
▪ Paramètres de dispersion ou variabilité :
- extrêmes ;
∑(Xi −x̅)2 ∑ Xi 2
- variance : σ2 = n
= n
− x̅ 2 ;
- écart-type : σ = √variance.
Loi normale :
Récapitulatif.
19 Année 2022 – 2023


Probabilités
Probabilités
Rédigé à partir du cours de la Pr. BARDEL
Note de la rédaction – Les exercices corrigés présents sur le diaporama sont à la fin du chapitre.
I. Introduction
Les probabilités sont une notion fondamentale pour les métiers de la santé. Elles sont utiles pour :
▪ Le diagnostic ;
Exemples – Probabilité qu'un patient soit malade connaissant ses facteurs de risque, probabilité qu'un
individu soit atteint d'une maladie connaissant le résultat d'un test diagnostique.
▪ Le pronostic ;
Exemple – Probabilité de survie à 10 ans pour une femme traitée pour un cancer du sein.
▪ La thérapeutique ;
Exemples – Probabilité qu'un patient présente un effet secondaire de son traitement, probabilité qu'un
patient ne réponde pas bien au traitement.
▪ La génétique.
Exemple – Pour un couple, calcul du risque d’avoir un enfant malade.
Les probabilités sont les bases théoriques des statistiques qui sont beaucoup utilisées dans le
monde médical. Quelques exemples d’utilisation des statistiques dans le monde médical :
▪ Pour les essais cliniques (pour tester l’efficacité d’un traitement, un effet secondaire,
etc) ;
Exemples – Calcul du nombre de patients nécessaires à l’étude, conclusion de l’étude ;
▪ En épidémiologie ;
Exemples – Description de l’état de santé d’une population, recherche de facteurs de risque ;
▪ Pour le contrôle qualité ;
▪ Dans la recherche.
Exemples – Analyse de résultats d’expériences, critique d’articles.
II. Probabilités
A. Expérience aléatoire et évènements
1. Définitions
Expérience aléatoire : expérience qui peut être répétée, qui a plusieurs résultats possibles et dont
le résultat est imprévisible.
Exemples – Lancer d'un dé à six faces, observation du statut maladie d'un individu.
21 Année 2022 – 2023

Évènement élémentaire : résultat d’une expérience aléatoire.
Exemples – “Obtenir trois lors du lancer d’un dé à six faces”, “être malade”.
Ensemble fondamental (ou univers) : ensemble de tous les résultats possibles (évènements
élémentaires) d’une expérience aléatoire. Il est noté Ω ou S.
Exemple – Pour un lancer de dé à six faces, Ω = {1,2,3,4,5,6}.
Ω peut être :
▪ Un ensemble fini :
- statut vis-à-vis de la maladie, Ω = {“Malade”, “Non malade”} ;
▪ Un ensemble infini dénombrable :
- nombre de lancers avant d'obtenir face avec la pièce, Ω = {1, 2, …} ;
▪ Un ensemble infini indénombrable :
- mesure du taux de cholestérol sanguin.
Remarque – Quelques précisions :

• Un Ω discret correspond à un Ω fini ou infini dénombrable ;
• Un Ω continu correspond à un Ω infini indénombrable.
Évènement (non élémentaire) : sous-ensemble de Ω.
Exemple – Évènement A « obtenir un résultat strictement supérieur à quatre lors du lancer d'un dé à
six faces » : A = {5,6}.
Représentation de deux évènements non élémentaires.
Remarque – Il existe des évènements particuliers : l’évènement total Ω est certain, l’évènement vide Ø
est un évènement impossible.
2. Opérations
Il est possible de réaliser des opérations sur les évènements :
▪ L'union se note (A ∪ B) ou (A ou B). A ∪ B est réalisé dès que A ou B est réalisé ;
Union des évènements A et B.

Probabilités
▪ L'intersection se note (A ∩ B), (A et B) ou encore (A,B). L’évènement A ∩ B est réalisé

dès que A et B sont réalisés dans la même expérience ;
Intersection des évènements A et B.
▪ La complémentarité se note C(A) ou Ā ou (non A). L’évènement complémentaire de

A contient tous les éléments de Ω qui ne sont pas dans A ;
Complémentaire de l’évènement A.
Remarque – Il est également possible de donner des complémentaires de A ∩ B et A ∪ B :

̅̅̅̅̅̅̅̅
(𝑨 ̅∪𝑩
∩ 𝑩) = 𝑨 ̅̅̅̅̅̅̅̅
̅ et (𝑨 ̅ ∩𝑩
∪ 𝑩) = 𝑨 ̅
▪ Évènements incompatibles : A et B sont dits incompatibles si A ∩ B = Ø.
Évènements incompatibles.
Remarque – Le système complet d'évènements : nous appelons système complet d’évènements toute
partition de Ω → c’est-à-dire tout ensemble d’évènement (Ai) tel que :
• ∀𝑖, 𝐴𝑖 ≠ Ø ;
• ∀𝑖 ≠ j, 𝐴𝑖 ∩ 𝐴𝑗 = Ø (évènements deux à deux incompatibles) ;
• ⋃𝑖 𝐴𝑖 = 𝛺.
23 Année 2022 – 2023

Exemple récapitulatif des précédentes définitions : lancer d'un dé à six faces

Évènement A : “Obtenir un résultat pair”, A = {2,4,6}.
Évènement B : “Obtenir un résultat ≥ 3”, B = {3,4,5,6}.
Évènement C : “Obtenir cinq”, C = {5}.
Évènement D : “Obtenir un résultat impair”, D = {1,3,5}.
Ω {1,2,3,4,5,6}
Union: 𝐴 ∪ 𝐵 {2,3,4,5,6}
Intersection: 𝐴 ∩ 𝐵 {4,6}
Complémentaire de B : 𝐵̅ {1,2}
A et C : incompatibles
𝐴∩𝐶 = Ø
(s’excluent mutuellement)
𝐴  Ø et 𝐷  Ø
Système complet
𝐴∩𝐷 = Ø
d'évènements A et D
𝐴∪𝐷 = 𝛺
B. Probabilité
1. Définition
Probabilité : nous appelons probabilité, sur Ω, une application P qui à tout évènement A associe
un réel P(A) positif ou nul tel que :
▪ P(Ω) = 1 ;
▪ Si A et B sont incompatibles, alors P(A ∪ B) = P(A) + P(B).
Exemple – Croisement entre plantes hétérozygotes Aa pour un caractère à dominance stricte (a = allèle
muté, récessif).
Probabilités selon le phénotype.
Lorsque n  +, la fréquence relative tend vers la probabilité (selon la loi des grands nombres).
2. Propriétés
Deux évènements A et B.

Probabilités
Par définition :
𝑷(𝜴) = 𝟏 et 𝑷(Ø) = 𝟎
𝑠𝑢𝑟𝑓𝑎𝑐𝑒 𝑑𝑒 𝐴
𝑃(𝐴) =
𝑠𝑢𝑟𝑓𝑎𝑐𝑒 𝑑𝑒 𝛺
Il existe plusieurs propriétés régissant les probabilités :
▪ Si A1, A2, ...An sont n évènements incompatibles deux à deux alors :
𝑃(𝐴1 ∪ 𝐴2 ∪ … ∪ 𝐴𝑛 ) = ∑𝑛𝑖=1 𝑃(𝐴𝑖 ) ;
▪ 𝑷(Ā) = 𝟏 − 𝑷(𝑨) ;
▪ Si A et B sont des évènements tels que 𝑨 ⊂ 𝑩 alors 𝑷(𝑨) ≤ 𝑷(𝑩) ;
▪ 𝑷(𝑨) ≤ 𝟏 ;
▪ Pour deux évènements A et B, 𝑷(𝑨 ∪ 𝑩) = 𝑷(𝑨) + 𝑷(𝑩) − 𝑷(𝑨 ∩ 𝑩).
3. Probabilité sur un ensemble Ω fini

Si Ω = {ω1, ω2, …, ωn}, pour définir une probabilité sur Ω il suffit de se donner n nombres réels pi
tels que :
▪ ∀𝑖, 𝑝𝑖 ≥ 0 ;
▪ ∑𝑛𝑖= 1 𝑝𝑖 = 1.
Les pi sont les probabilités des évènements élémentaires {ωi}.
La probabilité d’un évènement A quelconque est la somme des probabilités des évènements
élémentaires qui constituent A.
Exemple – Cas particulier de l’équiprobabilité : tous les évènements élémentaires ont la même
probabilité. Soit Ω = {ω1, ω2, …, ωn}, les probabilités des évènements élémentaires sont
p1 = p2 = … = pn = 1/n. La probabilité d’un évènement A quelconque s’écrit alors :
𝑛𝑜𝑚𝑏𝑟𝑒 𝑑𝑒 𝑐𝑎𝑠 𝑓𝑎𝑣𝑜𝑟𝑎𝑏𝑙𝑒𝑠 à 𝑙𝑎 𝑟é𝑎𝑙𝑖𝑠𝑎𝑡𝑖𝑜𝑛 𝑑𝑒 𝐴
𝑃(𝐴) =
𝑛𝑜𝑚𝑏𝑟𝑒 𝑑𝑒 𝑐𝑎𝑠 𝑝𝑜𝑠𝑠𝑖𝑏𝑙𝑒𝑠 𝑑𝑒 𝑙 ′ 𝑒𝑛𝑠𝑒𝑚𝑏𝑙𝑒 Ω
Les calculs de probabilités se ramènent à des problèmes de dénombrement.
Exemple – Lancer d’un dé à six faces, Ω = {1,2,3,4,5,6}. Si A = “obtenir un résultat strictement inférieur
à trois” = {1,2}, alors P(A) 2/6 = 1/3.
4. Probabilité sur un ensemble Ω infini

Il y a deux cas possibles, l’ensemble Ω infini peut être dénombrable ou indénombrable :
▪ Si Ω est dénombrable : si Ω = {ω1, ω2, … , ωn. . . } ; pour définir une probabilité sur
Ω, il suffit de se donner une suite (pn) de nombres réels positifs tels que ∑+∞
i=1 pi = 1.
C’est une définition simplifiée d’une probabilité sur un ensemble Ω infini
dénombrable. La probabilité d'un évènement A quelconque est la somme des
probabilités des évènements élémentaires qui constituent A, à savoir :
+∞
P(A) = ∑ pj
j∈A
▪ Si Ω est indénombrable : nous définirons une probabilité sur Ω en utilisant une

mesure m définie sur cet ensemble. Exemple de mesure : la surface, le volume, etc.
La probabilité d’un évènement A quelconque se calculera ainsi :
𝑃(𝐴) = 𝑚(𝐴)/𝑚(𝛺)
25 Année 2022 – 2023

III. Probabilités conditionnelles

A. Définition
Soit B un évènement de probabilité non nulle. Pour tout évènement A, nous appelons probabilité
conditionnelle de A sachant que B est réalisé, le réel 𝑃(𝐴|𝐵) défini par :
𝑷(𝑨 ∩ 𝑩)
𝑷(𝑨|𝑩) =
𝑷(𝑩)
Remarque – 𝑃(𝐴|𝐵) se note aussi 𝑃𝐵 (𝐴).
Exemples de probabilités conditionnelles :

▪ Probabilité, pour un fumeur (B), de développer un cancer du poumon (A) ;
▪ Probabilité d'avoir la maladie d'Alzheimer (A) sachant que l'individu porte l'allèle
apoE4 (B). Cet exemple est lié à la notion de pénétrance : 𝑃(𝑀|𝑔é𝑛𝑜𝑡𝑦𝑝𝑒) ;
▪ Sensibilité, spécificité d'un test diagnostique, VPP, VPN.
Les probabilités conditionnelles.
𝑃(𝐴|𝐵) vérifie toutes les propriétés des probabilités, en particulier :

▪ 𝑷(𝜴|𝑩) = 𝟏 et 𝑷(Ø|𝑩) = 𝟎 ;
▪ 𝑷(Ā|𝑩) = 𝟏 − 𝑷(𝑨|𝑩) ;
▪ 𝑷(𝑨𝟏 ∪ 𝑨𝟐|𝑩) = 𝑷(𝑨𝟏|𝑩) + 𝑷(𝑨𝟐|𝑩) − 𝑷(𝑨𝟏 ∩ 𝑨𝟐|𝑩).
aux sources d’erreurs classiques :
𝑨|𝐁 n’est pas un évènement. Il n’existe pas d’évènements conditionnels.
𝐏(𝐀|𝐁) ≠ 𝐏(𝐁|𝐀).
Ne pas confondre 𝐏(𝐀|𝐁) et 𝐏(𝐀 ∩ 𝐁).
B. Formules des probabilités composées, totales et formule de Bayes
1. Formule des probabilités composées : probabilité d’intersection

d’évènements
De la définition des probabilités conditionnelles, nous déduisons 𝑷(𝑨 ∩ 𝑩) = 𝑷(𝑩) × 𝑷(𝑨|𝑩).
De même, 𝑃(𝐵 ∩ 𝐴) = 𝑃(𝐴) × 𝑃(𝐵|𝐴). Or, 𝑃(𝐵 ∩ 𝐴) = 𝑃(𝐴 ∩ 𝐵). Donc :
𝑷(𝑨 ∩ 𝑩) = 𝑷(𝑩) × 𝑷(𝑨|𝑩) = 𝑷(𝑨) × 𝑷(𝑩|𝑨)

Probabilités
On peut généraliser cette formule à n évènements. Soient n évènements A1, A2, …, An :

𝑃(𝐴1 ∩ 𝐴2 ∩ … ∩ 𝐴𝑛 ) = 𝑃(𝐴1 ) × 𝑃(𝐴2 |𝐴1 ) × 𝑃(𝐴3 |𝐴1 ∩ 𝐴2 ) × … × 𝑃(𝐴𝑛 |𝐴1 ∩ 𝐴2 ∩ … ∩ 𝐴𝑛−1 )
2. Formule des probabilités totales

Dans un cas simple, avec partition de Ω en 2, A et Ā forment un système complet d’évènements.
Pour tout évènement B :
𝑃(𝐵) = 𝑃(𝐵|𝐴) × 𝑃(𝐴) + 𝑃(𝐵|Ā) × 𝑃(Ā)
Démonstration :
𝐵 = 𝐵 ∩ 𝛺 = 𝐵 ∩ (𝐴 ∪ Ā)
𝐵 = (𝐵 ∩ 𝐴) ∪ (𝐵 ∩ Ā)
Or : (𝐵 ∩ 𝐴) et (𝐵 ∩ Ā) sont incompatibles
Donc 𝑃(𝐵) = 𝑃(𝐵 ∩ 𝐴) + 𝑃(𝐵 ∩ Ā)
Nous appliquons la formule des probabilités composées :
𝑷(𝑩) = 𝑷(𝑩|𝑨) × 𝑷(𝑨) + 𝑷(𝑩|Ā) × 𝑷(Ā)
Les probabilités totales.
Il est possible de généraliser cette formule dans le cadre d’une partition de 𝛺 en n.
Si {A1, A2, …, An} forment un système complet d’évènements, alors pour tout évènement B :
𝑛
𝑃(𝐵) = ∑ 𝑃(𝐵|𝐴𝑖) × 𝑃(𝐴𝑖)

𝑖=1
La démonstration se fait de la même façon que dans le cas simple.
3. Le théorème de Bayes
Le théorème de Bayes permet d’exprimer 𝑃(𝐴𝑗|𝐵) en fonction des 𝑃(𝐵|𝐴𝑖) et de 𝑃(𝐴𝑖).
Exemple d'application – Tests diagnostiques :
Connaissant la prévalence d'une maladie [𝑃(𝑀)] et la probabilité qu'un test diagnostique soit positif
̅ )], calculer la probabilité qu'un individu
chez les malades [𝑃(𝑇 + |𝑀)] et chez les individus sains [𝑃(𝑇 + |𝑀
soit malade si son test est positif [𝑃(𝑀|𝑇 + ) = 𝑉𝑃𝑃].
Dans le cas général, le théorème de Bayes se définit ainsi : soit {A1, A2, …, An} un système complet
d’évènements et B un évènement de probabilité non nulle. Pour tout j ∈ {1,2, …, n} on a :
27 Année 2022 – 2023

𝑃(𝐴𝑗 ) × 𝑃(𝐵|𝐴𝑗 ) 𝑃(𝐴𝑗 ) × 𝑃(𝐵|𝐴𝑗 )

𝑃(𝐴𝑗 |𝐵) = = 𝑛
𝑃(𝐵) ∑𝑖=1 𝑃(𝐴𝑖 ) × 𝑃 (𝐵|𝐴𝑖 )
Dans un cas plus simple, il est possible de démontrer le théorème facilement :
Soient A et Ā un système complet d’évènements.
P(A|B) = P(A ∩ B) / P(B)

Définition des probabilités conditionnelles
P(A|B) = P(A) × P(B|A) / P(B)

Numérateur : formule des probabilités composées
P(A|B) = P(A) × P(B|A) / P(B|A) × P(A) + P(B|Ā) × P(Ā)

Dénominateur : formule des probabilités totales
IV. Indépendance
Deux évènements A et B de probabilité non nulle sont indépendants (relativement à la probabilité
P) si et seulement si : 𝑷(𝑨|𝑩) = 𝑷(𝑨). Nous avons alors de la même façon 𝑷(𝑩|𝑨) = 𝑷(𝑩). La
réalisation d’un des évènements n’a pas d’influence sur la probabilité de réalisation de l’autre
évènement.
Il est possible de définir l’indépendance de deux évènements d’une autre façon : A et B sont
indépendants (relativement à la probabilité P) si et seulement si 𝑷(𝑨 ∩ 𝑩) = 𝑷(𝑨) × 𝑷(𝑩).
A et B indépendants revient au même qu’A et 𝐵̅ indépendants, Ā et B indépendants, Ā et 𝐵̅

indépendants.
Attention à ne pas confondre deux notions différentes :

▪ A et B incompatibles signifie que A ∩ B = Ø : ne fait pas intervenir la probabilité ;
▪ A et B indépendants signifie que P(A ∩ B) = P(A) × P(B).
Deux évènements de probabilité non nulle incompatibles ne sont pas indépendants :
Démonstration :
A et B incompatibles donc 𝑨 ∩ 𝑩 = Ø, 𝑷(𝑨 ∩ 𝑩) = 𝟎
Si 𝑷(𝑨) ≠ 𝟎 et 𝑷(𝑩) ≠ 𝟎 alors 𝑷(𝑨) × 𝑷(𝑩) ≠ 𝟎
Donc 𝑷(𝑨 ∩ 𝑩) ≠ 𝑷(𝑨) × 𝑷(𝑩)
A et B ne sont pas indépendants.
De manière générale, n évènements peuvent être indépendants deux à deux ou bien

mutuellement indépendants :
▪ (A1, A2, …, An) sont indépendants deux à deux si et seulement si ∀𝑖 ∈ {1,2, … , 𝑛} et

∀𝑗 ∈ {1,2, … , 𝑛}, pour 𝑖 ≠ 𝑗 : 𝑃(𝐴𝑖 ∩ 𝐴𝑗) = 𝑃(𝐴𝑖) × 𝑃(𝐴𝑗) ;
Exemple – Cas de trois évènements A, B et C indépendants deux à deux si et seulement si :

▪ 𝑃(𝐴 ∩ 𝐵) = 𝑃(𝐴) × 𝑃(𝐵) ;
▪ Et 𝑃(𝐴 ∩ 𝐶) = 𝑃(𝐴) × 𝑃(𝐶) ;
▪ Et 𝑃(𝐵 ∩ 𝐶) = 𝑃(𝐵) × 𝑃(𝐶).

Probabilités
▪ (A1, A2, …, An) sont mutuellement indépendants si et seulement si :
∀𝐽 ⊂ {1, 2, … , 𝑛}, 𝑃 (⋂ 𝐴𝑗 ) = ∏ 𝑃(𝐴𝑗 )

𝑗∈𝐽 𝑗∈𝐽
Exemple – Cas de trois évènements : A, B et C mutuellement indépendants si et seulement si :

• 𝑃(𝐴 ∩ 𝐵) = 𝑃(𝐴) × 𝑃(𝐵) ;
• Et 𝑃(𝐴 ∩ 𝐶) = 𝑃(𝐴) × 𝑃(𝐶) ;
• Et 𝑃(𝐵 ∩ 𝐶) = 𝑃(𝐵) × 𝑃(𝐶) ;
• Et 𝑃(𝐴 ∩ 𝐵 ∩ 𝐶) = 𝑃(𝐴) × 𝑃(𝐵) × 𝑃(𝐶).
Nous parlerons d’épreuves indépendantes lorsque le résultat d’une des épreuves n’a aucune
influence sur le résultat des autres épreuves. L’application en statistiques des épreuves indépendantes
est la constitution de n échantillons.
Exemple – Réalisation de cinq lancers d'une pièce équilibrée :

• 𝐹𝑖 : “Obtenir face au i-ème lancer” ;
• Probabilité p d’obtenir cinq fois face : 𝑃(𝐹1 ∩ 𝐹2 ∩ 𝐹3 ∩ 𝐹4 ∩ 𝐹5) ;
• Les cinq lancers sont indépendants : 𝑝 = 𝑃(𝐹1) × 𝑃(𝐹2) × 𝑃(𝐹3) × 𝑃(𝐹4) × 𝑃(𝐹5) = (½)5 .
29 Année 2022 – 2023

V. Exercices
A. Exercice : évènements
1. Énoncé
Soit un groupe de 3 personnes. On note Gi l’évènement « L’individu i est vacciné contre la
grippe ». Soient les deux évènements suivants :
▪ 𝐸1 : « Au moins un individu est vacciné contre la grippe » ;
▪ 𝐸2 : « Au moins 2 individus sont vaccinés contre la grippe ».
1) Quels sont les évènements complémentaires de 𝐸1 et 𝐸2 ?
2) Exprimez les évènements 𝐸1 et 𝐸2 à l’aide de 𝐺𝑖 .
2. Correction
1) 𝐸1 : « Aucun individu n’est vacciné contre la grippe ».
𝐸2 : « 0 ou 1 individu est vacciné contre la grippe ».
2) Expression de 𝐸1 et 𝐸2 :
➔ 𝐸1 = 𝐺1 ∪ 𝐺2 ∪ 𝐺3 ou alors : 𝐸1 = complémentaire de 𝐸1 avec 𝐸1 = 𝐺1 ∩ 𝐺2 ∩ 𝐺3
➔ 𝐸2 = (𝐺1 ∩ 𝐺2 ∩ 𝐺3 ) ∪ (𝐺1 ∩ 𝐺2 ∩ 𝐺3 ) ∪ (𝐺1 ∩ 𝐺2 ∩ 𝐺3 ) ∪ (𝐺1 ∩ 𝐺2 ∩ 𝐺3 )
B. Exercice : calcul de probabilités
1. Énoncé
Dans une population, 45 % des personnes interrogées déclarent pratiquer une activité sportive,
30 % déclarent être fumeurs. Par ailleurs, 10 % déclarent être à la fois fumeurs et pratiquer une activité
sportive. Si on prend un individu au hasard dans cette population, quelle est la probabilité qu’il ne soit
ni sportif, ni fumeur ?
2. Correction
Méthode 1 : tableau
Méthode 2 : passage par l’évènement complémentaire
𝑃(𝑆 ∩ 𝐹) = 1 − 𝑃 (𝑆 ∩ 𝐹) = 1 − 𝑃(𝑆 ∪ 𝐹)
Or 𝑃(𝑆 ∪ 𝐹) = 𝑃(𝑆) + 𝑃(𝐹) − 𝑃(𝑆 ∩ 𝐹) = 0,3 + 0,45 − 0,1 = 0,65
𝑃(𝑆 ∩ 𝐹) = 1 − 0,65 = 0,35

Probabilités
C. Exercice : probabilités conditionnelles
1. Énoncé
Dans un lycée, 20 % des élèves sont des garçons étudiant la biologie et 12 % sont des filles
étudiant la biologie. Il y a dans ce lycée autant de filles que de garçons. On choisit un élève au hasard
et on constate qu’il n’étudie pas la biologie.
1) Que représentent 20 % et 12 % ?
2) Quelle est la probabilité que ce soit un garçon ?
2. Correction
On notera G l’évènement « Être un garçon »
et B : « Etudier la biologie ».
1) 𝑃(𝐺 ∩ 𝐵) = 0,20 et 𝑃(𝐹 ∩ 𝐵) = 0,12.

𝑃(𝐺∩𝐵)
2) 𝑃(𝐺|𝐵) = 𝑃(𝐵)
0,30
𝑃(𝐺|𝐵) = ≈ 0,44
0,68
D. Exercice : formule des probabilités totales
1. Énoncé
Un groupe de 70 individus est constitué de 40 malades et 30 non malades. Respectivement 45 %
des malades et 30 % des non malades sont fumeurs. On notera M : « Être malade » et F : « Être
fumeur ».
1) Que représentent les valeurs 45 % et 30 % ?
2) Quelle est la probabilité qu’un individu soit un malade fumeur ?
3) Quelle est la probabilité qu’un individu soit fumeur ?
2. Correction
1) 𝑃(𝐹|𝑀) = 0,45 et 𝑃(𝐹|𝑀) = 0,30.
2) 𝑃(𝑀 ∩ 𝐹) ? Formule des probabilités composées

40
𝑃(𝑀 ∩ 𝐹) = 𝑃(𝐹 ∩ 𝑀) = 𝑃(𝐹|𝑀) × 𝑃(𝑀) = 0,45 × ≈ 0,26
70
3) 𝑃(𝐹) ? Formule des probabilités totales
30
𝑃(𝐹) = 𝑃(𝐹|𝑀) × 𝑃(𝑀) + 𝑃(𝐹|𝑀) × 𝑃(𝑀) = 0,26 + 0,30 × ≈ 0,39
70
31 Année 2022 – 2023

E. Exercice : formule des probabilités totales
1. Énoncé
Un médecin examine les élèves d’un lycée pour déterminer leur aptitude au sport. Il constate
que :
▪ 1/3 des élèves est d’origine rurale, les autres étant citadins ;
▪ Parmi les ruraux, la moitié présente une bonne aptitude au sport ;
▪ Parmi les citadins, 40 % présentent une bonne aptitude au sport.
1) Si on prend un élève au hasard, quelle est la probabilité qu’il ait une bonne aptitude au sport ?
2) Si un élève a une bonne aptitude au sport, quelle est la probabilité pour qu’il soit d’origine
rurale ? Pour qu’il soit citadin ?
2. Correction
→ Informations de l’énoncé :
R : « Être d’origine rurale » et S : « Avoir une bonne aptitude au sport »

1 2
𝑃(𝑅) = 𝑃(𝑅) = 𝑃(𝑆|𝑅) = 0,5 𝑃(𝑆|𝑅) = 0,4
3 3
→ Correction et représentation graphique :
1) 𝑃(𝑆) = 𝑃(𝑆 ∩ 𝑅) + 𝑃(𝑆 ∩ 𝑅)
Or 𝑃(𝑆 ∩ 𝑅) = 𝑃(𝑆|𝑅) × 𝑃(𝑅) = 0,5 × 0,33 = 0,165
Et 𝑃(𝑆 ∩ 𝑅) = 𝑃(𝑆|𝑅) × 𝑃(𝑅) = 0,4 × 0,67 = 0,268
D’où 𝑃(𝑆) = 0,165 + 0,268 = 0,433
Pour un élève choisi au hasard, la probabilité d’avoir une bonne aptitude au sport vaut environ
0,43.
2) On a :
𝑃(𝑅 ∩ 𝑆) 0,165
𝑃(𝑅|𝑆) = = = 0,38
𝑃(𝑆) 0,43
𝑃(𝑅|𝑆) = 1 − 𝑃(𝑅|𝑆) = 1 − 0,38 = 0,62
Pour un élève ayant une bonne aptitude au sport, la probabilité d’être d’origine rurale vaut 0,38
et la probabilité d’être citadin vaut 0,62.

Probabilités
F. Exercice : probabilités
1. Énoncé
Sur un grand nombre de naissances, on a pu estimer :
▪ La probabilité d’avoir un garçon : 𝑃(𝐺) = 0,52 ;
▪ La probabilité d’avoir une fille : 𝑃(𝐹) = 0,48.
Pour un couple qui a 3 enfants :
1) Quelle est la probabilité d’avoir 3 garçons ?
2) Quelle est la probabilité d’avoir au moins 1 fille ?
3) Quelle est la probabilité d’avoir au moins 2 filles ?
2. Correction
1) Avoir 3 garçons : 𝑮𝟏 ∩ 𝑮𝟐 ∩ 𝑮𝟑
𝑃(𝐺1 ∩ 𝐺2 ∩ 𝐺3 ) = 𝑃(𝐺1 )𝑃(𝐺2 )𝑃(𝐺3 ) = 0,523 ≈ 0,14 (indépendance)

2) « Avoir au moins une fille » : complémentaire de « Avoir 3 garçons » :
𝑃(« avoir au moins une fille ») = 1 − 0,14 = 0,86

3) « Avoir au moins 2 filles » = « Avoir 2 filles » ou « Avoir 3 filles »
P(« Avoir au moins 2 filles ») = P(« Avoir 2 filles ») + P(« Avoir 3 filles »)
▪ P(« Avoir 2 filles ») = 𝑃(𝐹1 ∩ 𝐹2 ∩ 𝐺3 ) + 𝑃(𝐹1 ∩ 𝐺2 ∩ 𝐹3 ) + 𝑃(𝐺1 ∩ 𝐹2 ∩ 𝐹3 ) =

𝑃(𝐹1 )𝑃(𝐹2 )𝑃(𝐺3 ) + 𝑃(𝐹1 )𝑃(𝐺2 )𝑃(𝐹3 ) + 𝑃(𝐺1 )𝑃(𝐹2 )𝑃(𝐹3 )
P(« Avoir 2 filles ») = 3 × (0,48 × 0,48 × 0,52) = 0,36
▪ P(« Avoir 3 filles ») = 𝑃(𝐹1 ∩ 𝐹2 ∩ 𝐹3 ) = 0,483 = 0,11
Donc :
P(« Avoir au moins 2 filles ») = 0,47.
33 Année 2022 – 2023


Variables aléatoires discrètes et continues – Lois classiques
Variables aléatoires discrètes et continues

Lois classiques
Nous considérons dans ce chapitre un ensemble fondamental des résultats d’une expérience
aléatoire que l’on note Ω (Omega). Une variable aléatoire correspond à l’attribution d’un nombre réel
x à chaque résultat de l’expérience. Une variable aléatoire est une variable quantitative.
Illustration d’une variable aléatoire.
Dans cette illustration, les évènements de l’ensemble Ω, notés 𝜔, sont associés à un nombre réel,
noté x, qui est la réalisation de la variable X. Il faut, de plus, ne pas oublier que plusieurs évènements
peuvent être associés à une même réalisation, comme le souligne l’exemple avec xi et 𝜔2 et 𝜔3. Cela
signifie qu’il n’y a pas forcément autant de valeurs de x que d’évènements élémentaires 𝜔.
Exemples – Nombre obtenu avec un dé, facteur rhésus, nombre de filles dans une fratrie, etc.
I. Variables aléatoires continues et discrètes

A. Définition
Comme nous l’avons précisé dans l’introduction, une variable aléatoire est l’attribution d’un
nombre à un évènement de l’ensemble Ω. Soit, en langage mathématique (purement informatif), nous
appelons variable aléatoire sur Ω toute application X : Ω → ℝ telle que, ∀(𝑎, 𝑏) ∈ ℝ, X-1 ([𝑎, 𝑏]) est un
évènement.
Nous allons donc utiliser une notation particulière pour caractériser les variables aléatoires et
leurs valeurs possibles. Nous utiliserons des majuscules (X, Y, Z, etc) pour les variables aléatoires et
des minuscules (xi, a, z) pour les valeurs possibles de cette variable aléatoire, appelées aussi
réalisations. Les évènements sont notés : (X = k), (0 ≤ Z ≤ 1).
Remarque – Vous pouvez lire (X = k) comme « la variable aléatoire X prend la valeur k ». Vous pourrez
ensuite chercher la probabilité que cela arrive.
35 Année 2022 – 2023

Ces variables aléatoires font, de plus, appel à différentes propriétés utiles pour réaliser les
différents exercices.
Si X et Y sont deux variables aléatoires définies sur Ω, alors :

▪ 𝑋 + 𝑌 est une variable aléatoire définie sur Ω ;
▪ 𝑋 × 𝑌 est une variable aléatoire définie sur Ω ;
▪ ∀𝜆 ∈ ℝ, 𝜆𝑋 est une variable aléatoire définie sur Ω.
Il faut aussi distinguer deux types de variables aléatoires (VA) :

▪ Une VA discrète prend un nombre fini ou infini dénombrable de valeurs possibles ;
Exemples – Résultat d’un lancer de dé ou nombre d’opérations effectuées dans un service ;
▪ Une VA continue prend un nombre infini indénombrable de valeurs possibles.
Exemple – Taux de glucose dans le sang, ou poids des nouveau-nés.
B. Lois de probabilité et fonctions de répartition
1. Lois de probabilité dans le cas des variables aléatoires discrètes

Soit X une variable aléatoire discrète. Sa loi de probabilité est déterminée par :
▪ L’ensemble des valeurs possibles xi (i ∈ I, fini ou infini dénombrable car VA discrète) ;
▪ Les probabilités pi = P(X = xi ).
En découlent différentes propriétés :

▪ ∀𝑖 ∈ 𝐼, 𝑃(𝑋 = 𝑥𝑖 ) ≥ 0 ;
▪ ∑𝑖∈𝐼 𝑃(𝑋 = 𝑥𝑖 ) = ∑𝑖∈𝐼 𝑝𝑖 = 1 (soit la somme des probabilités de chaque évènement
est égale à 1).
Remarque – Ces propriétés sont des applications du cours sur les probabilités vu précédemment : la
probabilité que la variable aléatoire prenne la valeur x ne peut pas être négative puisqu’une probabilité
est comprise entre 0 et 1, et la somme des probabilités de tous les x correspond à faire la somme de
tous les évènements de notre univers, or, P(Ω)=1 donc la somme des probabilités vaut 1.
Représentation classique
Valeur possible x1 ... xi ... xn

Probabilité p1 ... pi ... pn
Exemple : On pose l’hypothèse que la probabilité d’avoir un garçon vaut 0,5.
Dès lors, la distribution ou loi de probabilité du nombre de filles dans la fratrie est :
Événements possibles GG GF ou FG FF
Valeurs possibles 0 1 2
Probabilités ¼ ½ ¼

En effet, les calculs que l’on peut faire sont :

1
▪ 𝑃(𝑋 = 0) = 𝑃(𝐺 ∩ 𝐺) = 𝑃(𝐺) × 𝑃(𝐺) = 0,5 × 0,5 = 4 . On peut multiplier P(G)
pour trouver l’intersection car les deux évènements sont indépendants. En effet, le
fait d’avoir eu un garçon n’influe pas sur la probabilité d’en avoir à nouveau un ;
1
▪ 𝑃(𝑋 = 2) = 𝑃(𝐹 ∩ 𝐹) = 𝑃(𝐹) × 𝑃(𝐹) = . Les évènements sont une nouvelle fois
4
indépendants ;
▪ 𝑃(𝑋 = 1) = 𝑃((𝐺 ∩ 𝐹) ∪ (𝐹 ∩ 𝐺)) = 𝑃(𝐺 ∩ 𝐹) + 𝑃(𝐹 ∩ 𝐺) = 𝑃(𝐺) × 𝑃(𝐹) +
1 1 1
𝑃(𝐹) × 𝑃(𝐺) = + = . Ici, on a utilisé le fait que pour avoir une fille, on peut soit
4 4 2
avoir un garçon puis une fille soit avoir une fille puis un garçon. Comme ces
évènements sont incompatibles, leur intersection est nulle, ce qui explique le calcul
réalisé pour calculer leur union. Comme précédemment, nous avons aussi utilisé le
fait que les évènements sont indépendants.
2. Fonction de répartition dans le cas des variables aléatoires discrètes

Nous appelons fonction de répartition (fdr) de X toute fonction F telle que ∀𝑡 ∈ ℝ, 𝐹(𝑡) =
𝑃(𝑋 ≤ 𝑡). Cela revient à une distribution des probabilités cumulées, soit à la somme des probabilités
des évènements dont la valeur associée est inférieure à t.
Dans l’exemple précédent, la fonction de répartition aurait cette allure :
Exemple de la fratrie de 2 enfants.
Nous notons, à propos de ces fonctions de répartition, différentes propriétés :

▪ ∀𝒕 ∈ ℝ, 0 ≤ 𝐹(𝑡) ≤ 1 ;
▪ F est croissante ;
▪ 𝐥𝐢𝐦 𝑭(𝒙) = 𝟎 ;
𝒙→−∞
▪ 𝐥𝐢𝐦 𝑭(𝒙) = 𝟏 ;
𝒙→+∞
▪ Dans le cas discret, F est une fonction « en marches d’escalier ».
Calcul de probabilités :
𝑃(𝑋 = 𝑥𝑖 ) = 𝑃(𝑋 ≤ 𝑥𝑖 ) − 𝑃(𝑋 ≤ 𝑥𝑖−1 ) = 𝐹(𝑥𝑖 ) − 𝐹(𝑥𝑖−1 )

Si 𝑎 ≤ 𝑏, 𝑃(𝑎 < 𝑋 ≤ 𝑏) = 𝐹(𝑏) − 𝐹(𝑎)
37 Année 2022 – 2023

3. Lois de probabilité dans le cas des variables aléatoires continues

Contrairement aux VA discrètes, ici, les valeurs possibles de X sont infinies indénombrables. On
ne peut donc pas définir de loi de probabilité par l’ensemble des (𝑥𝑖, 𝑝𝑖) et ∀𝑖, 𝑃(𝑋 = 𝑥𝑖 ) = 𝑝𝑖 = 0.
Nous parlons donc dans le cas de variables aléatoires continues de densité de probabilité (ddp),
qui correspond à toute fonction f telle que :
▪ ∀𝑥 ∈ ℝ, 𝑓(𝑥) ≥ 0 ;
+∞
▪ ∫−∞ 𝑓(𝑥)𝑑𝑥 = 1 (aire sous la courbe égale à 1) ;
▪ 𝑷(𝑿 = 𝒙𝒊 ) = 𝟎 . Attention ! Cela est valable uniquement pour les variables
aléatoires continues mais pas pour les variables aléatoires discrètes.
Probabilité d'un intervalle
4. Fonction de répartition dans le cas des variables aléatoires continues

Comme dans le cas de VA discrètes, la fonction de répartition se définit de la même manière, soit
toute fonction F telle que ∀𝑡 ∈ ℝ, 𝐹(𝑡) = 𝑃(𝑋 ≤ 𝑡).
Elle emprunte là aussi les mêmes propriétés (détaillées dans la sous-partie 2). Cependant, nous
n’aurons plus de fonctions en marche d’escaliers mais des fonctions continues.
Dans ce cas de figure, nous pourrons d’ailleurs trouver un lien entre densité de probabilité et
fonction de répartition.
𝑥
Soit, une variable aléatoire (VA) X dont la ddp est f. F : x → F(x) = ∫−∞ 𝑓(𝑡)𝑑𝑡. Alors, nous aurons :
𝑏
𝑃(𝑎 ≤ 𝑋 ≤ 𝑏) = ∫ 𝑓(𝑡)𝑑𝑡 = 𝐹(𝑏) − 𝐹(𝑎)

𝑎
C. Espérance et variance
1. Espérance : définitions et propriétés

L’espérance, que nous notons E(X) ou 𝜇𝑥 , est la moyenne théorique, elle renseigne sur la position
des valeurs possibles sur une échelle. Elle se définit différemment en fonction de la nature de la VA
(discrète ou continue).
Espérance dans le cas d’une VA discrète :

𝐸(𝑋) = ∑ 𝑥𝑖 × 𝑃(𝑋 = 𝑥𝑖 ) = ∑ 𝑥𝑖 × 𝑝𝑖
𝑖 𝑖
Avec i ∈ [0, 𝑛] si 𝑋(𝛺) fini et i ∈ [0, +∞] si 𝑋(𝛺) infini dénombrable.

Espérance dans le cas d’une VA continue :
Soit X une VA continue et soit f sa ddp. Son espérance est définie par :
+∞
𝐸(𝑋) = ∫ 𝑥𝑓(𝑥)𝑑𝑥
−∞
Nous parlons de variable aléatoire centrée dans le cas où 𝐸(𝑋) = 0. Donc la variable aléatoire 𝑌
avec 𝑌 = 𝑋 − 𝐸(𝑋) est une variable aléatoire centrée. C’est utile pour passer d’une loi normale à une
loi normale centrée réduite, nous verrons comment réduire dans la suite du cours.
L’espérance est un paramètre linéaire, ce qui explique les propriétés suivantes :

▪ 𝐸(𝑎𝑋 + 𝑏) = 𝑎𝐸(𝑋) + 𝑏 ;
▪ 𝐸(𝑋 + 𝑌) = 𝐸(𝑋) + 𝐸(𝑌).
2. Variance : définitions et propriétés

La variance d’une distribution mesure sa dispersion autour de sa moyenne. Elle se note 𝑣𝑎𝑟(𝑋)
ou 𝜎𝑥2 .Elle se définit, quelle que soit la VA discrète ou continue, telle que :
2
𝑣𝑎𝑟(𝑋) = 𝐸 ((𝑋 − 𝐸(𝑋)) ) = 𝐸(𝑋 2 ) − 𝐸(𝑋)2
La variance.
Dans le cas d’une VA discrète, nous aurons :
▪ Soit X une VA :
𝑣𝑎𝑟(𝑋) = ∑(𝑥𝑖 − 𝐸(𝑋))2 × 𝑃(𝑋 = 𝑥𝑖 )
𝑖
▪ Ou alors :
𝑣𝑎𝑟(𝑋) = 𝐸(𝑋 2 ) − 𝐸(𝑋)2 avec 𝐸(𝑋)2 = ∑ 𝑥𝑖2 × 𝑃(𝑋 = 𝑥𝑖 )
𝑖
Dans le cas d’une VA continue, nous aurons :
▪ Soit f une ddp de la variable aléatoire X :

+∞
𝑣𝑎𝑟(𝑋) = ∫ (𝑥 − 𝐸(𝑋))2 × 𝑓(𝑥)𝑑𝑥
−∞
▪ Ou alors :
+∞
𝑣𝑎𝑟(𝑋) = 𝐸(𝑋 2 ) − 𝐸(𝑋)2 𝑎𝑣𝑒𝑐 𝐸(𝑋 2 ) = ∫ 𝑥 2 × 𝑓(𝑥)𝑑𝑥
−∞
39 Année 2022 – 2023

Contrairement à l’espérance, une variance est toujours positive ou nulle. De plus, elle n’est pas
linéaire, ce qui explique les propriétés suivantes :
▪ 𝑣𝑎𝑟(𝑎𝑋) = 𝑎2 𝑣𝑎𝑟(𝑋) ;
▪ 𝑣𝑎𝑟(𝑋 + 𝑏) = 𝑣𝑎𝑟(𝑋) ;
▪ 𝑣𝑎𝑟(𝑋 + 𝑌) = 𝑣𝑎𝑟(𝑋) + 𝑣𝑎𝑟(𝑌) + 2𝑐𝑜𝑣(𝑋, 𝑌) ;
▪ Si 𝑿 et 𝒀 sont 2 VA indépendantes 𝒂𝒍𝒐𝒓𝒔 𝒄𝒐𝒗(𝑿, 𝒀) = 𝟎 (attention réciproque
fausse).
De plus, si var(X) = 1, alors X est une VA réduite.
3. Écart-type
Soit X une VA. On note 𝜎𝑥 l’écart-type de cette VA qui se définit par :
𝜎𝑥 = √𝑣𝑎𝑟(𝑋)
Pour avoir une variable centrée réduite, il faut centrer votre VA puis la réduire, soit :
𝑿−𝑬(𝑿)
𝒁=
𝝈𝒙
Z est la VA centrée réduite associée à X.
Propriétés de Z :
▪ E(Z) = 0 ;
▪ var(Z) = 1.
D. Variables aléatoires indépendantes

Deux évènements sont dits indépendants si et seulement si 𝑃(𝐴 ∩ 𝐵) = 𝑃(𝐴) × 𝑃(𝐵).
Soient X et Y deux VA indépendantes à valeurs respectivement dans E = {x1, x2…} et F = {y1, y2,…}
donc ∀(𝑥𝑖 , 𝑦𝑗 ) ∈ 𝐸 × 𝐹 : 𝑃(𝑋 = 𝑥𝑖 ; 𝑌 = 𝑦𝑗 ) = 𝑃(𝑋 = 𝑥𝑖 ) × 𝑃(𝑌 = 𝑦𝑗 )
Si X et Y sont indépendantes, alors :

▪ cov (X, Y) = 0 (réciproque fausse) ;
▪ var (X + Y) = var (X) + var (Y).
Si X1 , X 2 , … , Xn sont indépendantes alors :
var (X1 + X 2 + ⋯ + Xn) = var (X1 ) + var (X1 ) + … + var (Xn)
II. Lois classiques

A. Lois discrètes : Bernoulli, binomiale, Poisson
1. Bernoulli
Bernoulli est une loi discrète, c’est-à-dire une VA discrète qui ne peut prendre que deux valeurs :
0 et 1. La VA prend la valeur 1 si l’évènement observé se réalise et 0 si l’évènement observé ne se
réalise pas. Pour chaque valeur, nous déterminons une probabilité.

Soit la probabilité p d’obtenir 1 et q celle d’obtenir 0. Nous pouvons donc en déduire que
𝑞 = 1 − 𝑝. Si X suit une loi de Bernoulli de paramètre p (c’est-à-dire que la probabilité d’obtenir 1
dans cette loi est égale à p), nous noterons de la façon suivante :
𝑋 → 𝐵𝑒𝑟𝑛(𝑝)
Dans le cas où X suit une loi de Bernoulli de paramètre p, nous pourrons en déduire l’espérance
et la variance de X beaucoup plus simplement, en reprenant les formules ci-dessus :
𝐸(𝑋) = 0 × 𝑞 + 1 × 𝑝 = 𝑝
𝐸(𝑋 2 ) = 02 × 𝑞 + 12 × 𝑝 = 𝑝
Donc on en déduit que : 𝑣𝑎𝑟(𝑋) = 𝐸(𝑋 2 ) − 𝐸(𝑋)2 = 𝑝 − 𝑝2 = 𝑝(1 − 𝑝) = 𝑝𝑞.
𝑬(𝑿) = 𝒑 et 𝒗𝒂𝒓(𝑿) = 𝒑𝒒
La loi de Bernoulli est utile pour modéliser les résultats d’une expérience à deux issues possibles
comme le statut maladie d’un individu.
Le schéma de Bernoulli consiste à répéter une épreuve de Bernoulli n fois et ce de façon

indépendante. Cela correspond donc à une suite de n VA indépendantes qui suivent toutes la même
loi de Bernoulli de paramètre p. Par exemple, cela consiste à observer la présence d’effets indésirables
chez 10 patients ayant reçu le même traitement.
Remarque – Attention, le schéma de Bernoulli est la répétition de VA qui suivent chacune la même loi
de Bernoulli. Si on pose une VA X qui correspond au nombre de patients ayant eu des effets indésirables
parmi les 10 patients, alors X ne suit pas une loi de Bernoulli car il y a plus de 2 issues possibles (il peut
y avoir 0 effet indésirable, 1, 2, 3, etc). Donc une somme de VA suivant une loi de Bernoulli ne donne
pas une VA suivant une loi de Bernoulli, c’est très important à comprendre. Ici, X suit une loi binomiale.
2. Loi binomiale
Mise en situation : on se trouve dans une population où la proportion de Rh+ est égale à 0,85. On
prend un groupe de 5 patients et on souhaite savoir la probabilité d’avoir 2 patients avec un Rh+.
Modélisation : on va d’abord appliquer cela à un seul individu. On pose X la VA représentant son

groupe Rhésus. On considéra que Rh+ correspond au nombre 1 et Rh- au nombre 0. On se retrouve
alors dans le cas d’une loi de Bernoulli de paramètre 0,85. Donc X → Bern(0,85).
Cependant, cela ne fonctionne que pour un patient. Donc, pour 5 patients, nous allons définir une
nouvelle VA notée Sn , correspondant au nombre de Rh+. Cela consiste donc à répéter 5 fois l’épreuve
de Bernoulli et ce de façon indépendante. Nous aurons alors :
Sn = X 1 + X 2 + X 3 + X 4 + X 5
Sn suit alors une loi binomiale
La loi binomiale consiste donc en la répétition de n épreuves de Bernoulli indépendantes de

paramètre p.
La loi binomiale se définit donc par deux paramètres : n et p. Nous noterons donc de la façon
suivante : Sn → ℬ(n, p).
41 Année 2022 – 2023

Représentation graphique de deux lois binomiales de paramètre p différent et paramètre n identique.
La probabilité d’obtenir k succès parmi les n répétitions, notée P(Sn = k) est égale à :
𝑃(𝑆𝑛 = 𝑘) = 𝐶𝑛𝑘 (𝑝)𝑘 (1 − 𝑝)𝑛−𝑘
𝐶𝑛𝑘 correspond au nombre de combinaisons de k éléments parmi n.

𝑛 𝑛!
𝐶𝑛𝑘 = ( ) =
𝑘 𝑘! (𝑛 − 𝑘)!
𝑛! = 1 × 2 × … × 𝑛
0! = 1
Représentation d’une loi de probabilité et de la fonction de répartition d’une loi binomiale de paramètre 10 et 0,1.
En reprenant toujours le même développement, nous pouvons en déduire facilement

l’espérance, la variance ainsi que l’écart-type de la loi binomiale à partir de la loi de Bernoulli.
Nous avons ainsi :
𝑬(𝑺𝒏 ) = 𝒏𝒑
𝒗𝒂𝒓(𝑺𝒏 ) = 𝒏𝒑𝒒
𝝈𝑺𝒏 = √𝒏𝒑𝒒
Démonstration de ces formules à partir des formules de Bernoulli.

B. Lois continues : loi normale ou loi de Laplace-Gauss

Il s’agit de la loi la plus utilisée en statistiques et la plus importante. Elle permet en effet, de
modéliser de nombreux phénomènes et d’approximer de nombreuses autres lois, en particulier quand
l’effectif est élevé (soit n grand).
Elle est définie par deux paramètres :

▪ 𝛍 son espérance ;
▪ 𝛔 son écart-type (on utilise parfois σ2 soit sa variance).
Nous noterons alors la loi normale de paramètres 𝜇 et 𝜎 ainsi : 𝑋 → N (𝜇; 𝜎).
Comme nous sommes dans le cas d’une loi continue, nous utiliserons une densité de probabilité,
qui est définie par :
1 1 𝑥−𝜇 2
𝑓(𝑥) = × exp (− ( ) ) ∀𝑥 ∈ℝ
𝜎 × √2𝜋 2 𝜎
Représentation graphique de la densité de probabilité de deux lois normales de paramètres différents.
Comme nous pouvons le supposer à partir de ces deux représentations graphiques, la loi normale
présente différentes propriétés :
▪ Elle est symétrique par rapport à l’axe vertical passant par μ ;
▪ Elle présente deux points d’inflexion : μ − σ et μ + σ ;
▪ Elle possède une médiane = mode = 𝛍 ;
▪ Son aire sous la courbe vaut 1.
Remarque – Dans le cadre de la loi normale, les points d’inflexions sont les points de la courbe où la
pente est la plus importante en valeur absolue.
Dans le cas de 2 VA indépendantes suivant une loi normale, on peut composer avec une troisième
telle que :
La combinaison linéaire de variables aléatoires gaussiennes indépendantes.
43 Année 2022 – 2023

1. Fonction de répartition
Soit X une VA suivant une loi normale de paramètres 𝜇 𝑒𝑡 𝜎. Sa fonction de répartition est alors
définie par :
𝑥
1 1 𝑡−𝜇 2
𝐹(𝑥) = 𝑃(𝑋 ≤ 𝑥) = ∫ exp (− ( ) )𝑑𝑡
𝜎√2𝜋 −∞ 2 𝜎
Nous pouvons alors calculer la probabilité telle que :

𝑃(𝑎 ≤ 𝑋 ≤ 𝑏) = 𝐹(𝑏) − 𝐹(𝑎)
Cependant, le calcul ne peut se réaliser de façon algébrique, nous allons recourir à des tables.
2. Loi normale centrée-réduite

Soit X une VA suivant toujours une loi normale de paramètres 𝜇 𝑒𝑡 𝜎. Nous définissons alors 𝑍
une VA telle que :
𝑋−𝜇
𝑍=
𝜎
Alors, 𝑍 suit une loi normale centrée réduite, c’est-à-dire une loi normale de paramètres 0
(espérance) et 1 (écart-type). Sa densité de probabilité est alors beaucoup plus aisée :
1 1
𝑓(𝑧) = exp (− 𝑧 2 )
√2𝜋 2
Représentation graphique de la ddp d’une loi normale centrée réduite.
En reprenant les propriétés générales de la représentation graphique de la loi normale, nous

pouvons donc affirmer que la représentation graphique de la loi normale centrée réduite est
symétrique par rapport à l’axe vertical passant par 0, qu’elle présente deux points d’inflexions : -1 et 1
et que sa médiane et son mode sont égaux à 0.
Nous noterons 𝜙 la fonction de répartition de la loi normale centrée réduite. Nous aurons alors :
𝑃(𝑍 ≤ 𝑧) = 𝜙(𝑧)
𝑃(𝑍 ≥ 𝑧) = 1 − 𝑃(𝑍 ≤ 𝑧) = 1 − 𝜙(𝑧)
𝑃(𝑍 ≥ 𝑧) = 𝑃(𝑍 ≤ −𝑧) = 𝜙(−𝑧) (du fait de la symétrie de la ddp)

Illustration du calcul de la probabilité P(Z ≤ z).
Nous utiliserons ensuite les tables de la loi normale qui seront données pour les calculs des
probabilités.
Ainsi, pour une valeur de z donnée, la 1ère table donne 𝑃(𝑍 ≤ 𝑧).
Pour une probabilité p donnée, la 2ème table donne z tel que 𝑃(𝑍 ≥ 𝑧) = 𝑝.
Exemples :
▪ Lire dans la table P(Z < 1,42)
On prend la première table, on cherche la ligne 1,4 à

gauche et on choisit notre chiffre des centièmes, ici c’est 2
donc on se place dans la colonne 0,02 et on vient chercher
le croisement :
On lit alors P(Z < 1,42) = 0,92.
▪ Lire dans la table : P(Z < -0,21)
On ne peut pas lire dans la table la probabilité pour un nombre négatif, nous allons donc utiliser
la symétrie de la courbe :
Symétrie de la courbe de Gauss.
P(Z < -z) = P(Z > z) donc P(Z < -0,21) = P(Z > 0,21). Or, la table nous
donne les valeurs pour P(Z < z) et pas >.
Nous allons utiliser une autre propriété de la courbe : l’aire sous

la courbe étant égale à 1, P(Z > z) = 1 – P(Z < z) :
Donc :
P(Z < - 0,21) = P(Z > 0,21)
P(Z < - 0,21) = 1 – P(Z < 0,21)
P(Z < - 0,21) = 1 – 0,58
P(Z < - 0,21) = 0,42.
45 Année 2022 – 2023

▪ Lire dans la table : P(Z > 0,41)
On procède de la même façon que précédemment :
P (Z > 0,41) = 1 – P (Z < 0,41) = 1 – 0,66 = 0,34.
Il existe une seconde table qui donne la valeur de z tel que P(Z > z) = p.
▪ Lire dans la table : P(Z > z) = 0,025
On va donc se placer dans la ligne 0,02 et dans

la colonne 0,005 :
Ainsi, z = 1,96 et P (Z > 1,96) = 0,025.
▪ Lire dans la table : P(Z > z) = 0,75.
0,75 est trop grand pour être trouvé dans la table. Or en utilisant la symétrie de la courbe, on
peut dire que chercher z tel que P(Z > z) = 0,75 revient à chercher z tel que P(Z < z) = 0,25 et donc que
P(Z > -z) = 0,25. On peut lire alors dans la table que -z vaut 0,67 et en déduire que z vaut -0,67.
3. Théorème de la limite centrale (TLC)

Soient 𝑋1 , 𝑋2 , … , 𝑋𝑛 des variables mutuellement indépendantes de même loi de probabilité
ℒ(𝜇𝑋 ; 𝜎𝑋 ), alors lorsque n est suffisamment grand, la variable aléatoire 𝑆𝑛 = 𝑋1 + 𝑋2 + ⋯ + 𝑋𝑛 suit
approximativement une loi normale d’espérance 𝑛 × 𝜇𝑋 et d’écart-type √𝑛 × 𝜎𝑋 .
𝑋1 +𝑋2 +⋯+𝑋𝑛
Ainsi, pour 𝑀 = 𝑛
, si n est suffisamment grand (n ≥ 30) :
𝝈𝑿 √𝒑𝒒
𝑴 ↝ 𝑵 (𝝁𝑴 = 𝝁𝑿 ; 𝝈𝑴 = = )
√𝒏 𝒏
Remarque – En pratique, le TLC s’utilise pour approximer une proportion par une loi normale.
4. Approximation de la loi binomiale par la loi normale

Soit Sn → ℬ(𝑛, 𝑝) et soit 𝑋 → 𝐵𝑒𝑟𝑛(𝑝) (soit 𝑆𝑛 = ∑𝑛𝑖=1 𝑋𝑖 avec Xi indépendantes). Nous aurons
alors d’après le Théorème de la Limite Centrale (TLC), une approximation de Sn par la loi normale de
paramètres 𝒏𝒑 et √𝒏𝒑𝒒.
𝑩(𝒏, 𝒑) ↝ 𝐍(𝐧𝐩 ; √𝒏𝒑𝒒)
Conditions d’application : 𝒏 ≥ 𝟑𝟎 ; 𝒏𝒑 ≥ 𝟓 ; 𝒏(𝟏 − 𝒑) ≥ 𝟓
Remarque – Il s’agit de l’approximation d’une loi discrète, où 𝑃(𝑋 = 𝑘) ≠ 0, par une loi continue, donc
où 𝑃(𝑋 = 𝑘) = 0. Nous appliquons donc une correction de continuité. Cependant, cette correction est
négligeable dans le cadre de la première année.
III. Conclusion
Bien retenir les conditions d’application des différentes lois et les approximations ainsi que les
conditions pour approximer. Connaître les rôles spécifiques des différentes lois et ce qu’elles
représentent dans le cadre des calculs de probabilités.

De l’évaluation des tests diagnostiques à l’analyse de la décision médicale
De l’évaluation des tests diagnostiques à

l’analyse de la décision médicale
Rédigé à partir du cours de la Pr. RABILLOUD
Note de la rédaction – Ce polycopié ne contient pas toutes les démonstrations ni tous les exemples vus
en cours mais reprend toutes les notions essentielles pour comprendre le chapitre et résoudre tous les
exercices des épreuves de Tutorat ou du concours.
Pour plus de clarté, certaines notions ne sont pas traitées dans le même ordre que dans les
diapositives de l'enseignante présentées en cours.
I. Évaluation des tests diagnostiques

Un test diagnostique est un examen dont le résultat va apporter une information sur l’état du
patient et, par-là, influencer sa prise en charge autant au niveau diagnostique que thérapeutique. Nous
pouvons par exemple citer comme tests diagnostiques les cultures bactériologiques, les images
radiologiques ou encore les dosages biochimiques. Il en existe une multitude que nous distinguons
notamment par la présentation du résultat :
▪ Binaire : présence ou absence d’un signe clinique ;
Exemple – Douleur thoracique ;
▪ Ordinal : échelle à niveau témoignant de la gravité d’une pathologie ;
Exemple – Classification BIRADS utilisée en radiologie pour le stade du cancer du sein ;
▪ Quantitatif continu : à partir d’une valeur, nous considérons le patient comme

malade.
Exemple – Dosage des hormones thyroïdiennes dans l’hyperthyroïdie.
A. Valeurs intrinsèques du test

Le seuil diagnostique est la valeur à partir de laquelle un individu est considéré comme malade.
Cependant, ce seuil est souvent arbitraire, c’est-à-dire que nous le choisissons en fonction de la
majorité. Les seuils diagnostiques sont donc modulables.
Leur résultat ne constitue pas une indication parfaite de l’état du patient. On leur définit ainsi des
critères de jugement de performance :
▪ La sensibilité (Se) d’un test ;
▪ La spécificité (Sp) d’un test.
NDLR – La sensibilité et la spécificité sont appelées « valeurs intrinsèques du test » car elles ne
dépendent que de la performance du test sans être influencées par la prévalence de la maladie.
Un test “parfait”, c’est-à-dire totalement capable de discriminer les malades des non-malades,
est appelé Gold Standard. Il nous permet ainsi de calculer les valeurs intrinsèques du test.
47 Année 2022 – 2023

Sensibilité (Se) Spécificité (Sp)
C'est la capacité d’un test à détecter

C'est la capacité d’un test à détecter tous les
uniquement les non malades (VN) et donc à
malades ou vrais positifs (VP), et donc à éviter les
éviter les faux positifs (FP).
faux négatifs (FN).
Il s’agit donc de la probabilité qu’un sujet
Il s’agit donc de la probabilité qu’un sujet soit
soit négatif au test sachant qu’il n’est
positif au test sachant qu’il est réellement malade
réellement pas malade (T- : évènement
(T+ : évènement « test positif »).
« test négatif »).
𝑉𝑃 𝑉𝑁
𝑆𝑒 = = 𝑝(𝑇 + |𝑀) 𝑆𝑝 = ̅)
= 𝑝(𝑇 − |𝑀
𝑉𝑃 + 𝐹𝑁 𝑉𝑁 + 𝐹𝑃
Ces deux valeurs varient en fonction de la valeur seuil attribuée au test.
Nous choisirons donc un seuil différent en fonction de ce que nous cherchons : soit un test
sensible, soit un test spécifique.
État réel des sujets
Malades Non malades
Positif VP FP
Test
Négatif FN VN
VP + FN FP + VN
Tableau de contingence récapitulant les différentes possibilités lors du test.
Remarque – Vous pouvez mettre en lien ce tableau avec le chapitre des Probabilités :
Cela permet de comprendre les formules du chapitre si vous comprenez bien ce lien avec les
probabilités, vous pouvez retrouver les formules sans les apprendre par cœur.
𝑴 ̅
𝑴 Total
T+ 𝑉𝑃 = 𝑃(𝑇 + ∩ 𝑀) ̅)
𝐹𝑃 = 𝑃(𝑇 + ∩ 𝑀 𝑉𝑃 + 𝐹𝑃 = 𝑃(𝑇 + )
T- 𝐹𝑁 = 𝑃(𝑇 − ∩ 𝑀) ̅)
𝑉𝑁 = 𝑃(𝑇 − ∩ 𝑀 𝐹𝑁 + 𝑉𝑁 = 𝑃(𝑇 − )
Total 𝑉𝑃 + 𝐹𝑁 = 𝑃(𝑀) ̅)
𝐹𝑃 + 𝑉𝑁 = 𝑃(𝑀 𝑉𝑃+𝐹𝑃+𝐹𝑁+𝑉𝑁

Si on reprend la définition précédente de la sensibilité : il s’agit de la probabilité qu’un sujet soit positif
au test sachant qu’il est réellement malade (T+ : évènement « test positif »). On peut ainsi écrire :
𝑆𝑒 = 𝑃(𝑇 + |𝑀)
En appliquant la formule vue dans le cours de probabilités conditionnelles, tel que :
𝑃(𝐴 ∩ 𝐵)
𝑃(𝐴|𝐵) =
𝑃(𝐵)
On peut déduire que :
𝑃(𝑇 + ∩ 𝑀)
𝑃(𝑇 + |𝑀) =
𝑃(𝑀)
En utilisant maintenant le tableau à double entrée que nous avons réalisé plus haut, on obtient
P(T+∩M) = VP et P(M) = VP + FN. Ainsi :
𝑉𝑃
𝑆𝑒 = 𝑃(𝑇 + |𝑀) =
𝑉𝑃 + 𝐹𝑁
Étant une probabilité, la sensibilité est comprise entre 0 et 1. Un test sensible est un test dont la
sensibilité tend vers 1.
Nous pouvons appliquer la même chose à la spécificité : il s’agit de la probabilité qu’un sujet soit négatif
au test sachant qu’il n’est réellement pas malade (T- : évènement « test négatif »). On peut ainsi écrire :
𝑆𝑝 = 𝑃(𝑇 − |𝑀 ̅)
Et :
𝑃(𝑇 −∩ 𝑀̅)
̅) =
𝑃(𝑇 − |𝑀
𝑃(𝑀̅)
̅ ) = VN et P(M
En utilisant le tableau, on a P(T-|M ̅ ) = FP + VN, ainsi :
𝑉𝑁
𝑆𝑝 = 𝑃(𝑇 − |𝑀 ̅) =
𝐹𝑃 + 𝑉𝑁
Étant une probabilité, la spécificité est comprise entre 0 et 1. Un test spécifique est un test dont la
spécificité tend vers 1.
Test sensible Test spécifique
Pour que le test soit très sensible, il faut

Pour que le test soit très spécifique, il faut
placer la valeur seuil bas. Le problème c’est que
placer la valeur seuil haut.
nous détecterons beaucoup de FP ce qui risque
Ici, nous risquons d’oublier les patients
de créer un stress inutile chez de nombreux
atteints.
patients non atteints.
49 Année 2022 – 2023

Remarque – Attention néanmoins, ceci n’est pas une généralité : ici, pour être positif il faut être au-
dessus du seuil choisi, cependant, il existe des maladies pour lesquelles, pour être positif, il faut être en
dessous d’un certain seuil (par exemple pour une hypothyroïdie avec le dosage de l’hormone T3). Cela
modifie les schémas précédents :
Test sensible Test spécifique
Pour que le test soit très sensible, il faut Pour que le test soit très spécifique, il faut
diminuer les faux négatifs : diminuer les faux positifs :
𝑉𝑃 𝑉𝑁
𝑆𝑒 = 𝑃(𝑇 + |𝑀) = ̅) =
𝑆𝑝 = 𝑃(𝑇 − |𝑀
𝑉𝑃 + 𝐹𝑁 𝐹𝑃 + 𝑉𝑁
Ainsi, la sensibilité tend vers 1. Ainsi, la spécificité tend vers 1.
Dépistage du cancer du sein à l’aide d’un test ordinal avec modification du seuil diagnostique.

Nous constatons avec l'exemple ci-dessus que le seuil choisi va considérablement modifier les
valeurs intrinsèques de notre test, c’est-à-dire la sensibilité et spécificité.
Ainsi, il faut trouver un équilibre pour à la fois : détecter le plus de malades (sensibilité élevée) et
ne pas détecter à tort des non-malades (spécificité élevée).
La valeur seuil de diagnostic est donc à fixer en fonction de la prévalence de la maladie : le test
doit être très sensible si nous sommes dans une population ciblée, le but étant dans ce cas de repérer
un maximum de malades.
Le test doit surtout être spécifique si la prévalence diminue.
Nous aurons donc recours à un test :

▪ Sensible en cas de dépistage de masse. Exemple : dépistage du cancer colorectal ;
▪ Spécifique pour confirmer le diagnostic avant d’entamer un traitement lourd et
invasif. Exemple : chimiothérapie.
La courbe ROC est un graphique nous permettant de choisir le test qui sera le plus intéressant
pour répondre à la question clinique posée.
Elle représente les valeurs intrinsèques du test simultanément : pour chaque seuil diagnostique,
nous déterminons le couple (Se ; Sp). Nous visualisons alors l’éloignement de la courbe à la diagonale.
Celle-ci correspond à un test non discriminant quel que soit le seuil choisi (c’est-à-dire pour lesquels
nous avons toujours Sp = Se).
Un test sera d’autant plus discriminant qu’il

s’éloigne de cette diagonale.
Le point supérieur gauche n’est jamais atteint : il s’agit du Gold Standard (Se = 100 % ;
Sp = 100 %). La capacité d’un test peut ainsi être estimée par l’aire sous la courbe (ASC). Plus cette aire
est importante (soit plus il se rapproche du test parfait sur la courbe) meilleur sera le test.
Courbe ROC.
Notez bien que l’abscisse correspond à (1-Sp) et non à Sp !
51 Année 2022 – 2023

B. Les valeurs prédictives positive et négative

Il s’agit de probabilités calculées après la réalisation d’un test diagnostique. Elles permettent
d’aboutir aux probabilités post-test, vrais indicateurs de la décision médicale. Nous parlons de valeurs
extrinsèques du test.
Elles dépendent des valeurs intrinsèques du test et de la prévalence de la maladie. Celle-ci est
également appelée probabilité pré-test (d’avoir la maladie), c’est-à-dire la probabilité d’être malade
avant d’avoir réalisé le test.
NDLR – Le test va en effet modifier la probabilité d’être malade en fonction du résultat de ce test. S’il
ne modifie pas cette probabilité, alors il est inutile (aucun renseignement utile nous a été apporté).
Valeur prédictive positive (lorsque le test revient positif)
𝑉𝑃 𝑆𝑒 × 𝑃(𝑀)
𝑉𝑃𝑃 = 𝑃(𝑀 | 𝑇 +) = =
̅)
𝑉𝑃 + 𝐹𝑃 𝑆𝑒 × 𝑝(𝑀) + (1 − 𝑆𝑝) × 𝑝(𝑀
Valeur prédictive négative (lorsque le test revient négatif)
𝑉𝑁 𝑆𝑝 × 𝑃(𝑀̅)
̅ | 𝑇 −) =
𝑉𝑃𝑁 = 𝑃(𝑀 =
̅ ) + (1 − 𝑆𝑒) × 𝑝(𝑀)
𝑉𝑁 + 𝐹𝑁 𝑆𝑝 × 𝑝(𝑀
Propriétés :
▪ Plus la prévalence de la maladie est élevée, meilleure est la VPP ;
▪ Plus la prévalence de la maladie est basse, meilleure est la VPN ;
▪ Plus le test est sensible, meilleure est la VPN ;
▪ Plus le test est spécifique, meilleure est la VPP.
Par exemple, si le test utilisé

revient positif et que la probabilité
post-test est supérieure à 50 %, alors
le résultat est accepté et le patient
est considéré comme atteint.
Remarque – Vous pouvez faire les mêmes applications des probabilités pour ces formules en reprenant
la méthode développée précédemment.
C. Ratio de vraisemblance, probabilité pré et post-test
Ratio de vraisemblance positif RV+

Plus le ratio de vraisemblance positif est élevé (toujours
𝑆𝑒
supérieur à 1), plus le test est capable d’affirmer la présence 𝑅𝑉+ =
de la maladie lorsqu’il est positif. 1 − 𝑆𝑝
Ratio de vraisemblance négatif RV-

Plus le ratio de vraisemblance négatif tend vers 0
1 − 𝑆𝑒
(toujours inférieur à 1), plus le test est capable d’éliminer la 𝑅𝑉− =
présence de la maladie lorsqu’il est négatif. 𝑆𝑝

Ces ratios de vraisemblance permettent ainsi de comparer les tests entre eux, pour savoir lequel
sera le plus pertinent en fonction de la question posée, c’est-à-dire si nous voulons un test spécifique
ou sensible. De plus, nous pouvons aussi savoir si un test est plus sensible ou plus spécifique. Pour cela,
il suffit de comparer le RV+ et (1/RV-) du même test (nous prenons l’inverse du ratio de vraisemblance
négatif pour pouvoir comparer ces deux ratios n'appartenant pas au même intervalle).
D. Odds
L’Odds ratio est un autre moyen d’accéder à la probabilité post-test d’être malade.
Il estime le risque relatif d’être malade en fonction du résultat des valeurs intrinsèques d’un test,
de son résultat et de la prévalence de la maladie. En effet, si la prévalence d’une maladie est élevée,
nous aurons d’autant plus tendance à croire à la positivité d’un test par exemple.
De même que pour la probabilité pré-test, nous avons :

M p
Odds pré-test = = (avec p la prévalence de la maladie)
̅ 1−p
M
En fonction du résultat du test (positif ou négatif), nous aurons l’odds post-test positif ou négatif
(respectivement) :
Lorsque le test revient positif Lorsque le test revient négatif
𝑂𝑑𝑑𝑠 𝑝𝑜𝑠𝑡-𝑡𝑒𝑠𝑡 = 𝑂𝑑𝑑𝑠 𝑝𝑟é-𝑡𝑒𝑠𝑡 × 𝑅𝑉 + 𝑂𝑑𝑑𝑠 𝑝𝑜𝑠𝑡-𝑡𝑒𝑠𝑡 = 𝑂𝑑𝑑𝑠 𝑝𝑟é-𝑡𝑒𝑠𝑡 × 𝑅𝑉 −
Nous pouvons, en outre, passer de l’odds post-test à la probabilité post-test :

𝑂𝑑𝑑𝑠 𝑝𝑜𝑠𝑡 − 𝑡𝑒𝑠𝑡
Probabilité post-test =
1 + 𝑜𝑑𝑑𝑠 𝑝𝑜𝑠𝑡 − 𝑡𝑒𝑠𝑡
NDLR – Il s’agit d’une formule générale qui fonctionne à la fois si le test est positif ou négatif.
Cependant, n’oubliez pas que si vous utilisez l’odds post-test positif, vous aurez une probabilité post-
test positif, de même si le test est négatif.
E. Représentativité d’un échantillon (notion phare du cours)

Certains calculs comme celui de la VPP, de la VPN, de la probabilité post-test ainsi que celui de
l’odds de la maladie demandent que l’échantillon choisi soit représentatif de la population étudiée
afin que la prévalence observée soit fiable.
Mais comment savoir quand l’échantillon est représentatif de la population ?
Tout d'abord il n'est très souvent pas indiqué explicitement dans l'énoncé si l'échantillon est
représentatif de la population ou non, il faut le déduire.
L’information est forcément dans l’énoncé. Cela dépend du schéma d’étude. Lorsque l’étude est
de type cas témoins (constitution d’un groupe de malades et d’un groupe de sujets non malades
indépendamment), cela n’a pas de sens d’estimer directement sur les données les valeurs prédictives
car la répartition malades / non malades n’est pas représentative de la prévalence d’une maladie dans
une population donnée.
53 Année 2022 – 2023

La répartition dépend de l’investigateur qui a déterminé le nombre de malades à inclure dans le

groupe des cas et le nombre de non malades dans le groupe des témoins.
Dès lors que l’étude est constituée d’un échantillon qui est le reflet d’une population donnée,
alors il est possible d’estimer directement les valeurs prédictives (et autres paramètres) pour cette
population.
Explication –
• Un échantillon représentatif = un échantillon dont la part de malades et de non malades a été

déterminée par le hasard. Pour obtenir ce genre d’échantillon, on sélectionne un groupe de
personnes selon un critère que l’on n’étudie pas, puis on détermine la prévalence une fois que
l’échantillon a déjà été fixé.
• Si l’investigateur a lui-même décidé combien de malades et combien de non malades il voulait dans
l’échantillon, il n’y a pas de hasard en jeu. L’échantillon n’est donc pas représentatif.
Une fois qu’on a déterminé si un échantillon est représentatif, on se retrouve alors face à plusieurs
scénarii possibles :
Calculs de valeurs prédictives.
Cette notion de représentativité peut sembler complexe à cerner au début, mais elle est
fondamentale dans la résolution des exercices portant sur les tests diagnostiques.

Exemples d’exercices :
→ Question 8 de l’annale 2018/2019 (celle du concours annulé) :
→ Question 10 du CCB1 2018/2019 :
Autres exemples d’exercices :

▪ Question 8 de l’annale 2017/2018 ;
▪ Question 10 de l’EM1 2018/2019 ;
▪ Question 5 du CCB2 2018/2019.
55 Année 2022 – 2023

II. Analyse de la décision médicale

A. Choix d’un test diagnostique
Il s’agit de recueillir dans la littérature, les valeurs nécessaires au calcul des ratios de
vraisemblance et des valeurs intrinsèques de chaque test diagnostique à notre disposition.
Nous choisissons ensuite le test le plus approprié selon ce que nous cherchons à mettre en
évidence, c’est-à-dire un dépistage de masse par exemple, ou un test spécifique pour confirmer un
diagnostic.
Prenons ici un exemple pour mieux comprendre : un patient arrive aux urgences avec des
douleurs abdominales violentes, des troubles urinaires avec du sang dans les urines.
Nous suspectons des calculs au niveau de l’uretère (voie urinaire excrétrice).
Pour confirmer ce diagnostic, nous cherchons le test présentant la meilleure sensibilité ainsi que
la meilleure spécificité.
D’après la littérature scientifique et médicale, nous avons trois tests :

▪ ASP ;
▪ Échographie ;
▪ Uroscanner.
Comparaisons des trois tests radiologiques effectués.
Nous constatons donc que l’uroscanner est le meilleur test avec la meilleure sensibilité et la
meilleure spécificité.
Résumé des données des différents tests lors de suspicion de calculs dans les voies excrétrices urinaire.

B. Choix d’un traitement

Il s’agit de s’aider des statistiques pour décider d’une conduite à tenir (CAT).
La démarche est la suivante :

▪ Définition du cas clinique : tumeur cérébrale chez un homme de 40 ans
diagnostiquée par scanner (Sescanner = 0,96 ce qui correspond à la probabilité que le
patient soit vraiment atteint ; et 1 – Spscanner = 0,08 ce qui correspond à la probabilité
que le patient ne soit pas atteint alors que ce test est revenu positif) ;
▪ Définition des stratégies : comparer la réalisation ou non d’une artériographie pour
confirmer les résultats du scanner revenus positifs et justifier le traitement associé ;
▪ Détermination des probabilités associées à chaque stratégie ;
▪ Détermination de l’utilité / espérance de vie (EDV) associée à chaque résultat ;
▪ Construction de l’arbre de décision :
Utilités associées aux quatre situations.
1. Dessin d’un arbre
Résumé des données des différents tests lors de suspicion de calculs dans les voies excrétrices urinaires.
2. Calcul des utilités attendues pour chaque stratégie

Si nous réalisons le test « artériographie », alors l’espérance de vie, notée EDV sera :
EDV = P(M) × [Se × EDV(M+ T+ ) + (1-Se) × EDV(M+ T- )] + P(M
̅ ) × [(1-Sp) × EDV(M- T+ ) + Sp × (EDV(M- T- )]
Soit, après application numérique :

𝐸𝐷𝑉 = 0,92 × (0,96 × 11 + (1 − 0,96) × 2,2) + 0,08 × (0 × 20 + 1 × 21) = 𝟏𝟏, 𝟒𝟖
Si nous réalisons le test « intervention chirurgicale », alors l’espérance de vie, notée EDV sera :
𝐸𝐷𝑉 = 𝑃(𝑀) × 𝐸𝐷𝑉(𝑀 + ∅𝑡𝑒𝑠𝑡) + 𝑃(𝑀) × 𝐸𝐷𝑉(𝑀 − ∅𝑡𝑒𝑠𝑡)
57 Année 2022 – 2023

Soit après application numérique :

𝐸𝐷𝑉 = 0,92 × 11 + 0,08 × 20 = 𝟏𝟏, 𝟕𝟐
Conclusion : l’EDV est supérieure si nous réalisons une intervention chirurgicale, c’est donc cette
méthode qui sera retenue.
Il s’agit bien d’une aide objective à la décision prenant en compte l’incertitude des examens.
Ces arbres de décision nous aident à prendre la décision, mais ils ne nous la donnent pas !
Une décision humaine est ensuite prise. Il faut voir cet arbre comme un outil de décision médicale.
NDLR – Item récurrent lors des épreuves ou au concours, à bien connaître.
À retenir :
▪ Sensibilité et spécificité (définitions – formules – dans quel cas nous les utilisons) ;
▪ VPP et VPN (formules - savoir lesquelles dépendent de la prévalence et des valeurs
intrinsèques du test) ;
▪ RV+ et RV- (formules et leur utilité pour affirmer ou éliminer la présence de la
maladie en fonction du résultat du test) ;
▪ Odds et probabilité pré et post-test ;
▪ Comprendre quand un échantillon est représentatif ou non ;
▪ Arbre de décision (bien comprendre le fonctionnement, plus que d’apprendre par
cœur les formules).
Remarque – Comprendre ce cours vous aidera à suivre correctement celui sur l’épidémiologie. Les
notions de ce cours y seront utilisées.

Fluctuations d’échantillonnage – Estimations ponctuelles et par intervalles de confiance
Fluctuations d’échantillonnage – Estimations

ponctuelles et par intervalles de confiance
Note de la rédaction – Dans un souci de clarté, l’ordre des parties a été modifié. Attention lors du suivi
du cours magistral !
I. Introduction : principe des statistiques inférentielles

Il s’agit de réaliser des statistiques dans un échantillon d’une population étudiée et de considérer
les résultats comme représentatifs de cette population.
En effet, il est difficile de recueillir des données complètes sur l’ensemble d’une population. Nous
allons donc former des échantillons statistiques.
Statistiques descriptives et inférentielles.
II. Échantillonnage
Pour qu’un échantillon soit qualifié de « statistique », il doit répondre à plusieurs critères :
▪ Il doit être issu d’un tirage au sort aléatoire, c’est-à-dire que chaque individu a la
même probabilité d’être tiré au sort ;
▪ Il doit être réalisé de manière indépendante, il y a donc remise après tirage ou tirage
au sein d’une grande population par rapport à la taille de l’échantillon.
L’échantillon sera alors considéré comme représentatif de la population mais à plus petite
échelle rendant les calculs plus accessibles.
59 Année 2022 – 2023

À noter que plus la taille d’un échantillon augmente, plus les résultats seront représentatifs de la
population (jusqu’à une certaine taille car sinon les individus perdent leur indépendance).
Les proportions observées de points verts dans les échantillons 1, 2, 3 et 4 sont des estimations ponctuelles de la vraie
proportion dans la population.
III. Estimations ponctuelles et estimateurs

A. Généralités
Les réalisations des différents
paramètres (moyenne, variance,
etc) au sein de l’échantillon seront
appelées des « estimations ». Il
s’agit de calculs ponctuels :
Exemple avec la modélisation du poids des nouveau-nés.
Cependant, contrairement aux statistiques descriptives, les individus ne seront plus considérés
comme uniques. Il peut s’agir de n’importe quel individu de la population qui a été tiré au sort pour
constituer un échantillon. Nous avons donc recours, pour les décrire, à des variables aléatoires. Il s’agit
d’une inconnue X définie sur l’ensemble des valeurs que peut prendre n’importe quel individu de la
population générale.
L’estimation d’un échantillon est reliée à la valeur vraie de la population via un estimateur. Un
estimateur est une variable aléatoire exprimée en fonction des variables aléatoires d’échantillon Xi :
𝑇 = 𝑓(𝑋1 , 𝑋2 , … , 𝑋𝑛 )

Un estimateur attribue donc à un échantillon une estimation d’un paramètre. Une estimation est
une valeur calculée de l’estimateur pour un échantillon donné, à partir des valeurs observées dans
l’échantillon xi :
𝑡 = 𝑓(𝑥1 , 𝑥2 , … , 𝑥𝑛 )
Il s’agit d’une réalisation de l’estimateur.
Paramètre théorique, estimateur et estimation.
NDLR – Il est important de distinguer ces notions et de faire attention aux notations.
B. Qualité d’un estimateur

Un estimateur non biaisé correspond à la situation suivante : E(T) = θ. On peut donc exprimer
le biais d’un estimateur ainsi : biais = E(T) − θ.
Qualités d’un estimateur.
Remarque – Si la variance var(T) d’un estimateur est faible : les estimations sont peu dispersées.
On peut montrer que l’erreur quadratique moyenne EQM s’exprime de la façon suivante :
EQM = var(T) + biais 2

Un bon estimateur a une EQM la plus faible possible, idéalement telle que :
𝐸𝑄𝑀 → 0
𝑛→+∞
61 Année 2022 – 2023

C. Estimateur de l’espérance : M
Estimateur de l’espérance.
Loi de l’estimateur de l’espérance : soit M la combinaison de variables aléatoires Xi d’un

échantillon statistique de n individus (cf. définition de M ci-dessus) :
▪ Si les Xi suivent une loi normale = 𝑿𝒊 → 𝑵(𝝁𝑿 ; 𝝈𝑿 ) :
- M est une combinaison linéaire de variables aléatoires gaussiennes et suit
également une loi normale : 𝑀 → 𝑁(𝜇𝑀 ; 𝜎𝑀 ) ;
▪ Si les Xi ne suivent pas une loi normale = 𝑿𝒊 → 𝓛(𝝁𝑿 ; 𝝈𝑿 ) :
- si 𝒏 ≥ 𝟑𝟎, d’après le théorème centré limite (TCL), alors 𝑴 ↝ 𝑵(𝝁𝑴 ; 𝝈𝑴 ) ;
- si 𝑛 < 30, alors nous ne pouvons pas conclure (hors programme de PASS).
Espérance de M : 𝑬(𝑴) = 𝝁𝑴 = 𝝁𝑿
𝝈𝟐𝑿
Variance de M : 𝒗𝒂𝒓(𝑴) = 𝝈𝟐𝑴 = 𝒏
Remarque – On dit que M est un bon estimateur de l’espérance, car d’après le TCL, lorsque n tend vers
l’infini, la moyenne observée sur un échantillon de taille n suit une loi normale de moyenne µX et d’écart-
type 0.
D. Estimateur de la variance : s2
𝑛 𝑛
1 1
2
𝑆 = ∑(𝑋𝑖 − 𝑀)2 = (∑ 𝑋𝑖2 − 𝑛 × 𝑀2 )
𝑛−1 𝑛−1
𝑖=1 𝑖=1
Attention à ne pas confondre :

▪ La variance descriptive d’un échantillon :
𝑆𝐶𝐸
𝑠𝑒2 =
𝑛
- elle appartient aux statistiques descriptives, utilisée pour décrire la
variabilité d’un ensemble de mesures.
▪ L’estimation de la variance de la population réalisée à partir d’un échantillon :
𝑆𝐶𝐸
𝑠2 =
𝑛−1
- elle appartient aux statistiques inférentielles, calculée à partir d’un
estimateur non biaisé de la variance (avec 𝑆𝐶𝐸 = ∑𝑛𝑖=1(𝑥𝑖 − 𝑚)² par
ailleurs).
Remarque – se2 est un estimateur biaisé de la variance, alors que s2 en est un bon estimateur.

E. Estimateur d’une proportion : F

𝑆𝑛 ∑𝑛𝑖=1 𝑋𝑖
𝐹= =
𝑛 𝑛
Où Sn est une variable aléatoire représentant le nombre de patients malades dans un échantillon
de taille n.
Sn suit une loi binomiale de paramètres n et p. Si n ≥ 30, np ≥ 5 et n(1 – p) ≥ 5, alors :
𝑺𝒏  𝑵(𝒏𝒑; √𝒏𝒑𝒒)
𝑆𝑛
Loi de l’estimateur d’une proportion : toujours sous les mêmes conditions, 𝐹 = 𝑛
suit
approximativement une loi normale de paramètres :
▪ Espérance de F : 𝑬(𝑭) = 𝒑 ;
𝒑𝒒
▪ Variance de F : 𝒗𝒂𝒓(𝑭) = .
𝒏
Remarque – F est un bon estimateur d’une proportion.
IV. Intervalles de fluctuations et intervalles de confiance

A. Intervalle de fluctuation / pari
Dans la population, connaissant la moyenne 𝝁 et l’écart type 𝝈, nous pouvons construire un
intervalle de fluctuation (IF) qui contient, avec une probabilité fixée à 95 %, la moyenne ou la
proportion que nous observerons dans un échantillon statistique.
La valeur complémentaire α = 5 % est le risque que la moyenne ou la proportion n’appartienne

pas à l’intervalle.
1. Généralités sur l’intervalle de fluctuation
2. Intervalle de fluctuation de la moyenne
63 Année 2022 – 2023

3. Intervalle de fluctuation d’une proportion
B. Intervalle de confiance
Dans la population cible, la vraie valeur d’un paramètre est inconnue, et nous disposons
seulement de son estimation ponctuelle dans un échantillon.
À partir de son estimation, nous construisons l’intervalle de confiance (IC) qui va contenir la vraie
valeur avec une probabilité, que nous appelons « niveau de confiance », de 1 – α = 95 %.
La valeur complémentaire α = 5 % est le risque que l’intervalle de confiance ne contienne pas le

paramètre vrai (celui de la population).
Un intervalle de confiance ne peut être établi que si 𝒏 ≥ 𝟑𝟎.
Les bornes de l’IC dépendent de l’échantillon étudié, on dit qu’il est « aléatoire » en opposition
à l’IF qui est « fixé ».
En effet, les données utilisées sont celles de la population qui reste invariable.
Nous définissons :
▪ La largeur I d’un IC : I = borne supérieure – borne inférieure ;
▪ La précision i d’un IC : i = ½ × I.
Remarque – i et I dépendent de n, plus la taille de l’échantillon est grande, plus l’IC est étroit. Par
ailleurs, plus le niveau de confiance est élevé, plus l’IC est large.
1. Intervalle de confiance de la moyenne

Pour un échantillon donné :

Selon la règle de l’arrondi, pour garantir le niveau de confiance 1 – α :

▪ On minore la borne inférieure ;
▪ On majore la borne supérieure.
2. Intervalle de confiance d’une proportion
𝑓(1 − 𝑓)
𝑖𝑐1−𝛼 (𝑝) = 𝑓 ± 𝑧𝛼/2 × √
𝑛
Pour considérer l’intervalle de confiance d’une proportion comme valide, certaines conditions
sont à vérifier, soient f1 et f2 les deux bornes de l’IC :
▪ 𝑛 ≥ 30 ;
▪ 𝑛 × 𝑓1 ≥ 5 ;
▪ 𝑛 × (1 − 𝑓1 ) ≥ 5 ;
▪ 𝑛 × 𝑓2 ≥ 5 ;
▪ 𝑛 × (1 − 𝑓2 ) ≥ 5.
Calcul du nombre de sujets nécessaires dans un échantillon pour une précision donnée :
2
𝑓(1 − 𝑓) × 𝑧𝛼/2
𝑛≥
𝑖12
65 Année 2022 – 2023



Remarque – Les formules de ce cours (sauf mention contraire) sont à apprendre, il faut essayer de bien
comprendre les exemples. Ce cours est essentiel.
I. Introduction
Un test statistique est un test d’hypothèse. Ces tests ne sont pas à confondre avec d’autres types
de tests comme les tests diagnostiques. Les tests statistiques sont basés sur l’inférence statistique :
analyser des résultats sur un échantillon aléatoire et en tirer des conclusions sur la population d’origine
de l’échantillon.
Mais dès lors, quelle est l’hypothèse testée par le test d’hypothèse ? Comment relier les notions
de test d’hypothèse et d’inférence statistique ?
II. Comparaison d’une moyenne à une valeur théorique :

test d’hypothèse
A. D’une question d’ordre général à une hypothèse
En 1997, nous avons : tour de taille moyen = 84,6 cm (France). En 2006, nous nous intéressons à
un échantillon aléatoire de 30 personnes, nous obtenons les résultats suivants :
88.39 85.92 88.41 90.36 87.15 89.66 88.5 87.71 89.91 88.86 90.93 88.60 83.67 87.36 83.82
86.19 87.19 90.34 87.56 87.98 87.31 88.56 88.85 87.67 91.35 86.44 90.22 91.41 85.92 91.47
̅ = 𝟖𝟖, 𝟐𝟔 𝒄𝒎
𝒙
Nous nous demandons alors si le tour de taille moyen est différent en 2006 de ce qu’il était en
1997. Attention, bien évidemment 84,6 est différent de 88,26 mais nous recherchons si cette
différence est significativement significative !
Comment alors traduire cette question d’ordre général en test d’hypothèse ? Nous ne
connaissons pas la vérité mais nous savons calculer la probabilité de ce que nous observons sous
certaines conditions.
L’hypothèse testée est : entre 1997 et 2006, le tour de taille n’a pas changé. Cette hypothèse
concerne la population. Nous ne savons pas si l’hypothèse testée est vraie, mais nous pouvons
appliquer le calcul des probabilités.
Remarque – Formalisation : notation en langage “mathématique” → µ2006 = µ1997 = 84,6.
Pour rappel, évidemment 88,26 ≠ 84,6 mais quelle est la probabilité d’observer sur un échantillon
aléatoire de n individus, issu d’une population dans laquelle µ = 84,6 cm, une moyenne calculée
supérieure ou égale à 88,26 cm, c’est-à-dire au moins aussi éloignée de 84,6 cm que l’est 88,26 cm ?
67 Année 2022 – 2023

Pour répondre à cette question, l’hypothèse, qui va être testée, est appelée hypothèse nulle, que
nous écrivons H0. Notre hypothèse nulle dans cet exemple est que le tour de taille moyen dans la
population de 1997 est le même que le tour de taille moyen dans la population de 2006.
Ceci nous amène à nous demander : Quelle serait la probabilité d’observer une estimation de la
moyenne d’au moins 88,26 cm (μ de l’échantillon) si le tour de taille moyen en 2006 était de 84,6 cm
(μ de la population) ?
Dans cet exemple, nous supposerons ici que la variable est distribuée normalement, c'est-à-dire
qu'elle suit une loi normale.
Nous distinguerons alors deux cas :

▪ σ est connu et vaut 2 cm ;
▪ σ est inconnu et est estimé à partir de l’échantillon.
B. Test de l’hypothèse nulle

L’hypothèse nulle : celle que l’on cherche à rejeter. En biostatistiques, on ne conclut vraiment que
si on rejette l’hypothèse nulle.
L'hypothèse nulle H0 correspond à l'absence de différence significative entre deux proportions,

on va alors chercher à rejeter H0 pour pouvoir confirmer notre hypothèse H1. On raisonne alors par
l'absurde, pour montrer que notre hypothèse est vraie on montre que son contraire est faux.
L’énoncé présente en général une question qui correspond à l’hypothèse alternative. L’hypothèse
nulle n’est quasiment jamais dans l’énoncé.
Il faut donc la poser à partir de ce que l’on cherche à démontrer (si je cherche à démontrer une
différence de probabilités, je cherche à rejeter l’hypothèse nulle d’égalité de ces deux probabilités).
L’hypothèse nulle est en effet soit rejetée, soit non rejetée…
Cas n°1 : p < α, l’hypothèse nulle est rejetée. Elle est considérée comme trop peu probable pour
être retenue. Le niveau de significativité (p), inférieur dans ce cas au risque de première espèce
consenti (alpha), correspond à la probabilité d’observer un résultat au moins aussi éloigné de
l’hypothèse nulle que le résultat observé.
Cas n°2 : p > α, l’hypothèse nulle n’est pas rejetée. Le niveau de significativité (p) est plus grand
qu’alpha. Dans ce cas, on ne peut pas conclure en faveur de l’hypothèse alternative. L’étude n’a pas
permis de rejeter l’hypothèse nulle.
▪ Premier cas : σ est connu et vaut 2 cm.
𝑀 − 𝜇𝐻0 88,26 − 𝜇𝐻0 88,26 − 84,6

𝑃( 𝜎 ≥ 𝜎 |𝐻0 𝑣𝑟𝑎𝑖𝑒) = 𝑃 (𝑍 ≥ ) = 𝑃(𝑍 ≥ 10,02) < 0,00002
2
√𝑛 √𝑛 √30
Remarque – 𝑃(𝑍 ≥ 10,02) = 1 − 𝑃(𝑍 ≤ 10,02).
Nous allons alors lire dans la table de la loi normale, la plus grande valeur de cette table est 4,9 ;
nous avons alors P(Z ≤ 4,9) = 0,999998 ; d’où 1 – 0,999998 = 0,00002. Ainsi, la probabilité d’avoir un
écart aussi important sans qu’il y ait une différence entre 1997 et 2006 est très faible.

▪ Deuxième cas : σ est inconnu, nous allons alors utiliser s l’estimateur de µ. L’écart-
type estimé à partir de l’échantillon est de √(4,13).
𝑀 − 𝜇𝐻0 88,26 − 𝜇𝐻0 88,26 − 84,6

𝑃( 𝑆 ≥ 𝑠 |𝐻0 𝑣𝑟𝑎𝑖𝑒) = 𝑃 (𝑍 ≥ ) = 𝑃(𝑍 ≥ 9,86) < 0,00002
4,13
√𝑛 √𝑛 √30
De la même manière, nous allons lire dans la table de la Loi Normale, la plus grande valeur de
cette table est 4,9 ; nous avons alors : P(Z ≤ 4,9) = 0,999998 ; d’où 1 – 0,999998 = 0,00002.
C. Risque de première espèce
1. Généralités
Nous pouvons alors calculer “p” : le niveau de significativité, mais attention cette probabilité
seule ne représente pas une règle de décision !
Il faut définir une probabilité seuil α qui constitue le risque de première espèce, c’est-à-dire la
probabilité de rejeter l’hypothèse nulle alors qu’elle est vraie.
La valeur retenue est une valeur de probabilité faible, le plus souvent α = 5 %.
Remarque – p est donc la probabilité d’obtenir deux valeurs aussi écartées l’une de l’autre alors qu’elles
sont en moyenne identique. C’est en quelque sorte la probabilité que H0 soit vraie. Si p est très faible,
alors il y a très peu de chance que H0 soit vraie.
2. Comparaison d’une moyenne à une valeur théorique

𝑀 − 𝜇𝐻0
𝑇= 𝜎
√𝑛
Avec M = variable aléatoire, différente en fonction de l’échantillon.
Sous H0, nous obtenons la courbe suivante :
La valeur de p se situe après le seuil.
La zone grise est la zone de rejet de l’hypothèse nulle, elle représente la probabilité α. Si notre
valeur est dans cet intervalle, nous rejetons H0, si p > α, nous ne rejetons pas H0.
La statistique du test repose sur la valeur prise par une variable aléatoire de distribution connue
sous l’hypothèse nulle.
La probabilité d’observer une valeur au moins aussi éloignée de la valeur de référence que celle
observée sur l’échantillon est le petit p = degré de significativité du test.
Si cette probabilité est très faible, l’hypothèse nulle est peu vraisemblable, elle est alors rejetée.
69 Année 2022 – 2023

D. Significativité
La probabilité d’une valeur au moins aussi éloignée de la valeur de référence que celle observée
sur l’échantillon est le petit p (degré de significativité du test) :
▪ Si on précise, avant la réalisation du test, le sens de la différence qui conduit à rejeter
l’hypothèse nulle, le test est unilatéral :
- écriture d’un test unilatéral :
𝐻0 : µ2006 = µ1997 et 𝐻1 : µ2006 > µ1997
- ou :
𝐻0 : µ2006 = µ1997 et 𝐻1 : µ2006 < µ1997
▪ Si on précise, avant la réalisation du test, que l’hypothèse nulle peut être rejetée quel
que soit le sens de la différence, le test est bilatéral :
- écriture d’un test bilatéral :
𝐻0 : µ2006 = µ1997
- ou :
𝐻1 : µ2006 ≠ µ1997
La valeur du seuil de significativité est fixée avant le test dans le protocole de l’étude. C’est le
risque d’erreur consenti de rejeter l’hypothèse nulle alors qu’elle est vraie. Le degré de significativité
du test est comparé à la valeur du seuil de significativité une fois l’étude terminée.
À l’issue du test statistique :

▪ Soit H0 est rejetée, avec le risque α d’avoir rejeté l’hypothèse nulle à tort. Le petit “p”
(alors inférieur au risque α) est la probabilité d’une valeur au moins aussi éloignée de
l’hypothèse nulle que la valeur observée. Plus cette probabilité est faible, plus le test
est significatif. L’hypothèse nulle est rejetée au profit d’une hypothèse alternative,
H1 ;
▪ Soit il n’a pas été possible de rejeter H0, parce qu’il n’y a pas de différence, ou parce
que l’étude n’a pas été capable de détecter une différence réelle.
Quand on rejette l’hypothèse nulle H0, on accepte l’hypothèse alternative H1. En revanche, si
on ne rejette pas l’hypothèse nulle, cela ne veut pas dire pour autant qu’on l’accepte !
La formulation de l’hypothèse alternative englobe une infinité de possibilités de rejeter

l’hypothèse nulle. Par exemple, l’hypothèse alternative d’un test bilatéral de comparaison de
moyennes (µ1 ≠ µ2) englobe une infinité de différences théoriques tant positives que négatives entre
les 2 valeurs théoriques des moyennes.
Il faut malgré tout noter que la valeur du degré de significativité dépend de la nature unilatérale
ou bilatérale du test effectué. Si nous avons observé une moyenne de 85 cm sur l’échantillon nous
aurons :
𝑀 − 84,6 85 − 84,6
𝑃 ≥ |𝐻0 𝑣𝑟𝑎𝑖𝑒 = 𝑃(𝑍 ≥ 1,095) = 𝑝
√ 4 √ 4
( 30 30 )
𝑃(𝑍 ≥ 1,10) < 𝑃(𝑍 ≥ 1,095) < 𝑃(𝑍 ≥ 1,09)
1 − 0,8643 < 𝑝 < 1 − 0,8621
0,1357 < 𝑝 < 0,1379
Remarque – Nous utilisons ici les compléments à 1 pour lire dans la table de la Loi Normale.

E. Conclusion
Récapitulatif.
H0 vraie H0 fausse
Interprétation
H0 non rejetée 
correcte
Interprétation
H0 rejetée 
correcte
 est le risque de deuxième espèce,

le risque de ne pas rejeter H0 alors qu’elle est fausse.
Le petit p ouvre l’analyse : si le test est significatif, la différence observée n’est pas due au hasard.
Nous calculons alors des estimations ponctuelles des paramètres d’intérêt, et leurs intervalles de
confiance.
III. Comparaison d’une proportion observée à une

proportion théorique
A. Approximation par la loi normale – Test bilatéral
Exemple – Sur un échantillon aléatoire de 50 personnes ayant des origines basques, 35 sont rhésus
positif. Que peut-on conclure sachant que, dans la population française, 85 % sont rhésus positif ?
On va centrer et réduire :
▪ H0 : π = 0,85 = π0 ;
▪ H1 : π ≠ 0,85 (bilatérale) ;
▪ n = 50 ;
▪ f (observée) = 35/50 = 0,70 ;
▪ α = 0,05 ;
▪ Sous H0.
71 Année 2022 – 2023

𝐹 − 𝜋0
𝑍= ~𝑁(0,1)
√𝜋0 × (1 − 𝜋0 )
50
0,70 − 0,85
𝑧= = −2,97
√0,85 × 0,15
50
𝑃(|𝑍| > 2,97) = 𝑃(𝑍 < −2,97) + 𝑃(𝑍 > 2,97)
= (1 − ∅(2,97)) + (1 − ∅(2,97))
= 2 × (1 − ∅(2,97)) = 2 × (1 − 0,9985) = 0,0030
Conditions d’applications :
▪ 50 × 0,85 ≥ 5 ;
▪ 50 × 0,15 ≥ 5.
p est donc < α, nous rejetons H0, la prévalence des sujets rhésus positifs dans la population
basque est inférieure à 0,85.
B. Test du Chi-2 – Test bilatéral

On a :
▪ H0 : π = 0,85 ;
▪ H1 : π ≠ 0,85 (bilatérale) ;
▪ n = 50 ;
▪ f (observée) = 0,70 ;
▪ α = 0,05.
(𝑂𝑖 − 𝐸𝑖 )2 2
∑ ~𝜒1𝑑𝑑𝑙
𝐸𝑖
Remarque – Avec :
• Oi = effectif observé ;
• Ei = effectif attendu ;
• ddl = degrés de liberté.
Les effectifs observés (35 et 15) sont comparés aux effectifs attendus sous l’hypothèse nulle. Il
faut comprendre alors que les effectifs attendus sont les effectifs si H0 est vraie : dans ce cas
l’hypothèse nulle est que la moyenne de rhésus positifs est de 0,85 dans la population française.
Dans la population basque, il y a 50 basques dans notre échantillon, sous l’hypothèse nulle nous
aurons comme effectif attendu 50 × 0,85 = 42,5 et 50 – 42,5 =7,5.
On peut alors faire le Chi-2 suivant :
2
(35 − 42,5)2 (15 − 7,5)2
𝜒𝑜𝑏𝑠 = + = 8,82
42,5 7,5
2 2
𝑃(𝜒1𝑑𝑑𝑙 > 8,82) = 1 − 𝑃(𝜒1𝑑𝑑𝑙 < 8,82)
2
0,990 < 𝑃(𝜒1𝑑𝑑𝑙 < 8,82) < 0,999
2
0,001 < 1 − 𝑃(𝜒1𝑑𝑑𝑙 < 8,82) < 0,010
𝑝 < 0,01

▪ 50 × 0,85 ≥ 5 ;
▪ 50 × 0,15 ≥ 5.
Nous sommes à 1 ddl, il faudra donc regarder dans la table du Chi-2 à 1 ddl.
C. Approximation par la loi normale – Test unilatéral

Au départ :
▪ H0 : π = 0,85 = π0 ;
▪ H1 : π < 0,85 (unilatérale) ;
▪ n = 50 ;
▪ f (observée) = 35/50 = 0,70 ;
▪ α = 0,05.
0,70 − 0,85
𝑧= = −2,97
√0,85 × 0,15
50
𝑃(𝑍 < −2,97) = 𝑃(𝑍 > 2,97) = 1 − ∅(2,97) = 1 − 0,9985 = 0,0015
▪ 50 × 0,85 ≥ 5 ;
▪ 50 × 0,15 ≥ 5.
Sous H0, 0,0015 < 0,05 donc nous rejetons l’hypothèse nulle.
D. Test du Chi-2 – Test unilatéral

(𝑂𝑖 − 𝐸𝑖 )2 2
𝐸𝑖
Remarque – Avec :
• Oi = effectif observé ;
• Ei = effectif attendu ;
• ddl = degrés de liberté.
Les effectifs observés (35 et 15) sont comparés aux effectifs attendus sous l’hypothèse nulle (42,5
et 7,5). Ainsi :
2
(35 − 42,5)2 (15 − 7,5)2
𝜒𝑜𝑏𝑠 = + = 8,82
42,5 7,5
2 2
𝑃(𝜒1𝑑𝑑𝑙 > 8,82) = 1 − 𝑃(𝜒1𝑑𝑑𝑙 < 8,82)
2
0,990 < 𝑃(𝜒1𝑑𝑑𝑙 < 8,82) < 0,999
2
0,001 < 1 − 𝑃(𝜒1𝑑𝑑𝑙 < 8,82) < 0,010
0,001 < 2𝑝 < 0,010
𝑝 < 0,005
▪ 50 × 0,85 ≥ 5 ;
▪ 50 × 0,15 ≥ 5.
73 Année 2022 – 2023

Remarque – Le test du Chi-2 est par définition bilatéral. La valeur « test » de notre Chi-2 sera donc la
même que notre hypothèse de départ soit bilatérale ou unilatérale. La probabilité petit p qui sera lue
dans la table du Chi-2 correspond à celle d’un test bilatéral.
Cependant, il est quand même possible de conclure grâce au test du Chi-2 si le test est unilatéral.
Il existe deux méthodes donnant les mêmes conclusions :
• Soit diviser la probabilité lue dans la table par 2, puis la comparer au risque α (cf. calcul ci-dessus) ;
• Soit regarder la valeur du Chi-2 seuil dans la table pour 2α, puis la comparer à la valeur test que
nous avons calculé.
Par exemple, ici, α = 0,05. La valeur de Chi-2 seuil pour 2α est de 2,7055. Notre valeur test est de
8,82. Nous remarquons que 8,82 > 2,7055 (petit p > α), donc nous rejetons l’hypothèse nulle d’égalité
des proportions.
E. Conclusion
L’hypothèse nulle est rejetée, avec un degré de significativité p < 0,01. Nous disposons d’une
estimation ponctuelle de la proportion de sujets rhésus positif, nous pouvons calculer un intervalle de
confiance.
IV. Comparaison d’une distribution observée à une

distribution à k modalités
Échantillon représentatif (aléatoire) de n individus associé à k modalités d’une variable qualitative
avec O1, O2, …, Ok les effectifs observés sur l’échantillon de taille n.
Soient les proportions observées :

𝑂1 𝑂2 𝑂𝑘
𝑝1 = , 𝑝2 = , … , 𝑝𝑘 =
𝑛 𝑛 𝑛
Sous l’hypothèse nulle H0, la variable qualitative a une distribution de probabilités p1, p2, …, pK.
Sous l’hypothèse alternative H1, la variable a une distribution différente.
Les K modalités sont le nombre de variables testées et comparées à la proportion théorique, K

correspond alors aux nombres de lignes c’est-à-dire aux catégories comparées. Lors d’un test du Chi-2
on aura par exemple l’effectif de personnes guéries et l’effectif de personnes non guéries qui seront
comparés aux effectifs attendus : K = 2 (donc le test s’effectue à K-1 = 2 - 1 = 1 ddl). Mais si on avait
voulu comparer la proportion observée de plusieurs modalités à leur proportion attendue respective,
le test du chi-2 nous aurait permis de faire cela d’un coup.
Test du Chi-2.

Donc au risque α, quand notre Chi-2 est supérieur au Chi-2 seuil (c’est-à-dire au Chi2 pour α = 5 %)
nous rejetons H0. Lorsque le Chi-2 est plus petit que le Chi-2 seuil, nous ne pouvons pas rejeter
l’hypothèse nulle.
Il faut penser aux conditions d’application : tous les effectifs attendus sous H0 doivent être
supérieurs à 5 !
Remarque – Les Ei ne sont pas indépendants. Ainsi lorsque (k-1) valeurs sont calculées, la dernière
valeur s’impose car la somme des effectifs attendus est égale à n ! C’est pourquoi il n’y a que (k-1) ddl.
La comparaison d’une proportion observée à une probabilité théorique, vue précédemment,
correspond à la situation où k = 2 (d’où 1 ddl).
V. Comparaison de deux proportions

A. Exemple
Résultats à 5 ans de 204 personnes ayant eu une fracture du col fémoral selon le traitement.
Ici, nous allons comparer la proportion de décès lors de deux traitements (TTT), l’hypothèse
testée est alors un test bilatéral :
𝐻0 : 𝜋𝑐ℎ𝑖𝑟 = 𝜋𝑜𝑟𝑡ℎ𝑜
𝐻1 : 𝜋𝑐ℎ𝑖𝑟 ≠ 𝜋𝑜𝑟𝑡ℎ𝑜 à 𝛼 = 0,05
Remarque – L’hypothèse nulle et l’hypothèse alternative concernent la population.
Test d’hypothèse :
Nous ne connaissons pas la vérité, mais la probabilité d’observer ce que l’on observe sous une
certaine hypothèse. Ainsi, pour montrer une différence d’efficacité entre deux thérapeutiques, il
faudra calculer la probabilité d’un résultat au moins aussi éloigné de l’hypothèse nulle que le résultat
observé, cette probabilité étant calculée sous l’hypothèse nulle d’absence de différence d’efficacité.
Si cette probabilité est très faible, l’hypothèse nulle est peu vraisemblable, elle est alors rejetée : la
différence observée est significative.
B. Approximation par la loi normale

Sous H0 :
𝐹𝐴 − 𝐹𝐵
𝑍= ~𝑁(0,1)
1 1
√𝜋0 × (1 − 𝜋0 ) × ( + )
𝑛𝐴 𝑛𝐵
Ici, les effectifs des deux traitements sont différents d’où le dénominateur.
75 Année 2022 – 2023

Ici, la probabilité de décéder si les deux traitements n’avaient pas de différence d’effets est :
𝑁𝑜𝑚𝑏𝑟𝑒 𝑑𝑒 𝑑é𝑐è𝑠 67
𝑝0 = = = 0,33
𝑛 204
D’où :
𝐹𝐴 − 𝐹𝐵 0,26 − 0,48
𝑍= = = −3,1
1 1
√𝜋0 × (1 − 𝜋0 ) × ( + ) √0,33 × (1 − 0,33) × ( 1 + 1 )
𝑛𝐴 𝑛𝐵 139 65
▪ nAp0 ≥ 5 ;
▪ nA(1-p0) ≥ 5 ;
▪ nBp0 ≥ 5 ;
▪ nB(1-p0) ≥ 5.
𝑃(|𝑍| > 3,1) = 𝑃(𝑍 < −3,1) + 𝑃(𝑍 > 3,1)
= 2 × (1 − ∅(3,1)) = 2 × (1 − 0,99903) = 0,00194
C. Test du Chi-2
(𝑂𝑖𝑗 − 𝐸𝑖𝑗 )2 2
𝐸𝑖𝑗
𝑖,𝑗
L’hypothèse nulle est celle de l’indépendance entre les probabilités de traitement chirurgical ou
orthopédique et le pronostic vital. Le calcul des effectifs attendus sous l’hypothèse nulle en découle.
Par exemple pour le traitement chirurgical : nous avons vu précédemment que la probabilité de
décès sous l’hypothèse nulle est de 0,33 ; d’où la probabilité de décéder sous H0 dans le groupe
traitement chirurgical est ntraitement chirurgical × 0,33 = 139 × 45,7.
À partir de ce moment, comme nous avons un tableau avec des marges fixées, il suffit de faire
des soustractions pour avoir les autres effectifs attendus.
On comprend donc mieux pourquoi le test est à 1 ddl. Lorsque nous trouvons un effectif, nous
pouvons en déduire les trois autres.
Nous obtenons alors le tableau suivant :
Résultats sous forme de tableau entre les traitements chirurgicaux ou orthopédiques.
Dans un tableau à l lignes et c colonnes, le test est donc à

(l-1) × (c-1) ddl.
Cette méthode est équivalente aux quatre calculs ci-contre.

Calculs :
(103 − 93,3)2 (34 − 43,7)2 (36 − 45,7)2 (31 − 21,3)2

+ + + = 9,5
93,3 43,7 45,7 21,3
▪ nAp0 ≥ 5 ;
▪ nA(1-p0) ≥ 5 ;
▪ nBp0 ≥ 5 ;
▪ nB(1-p0) ≥ 5.
Ainsi (ou bien utiliser la table de la loi normale, avec √(9,5) ≈ 3,1) :
0,001 < 𝑝 < 0,01

𝑝 < 0,01
En effet, il faut savoir que pour 1 ddl, le Chi-2 représente le carré d’une loi normale centrée
réduite, nous pouvons alors regarder dans la table de la Loi Normale pour la racine du Chi-2 : ici 3,1.
D. Conclusion
Nous calculons alors une estimation ponctuelle de la différence d’efficacité et son intervalle de
confiance. Sous les conditions de normalité pour les variables aléatoires fA et fB :
𝑓𝐴 (1 − 𝑓𝐴 ) 𝑓𝐵 (1 − 𝑓𝐵 )
(𝑓𝐴 − 𝑓𝐵 ) ± 𝑧1−𝛼/2 √ +
𝑛𝐴 𝑛𝐵
Remarque – Chi-2 : différentes possibilités !
Avec, par exemple, un Chi-2 à 3 modalités, il faut parfois ajouter 3 différences, celles des 3 effectifs
observés par rapport aux effectifs attendus correspondant. C’est donc une comparaison d’une
distribution observée à 3 modalités à une distribution théorique.
Cependant il est aussi possible de réaliser une comparaison de 3 proportions de succès observés,
il faut alors calculer les effectifs attendus sous H0 (on a alors les succès et les échecs complémentaires
dans le tableau). Dans ce cas-là on aura 6 différences ajoutées afin de trouver la valeur du Chi-2.
Ces 2 cas sont traités dans l’exercice en exemple à la fin du cours et sont très importants à
comprendre, ces types de comparaison sont tombées au concours de décembre 2018 et aux CC de 2021.
77 Année 2022 – 2023

VI. Risques  et 
Nous sommes confrontés aux deux risques d’erreur :
▪ Le risque de première espèce () : probabilité de rejeter l’hypothèse nulle (H0) alors
qu’elle est vraie. Il est fixé avant l’essai ;
▪ Le risque de seconde espèce () : probabilité de ne pas rejeter H0 alors qu’elle est
fausse.
Remarque – Puissance = 1 – .
La puissance.
Quand nous augmentons la taille de l’étude, il y a moins de fluctuations : la densité se resserre,

la puissance augmente.
Il y a une opposition entre  et , quand α augmente : la puissance augmente.
Quand la différence attendue entre les moyennes augmente : la puissance augmente.
VII. Conclusion
Nécessité d’inclure suffisamment de patients dans une étude compte tenu de la différence
d’efficacité attendue : études multicentriques nationales, européennes, internationales.
Le professeur a inclus un exercice à la fin du cours :

79 Année 2022 – 2023



I. Introduction (rappel du cours précédent)

En 2006, nous observons un échantillon aléatoire de 30 personnes, la moyenne du tour de taille
observée est de 𝑋̅ = 85,3 cm. Pour rappel, la question posée est : le tour de taille moyen est-il supérieur
en 2006 à ce qu’il était en 1997 ? Nous connaissons 𝜎 = 2 cm et 𝑋 suit une loi normale.
▪ Pour un test unilatéral, nous allons avoir H0 : 𝜇2006 = 84,6 et H1 : 𝜇2006 > 84,6.
Évidemment 85,3 > 84,6 ; mais quelle est la probabilité d’observer, sur un échantillon aléatoire
de 30 individus, issu d’une population dans laquelle μ = 84,6 cm, une moyenne calculée supérieure ou
égale à 85,30 cm ; c’est-à-dire supérieure à 84,6 cm (test unilatéral) et au moins aussi éloignée de 84,6
cm que l’est 85,30 cm ?
Calcul de la probabilité d’une moyenne ≥ à 85,30 en sachant que la moyenne de notre groupe est égale à 84,6 (test
unilatéral).
La grandeur « test » T = 1,917 est supérieure à la valeur seuil 1,645 donc nous rejetons
l’hypothèse nulle d’égalité du tour de taille moyen en 1997 et du tour de taille moyen en 2006. Nous
pouvons conclure de la même façon lorsque nous comparons le petit p calculé (p < 0,0281) et le risque
α (0,05). Petit p est inférieur à α donc la probabilité d’observer cette différence de tour de taille moyen
entre 1997 et 2006 est trop faible. De ce fait, nous rejetons l’hypothèse nulle.
▪ Pour un test bilatéral, nous allons avoir H0 : µ2006 = 84,6 et H1 : µ2006 ≠ 84,6.
Évidemment 85,3 ≠ 84,6, mais quelle est la probabilité d’observer, sur un échantillon aléatoire de
30 individus, issu d’une population dans laquelle µ = 84,6 cm, une moyenne calculée supérieure ou
égale à 85,30 cm, ou inférieure ou égale à 83,9 cm, c’est-à-dire au moins aussi éloignée de 84,6 cm que
l’est 85,30 cm ?
Calcul lors d’un test bilatéral.
Dans ce test, nous ne pouvons pas rejeter l’hypothèse nulle car le petit p est supérieur au risque
α consenti.
81 Année 2022 – 2023

II. Comparaison d’une moyenne à une valeur théorique

A. Rappel
Soit X une variable aléatoire de moyenne µ et d’écart-type σ dans une population N. Soit un
échantillon de taille n, nous avons donc :
𝑋1 +𝑋2 +⋯+𝑋𝑛
𝑀= 𝑛
est un estimateur de 𝜇.
𝑥1 + 𝑥2 +⋯+ 𝑥𝑛
𝑚= 𝑛
est une estimation de 𝜇.
1 1
𝑆 2 = 𝑛−1 ∑𝑛𝑖=1(𝑋𝑖 − 𝑀)2 = 𝑛−1 (∑𝑛𝑖=1 𝑋𝑖 2 − 𝑛 × 𝑀) est un estimateur non biaisé de 𝜎 2 .
1 1
𝑠 2 = 𝑛−1 ∑𝑛𝑖=1(𝑥𝑖 − 𝑚)2 = 𝑛−1 (∑𝑛𝑖=1 𝑥𝑖 2 − 𝑛 × 𝑚) est une estimation non biaisée de 𝜎 2 .
B. Théorie
n ≥ 30 n < 30
𝑀 − 𝜇0 𝑀 − 𝜇0
X normale 𝜎 → 𝑁(0 ; 1) 𝜎 → 𝑁(0 ; 1)
σ connu
√𝑛 √𝑛
𝑀 − 𝜇0
→ 𝑆𝑡𝑢𝑑𝑒𝑛𝑡(𝑛 − 1 𝑑𝑑𝑙) 𝑀 − 𝜇0
X normale 𝑆 → 𝑆𝑡𝑢𝑑𝑒𝑛𝑡(𝑛 − 1 𝑑𝑑𝑙)
𝑆
σ inconnu √𝑛
→ 𝑁(0 ; 1) √𝑛
𝑀 − 𝜇0
X quelconque 𝜎 → 𝑁(0 ; 1)
σ connu
√𝑛
𝑀 − 𝜇0
X quelconque → 𝑁(0 ; 1)
𝑆
σ inconnu
√𝑛
Ce tableau est essentiel et il est donc à connaître parfaitement afin de résoudre tous les
exercices le jour du concours. Les conditions (taille de l’échantillon, loi suivie par X, etc) doivent
être respectées pour utiliser telle ou telle formule.
Nous vous invitons donc à vous entraîner régulièrement pour bien assimiler toutes ces formules et
conditions.

C. Exemples
1. Exemple 1
400 jeunes conscrits sont examinés et nous relevons leur taille. La moyenne de cet échantillon
aléatoire est : 𝑥̅ = 172,2cm. Peut-on admettre que ce groupe de 400 jeunes est un échantillon tiré au
sort d’une population où la variable taille suit une loi normale de moyenne 𝜇 = 171,3 cm et d’écart-
type 𝜎 = 7 cm ?
▪ Si le protocole d’étude avait fixé le risque de première espèce à α = 5 % ;
▪ Si le protocole d’étude avait fixé le risque de première espèce à α = 0,1 %.
Formulation des hypothèses H0 et H1 :

▪ H0 : µ = 171,3 cm ;
▪ H1 : µ ≠ 171,3 cm (test bilatéral).
→ 1er cas : X normale, σ connu, sous H0 :
𝑀 − 𝜇0
𝜎 → 𝑁(0 ; 1)
√𝑛
172,2 − 171,3
= 2,57
7
√400
𝑝 = 𝑝(|𝑍| > 2,57)
= 𝑝(𝑍 > 2,57) + 𝑝(𝑍 < −2,57)
= 2 × (1 − 𝜙(2,57))
= 2 × (1 − 0,9949)
= 0,0102
Le niveau de significativité du test vaut p = 0,0102.
En fonction du risque de première espèce retenu, nous aurons deux cas de figure :
Si le risque de première espèce préalablement fixé est de 5 % :

▪ L’hypothèse nulle est rejetée (car p < α) ;
▪ La taille moyenne de la population d’origine de l’échantillon supérieure à 171,3 cm ;
▪ Une estimation ponctuelle de la taille de la population d’origine de 172,2 cm ;
▪ Vous pouvez fournir un intervalle de confiance à 95 % de cette estimation (cf. cours
correspondant).
Si le risque de première espèce préalablement fixé est de 0,1 % :

▪ L’hypothèse nulle ne peut être rejetée (car p > α) ;
▪ Au risque de première espèce consenti, la taille moyenne de la population d’origine
de l’échantillon n’est pas significativement différente de 172,2 cm ;
▪ Vous pouvez fournir un intervalle de confiance à 99,9 % de cette estimation (cf. cours
correspondant).
83 Année 2022 – 2023

2. Exemple 2
20 rats femelles sont tirés au hasard d’une lignée ; le poids utérin après traitement oestrogénique
est mesuré : 9 18 21 26 14 18 22 27 15 19 22 29 15 19 24 30 16 20 24 32. La moyenne et l’écart-type
de l’échantillon sont :
𝑥̅ = 𝑚 = 21 𝑚𝑔
∑(𝑥𝑖 − 𝑥̅ )2
√ = 5,76 𝑚𝑔
20
Les lignées usuelles ont un poids moyen de 24 mg. Peut-on admettre que notre lignée est une
lignée usuelle ? Nous supposons que la variable X, poids utérin, est gaussienne.
𝑛 𝑛
2
1 1
𝑠 = (∑(𝑥𝑖 − 𝑚)2 ) = (∑ 𝑥𝑖 2 − 𝑛 × 𝑚2 )
𝑛−1 𝑛−1
𝑖=1 𝑖=1
Nous allons alors faire une estimation de l’écart-type de la population, s = 5,91 mg. Formulation
des hypothèses H0 et H1 :
▪ H0 : µ = µ0 = 24 mg ;
▪ H1 : µ ≠ 24 mg (test bilatéral).
→ 2ème cas : X normale, σ inconnu, sous H0, nous prendrons α = 0,05 (bilatéral) :
𝑀 − 𝜇0
𝑛 < 30 : → 𝑆𝑡𝑢𝑑𝑒𝑛𝑡 (19 𝑑𝑑𝑙)
𝑆
√𝑛
Nous calculons la grandeur « test » sous l’hypothèse nulle :
19
21 − 24
𝑡𝑜𝑏𝑠 = = −2,27
5,91
√20
𝑝 = 𝑝(|𝑇 19 | > 2,27)
2,0930 < 2,27 < 2,5395
0,02 < 𝑝 < 0,05
On rejette l’hypothèse nulle : notre lignée ne semble pas usuelle (p < 0,05).
III. Comparaison de deux moyennes (échantillons

indépendants)
Deux groupes de femmes primipares, âgées de 20 à 25 ans, ont accouché normalement par voie
basse et à terme, d’une petite fille. Le premier groupe est composé de femmes qui ont arrêté de fumer
au tout début de leur grossesse et le second de femmes qui n’ont jamais fumé. On a :
▪ n1 = 49, ̅̅̅
𝑥1 = 2950 𝑔 et 𝑠𝑥1 = 168 𝑔 ;
▪ n2 = 49, ̅̅̅
𝑥2 = 3010 𝑔 et 𝑠𝑥2 = 170 𝑔.
Évidemment 2950 ≠ 3010. Mais quelle est la probabilité d’observer, sur deux échantillons
aléatoires de 49 nouveaux nés de sexe féminin issus d’une même population, une différence de valeurs
moyennes de 3010 – 2950, c’est-à-dire de 60 grammes ou plus ? Ici, nous comparons une différence.

→ 1er cas : n1 ≥ 30 et n2 ≥ 30 :
(𝑀1 − 𝑀2 ) − (𝜇1 − 𝜇2 ) (𝑀1 − 𝑀2 ) − 0

= → 𝑁(0; 1)
2 2 2 2
√𝑆1 + 𝑆2 √𝑆1 + 𝑆2
𝑛1 𝑛2 𝑛1 𝑛2
→ 2ème cas : n1 < 30 et/ou n2 < 30, deux conditions à respecter :

▪ X normale ;
▪ Variances inconnues égales à σ2 (test d’égalité des variances).
(𝑀1 − 𝑀2 ) − 0
𝑇= → 𝑆𝑡𝑢𝑑𝑒𝑛𝑡 (𝑛1 + 𝑛2 − 2 𝑑𝑑𝑙)
2 2
√(𝑛1 − 1)𝑆1 + (𝑛2 − 1)𝑆2 √ 1 + 1
𝑛1 + 𝑛2 − 2 𝑛1 𝑛2
NDLR – Cette formule n’est pas à connaître par cœur !
Il faut donc au préalable faire un test d’égalité des variances :

▪ H0 : σ12 = σ22 ;
▪ H1 : σ12 ≠ σ22.
Sous l’hypothèse nulle :
𝑺𝟏 𝟐
𝑭= → 𝑭(𝒏𝟏 − 𝟏 ; 𝒏𝟐 − 𝟏)
𝑺𝟐 𝟐
Pour comparer des variances observées au risque α, nous faisons le rapport de la plus grande des
deux à la plus petite et nous comparons ce rapport à la valeur de la table de Fisher correspondant au
seuil α pour (n1 – 1) et (n2 – 1) degrés de liberté.
Si notre valeur test est supérieure à notre valeur seuil lue dans la table, nous rejetons l’hypothèse
nulle d’égalité des variances et nous ne pouvons pas continuer le test de comparaison des deux
moyennes.
Si notre valeur test est inférieure à notre valeur seuil, nous concluons que nos variances ne sont
pas significativement différentes et nous pouvons continuer la comparaison des moyennes.
Si nous repassons au test, nous avons :

(𝑚1 − 𝑚2 ) 2950 − 3010
𝑧= = = −1,76
𝑠1 2 𝑠2 2 2 2
√ √168 + 170
𝑛1 + 𝑛2 49 49
Formulation d’une hypothèse bilatérale (avec H0 : µ1 = µ2 et H1 : µ1 ≠ µ2) :
𝑝 = 𝑃(|𝑍| > 1,76) = 2 × (1 − 𝜙(1,76)) = 2(1 − 0,9608) = 0,0784
H0 non rejetée.
Formulation d’une hypothèse unilatérale (avec H0 : µ1 = µ2 et H1 : µ1 < µ2) :
𝑝 = 𝑃(𝑍 < −1,76) = 𝜙(−1,76) = 1 − 𝜙(1,76) = 1 − 0,9608 = 0,0392
Rejet de H0.
85 Année 2022 – 2023

IV. Comparaison de deux moyennes (échantillons

appariés)
Le meilleur exemple est l’essai en cross-over : le sujet est son propre témoin. L’ordre des
traitements est attribué par tirage au sort (par exemple d’abord placebo puis traitement ou d’abord
traitement puis placebo). Ce type d’essai prend en compte la corrélation entre les valeurs observées
chez un même sujet : c’est-à-dire qu'au départ si une valeur est déjà haute, elle a plus de chance d’être
également haute à la fin.
Tableau illustrant un essai en cross-over.
Il faut travailler sur la distribution des différences pour permettre de pallier la corrélation. Nous
allons tester l’hypothèse 𝑍̅ = 0, nous travaillons sur la moyenne des différences, ce qui revient à
observer une moyenne théorique sur une moyenne observée.
V. Comparaison de plusieurs moyennes : analyse de

variance
A. Introduction
k échantillons Ei (i = 1 à k), chacun étant issu d’une population dans laquelle X suit une loi normale
de moyenne 𝜇𝑖 et de variance 𝜎𝑖 2 inconnue. Les moyennes diffèrent-elles ?
Hypothèse à tester préalablement : les variances sont égales ; quel que soit i, σi2 = σ2.
Formulation des hypothèses nulle et alternative :

▪ H0 : µ1 = µ2 = … = µk ;
▪ H1 : au moins deux de ces moyennes diffèrent.
Notations.

B. Principe de l’ANOVA
Dans l’ANOVA, nous calculons une estimation de la variance commune σ2 dans deux cas :
▪ Sans tenir compte de l’hypothèse H0 ;
▪ En supposant H0 vraie.
Estimation de σ2 avec H0 vraie ou non (c’est-à-dire sans tenir compte de H0) :
Cela représente la variance d’un échantillon donné, c’est la somme des écarts quadratiques à la
moyenne divisée par l’effectif total (N) moins le nombre d’échantillons (k).
SCR = somme des carrés résiduelle.
Estimation de σ2 avec H0 vraie :
Cela correspond à la somme des carrés des écarts totaux, c’est-à-dire par rapport à une moyenne
générale.
SCT = somme des carrés totale.
Test : comparaison de la variance résiduelle et de la variance entre colonnes présentée ci-

dessous.
SCC = somme des carrés entre colonnes.
Nous allons faire un test de Fisher pour tester les variances :
𝑺𝒄 𝟐
𝑭= → 𝑭(𝒌 − 𝟏 ; 𝑵 − 𝒌)
𝑺𝟐
87 Année 2022 – 2023

Entre colonnes = SCC ; Résiduelle = SCR ; Totale = SCT.
Si l’hypothèse nulle est rejetée, nous allons, pour confirmer, comparer des moyennes deux à
deux en contrôlant le risque de première espèce grâce à la correction de Bonferroni entre autres. En
effet, si nous ne corrigeons pas le risque par la multiplication des tests, nous aurons forcément un test
significatif.
Correction de Bonferroni α’ :
𝜶
𝜶′ =
𝑸
Avec α le risque de première espèce et Q le nombre de paires possibles parmi le nombre de
groupes noté k.
Soit :
𝑸 = (𝑘2 ) (que l’on dit « 2 parmi k »).
Récapitulatif des formules importantes à connaître de cette partie :
𝑺𝑪𝑹
𝒔𝟐 = (𝐬𝐚𝐧𝐬 𝐭𝐞𝐧𝐢𝐫 𝐜𝐨𝐦𝐩𝐭𝐞 𝐝𝐞 𝑯𝟎 )
𝑵−𝒌
𝑺𝑪𝑻
𝒔𝑻 𝟐 = (𝐞𝐧 𝐬𝐮𝐩𝐩𝐨𝐬𝐚𝐧𝐭 𝑯𝟎 𝐯𝐫𝐚𝐢𝐞)
𝑵−𝟏
𝑺𝑪𝑪
𝒔𝑪 𝟐 =
𝒌−𝟏
𝟐
𝒔𝒄
𝑭 = 𝟐 → 𝑭(𝒌 − 𝟏 ; 𝑵 − 𝒌)
𝒔
𝑺𝑪𝑻 = 𝑺𝑪𝑪 + 𝑺𝑪𝑹
NDLR – Moyen mnémotechnique pour retenir les degrés de liberté pour trouver la valeur test de Fisher
𝐹(𝑘 − 1; 𝑁 − 𝑘) :
• 𝒔𝑪 𝟐 au numérateur, utilise (k-1) qui va donc se retrouver en premier ddl ;
• 𝒔𝟐 au dénominateur, utilise (N-k) qui va se retrouver en deuxième ddl.
Rappel : la variance la plus importante est toujours au numérateur. Or comme nous divisons par un
plus petit nombre SCC que SCR (𝑘 − 1 < 𝑁 − 𝑘), nous pouvons aussi trouver rapidement la formule en
cas d’hésitation.

C. Exemple
Comparaison des durées moyennes d’hospitalisation des patients admis dans trois services d’un
centre hospitalier pour broncho-pneumopathie chronique. Ci-dessous, la durée moyenne
d’hospitalisation pour broncho-pneumopathie chronique dans 3 services :
Série A Série B Série C Total
nI 15 12 185 212
TI 210 75 1307 1592
∑ 𝒙𝒊 ² 3510 655 17177 21342
mI 14 6.25 7.06
𝐾 = 3 ; 𝑁 = 212 ; 𝑁 − 𝐾 = 209 ; 𝐾 − 1 = 2 ; 𝑆𝐶𝑅 = 8699,5 ; 𝑠 2 = 41,62 ; 𝑆𝐶𝐶 = 687,5 ; sC 2 = 343,75
Nous posons α = 0,05 : dans la table de Fisher pour 209 et 2 ddl. Au seuil α, nous avons
Fseuil = 2,209 ; notre F observé est de 8,26 et est donc > au Fseuil, nous rejetons l’hypothèse nulle.
Nous allons alors comparer les moyennes deux à deux en contrôlant le risque de première espèce
en appliquant la correction de Bonferroni.
Ici nous avons trois séries, nous allons donc comparer A avec B, A avec C et B avec C, nous allons
faire trois tests dans ce cas (2 parmi 3 est égal à 3). La comparaison des moyennes va alors être
effectuée avec une probabilité non plus de α mais de α/3.
Note – Nous pouvons également multiplier le petit p par le nombre de comparaisons à la place !
VI. Prévalence et incidence

A. Prévalence
La prévalence représente la proportion de la population atteinte de la maladie à un moment
donné. C’est l’estimation d’une probabilité théorique. La prévalence n’a pas d’unité.
Exemple – Nous nous intéressons à la prévalence des infections nosocomiales dans les hôpitaux français
en 1996. Pour ce faire, nous allons faire une étude transversale c’est-à-dire une étude à un jour donné.
Nous disposons d’un échantillon de 46.000 patients hospitalisés dont 3.370 patients avec une infection
nosocomiale.
Nous notons comme prévalence 3370/46000 = 7,3 pour 100. L’intervalle de confiance à 95 %
(approximation gaussienne) est donné par :
𝑃̂ × (1 − 𝑃̂ ) 0,073 × (1 − 0,073)
𝑃̂ ± 1,96√ = 0,073 ± 1,96√
𝑁 46000
Soit 7,06 à 7,54 pour 100 patients hospitalisés.
89 Année 2022 – 2023

B. Incidence
Le taux d’incidence mesure la « vitesse d’apparition » des nouveaux cas, il permet d’estimer la
probabilité pour un individu de développer la maladie par unité de temps. Le taux d’incidence à une
unité : T-1, contrairement à la prévalence. Estimation d’une incidence sur une étude de cohorte :
▪ Dénombrement de la population étudiée ;
▪ Fixer la période d’observation (exemple : un an) ;
▪ Définition précise des cas ;
▪ Utilisation d’un estimateur sans biais = le taux d’incidence observé.
La durée totale d’observation s’exprime en “personnes-années” d’observation.
Cette unité est différente du temps d’observation.
Graphique représentant l’apparition d’évènements en fonction du temps.
Le taux d’incidence estimé est le rapport du nombre d’évènements divisé par la durée totale
d’observation :
▪ M = nombre total de cas observés (ici 2) ;
▪ T = nombre total d’unités de temps observées en années (ici 18 ans) ;
𝑀
▪ Estimateur : 𝐼̂ = ; 𝑇
2
▪ Estimation : 𝐼̂ = 18 𝑎𝑛−1 .
Exemple – Taux d’incidence de la tuberculose en France en 2005, la durée d’observation totale est de
58.370.786 personnes-années et de 5195 cas de maladie (données InVS).
5195
Estimation du taux d’incidence : Î = 58 370 786 = 0,000089 an−1
Soit 8,9 pour 100 000 personnes-années.
Variance de l’estimateur d’un taux d’incidence :

Î
▪ Variance d’un taux d’incidence estimé : Ŝ 2 = T ;
I ̂
▪ Erreur-type d’un taux d’incidence estimé : Ŝ = √ .
T
Avec T = durée totale d’observation, par exemple : effectifs × période.
0,000089
Intervalle de confiance à 95 % : 0,000089 ± 1,96√58 370 786
Soit [0,0000866 à 0,0000914], soit 8,66 à 9,14 pour 100.000 personnes-années.

Rédigé à partir du cours de la Pr. MAUCORT-BOULCH
I. Corrélation
A. Introduction
1. Rappels
Commençons par quelques définitions apprises dans le chapitre des variables aléatoires :
▪ Variable aléatoire : une variable aléatoire sur Ω correspond à toute application X : Ω
 ℝ telle que ∀ x ∈ ℝ, X-1 ([a, b]) est un évènement. Une variable aléatoire est décrite
par ses paramètres de position (moyenne et médiane) et de dispersion (variance et
écart-type).
▪ Variance : elle est notée var(X) (ou σ2). Elle mesure la dispersion d’une variable
aléatoire X autour de son espérance mathématique (moyenne) E(X) (ou µ). Sa
formule est :
𝜎 2 = 𝐸[(𝑋 − 𝜇)2 ] = 𝐸(𝑋²) − [𝐸(𝑋)]²
C’est donc la moyenne des distances au carré entre une observation x et la moyenne de
l’ensemble des observations faites pour la variable aléatoire X.
2. Définition de la corrélation
Corrélation : elle représente une co-relation, une association de deux variables aléatoires. C’est
une dépendance réciproque de deux phénomènes qui varient conjointement. Elle correspond au degré
de liaison de deux variables aléatoires X et Y.
Exemple – On associe la variable aléatoire X à la créatininémie, la créatinine étant un déchet éliminé

par les reins, au niveau glomérulaire. On associe également la variable aléatoire Y au taux de filtration
glomérulaire, qui est un reflet de la bonne élimination des déchets au niveau du rein. Ainsi, si le taux de
filtration glomérulaire diminue, la créatininémie augmente (si on élimine moins bien les déchets, ils
s’accumulent dans l’organisme, d’où l’augmentation de la créatinine) et inversement (lorsque le rein
épure bien les déchets, c’est-à-dire lorsque le taux de filtration glomérulaire est bon, la créatinine est
basse) : il y a donc une dépendance réciproque entre nos deux variables aléatoires. Cette association
est visible sur un graphique lorsque l’on place les valeurs par paires (x ; y). En effet, les points (x ; y)
forment une courbe :
Graphique représentant l’évolution du taux de filtration glomérulaire en fonction de la créatininémie.
91 Année 2022 – 2023

3. Différentes notions
On a :
▪ La corrélation entre le cancer du poumon et le tabagisme met en jeu deux variables
aléatoires qualitatives. Ici, cette « corrélation » est une association : ce n’est pas une
vraie corrélation mathématique car on ne pourra pas calculer le coefficient de
corrélation que l’on abordera plus tard ;
▪ Celle entre le poids à la naissance et le sexe met en jeu une variable aléatoire
quantitative et une qualitative. Cette corrélation est aussi une association et non une
corrélation mathématique : on ne peut pas calculer le coefficient de corrélation
lorsque l’on étudie une ou plusieurs variables qualitatives ;
▪ Celle entre le poids et la taille à la naissance met en jeu deux variables aléatoires
quantitatives. Cette dernière situation est l’objet de ce cours, nous pouvons calculer
le coefficient de corrélation.
Remarque – La corrélation entre des mesures faites avec deux appareils différents implique une
concordance entre les deux méthodes. En effet, lorsque l’on mesure une même variable avec deux
appareils différents, on s’attend à ce que nos mesures soient corrélées : on n’utilisera alors plus le terme
« corrélation » pour exprimer l’association de nos valeurs mais le terme « concordance ». C’est surtout
une question de vocabulaire.
Poids à la naissance en fonction de l’âge gestationnel.
Exemple – Âge gestationnel et poids à la naissance : on peut voir que, globalement, plus le nombre de
semaines d’aménorrhée augmente, plus le poids à la naissance augmente car le nuage de points
dessine une droite. Cela traduit une relation linéaire qui lie nos deux variables.
Deux variables X et Y non ou faiblement corrélées forment plutôt un nuage de points, comme le
montre la figure ci-dessous de gauche :
Pas de corrélation évidente (à gauche) et variables fortement corrélées (à droite).
À l’inverse à droite, deux variables X et Y fortement corrélées selon une relation linéaire forment
un nuage de points qui suit approximativement une droite de même allure que les fonctions affines
vues au lycée (f(x) = ax + b soit ici y = ax + b).

B. Quantification de la relation
1. Définition de la covariance
Soit un couple de variables aléatoires quantitatives X et Y. Nous notons leur moyenne respective
E(X) = µX et E(Y) = µY et leur variance respective σ2X et σ2Y. Nous pouvons ainsi définir la covariance de
X et Y :
𝑐𝑜𝑣(𝑋, 𝑌) = 𝜎𝑋,𝑌 = 𝐸[(𝑋 − 𝜇𝑋 )(𝑌 − 𝜇𝑌 )]
𝛴𝑖 (𝑥𝑖 − 𝜇𝑋 )(𝑦𝑖 − 𝜇𝑌 )
=
𝑛
= 𝑬(𝑿𝒀) − 𝑬(𝑿)𝑬(𝒀)
Si la covariance est positive, les deux variables aléatoires évoluent dans le même sens : lorsque Y
augmente, X augmente également.
Si la covariance est négative, les deux variables aléatoires évoluent en sens opposé : lorsque Y
augmente, X diminue.
2. Propriétés
On a :
▪ 𝑐𝑜𝑣(𝑋, 𝑌) = 𝑐𝑜𝑣(𝑌, 𝑋) ;
▪ 𝑐𝑜𝑣(𝑐𝑌, 𝑋) = 𝑐 𝑐𝑜𝑣(𝑌, 𝑋) = 𝑐 𝑐𝑜𝑣(𝑋, 𝑌), 𝑐 étant une constante ;
▪ 𝑐𝑜𝑣(𝑋, 𝑋) = 𝜎𝑋,𝑋 = 𝜎 2𝑋 ;
▪ 𝑣𝑎𝑟 (𝑋 + 𝑌) = 𝑣𝑎𝑟(𝑋) + 𝑣𝑎𝑟(𝑌) + 2 𝑐𝑜𝑣(𝑋, 𝑌) ;
▪ X et Y indépendantes impliquent : 𝐸(𝑋𝑌) = 𝐸(𝑋)𝐸(𝑌).
L’inverse n’est pas nécessairement vrai ! On ne peut donc rien conclure sur l’indépendance de
X et Y lorsque l’on trouve que E(XY) = E(X)E(Y). En effet, outre l’indépendance des variables, cela
peut aussi traduire une corrélation de forme particulière.
Exemple – Âge gestationnel et poids à la naissance :
Âge gestationnel en fonction du poids de naissance.
Variance et covariance :
36 + 37 + 38 + 39 + 40
𝜇𝐴𝐺 = = 38 𝑆𝐴
5
2589 + 2868 + 3133 + 3360 + 3480
𝜇𝑃𝑁 = = 3086 𝑔
5
(36-38)(2589-3086)+(37-38)(2868-3086)+(38-38)(3133-3086)+(39-38)(3360-3086)+(40-38)(3480-3086)
σAG,PN =
5
𝜎𝐴𝐺,𝑃𝑁 = 454,8 (𝑔. 𝑆𝐴)
Donc en moyenne, quand l’âge gestationnel augmente, le poids de naissance augmente. Par
contre, avec la covariance donnée ainsi, sans référentiel, on ne connait pas la force de la corrélation.
93 Année 2022 – 2023

C. Coefficient de corrélation
1. Coefficient de corrélation de Pearson

𝜎𝑋,𝑌
Nous le notons ρX,Y et le calculons avec la formule suivante : 𝜌𝑋,𝑌 =
𝜎𝑋 𝜎𝑌
C’est la force avec laquelle les X et Y évoluent ensemble, ramenée à la dispersion propre de
chacune des variables. Ce coefficient nous permet de quantifier la relation de X et Y. Il est compris
entre -1 et 1 et plus il s’éloigne de 0, plus la relation est importante. L’estimateur de ρX,Y est :
𝛴𝑥𝑖 𝑦𝑖 𝛴𝑥𝑖 𝛴𝑦𝑖
𝑛 − 𝑛²
𝑟 = 𝑋,𝑌
2 (𝛴𝑥𝑖 )2 𝛴𝑦 2 𝑖 (𝛴𝑦𝑖 )²
√(𝛴𝑥 𝑖
− ) × ( − )
𝑛 𝑛² 𝑛 𝑛²
𝛴𝑥𝑖 𝛴𝑦𝑖
𝛴𝑥𝑖 𝑦𝑖 −
𝑟𝑋,𝑌 = 𝑛
(𝛴𝑥𝑖 )2 (𝛴𝑦𝑖 )²
√(𝛴𝑥 2 𝑖 − 2
𝑛 ) × (𝛴𝑦 𝑖 − 𝑛 )
Propriétés :
▪ −1 ≤ 𝜌𝑋,𝑌 ≤ 1 ;
▪ 𝜌𝑋,𝑌 = 𝜌𝑌,𝑋 ;
▪ Le signe de 𝜌𝑋,𝑌 est le signe de 𝜎𝑋,𝑌 ;
▪ Ce coefficient n’a pas d’unité ;
▪ Si X et Y indépendantes alors 𝜌𝑋,𝑌 = 0.
Cas particulier – Si X et Y ~ N, alors ρX,Y = 0 : donc cela implique que X et Y soient indépendantes.
2. Test du coefficient de corrélation linéaire

Hypothèses
▪ (X,Y) ~ N2 ;
▪ Ou ① Y ~ N avec σ2Y constante ∀𝑥 et vice-versa ;
Ou ② relation linéaire entre X et Y.
Nous allons maintenant chercher à savoir si notre estimation du coefficient de corrélation

s’éloigne significativement de 0 : si c’est le cas, on peut considérer que nos variables sont corrélées.
Statistique de test (paramétrique)

Soient :
▪ H0 : ρ = 0 ;
▪ H1 : ρ ≠ 0.
r−𝜌 r 1−𝑟²
Sous 𝐻0 , t = = ∼ 𝑡𝑛−2𝑑𝑑𝑙 avec 𝜎²𝜌 estimé par 𝑆²𝜌 = 𝑛−2
.
√𝜎²𝜌 √𝜎²𝜌
𝒓√𝒏−𝟐
𝒕= → 𝒕𝒏−𝟐𝒅𝒅𝒍,𝜶
√𝟏−𝒓²
▪ |𝑡| ≥ 𝑡𝑠𝑒𝑢𝑖𝑙 𝑛−2𝑑𝑑𝑙,𝛼  nous rejetons H0 ;

▪ |𝑡| < 𝑡𝑠𝑒𝑢𝑖𝑙 𝑛−2𝑑𝑑𝑙,𝛼  nous ne pouvons pas rejeter H0 .

Applications (âge gestationnel et poids à la naissance)
𝑠²𝑋 = 2 et 𝑠²𝑌 = 105410,8

𝑛=5
454,8
𝑟= = 0,99
√2 × 105410,8
Test :
Soient H0 : ρ = 0 et H1 : ρ ≠ 0.
0,99 × √5 − 2
𝑡= = 12,16
√1 − 0,99²
C’est un test à 3 ddl, au risque α = 0,05.
Lecture dans la table de la loi de Student

𝛼 𝛼
𝑃(|𝑇| ≥ 𝑡𝑠𝑒𝑢𝑖𝑙,𝑛−2𝑑𝑑𝑙 ) = 𝛼 ⇔ 𝑃(𝑇 ≥ 𝑡𝑠𝑒𝑢𝑖𝑙,𝑛−2𝑑𝑑𝑙 ) = ou 𝑃(𝑇 ≤ −𝑡𝑠𝑒𝑢𝑖𝑙,𝑛−2𝑑𝑑𝑙 ) =
2 2
Localisation des probabilités sur la courbe (à gauche) et lecture de la table de la loi de Student (à droite).
Avec 3 ddl, le seuil de rejet de H0 est égal à 3,18 pour un risque consenti α = 5 %. Or, t = 12,16
et 12,16 > 3,18 ; nous rejetons donc l’hypothèse nulle et nous concluons à une dépendance entre
l’âge gestationnel et le poids à la naissance. Attention aux conditions de validité et à la robustesse
du test !
Remarque – Précisions de 2019 sur le signe du 𝑟𝑋,𝑌 :

• Lorsque le test est bilatéral (plupart des cas), on prend la valeur absolue du r ;
• Lorsque le test est unilatéral (rare), le r peut être négatif ;
Quel que soit le signe du 𝒓𝑿,𝒀, lorsqu'on cherche dans la table de Student, on prendra le t
positif.
3. Test non paramétrique de Spearman

Le test non paramétrique ne comprend pas d’hypothèses sur la distribution de (X,Y). Les valeurs
de X sont rangées dans l’ordre croissant avec des rangs ri de 1 à n.
C’est le même fonctionnement pour Y, avec des rangs si de 1 à n. Les ex-æquo prennent leur rang
moyen. Nous avons ainsi des couples de rangs (ri, si), (i ϵ 1, …, n).
95 Année 2022 – 2023

Statistique de test : La formule du coefficient de Pearson → ρs. Nous avons l’approximation de ρs

par rs :
▪ 𝑑𝑖 = 𝑟𝑖 - 𝑠𝑖 ;
6𝛴 𝑑2
▪ 𝑟𝑆 = 1 - 𝑛(𝑛2𝑖 −1)
𝑖
;
▪ Elle est d’autant meilleure qu’il y a peu d’ex-æquo ;
▪ Pour n ≤ 10, on consulte la table de Spearman ;
▪ Pour n > 10, sous H0, ρs = 0.
|𝑟𝑆 − 𝜌𝑆 | 1 − 𝑟 2𝑆
𝑡= ∼ 𝑡𝑛−2𝑑𝑑𝑙 avec 𝜎𝑟 estimé par 𝑆𝑟 = √
𝜎𝑟 𝑛−2
II. Régression
A. Introduction
Exemple de courbe de régression, âge gestationnel et poids à la naissance.
B. Régression linéaire
1. Définition
Régression linéaire simple : on considère deux variables aléatoires X et Y. L’une est à expliquer,
c’est la variable dépendante Y, l’autre est explicative, c’est la variable indépendante X. La droite
décrivant les variations de Y en fonction de X correspond à la droite de régression de Y en X. Le
diagramme de dispersion, ou la courbe empirique de régression, a une forme générale
approximativement linéaire. En effet, la droite de régression linéaire est la droite qui s’ajuste le mieux
aux données.

Historique – Expérience de Francis Galton qui étudiait la taille des enfants à l’âge adulte par rapport à
la taille de leurs parents. Il observe alors que quand les enfants sont très grands, les parents ont
tendance à être un peu plus petits que les enfants, et quand les enfants sont petits, les parents ont
tendance à être grands.
Cela amène la notion de régression vers la moyenne. La tendance fait que de génération en
génération, les enfants ne sont pas de plus en plus grands lorsque les parents sont grands. Il y a un
phénomène de normalisation et de régression vers des valeurs centrales des tailles des enfants par
rapport à des tailles des parents.
Droites de régression et empirique.
2. Équation
Principe :
▪ Y = f(X) + 𝜖 ;
▪ Y = 𝛽0 + 𝛽1 .X + 𝜖 ;
▪ 𝑦𝑖 = 𝑏0 + 𝑏1 .𝑥𝑖 + 𝑒𝑖 → où 𝑏0 estime 𝛽0 et 𝑏1 estime 𝛽1 ;
▪ 𝑒𝑖 ∼ 𝑁 iid ;
▪ 𝑒𝑖 = 𝑦𝑖 – (𝑏0 + 𝑏1 .𝑥𝑖 ).
Remarque – Vous pouvez

encore une fois faire le lien avec
les fonctions affines vues au
lycée : ici, b0 est l’ordonnée à
l’origine et b1 est le coefficient
directeur de la droite. Ainsi, le
signe de b1 vous donne le sens
de la relation : avec b1 positif,
quand X augmente, Y
augmente aussi, avec b1
négatif, quand X augmente, Y
diminue.
97 Année 2022 – 2023

3. Méthode des Moindres Carrés Ordinaires

Principe
Cette méthode a pour but de minimiser les écarts de 𝑒𝑖 et d’éviter que les écarts positifs et
négatifs ne se compensent.
Ainsi :
𝑛 𝑛
𝐸= ∑ 𝑒𝑖2 = ∑(𝑦𝑖 − 𝑏0 − 𝑏1 . 𝑥𝑖 )2
𝑖=1 𝑖=1
Résolution
Une solution unique :
→ (𝑦̂𝑖 − ̅
Y) = 𝑏1 (𝑥𝑖 − ̅
X)
Remarque – Quelques précisions :

• La droite passe par le point moyen (𝑋̅,𝑌̅) ;
• b0 représente la valeur moyenne de Y quand X est centré sur sa moyenne (c’est l’ordonnée à
l’origine, valeur donnée quand X = 0) ;
• b1 correspond à la variation moyenne de Y par unité d’augmentation de X. En l’absence de relation
entre X et Y, la covariance est nulle, donc b1 = 0 ;
• 𝑒𝑖 correspond à l’erreur commise en résumant 𝑦𝑖 par la valeur prédite par le modèle 𝑦̂𝑖 en 𝑥𝑖 .
Exemple : âge gestationnel et poids à la naissance
La droite de régression s’écrit :

𝑃𝑁 = 𝑏0 + 𝑏1 . 𝐴𝐺 + 𝜖
Ainsi :
𝜎𝑋,𝑌 4204.08
𝑏1 = = = 174,14
𝜎 2𝑋 24.14
̅ − 𝑏1 . X
𝑏0 = Y ̅ = 1867,72 − 174,14 × 32 = −3704,74
Un fœtus prend en moyenne 174,14 g de poids par semaine d’aménorrhée supplémentaire. Le

poids moyen estimé à 0 SA est de -3704,74 g. L’ordonnée à l’origine n’a pas de sens ici !

C. Relation Régression-Corrélation
1. Coefficients de régression et de corrélation
Note : si σX = σY, alors rX,Y = b1.
2. Informations
L’information est apportée par X pour expliquer Y. L’objectif d’un modèle est d’expliquer au
maximum les données observées Y à partir de X. Les valeurs de Y représentent une quantité
d’informations que nous cherchons à expliquer à l’aide de X. Deux cas de figure :
▪ Si Y ne dépend pas de X alors b1 = 0, Y = b0 = Y ̅, la droite de régression est horizontale
et X n’explique rien de Y ;
▪ Si Y dépend parfaitement linéairement de X, les points Y s’alignent parfaitement sur
la droite, idéalement tous les ei = 0 ∀i, X explique tout, nous pouvons prédire Y sans
erreur.
Le plus souvent, X exprime en partie l’information contenue dans Y. On quantifie d’ailleurs cette
partie expliquée par X : X explique r² de la variabilité de Y, avec r l’estimation du coefficient de
régression.
3. Quantification de l’information
Nous allons décomposer l’équation. L’information à expliquer est l’écart entre les 𝑦𝑖 observés et
𝑌̅, la valeur moyenne de Y.
▪ Pour une observation i : (𝑦𝑖 − 𝑌̅) = (𝑦𝑖 − 𝑦̂𝑖 )2 + (𝑦̂𝑖 − 𝑌̅)2 ;
▪ Nous pouvons montrer que : (𝑦𝑖 − 𝑌̅)2 = (𝑦𝑖 − 𝑦̂𝑖 )2 + (𝑦̂𝑖 − 𝑌̅)2 ;
▪ Pour tous les yi : ∑𝑖(𝑦𝑖 − 𝑌̅)2 = ∑𝑖(𝑦𝑖 − 𝑦̂𝑖 )2 + ∑𝑖(𝑦̂𝑖 − 𝑌̅)2 ;
▪ Soit 𝑆𝐶𝐸𝑇 = 𝑆𝐶𝐸𝑅 + 𝑆𝐶𝐸𝐸 avec SCE = Somme des Carrés des Écarts et avec les trois
lettres : T = totale / R = résiduelle / E = expliquée.
4. Coefficients de détermination
Les coefficients de détermination.
Nous répondons ici à la question : « Qu’est-ce que X explique sur la variabilité de Y ? ».
99 Année 2022 – 2023

5. Tests
La relation entre Y et X est-elle significative ?
Soient H0 : ß1 = 0 et H1 : ß1 ≠ 0 :
𝑠𝑦2 2
𝑏1 − 0 √𝑠𝑥2 − 𝑏1
→𝑡= ~𝑡𝑛−2 𝑑𝑑𝑙 où 𝜎𝑏1 est estimé par 𝑆𝑏1 =
𝜎𝑏1 𝑛−2
▪ |𝑡| ≥ 𝑡𝑠𝑒𝑢𝑖𝑙 𝑛−2𝑑𝑑𝑙,𝛼  Nous rejetons H0 ;
▪ |𝑡| < 𝑡𝑠𝑒𝑢𝑖𝑙 𝑛−2𝑑𝑑𝑙,𝛼  Nous ne pouvons rejeter H0 .
Tester b1 équivaut à tester rx,y.
La relation entre Y et X est-elle réellement linéaire ?
Nous prenons en compte la validité de la droite de régression. Si la relation est linéaire, les résidus
𝑒𝑖 ne contiennent plus d’information structurée ⇒ exploration des résidus :
▪ Normalité des résidus : les tests sont relatifs à l’hypothèse ei ∼ Niid : Kolmogorov-
Smirnov, Shapiro-Wilks, etc. Ils sont peu puissants, c’est une procédure empirique qui
utilise les graphiques. La droite de Henry correspond à l’opposition des quantiles
théoriques de la loi normale versus les quantiles de la distribution des résidus estimée
sur les données ;
▪ Homoscédasticité des résidus : c’est la répartition homogène des résidus tout le long
de la courbe, indépendante des valeurs prédites. Les tests sont formels. L’approche
𝑒
est empirique graphique, les résidus sont standardisés (𝑠 𝑖 ) en fonction des 𝑦̂𝑖 ;
𝑒𝑖
Remarque – Dans notre exemple, les valeurs des poids à la naissance sont moins dispersées lorsque les
âges gestationnels sont petits.
À l’inverse, elles sont beaucoup plus dispersées quand les âges gestationnels sont plus grands.
Globalement, on n’est pas dans une situation d’homoscédasticité. En théorie, la régression linéaire
est assez limitée en terme d’utilisation.
▪ Indépendance des résidus : absence de corrélation entre résidus (hors programme).
Exemple : âge gestationnel et poids à la naissance
Significativité de la relation :
𝑏1 = 174,14 et 𝑠𝑏1 = 4,71
Sous H0 :
174,14
𝑡= = 37,0
4,71
𝑡𝑠𝑒𝑢𝑖𝑙 200 𝑑𝑑𝑙,5 % = 1,97 < 𝑡𝑠𝑒𝑢𝑖𝑙 168 𝑑𝑑𝑙,5 % < 𝑡𝑠𝑒𝑢𝑖𝑙 120 𝑑𝑑𝑙,5 % = 1,98
|𝑡| > 1.98 > 𝑡𝑠𝑒𝑢𝑖𝑙 168𝑑𝑑𝑙,5 %
→ Au risque 5 %, nous rejetons donc H0. Le poids à la naissance dépend de l’âge gestationnel.

Lecture dans la table de Student.
Droite de Henry (à gauche) et résidus standardisés (à droite).
6. Analyse de variance
∑(𝑦𝑖 − 𝑦̅)2 = ∑(𝑦̂𝑖 − 𝑦̅)2 + ∑(𝑦𝑖 − 𝑦̂𝑖 )2

𝑖 𝑖 𝑖
𝑆𝐶𝐸𝑇 = 𝑆𝐶𝐸𝐸 + 𝑆𝐶𝐸𝑅

Variance totale = variance
intergroupe de valeurs de X + variance
intra-groupe de valeurs de X.
Ainsi la régression linéaire ≡

comparaison de variances (ANOVA).
L’ANOVA est une comparaison de

moyennes.
101 Année 2022 – 2023

Description du graphique :
On peut avoir des différences de valeurs de baisse de la pression artérielle (PA) à une dose de
médicaments donnée en fonction des individus. Cette dispersion possible à dose de médicaments
donnée permet de constituer globalement une variance intra-groupe. C’est donc de l’ordre de l’erreur
qu’il reste une fois que l’on a résumé la baisse de la PA en fonction de la dose.
Il existe aussi une variance inter-groupe : c’est l’écart entre les différentes valeurs qui existent,
prédites par différents modèles à chaque valeur de X posé.
Analyse de variance.
𝑆𝑀
Test F : 𝐹 = ∼ 𝐹(1,𝑁−2)𝑑𝑑𝑙
𝑆𝑅
III. L’essentiel
À retenir :
▪ Le coefficient de corrélation est une variable aléatoire. Le test du coefficient de
corrélation de Pearson (qui est paramétrique) ou de Spearman (qui est non
paramétrique) ∼ 𝑡𝑛−2𝑑𝑑𝑙 ;
▪ Régression linéaire ≡ ANOVA. Test des paramètres de régression, examen des
résidus ;
𝜎 𝜎
▪ 𝜌𝑋,𝑌 = 𝑋,𝑌 = 𝑏1 𝑋 ;
𝜎𝑋 .𝜎𝑌 𝜎𝑌
𝑟√𝑛−2
▪ 𝑡= ;
√1−𝑟²
▪ 𝑌 = 𝛽0 + 𝛽1 . 𝑋 ;
𝜎 𝜎
▪ 𝛽1 = 𝜎𝑋𝑌² = 𝜌. 𝜎𝑌 ;
𝑋 𝑋
▪ 𝑏0 = 𝑌̅ − 𝑏1 × 𝑋̅.
À comprendre :
▪ La corrélation quantifie la force de la relation entre X et Y : 𝑟𝑋𝑌 . C'est la mesure de la
relation symétrique ;
▪ La régression estime les paramètres de l'équation permettant de décrire la forme
fonctionnelle de la relation entre une variable dépendante (Y) et une variable
explicative (X). C'est une mesure de la relation asymétrique.

IV. Exercice d’entrainement

Le Père Noël a vu sa popularité baisser. Inquiet, il a décidé de se faire une auto-publicité et a
distribué des bonnets de Noël dans de nombreux supermarchés. Il mène alors une petite étude sur la
corrélation entre le nombre de bonnets distribués dans une ville, modélisé par la variable X, qui suit la
loi normale N(100;50), et sa popularité dans cette même ville, en pourcentage, modélisée par la
variable Y, qui suit la loi normale N(40;25).
Données : 𝜎𝑋,𝑌 = 1000 n=102 alpha = 1 %
A. Le coefficient de Pearson vaut 0,8.
B. Le test du coefficient de Pearson est significatif.
C. b0 vaut 0.
D. b1 vaut 0,6.
E. Y explique 64 % de la variabilité de X.
103 Année 2022 – 2023

A VRAI
𝜎𝑋,𝑌 1000 1000 100 4
𝜌𝑋,𝑌 = = = = = = 0,8
𝜎𝑋 . 𝜎𝑌 50.25 1250 125 5
B VRAI X et Y suivent une loi Normale donc les conditions sont remplies pour utiliser un test
paramétrique de Pearson :
𝑟√𝑛 − 2
𝑡=
√1 − 𝑟²
0,8√102 − 2 0,8 × 10 8 8 80
𝑡= = = = = = 13,3
√1 − 0,8² √1 − 0,64 √0,36 0,6 6
La statistique du test vaut donc 13,3.
On cherche la valeur seuil dans la table de Student, à n-2 ddl.
La valeur seuil vaut donc 2,6.
Notre valeur test vaut 13,3.
Soit : valeur test > valeur seuil => nous pouvons rejeter l’hypothèse nulle, le test est significatif.
L’item est VRAI.
C VRAI
𝑏0 = 𝑌̅ − 𝑏1 × 𝑋̅
On a donc besoin de calculer b1 :
𝜎𝑋𝑌 𝜎
▪ 𝑏1 = 𝜎𝑋 ²
= 𝜌. 𝜎𝑌
𝑋
▪ soit :
𝜎𝑋𝑌 1000 1000 10 2
𝑏1 = = = = = = 0,4
𝜎𝑋 ² 50² 2500 25 5
Donc 𝑏1 vaut 0,4.
𝜎 25 1
▪ Ou encore : 𝑏1 = 𝜌. 𝜎𝑌 = 0,8. 50 = 0,8. 2 = 0,4
𝑋
D FAUX Voir correction item C.
E FAUX X explique r² de la variabilité de Y. Soit le nombre de bonnets explique 64% de la variabilité de

la popularité du père Noël.

Essais cliniques
Essais cliniques
Rédigé à partir du cours de la Pr. MAUCORT-BOULCH
I. Introduction
A. Historique
▪ Ancien Testament (Daniel I : 12-15) ;
▪ 980-1087 – Avicenne, dans son ouvrage le Canon de la Médecine, décrit les sept
règles d’évaluation de l’effet d’une drogue sur une maladie ;
▪ 1747 – James Lind soumet 6 groupes de marins atteints de scorbut à des traitements
différents ;
▪ 1948 – Sir Bradford Hill (statisticien) travaille sur la streptomycine et la tuberculose
pulmonaire.
B. Définitions
Essai clinique = expérimentation planifiée dessinée pour identifier l’intervention appropriée à de
futurs patients présentant une condition médicale donnée, et dans laquelle les résultats d’un groupe
de patients traités par l’intervention évaluée sont comparés à ceux d’un groupe de patients traités par
une intervention contrôle, les 2 groupes étant inclus, traités et suivis durant la même période de
temps.
Expérimentation : vise à estimer l'effet :

▪ D’un traitement médicamenteux ou chirurgical ;
▪ D’un traitement non médicamenteux, prise en charge ;
▪ Des stratégies thérapeutiques et d’actions en santé ;
▪ D’examens diagnostiques.
→ Une expérimentation appartient à la recherche clinique, elle aboutit à une intervention.
Clinique (définition différente en fonction du cadre) : pour un essai clinique, elle correspond à
une expérience qui évalue un traitement sur l’Homme. Par la suite, elle va permettre d’expliquer l’effet
d’un traitement (‘explicatifs’), ou de prendre une décision clinique (‘gestion’). Chez l’Homme, il faut
prendre en compte la grande diversité et les fluctuations inter-individuelles, c’est pourquoi lors de
comparaison de groupes (bras) d’intervention, il faut faire attention à ces différences.
C. Démarche
Lors d’un essai clinique, il y a une démarche précise à respecter. L’objectif de l’essai est de
comparer un effet dans différents groupes d’intervention. Pour cela, il faut un contexte scientifique.
Une question est posée pour dégager une étude avec un schéma adapté à la question. Des tests
d’hypothèses visant à comparer les grandeurs évaluées dans les 2 bras d’étude vont être mis en place.
La comparaison de 2 interventions se réalise toujours en présence d’un groupe référent, groupe

« contrôle ». Il faut que le résultat soit imputable à la seule intervention, il ne faut pas que les
fluctuations d’échantillonnage faussent les résultats. Une analyse statistique, une interprétation et une
conclusion sont par la suite nécessaires, tout comme la communication des conclusions de l’étude.
105 Année 2022 – 2023

D. Principaux acteurs
Il y a :
▪ Investigateur : c’est le médecin surveillant la réalisation de l’étude. Le médecin
responsable de l’étude est l’investigateur principal. L’investigateur coordinateur
coordonne la réalisation de l’essai dans les essais multicentriques ;
▪ Promoteur : c’est une personne physique ou morale prenant l’initiative de la
réalisation d’une étude ;
▪ Biostatisticien : il va participer à l’écriture du protocole, réaliser les analyses et aider
à l’interprétation des résultats.
II. Protocole
A. Questions posées
1. Question clinique
La pertinence de la question clinique est déterminée par une revue exhaustive de la littérature
scientifique (rapports de cas, séries de cas, études observationnelles, essais contrôlés randomisés
validés ou non, méta-analyse). La confirmation d’un résultat d’un essai antérieur est possible en
enlevant au maximum les biais possibles ou la réalisation d’un essai innovant est nécessaire si aucune
étude n’a été faite.
Un essai ne peut répondre qu’à une unique question.
Cette question va conditionner le schéma d’étude, le plan expérimental qui est consigné dans un
protocole.
Remarque – Exemples de questions :

• Est-ce que la fibrinolyse pré-hospitalière est meilleure que l’angioplastie primaire dans la prise en
charge de l’infarctus du myocarde en phase aiguë (étude CAPTIM) ?
• La caféine améliore-t-elle la prise en charge des apnées du prématuré en termes de survie, retard
mental ou déficit sensoriel ?
• La radiothérapie étendue améliore-t-elle la survie des patients atteints de tumeur cérébrale en
post-opératoire par rapport à la radiothérapie limitée ?
2. Critères de jugement
Il faut un unique critère de jugement principal, possédant une pertinence clinique. Il est défini
précisément, sans ambiguïté.
Nous allons développer les points suivants :

• Critère(s) qui le compose(nt) ;
• Terme au bout duquel il est recueilli ;
• Modalités d’évaluation, standardisation.
Son évaluation doit être facile, fiable (préalablement évaluée). Nous allons devoir former les
cliniciens afin d’assurer un même niveau de compétences. Le critère de jugement porte le résultat du
test et sera à l’origine de la conclusion sur le traitement testé.

Essais cliniques
Exemples – Les critères de jugement :

• Décès, ré-infarctus non fatal, accident vasculaire cérébral non fatal à 30 jours : Critère
composite : si le patient présente un de ces trois critères, il est en situation d’échec ;
• Décès, paralysie cérébrale, retard mental (score <85 sur l’échelle de Bayley), surdité ou cécité à
un âge corrigé de 18 à 21 mois : critère composite ;
• Décès : critère simple.
B. Les phases de développement
Phase Détails
L'étude de la molécule se réalise sur l'animal.

Préclinique
Nous allons déterminer la DL50 (dose létale 50).
C'est l'étude de la tolérance, nous allons réaliser une escalade de doses

c'est-à-dire que nous partons de la dose la plus basse pour atteindre la dose
la plus forte tolérée, et des effets secondaires des volontaires sains, souvent
Phase I
avec une rémunération. L'étude de la pharmacocinétique et de la
pharmacodynamie est effectuée lors de cette phase. La phase I est une étude
de petite taille, de 20 à 80 participants.
Nous allons déterminer la dose optimale et réaliser une étude des effets
secondaires. L'identification de la population de patients pouvant bénéficier
Phase II
du traitement est réalisée durant cette phase. Les études sont de tailles
modérées, de 100 à 200 participants.
L'étude d'efficacité est réalisée. La comparaison entre traitement testé

et soit un placebo, soit un traitement de référence, va permettre de mesurer
Phase III
l'efficacité de la molécule. L'AMM est possiblement obtenue à l'issue de la
phase III. L'étude est de grande taille.
Elle est réalisée après l'obtention de l'AMM (elle est post-AMM). C'est la
Phase IV phase de pharmacovigilance, où nous recherchons les effets secondaires
rares, les complications tardives.
C. Échantillon
1. Pourquoi réaliser une randomisation ?

Lors d’un essai comparatif, le but est de démontrer soit l’efficacité d’un nouveau traitement, soit
sa supériorité par rapport à un traitement de référence.
On souhaite que le résultat soit imputable à la seule intervention, c’est-à-dire que le résultat ne
soit pas dû aux fluctuations d’échantillonnage.
Seul le traitement doit différencier les deux groupes inclus dans l’essai.
Pour que cela soit possible, il faut une distribution au hasard des caractéristiques (observables ou
non) dans les groupes comparés.
107 Année 2022 – 2023

Si l’intervenant choisit de manière volontaire l’allocation du patient à l’un des deux bras de
traitement, cela peut entraîner des biais. C’est pourquoi l’ambivalence des investigateurs et des
patients est nécessaire.
L’allocation aléatoire (= randomisation) est le seul moyen de

rendre les groupes comparables en tout point.
Des tests d’hypothèses avec H0 d’absence de différence entre les groupes sont utilisés.
Chaque patient a la même chance de bénéficier du meilleur traitement. La randomisation assure

une répartition équilibrée des caractéristiques en moyenne quand n tend vers l’infini.
Le hasard peut introduire des déséquilibres, en particulier lorsque n n’est pas très grand. Ceci
pose problème si le déséquilibre touche un facteur de confusion. Pour rétablir une comparaison, il faut
un équilibre entre les bras au sein de chaque catégorie d’un facteur de confusion.
2. Principes de la randomisation
Nous pouvons utiliser une table de nombres au hasard (voir exemple ci-dessous). La liste est
établie avant le début de l’essai. L’équilibre des effectifs entre les groupes est nécessaire. L’allocation
du bras se réalise après vérification de la possible inclusion du patient.
Une procédure centralisée est préférable. Les investigateurs contactent le centre en charge de la
randomisation pour chaque nouveau patient à inclure (téléphone, fax, internet).
Exemple de table de nombres aléatoires :

▪ Création d’une table de nombres aléatoires (entre 0 et 99 ici). Chaque nombre
possède la même probabilité d’être tiré au sort ;
▪ Choix d’un sens de lecture (par exemple, de gauche à droite et de haut en bas) ;
▪ Définition d’une règle a priori relative à la table : les nombres entre 0 et 49 alloueront
le patient au bras A et les nombres entre 50 et 99 alloueront le patient au bras B.
Table de nombre aléatoire.
La séquence est donc ici BABBBBABABABBAAABAAA. L’équilibre est, en moyenne, respecté entre
les deux bras.
C’est-à-dire que le premier patient sera attribué au bras B, le second au bras A, le troisième au
bras B et ainsi de suite.

Essais cliniques
Il existe plusieurs randomisations possibles :

▪ Stratification : élaboration d'une liste de randomisation au sein de chaque catégorie
variable pour laquelle nous souhaitons un équilibre absolu. Il en résulte un équilibre
entre les bras au sein de chaque strate. Dans les essais multicentriques, il est
recommandé de stratifier sur le centre pour tenir compte du recrutement différent
possible entre les centres. Il ne faut pas plus de deux ou trois variables de
stratification ;
▪ Randomisation par bloc : elle consiste en un tirage de nombres aléatoires par un
bloc puis en l’ordonnancement des blocs. Si nous utilisons la stratification en
parallèle, nous allons randomiser par bloc en plus, au sein de chaque strate. Il faut un
équilibre au niveau des effectifs entre les bras tous les m sujets inclus. Des blocs de 4
seront donc de la forme AABB, BBAA, ABAB, BABA, ABBA, BAAB ;
▪ Randomisation adaptative : à chaque nouvelle inclusion, nous allons tenir compte
de l’équilibre de chaque bras. Nous allons utiliser la probabilité d’allocation dans un
groupe en fonction de la distribution du facteur de confusion dans les bras. C’est-à-
dire qu’il y a inclusion de chaque patient dans le bras où il apporte le moins de
déséquilibre.
3. L’insu
L’insu correspond à l’aveugle. L’évaluation du critère de jugement principal en aveugle permet
d’éviter les biais d’information.
L’insu évite les comportements différents des patients et des médecins. En effet l’insu correspond
à la non-connaissance par le patient ou le médecin du traitement reçu, ils ne savent si c’est le bras A
ou le bras B qui reçoit le traitement ou le placebo :
▪ Double aveugle : patients et médecins ignorent le traitement reçu ;
▪ Simple aveugle : seuls les patients ignorent le traitement reçu.
Ainsi, nous allons pouvoir conserver la comparabilité des groupes jusqu’au bout de l’essai.
Une attention particulière doit être apportée aux traitements (forme galénique, goût…), il ne faut
pas que le placebo soit reconnaissable.
Ce n’est pas toujours possible et justifié d’avoir un essai avec insu, lors de traitements
chirurgicaux, de traitements avec des effets secondaires caractéristiques, des essais en cancérologie
(nous ne pouvons pas mettre un placebo en cancérologie par exemple).
Si l’insu est impossible, on maintient la comparabilité des groupes par réajustement des
traitements selon des procédures standardisées.
4. Différents schémas de comparaison
Groupes parallèles : deux branches indépendantes.
109 Année 2022 – 2023

Cross-over : deux branches interchangées.
Plan factoriel : combinaison de plusieurs traitements.
Remarque – Dans le plan factoriel, le patient reçoit une combinaison des 2 traitements, on peut tester
s’il y a une synergie ou un antagonisme entre les deux molécules.
Lors d’un essai contrôlé :
Il faut choisir soit un placebo (substance inerte sur le plan pharmacologique), soit un traitement
de référence. Nous utilisons généralement un placebo en l’absence de traitement de référence
recommandé, il y a bien sûr des exceptions, en cancérologie par exemple, où nous ne donnons pas de
placebo lorsqu’un traitement existe déjà.
La définition précise des interventions pour une standardisation, en particulier dans les essais
multicentriques, est une étape indispensable. Par exemple, pour les traitements, nous allons définir la
molécule, la forme galénique, la durée du traitement, la posologie, les horaires de prise et le mode de
conservation.
Lors du choix du groupe contrôle, nous pouvons utiliser un groupe historique ou un groupe
contemporain. Lors de l’utilisation d’un groupe historique, certains points peuvent fausser les résultats
de l’étude. Les patients d’une époque ne sont pas comparables à ceux d’une autre époque, il y a une
évolution dans le temps des modes de prise en charge d’une maladie, de la maladie elle-même. De
nombreux facteurs autres que le traitement lui-même peuvent venir fausser son évaluation. Le groupe
contemporain évite les biais liés aux différences de recrutement dans le temps.
D. Population de l’étude
Deux notions sont à distinguer lors d'un essai clinique : la population et l'échantillon. Nous
cherchons à améliorer la prise en charge thérapeutique d'une population, c'est la population cible.
Une étude exhaustive est impossible étant donné qu'il est impensable de faire l'essai sur
l'ensemble de la population. C'est pourquoi nous allons réaliser l'essai sur une partie seulement de la
population : c'est l'échantillon. L'échantillon est tiré d'une population source.
Population cible  Population source  Échantillon.
L’objectif d’un essai est à l’échelle d’une population. Pour cela, nous allons utiliser l’inférence.
L’inférence permet aux résultats observés d’être vrais pour la population dont est issu l’échantillon
(population source).

Essais cliniques
L’extrapolation des résultats à la population pour laquelle nous souhaitons au final appliquer le
traitement (population cible) est nécessaire. Il faut que l’échantillon soit représentatif de la population
source.
Il existe des critères d’éligibilité pour inclure ou exclure certains patients de l’essai clinique :
▪ Critères d'inclusion : nous regardons les caractéristiques de la population cible
 généralisation des résultats ;
▪ Critères d'exclusion (ou de non-inclusion) : ils limitent l'inclusion en définissant des
caractéristiques qui restreignent l'intérêt du traitement, son efficacité, une balance
bénéfice-risque défavorable. Ils sont fondamentaux pour la sécurité de l'essai.
E. Taille de l’étude
La question clinique doit être traduite en une question statistique. Pour comparer une grandeur
estimée, la réalisation d’un test statistique est nécessaire afin de comparer des fréquences, des
moyennes, des survies…
Voici des rappels concernant les tests statistiques :
1. Hypothèse alternative H1
C’est la différence minimale critique : il est nécessaire de définir une hypothèse H1 précise
correspondant à la différence minimale que l’on s’attend à observer. Nous allons utiliser des
informations dans la littérature pour déterminer H1. Il faut par la même occasion une définition d’un
risque ß ou d’une puissance (1 - ß).
2. Risques consentis
Il y a :
▪ α = Pr(∣Z∣ ≥ seuil ∣ H0 vraie) choisi a priori  degré de signification p = Pr(∣Z∣ > ∣z0∣) ;
▪ ß = Pr(∣Z∣ < seuil ∣ H0 fausse).
Illustrations des risques α et β.
Réalité
H0 vraie H0 fausse
Décision
H0 non rejetée Correct β
H0 rejetée α 1–β
111 Année 2022 – 2023

Rejet et erreurs.
3. Variable quantitative continue

Test réalisé : soient deux bras E (pour expérimental) et R (pour référence). On note H0 : µE – µR = 0
et H1 : µE – µR ≠ 0 :
|𝑀𝐸 − 𝑀𝑅 |
𝑍=
𝜎2 𝜎2
√ 𝐸+ 𝑅
𝑛𝐸 𝑛𝑅
Si σE = σR = σ et nE = nR = n, alors :
|𝑀𝐸 − 𝑀𝑅 |
𝑍=
2
√2𝜎
𝑛
4. Nombre de sujets nécessaires

Différence d’efficacité minimale cliniquement pertinente δ. C’est pour cette différence que nous
fixons un risque ß :
|𝛿|
𝑍1−𝛼/2 + 𝑍1−ß =
2
√2𝜎
𝑛
D’où :
2𝜎 2
𝑛 = 2 (𝑧1−𝛼/2 + 𝑧1−𝛽 )2
𝛿
NDLR – Cette formule n’est plus au programme depuis l’année 2020-2021, cependant nous avons
préféré la laisser pour permettre une meilleure compréhension à la résolution de certains exercices.
5. Bilan
Récapitulatif.
Autrement dit, on doit augmenter le nombre de sujets lorsqu’on veut peu de risques de se
tromper (α et β faibles), ou lorsqu’on souhaite mettre en évidence un faible écart entre les deux
groupes (σ important et δ faible).

Essais cliniques
III. Conduite et analyse

A. Conduite
La surveillance est très importante dans un essai clinique. Il faut contrôler la qualité des données,
la compliance des patients (cruciale, elle est à estimer et à rapporter) et la qualité du monitorage de
l’essai. Il existe un comité indépendant de surveillance, c’est un comité de validation des évènements.
Il est constitué par un groupe d’experts évaluant la sécurité des patients et l’efficacité du
traitement lors d’analyses intermédiaires. Il peut être amené à recommander l’arrêt de l’essai. Il est
très utile pour des études internationales multicentriques pour lesquelles la surveillance peut s’avérer
complexe.
B. Analyse statistique
1. Données manquantes
Les données manquantes sont à envisager dès le protocole.
Nous observons des perdus de vue  il manque le critère de jugement principal pour certains
participants :
▪ Des perdus de vue de manière indépendante de l’essai, c’est-à-dire pour des motifs
identiques dans les deux bras  biais de sélection non différentiel (perte de
puissance) ;
▪ Des perdus de vue pour une raison liée au traitement  biais de sélection différentiel
(sus ou sous-estimation de l’effet du traitement).
Il existe des méthodes statistiques pour prendre en compte les données manquantes.
Par exemple, nous pouvons utiliser la méthode du biais maximum pour les critères de jugement
dichotomiques. Il faut remplacer les critères de jugement manquants par des succès dans un groupe,
des échecs dans l’autre et analyser puis inversement. Si les conclusions sont concordantes, alors nous
pouvons conclure.
2. Analyse en intention de traiter

Tous les participants à l’étude restent étudiés dans le groupe auquel ils ont été assignés.
Il n’y a aucune exclusion a posteriori. Ceci permet d’assurer le maintien de la comparabilité des
groupes.
Il peut exister un biais d’attrition ce qui entraîne une non-comparabilité des groupes au moment
du recueil du critère de jugement principal. L’exclusion des patients qui n’ont pas commencé le
traitement pour une raison indépendante du bras de randomisation entraîne une analyse en intention
de traiter modifiée. L’exclusion de l’analyse des patients pour lesquels le protocole initial n’est pas
totalement respecté constitue une analyse per-protocole.
3. Analyses statistiques
Les analyses statistiques sont des analyses intermédiaires prévues dès le protocole. Beaucoup
de paramètres sont à prendre en compte : « Flow chart », la description des caractéristiques globales
et par les bras, les données manquantes. Nous allons étudier le risque relatif, la différence de risque,
les taux relatifs (critère de survie) et surtout les intervalles de confiance.
113 Année 2022 – 2023

Le rejet de l’hypothèse H0 ne signifie pas l’acceptation de l’hypothèse H1 utilisée pour le calcul

du nombre de sujets nécessaires.
Le non-rejet de l’hypothèse H0 ne signifie pas l’équivalence d’efficacité.
IV. Réglementation
Il existe de nombreuses lois concernant l’expérimentation humaine en se basant sur les principes
de la Déclaration Universelle des Droits de l’Homme (ONU 1978) : liberté, sécurité, égalité, dignité
humaine.
Nous retrouvons quatre grands principes :

▪ Principe de respect de la personne humaine (consentement) ;
▪ Principe de bienfaisance (balance bénéfices / risques) ;
▪ Principe de justice ;
▪ Principe du respect de la dignité de la science et de ses propres exigences
méthodologiques (Bonnes Pratiques, méthodologie de la recherche).
Différentes lois sont présentes pour encadrer les essais cliniques.

▪ Loi du 20 décembre 1988 – « relative à la protection des personnes qui se prêtent à
des recherches biomédicales » (Loi Huriet-Serusclat) ;
▪ Transposition de la directive européenne 2001/20 – Loi relative à la politique de
santé publique du 9 août 2004.
Il existe un Comité de Protection des Personnes (CPP) pour surveiller l’intérêt des patients inclus
dans les essais cliniques. Il est nécessaire d’avoir une autorisation de l’Agence française de sécurité
sanitaire des produits de santé (Afssaps) ou du Ministre chargé de la santé pour lancer un essai.
La Base européenne EudraCT des essais cliniques permet de voir tous les essais cliniques réalisés
en Europe.
V. L’essentiel
À retenir :
▪ Quatre principes :
- Comparatif ;
- Contrôlé ;
- Randomisé ;
- En aveugle ;
▪ L’hypothèse H1 du calcul du nombre de sujets n’est pas l’hypothèse alternative du
test réalisé, elle n’est pas l’hypothèse en faveur de laquelle se fait la conclusion ;
À comprendre :
▪ Il y a une interaction forte entre les différents acteurs (investigateurs et
biostatisticiens) ;
▪ Tout est consigné dans un protocole ;
▪ Le protocole et le déroulement conditionnent les conclusions.


Rédigé à partir du cours de la Pr. RABILLOUD
I. Introduction
L’épidémiologie est une étude de type observationnelle. Il existe deux schémas d’étude :
▪ L'épidémiologie descriptive ;
▪ L'épidémiologie analytique.
L’épidémiologie descriptive a pour objectif de décrire la fréquence des maladies dans différentes
populations et au cours du temps. Il s’agit par exemple de décrire l’hétérogénéité de la fréquence des
cancers selon la zone géographique ou l’évolution de la fréquence avec le temps. Ces études
permettent de soulever des hypothèses sur les facteurs associés au risque de cancer.
Les études d’épidémiologie analytique ont pour objectif de quantifier l’association entre des
facteurs d’exposition et le risque de développer une maladie donnée. Il s’agit par exemple de quantifier
le lien entre l’exposition à l’amiante et le risque de cancer du poumon.
Contrairement aux études expérimentales dont l’exemple le plus classique est l’essai clinique
randomisé, dans les études observationnelles il n’y a pas d’intervention.
Nous observons par exemple des sujets qui sont exposés ou non à un facteur que nous pensons
être associé à une augmentation du risque de développer une maladie. L’investigateur ne contrôle pas
l’exposition au facteur de risque.
Les résultats d’une étude d’observation ne permettent pas de

conclure à une relation causale entre facteur et maladie.
L’établissement d’une relation causale repose sur un faisceau d’arguments.
II. Épidémiologie descriptive

L’épidémiologie descriptive étudie la présence et l’évolution d’une (ou plusieurs) maladie(s) dans
une population. Elle fournit des indicateurs de santé qui vont pouvoir mesurer l’importance d’un
évènement dans une population donnée. La prévalence mesure la proportion de cas à un moment
donné tandis que l’incidence mesure la vitesse d’apparition de nouveaux cas.
Il y a deux types d’étude :

▪ Les études transversales ;
▪ Les études de cohorte.
Par la suite, nous allons réaliser une extension à l’ensemble de la population.
Si nous nous plaçons sur une échelle de temps, une étude transversale consiste à faire une coupe
à un moment donné et à mesurer la fréquence de la maladie sur cette coupe. Il s’agit d’une
photographie de la population à un moment donné. Dans une étude transversale, il n’y a pas de suivi
des sujets. Nous les observons à un moment donné et ils ont ou ils n’ont pas la maladie.
115 Année 2022 – 2023

Exemple – Une étude transversale :

Une étude transversale est réalisée un jour donné dans tous les hôpitaux en France. Ceci permet
une mesure de la prévalence des infections nosocomiales par exemple. Ce type d’étude est réalisé tous
les 5 ans environ. L’évolution de la prévalence est un indicateur de l’efficacité de la lutte contre les
infections nosocomiales.
Les études qui vont permettre de mesurer la vitesse d’apparition de la maladie dans une
population sont les études de cohorte. La différence principale entre une étude transversale et une
étude de cohorte porte sur le suivi des sujets qui vont participer à l’étude.
Dans une étude de cohorte, que l’on appelle également étude longitudinale, les sujets n’ont pas
la maladie étudiée au moment de leur entrée dans la cohorte. Ils vont être suivis un temps plus ou
moins long et on recueille l’apparition ou non de la maladie au cours du suivi.
Exemple – Une étude de cohorte :

Il existe un suivi des habitants de la ville de Framingham (Massachusetts, États-Unis). Cette étude
a commencé en 1948, la première cohorte de Framingham était constituée de 5209 hommes et femmes
âgés de 30 à 62 ans qui n’avaient pas d’antécédent d’infarctus du myocarde ou d’accident vasculaire
cérébral et pas de symptômes de maladie cardiovasculaire au moment de l’inclusion.
On a observé au cours du temps l’apparition des évènements cardio-vasculaires au niveau de cette
population. Elle a contribué à la connaissance des facteurs de risque des maladies cardio-vasculaires.
A. La prévalence d’une maladie

La prévalence d’une maladie est la proportion de malades présents dans une population à un
instant donné.
𝑴
𝑷=
𝑵
Remarque – Exemple :
• Effectif de malades : diabète insulinodépendant ;
• Effectif total des sujets : population française de 20 ans ou plus.
La prévalence dépend de l’incidence (vitesse d’apparition des nouveaux cas) et de la durée de la

maladie. Si nous prenons l’exemple théorique de 2 maladies qui ont la même incidence (même vitesse
d’apparition des nouveaux cas), mais des durées moyennes différentes, on constate que la maladie à
durée moyenne plus grande aura une prévalence plus importante.
Exemple de la prévalence de diabète.
La prévalence mesure indirectement l’incidence et elle permet d’évaluer la prise en charge

médicale.
Principe de l’estimation d’une prévalence : lors d’une étude transversale, nous réalisons
l’estimation d’une prévalence.

Il faut constituer un échantillon représentatif de la population. Un échantillon est représentatif

d’une population s’il ressemble à la population. Le caractère représentatif ou non d’un échantillon
dépend de la façon dont a été constitué l’échantillon.
De plus, un estimateur est à utiliser : on va prendre la proportion observée sur l’échantillon, que
l’on le note 𝑃̂.
Un estimateur correspond à une fonction utilisée pour calculer, dans notre cas, la prévalence.
Le chapeau sur le P permet d’indiquer que la valeur calculée sur l’échantillon est une estimation de la
prévalence dans la population.
La prévalence est une valeur liée à la population totale et non à l’échantillon, c’est pour cela que
l’on passe par un estimateur de la prévalence.
Exemple – Estimation de la prévalence des infections nosocomiales dans les hôpitaux français en 1996 :
On réalise une étude transversale à un jour donné. L’étude se réalise au sein d’un échantillon de
46 000 patients hospitalisés, on note 3370 patients avec une infection nosocomiale.
On suppose que l’échantillon constitué un jour donné est représentatif de la population des
patients hospitalisés au cours de l’année 1996. On se sert de la valeur calculée sur l’échantillon de
l’étude pour parler de la prévalence des infections nosocomiales dans les hôpitaux français en 1996. Il
s’agit d’un exemple d’inférence statistique.
3370
𝑃̂ = = 7,3 %
46000
On utilise une approximation de la distribution de la prévalence par une distribution normale.
0,073 × (1 − 0,073)
𝑁(0,073; √ )
46 000
On calcule l’intervalle de confiance.
0,073 × (1 − 0,073)
𝐼𝐶95 % = [0,073 ± 1,96√ ]
46 000
Remarque – L’intervalle de confiance à 95 % est [7,1 % ; 7,5 %]. Avec une précision de l’estimation à
0,2 %. C’est-à-dire que la prévalence des infections nosocomiales dans les hôpitaux français en 1996 a
95 % de chances d’être comprise entre 7,1 % et 7,5 %.
On utilise l’intervalle de confiance pour déduire l’intervalle dans lequel il est le plus probable de
trouver la prévalence d’après son estimation.
Il ne faut pas oublier de vérifier les conditions d’approximation par la distribution normale !
C’est la première chose à faire, ça peut vous éviter de faire des calculs si jamais on est hors
conditions. Conditions a priori :
𝑛 = 46000 ≥ 30
Conditions a posteriori :
46000 × 0,071 ≥ 5
46000 × (1– 0,071) ≥ 5
46000 × 0,073 ≥ 5
46000 × (1– 0,073) ≥ 5
117 Année 2022 – 2023

B. Incidence d’une maladie

Le taux d’incidence mesure la « vitesse d’apparition » des nouveaux cas. Il mesure la probabilité
pour un individu de développer la maladie par unité de temps. Le taux d’incidence n’est pas une
probabilité, mais une probabilité par unité de temps. Nous voyons ainsi la dimension dynamique des
taux d’incidence et de mortalité.
𝑷(𝒕 ≤ 𝑻 < 𝒕 + 𝒅𝒕|𝑻 ≥ 𝒕)
𝝀(𝒕) = 𝐥𝐢𝐦
𝒅𝒕→𝟎 𝒅𝒕
Il s’agit formellement du rapport d’une probabilité conditionnelle (la probabilité que l’évènement
survienne dans l’intervalle de temps 𝒅𝒕 sachant qu’il ne s’est pas produit avant 𝒕) sur la longueur de
l’unité de temps.
Lors des études de cohorte, on peut estimer cet indicateur de santé.
Exemple – Estimation du taux d’incidence

d’une maladie.
Il y a eu deux évènements au cours du

suivi.
2
36 0,055
𝜆̂ = = = 0,11 par personne-année
0,5 0,5
La probabilité pour une personne de développer la maladie sur une unité de temps de 1⁄2 année
est de 0,055.
Elle est de 0,11 pour une année. Nous disons que le taux d’incidence est estimé à 0,11
personne-année. Il mesure bien la vitesse d’apparition de la maladie.
Lorsque l’évènement étudié est le décès, on parle de force de mortalité.
Nous pouvons estimer le taux d’incidence en se basant sur l’observation d’un groupe d’individus.
Pour cela, nous supposons que :

▪ Tous les individus ont le même taux (on se base sur l’observation d’un groupe
d’individus) ;
▪ Le taux est constant sur la période (on se base sur l’observation d’une période de
suivi).
Sous ces hypothèses, les individus et les unités de temps sont interchangeables. Ainsi, le suivi de
10 personnes pendant 1 demi-année est équivalent à suivre 5 personnes pendant 2 demi-années, soit
un an.
La formule utile pour le taux d’incidence est la suivante :
𝒏𝒐𝒎𝒃𝒓𝒆 𝒅𝒆 𝒏𝒐𝒖𝒗𝒆𝒂𝒖𝒙 𝒄𝒂𝒔

𝝀̂ =
𝒏𝒐𝒎𝒃𝒓𝒆 𝒅𝒆 𝒑𝒆𝒓𝒔𝒐𝒏𝒏𝒆𝒔 − 𝒂𝒏𝒏é𝒆𝒔
Dans l'exemple précédent, le nombre d'années est 18. Donc 2 / 18 = 0,11 par personne-année.
L’estimation du taux d’incidence de la maladie est de 11 nouveaux cas pour 100 personnes-années.

Nous pouvons aussi utiliser la formule suivante pour estimer le taux d’incidence :
𝑛𝑜𝑚𝑏𝑟𝑒 𝑑′é𝑣é𝑛𝑒𝑚𝑒𝑛𝑡𝑠
𝑛𝑜𝑚𝑏𝑟𝑒 𝑑′ 𝑢𝑛𝑖𝑡é𝑠 𝑑𝑒 𝑡𝑒𝑚𝑝𝑠
𝜆̂ =
𝑙𝑜𝑛𝑔𝑢𝑒𝑢𝑟 𝑑′ 𝑢𝑛𝑖𝑡é 𝑑𝑒 𝑡𝑒𝑚𝑝𝑠
On peut aussi calculer la variance de ce taux d’incidence 𝝀̂ :
𝜆̂
𝑣𝑎𝑟(𝜆) =
𝑛𝑜𝑚𝑏𝑟𝑒 𝑑𝑒 𝑝𝑒𝑟𝑠𝑜𝑛𝑛𝑒𝑠 − 𝑎𝑛𝑛é𝑒𝑠
C. Risque de la maladie
1. Généralités
Le risque de la maladie correspond à l’incidence cumulée de la maladie jusqu’à un temps t :
𝑹(𝒕) = 𝒑(𝑻 ≤ 𝒕)
Le risque correspond à une probabilité. Il s’agit de la probabilité d’avoir développé la maladie au
temps t.
𝑀
𝑅̂ (𝑡) =
𝑁
Avec M le nombre de nouveaux cas sur la période de suivi et N le nombre de sujets à risque au
début de la période.
2. Exemple n°1
Exemple – Estimation du risque de récidive d’une maladie :
On se place dans une cohorte de 368 femmes opérées d’un cancer du sein et suivies pendant 5
ans. On peut estimer le risque de récidive à 5 ans. Tous les sujets ont eu la maladie.
130
𝑟̂5 𝑎𝑛𝑠 = ≈ 35 %
368
La durée du suivi est variable d’un individu à l’autre. Le taux d’incidence est constant sur la période
considérée.
La probabilité de développer la maladie avant le temps t = 1 – la probabilité de ne pas l’avoir
développée :
𝑅(𝑡) = 1 − 𝑒 −𝜆𝑡 (que si λ constant)
Avec :
• 𝑒 −𝜆𝑡 = Probabilité de ne pas avoir développé la maladie au temps t ;
• 𝜆𝑡 = Taux cumulé.
3. Exemple n°2
Exemple – Estimation du risque de maladie sur
une période de 3 ans :
̂
𝑅̂ (𝑡) = 1 − 𝑒 −𝜆𝑡
𝑟̂3 𝑎𝑛𝑠 = 1 − 𝑒 −0,11×3 = 0,28

Le risque est estimé à 28 % en 3 ans.
119 Année 2022 – 2023

III. Épidémiologie analytique

A. Principe
L’objectif d’une étude analytique est de rechercher la ou les cause(s) d’une maladie. La force
d’association entre le facteur de risque et la maladie est aussi mesurée. Dans ce cours, nous allons
étudier deux méthodes :
1. Méthode (1/2) : études de cohorte

Nous constituons un groupe de sujets exposés au facteur de risque et un groupe non exposé, tous
les sujets sont initialement sains. Nous allons suivre les sujets dans le temps pour voir l’apparition ou
non de la maladie. Les sujets n’ont pas le critère de résultat au moment où ils rentrent dans l’étude.
Une étude de cohorte permet de mesurer l’incidence du critère de résultat.
La cohorte peut être reconstituée dans le passé : cohortes historiques. L’identification d’un
facteur de risque de survenue de la maladie est possible ainsi que des facteurs pronostiques.
2. Méthode (2/2) : études cas-témoins

Nous constituons un groupe de sujets malades (les cas) et un groupe de sujets non malades (les
témoins). Nous recherchons l’exposition antérieure (la plupart du temps) des sujets à un facteur de
risque via un interrogatoire.
L’identification d’un facteur de risque de survenue de la maladie est dans ce type d’étude possible
aussi.
Les avantages des études cas-témoins par rapport aux études de cohorte :
▪ Plus rapides étant donné qu’il n’y a pas de suivi ;
▪ Moins de sujets à inclure ;
▪ Moins lourdes à mettre en place.
Les inconvénients des études cas-témoins par rapport aux études de cohorte :
▪ Risque de biais plus important (biais de sélection des cas et des témoins, biais de
mesure du facteur étudié car l’exposition n’est pas mesurée en temps réel, biais de
confusion) ;
▪ Incidence de la maladie non mesurée directement.
Le facteur d’exposition est le facteur étudié, par exemple nous pouvons étudier la consommation
de tabac, d’alcool, l’exposition à l’amiante, etc.
La maladie est le critère de résultat, par exemple le cancer du poumon, de l’œsophage, les
maladies cardio-vasculaires, etc.
Les critères permettant d’identifier un facteur de risque d’une maladie sont multiples :
▪ L’exposition au facteur de risque doit précéder la survenue de la maladie ;
▪ Mise en évidence un surrisque chez les exposés par rapport aux non-exposés ;
▪ Une cohérence et une force d’association doivent s’observer ;
▪ La plausibilité clinique et biologique est importante ;
▪ La mise en évidence d’un effet dose doit s’observer.

B. Tableau de contingence
Pour les deux types d’études, il faut réaliser un tableau de contingence.
NDLR – Il faut savoir refaire ce type de tableau pour la résolution des exercices.
Malades Non-malades Total

Exposés a b a + b = m0
Non-exposés c d c + d = m1
Total a + c = n0 b + d = n1 a+b+c+d=n
Dans une étude de cohorte, les calculs n’ont de sens que sur les lignes du tableau.
Dans une étude cas-témoins, les calculs n’ont de sens que sur les colonnes du tableau. Il faut
bien comprendre pourquoi ! Cela déterminera ce que vous pourrez calculer à partir de vos données.
Tout vient de la manière de sélectionner votre échantillon. Par exemple ça n’a pas de sens de regarder
une proportion d’exposés / non exposés dans une étude de cohorte puisque c’est vous (l’investigateur
de l’étude) qui décidez de combien vous en prenez en exposés ou non.
C. Détermination de l’association entre maladie et facteur de risque

L’utilisation du test du Chi-2 est nécessaire pour tester l’indépendance entre la maladie et le
facteur d’exposition.
Ce test ne mesure pas la force de l’association, il mesure le degré de confiance que nous
pouvons avoir lorsque nous concluons qu’il existe une différence réelle entre les populations
comparées.
Pour mesurer l’ampleur du lien entre le facteur de risque et la maladie, nous utilisons l’odds ratio et
le risque relatif.
On a :
▪ H0 : il y a indépendance entre le facteur d’exposition étudié et la maladie ;
▪ H1 : il existe une association entre le facteur d’exposition étudié et la maladie.
(𝑶𝒊 − 𝑬𝒊 )𝟐
∑ ~𝝌𝟐𝟏 𝒅𝒅𝒍
𝑬𝒊
Nous allons utiliser les valeurs du tableau de contingence. Oi représente les effectifs observés
(valeurs a, b, c et d) et Ei les effectifs attendus. Calculs des effectifs attendus :
Malades Non malades Total
(𝑛0 × 𝑚0 )
Exposés 𝐸= a + b = m0
𝑛
Non exposés c + d = m1
Total a + c = n0 b + d = n1 a+b+c+d=n
121 Année 2022 – 2023

Deux possibilités :
▪ 𝛘2 < 3,84, nous ne rejetons pas H0 au risque α = 5 % :
- l’association n’est pas statistiquement significative au risque de 5 % ;
▪ 𝛘 > 3,84, nous rejetons H0 :
2
- l’association est statistiquement significative au risque 𝛼 = 5 % et ddl = 1.
D. Mesure de l’ampleur de l’association facteur de risque-maladie
1. Risque relatif et taux relatif

Il y a deux éléments relatifs à prendre en considération.
Risque relatif :
𝑹𝒊𝒔𝒒𝒖𝒆 𝒄𝒉𝒆𝒛 𝒍𝒆𝒔 𝒆𝒙𝒑𝒐𝒔é𝒔 𝒅′ 𝒂𝒗𝒐𝒊𝒓 𝒍𝒂 𝒎𝒂𝒍𝒂𝒅𝒊𝒆
𝑹𝑹 =
𝑹𝒊𝒔𝒒𝒖𝒆 𝒄𝒉𝒆𝒛 𝒍𝒆𝒔 𝒏𝒐𝒏 − 𝒆𝒙𝒑𝒐𝒔é𝒔 𝒅′ 𝒂𝒗𝒐𝒊𝒓 𝒍𝒂 𝒎𝒂𝒍𝒂𝒅𝒊𝒆
Soit :
𝑅1 (𝑡)
𝑅𝑅 =
𝑅0 (𝑡)
𝑎
𝑚
̂ = 0
𝑅𝑅 𝑐
𝑚1
Si le RR = 3,2 : les exposés de l’échantillon ont 3,2 fois plus de risques de développer la maladie
que les non exposés.
Taux relatif :
𝐓𝐚𝐮𝐱 𝐝′ 𝐢𝐧𝐜𝐢𝐝𝐞𝐧𝐜𝐞 𝐜𝐡𝐞𝐳 𝐥𝐞𝐬 𝐞𝐱𝐩𝐨𝐬é𝐬

𝐓𝐑 =
𝐓𝐚𝐮𝐱 𝐝′ 𝐢𝐧𝐜𝐢𝐝𝐞𝐧𝐜𝐞 𝐜𝐡𝐞𝐳 𝐥𝐞𝐬 𝐧𝐨𝐧 − 𝐞𝐱𝐩𝐨𝐬é𝐬
λ1 (t)
TR(t) =
λ0 (t)
Remarque – Si le taux relatif est constant au cours de la période de suivi et que l’évènement est rare
ou la durée d’observation courte, nous avons TR ≈ RR.
Nous pouvons interpréter les résultats obtenus sur l’échantillon.
On a :
▪ Si RR ou TR ou odds ratio > 1, le facteur est associé à une augmentation du risque
d’être malade ;
▪ Si RR ou TR ou odds ratio < 1, le facteur est associé à une diminution du risque d’être
malade.
Dans le cas d’une étude cas-témoins :
Il n’y a pas de suivi des patients. Par conséquent, nous ne pouvons calculer ni le RR ni le TR
(Cf. A. pour bien comprendre pourquoi) !

2. Odds ratio
L’odds ratio ne se calcule pas de la même manière si nous nous plaçons dans une étude de
cohorte ou dans une étude cas-témoins.
Dans une étude de cohorte :

▪ Odds de la maladie chez les non-exposés :
c c
m1m1 c
Odds de la maladie chez les non − exposés = c = d =d
1−m
1 m1
▪ Odds de la maladie chez les exposés :
a a
m0 m0 a
Odds maladie chez les exposés = a = b =b
1−
m0 m0
▪ Odds-ratio de la maladie correspond à :
a
Odds maladie chez les exposés b a×d
OR = = c =
Odds de la maladie chez les non − exposés b×c
d
Dans une étude cas-témoins :
▪ Odds de l’exposition chez les non malades :
̅)
p(E|M Exposés chez les témoins
Odds d′ expositiontémoins = =
̅
1 − p(E|M) Non exposés chez les témoins
b
Odds d′ expositiontémoins =
d
▪ Odds de l’exposition chez les malades :
p(E|M) Exposés chez les cas
Odds d′ expositioncas = =
1 − p(E|M) Non exposés chez les cas
a
Odds d′ expositioncas =
c
▪ Odds ratio d’exposition correspond à :
Odds d′ expositioncas
OR =
Odds d′ expositiontémoins
a
a×d
̂ = c =
OR
b b×c
d
Selon le type d’étude, nous estimons préférentiellement soit l’OR de la maladie pour les études
de cohorte, soit l’OR d’exposition pour les études cas-témoins. Cependant, comme l’odds ratio de
maladie est égal à l’odds ratio d’exposition, la Pr. Rabilloud considère que dans une étude cas témoins
l’odds ratio d’exposition peut s’interpréter comme l’odds ratio de la maladie et réciproquement dans
une étude de cohorte. Ainsi, les deux odds ratio sont estimables dans les deux types.
Cela ne concerne que les odds ratio.
Remarque – L’odds ratio s'interprète comme le risque relatif.
→ Si OR ou RR > 1 alors OR > RR.
Lorsque l’évènement d’intérêt est rare dans la population étudiée, l’odds ratio est proche du risque
relatif et il peut s’interpréter comme un risque relatif.
123 Année 2022 – 2023

À partir de ces estimations, nous pouvons calculer un intervalle de confiance.
Si l’intervalle de confiance ne contient pas la valeur 1 :

▪ RR ou OR est significativement différent de 1 ;
▪ Les résultats sont cohérents avec le test statistique ;
▪ L’association entre le facteur et la maladie est importante.
En revanche si l’intervalle de confiance contient 1, nous ne pouvons pas conclure.
Pour mesurer la force de l’association dans une étude de cohorte :

▪ Taux relatif de l’évènement ;
▪ Risque relatif de l’évènement à un temps donné ;
▪ Odds ratio de l’évènement à un temps donné.
E. Exemples
1. Exemple d’une étude de cohorte

Nous constituons une cohorte de 368 femmes opérées pour un cancer du sein et suivies pendant
5 ans. L’objectif de l’étude est d’évaluer la valeur pronostique du type cytologique de la tumeur sur le
risque de récidive à 5 ans. Le facteur étudié est le type cytologique de la tumeur.
Le critère de résultat est la présence de récidive à 5 ans.
Estimation du risque de récidive à 5 ans selon le type cytologique de la tumeur :
Type cytologique 3 :
96
𝑟̂𝑇𝑦𝑝𝑒 3 = ≈ 48 %
201
Type cytologique 1 ou 2 :
34
𝑟̂𝑇𝑦𝑝𝑒 1 𝑜𝑢 2 = ≈ 20 %
167
L’hypothèse à tester dans cette étude est que le risque de récidive des femmes qui avaient une
tumeur de type cytologique 3 est différent du risque de récidive des femmes qui avaient une tumeur
de type 1 ou 2, soit un test bilatéral.
Nous commençons par réaliser un tableau de contingence :
Récidive Pas de récidive Total
Type 3 96 105 201
Type 1 ou 2 34 133 167
Total 130 238 368
Existe-t-il une relation entre le type cytologique et la récidive à 5 ans ?
Pour répondre, il faut utiliser un test du Chi-2. On calcule les effectifs attendus, ils sont entre
parenthèses dans le tableau.

Type 3 96 (71) 105 (130) 201
Type 1 ou 2 34 (59) 133 (108) 167
Total 130 238 368
(96 − 71)2 (105 − 130)2 (34 − 59)2 (133 − 108)2

𝜒12 = + + + = 29,99 (> 3,84)
71 130 59 108
Étant donné que χ2 > 3,84, la probabilité que la différence observée soit due au hasard est
inférieure à 5 %. La différence est significative au risque de 5 %. Le risque de récidive à 5 ans est plus
élevé chez les femmes ayant un type cytologique 3 que chez celles ayant un type cytologique 1 ou 2 et
cette différence est statistiquement significative.
Quelle est la force de l’association entre le type cytologique et la récidive à 5 ans ?
Nous calculons le risque relatif :

𝑅𝑖𝑠𝑞𝑢𝑒 𝑑𝑒 𝑟é𝑐𝑖𝑑𝑖𝑣𝑒 𝑇𝑦𝑝𝑒 3
𝑅𝑅 =
𝑅𝑖𝑠𝑞𝑢𝑒 𝑑𝑒 𝑟é𝑐𝑖𝑑𝑖𝑣𝑒𝑇𝑦𝑝𝑒 1 𝑜𝑢 2
Type 3 96 = a 105 = b 201 = m0
Type 1 ou 2 34 = c 133 = d 167 = m1
Total 130 = n0 238 = n1 368 = n
NDLR – Le sens de lecture du tableau est de gauche à droite : →.

𝑎
𝑚 0,48
̂ = 0 =
𝑅𝑅 = 2,4
𝑐 0,20
𝑚1
Les femmes qui ont une tumeur de type 3 ont 2,4 fois plus de risques de récidiver à 5 ans que les
femmes ayant une tumeur de type 1 ou 2. Le risque relatif est estimé à 2,4. Nous pouvons aussi calculer
l’intervalle de confiance du risque relatif, dans cet exemple il est compris entre 1,8 et 3,3.
Taux d’incidence de la récidive dans le groupe cytologique 3 :

96 96
= ≈ 0,125
105 × 5 + 96 × 2,5 765
Taux d’incidence de la récidive dans le groupe cytologique 1 ou 2 :
34 34
= ≈ 0,045
133 × 5 + 34 × 2,5 750
125 Année 2022 – 2023

Pour réaliser les calculs, nous avons calculé le nombre de personnes-années de suivi :
▪ 5 personnes-années pour les femmes qui n’ont pas récidivé dans les 5 ans ;
▪ Délai en années entre l’intervention et la récidive pour celles qui ont récidivé dans
les 5 ans.
Nous réalisons une approximation, en considérant que les femmes qui ont récidivé ont été suivies
2,5 ans :
0,125
𝑇𝑅 = ≈ 2,8
0,045
Le taux relatif de récidive est estimé à 2,8 alors que le risque relatif de récidive à 5 ans est
estimé à 2,4.
Il y a une deuxième méthode pour calculer la force de l’association : l’odds ratio.
Nous pouvons estimer l’odds de récidive dans chaque groupe :

R Type 3 a
Odds de récidiveType 3 = =
1 − R Type 3 b
R Type 1 ou 2 c
Odds de récidiveType 1 ou 2 = =
1 − R Type 1 ou 2 d
Estimation de l’odds ratio de récidive :

a
b a × d 96 × 133
̂ = =
OR c c × b = 34 × 105 = 3,6
d
Les femmes ayant une tumeur de type 3 ont un odds de récidive multiplié par 3,6 par rapport à
celles ayant une tumeur de type 1 ou 2. Nous pouvons aussi calculer un intervalle de confiance, dans
le cas présent l’intervalle de confiance de l’odds ration estimé est compris entre 2,2 et 5,7.
Récapitulatif pour les études de cohorte :
Nous calculons :
Le risque de la maladie ;
Le risque relatif ;
L’odds de la maladie chez les exposés et les non-exposés ;
L’odds ratio de la maladie et d’exposition (les formules étant identiques).
2. Exemple d’une étude cas-témoin

L’échantillon des cas est constitué par 200 hommes hospitalisés dans un hôpital d’Ille et Vilaine
avec un diagnostic de cancer de l’œsophage. L’échantillon de cas est constitué par des cas incidents
c’est-à-dire des patients qui découvrent leur maladie au cours de leur actuelle hospitalisation. Il ne
faut pas constituer l’échantillon de cas avec des cas prévalents, ce sont des patients qui ont la maladie
mais le diagnostic a été fait avant l’hospitalisation en cours. En effet, les sujets ont pu modifier leur
consommation d’alcool du fait de la maladie.

L’échantillon de témoins est constitué de 775 hommes tirés au sort dans la liste électorale d’Ille
et Vilaine. L’objectif est d’obtenir un échantillon de témoins représentatif de la population générale
en termes d’exposition au facteur étudié c’est-à-dire la consommation d’alcool. Pour mesurer
l’exposition dans le passé, on réalise un interrogatoire. Le seuil d’exposition est fixé à 80 g par jour. Si
le sujet a une consommation supérieure ou égale à 80 g par jour, il est dans le groupe exposé. En
revanche si sa consommation est inférieure à 80 g par jour, il est dans le groupe non exposé. On réalise
un tableau de contingence.
Cancer Pas de cancer Total
80 g ou plus 96 109 205
770
0 - 79 g 104 666
Total 200 775 975
Il n’est pas possible d’estimer l’incidence de la maladie, les effectifs des cas et des témoins étant
déterminés par l’investigateur. Il n’est donc pas possible d’estimer l’ampleur de l’association entre le
facteur étudié et le critère de résultat par un risque relatif ou un taux relatif.
Estimation de la probabilité d’être exposé chez les cas :

96
𝑝̂ (𝐸|𝑀) = = 48 %
200
Estimation de la probabilité d’être exposé chez les témoins :
109
̅) =
𝑝̂ (𝐸|𝑀 = 14 %
775
Existe-t-il une relation entre la consommation d’alcool à dose élevée et le risque de cancer de
l’œsophage ?
Nous réalisons un test du Chi-2. Nous calculons les effectifs attendus, ils sont entre parenthèses
dans le tableau.
Cancer Pas de cancer Total
80 g ou plus 96 (42,05) 109 (162,95) 205
0 – 79 g 104 (157,95) 666 (612,05) 770
Total 200 775 975
La condition d’utilisation est : effectifs attendus ≥ 5.
(96 − 42,05)2 (109 − 169,95)2 (104 − 157,95)2 (666 − 612,05)2

𝜒12 = + + + = 110,26 > 3,84
42,0 169,95 157,95 612,05
127 Année 2022 – 2023

Étant donné que (χ1)2 >>> 3,84, la probabilité que la différence observée soit due au hasard est
très inférieure à 5 %. Le degré de signification est p < 0,0001. La différence est statistiquement
significative. La probabilité d’être exposé est plus élevée chez les cas que chez les témoins.
Quelle est la force de l’association entre la consommation d’alcool à dose élevée et le risque de
cancer de l’œsophage ?
Nous calculons l’odds ratio d’exposition :

𝑎×𝑑 96 × 666
̂ =
𝑂𝑅 = = 5,64
𝑐 × 𝑏 104 × 109
L’odds ratio des cas est 5,6 fois plus élevé que celui des témoins. Mais l’odds ratio d’exposition
peut également s’interpréter comme l’odds ratio de la maladie des exposés par rapport aux non-
exposés. Les 2 odds ratio sont égaux.
Les hommes qui ont été exposés à une consommation d’alcool ≥ 80g par jour ont un risque de
cancer de l’œsophage environ 5,6 fois plus élevé que les hommes ayant été exposés à une
consommation inférieure. L’intervalle de confiance à 95 % est compris entre 4 et 7,8.
La mise en évidence d’un effet dose est possible. Nous étudions le lien entre la consommation
d’alcool (répartie sur plusieurs niveaux : nulle, faible, régulière et exagérée).
Cancer Pas de cancer
120 g ou plus 45 22
80 – 119 51 87
40 – 79 75 280
0 – 39 29 386
Total 200 975
Le calcul de l’odds ratio pour chaque niveau de consommation par rapport au niveau de base est
calculé.
45
𝑂𝑅120𝑔 𝑜𝑢+/ 0−39𝑔 = 29 = 27,2
̂
22
386
51
̂ 80𝑔−119/ 0−39𝑔
𝑂𝑅 = 29 = 7,8
87
386
75
̂ 40−79𝑔/ 0−39𝑔
𝑂𝑅 = 29 = 3,6
280
386
La force de l’association augmente avec la quantité d’alcool.

Récapitulatif pour les études cas-témoins :
Nous pouvons calculer :
La probabilité d’être exposé ;
L’odds d’exposition chez les malades et les non malades ;
L’odds ratio d’exposition et de la maladie (les formules étant identiques).
IV. Biais potentiels : QCM de cours

Un biais est une erreur systématique qui va entraîner une sous ou une sur-estimation du lien
entre le facteur étudié et le critère de résultat. Il existe différents types de biais.
A. Biais de sélection
Le biais de sélection correspond à la sélection d’un échantillon qui n’est pas représentatif de la
population cible.
Exemple – Une étude cas-témoins est réalisée pour quantifier le lien entre la consommation d’alcool et
le risque de cancer de l’œsophage. Les sujets inclus dans le groupe des témoins sont des patients
hospitalisés dans un service de gastro-entérologie et qui n’ont pas de cancer de l’œsophage. Les
témoins inclus peuvent avoir des pathologies pour lesquelles la consommation est un facteur de risque.
Ils ont une probabilité plus importante d’être exposés à l’alcool que la population générale. Cela va
entraîner une sous-estimation du lien entre la consommation d’alcool et le risque de cancer de
l’œsophage.
B. Biais de confusion
Le biais de confusion est dû à des facteurs liés à la fois au facteur étudié et au critère de résultat.
Ce sont des facteurs de confusion.
Exemple – Le tabac est un facteur de risque pour le cancer du poumon. Les sujets qui consomment de
l’alcool sont également le plus souvent fumeurs. Le lien mis en évidence entre consommation d’alcool
et risque de cancer du poumon peut être au moins en partie expliqué par la consommation de tabac.
La consommation de tabac est un facteur de confusion potentiel. Il peut entraîner un biais de confusion
dans la quantification du lien entre consommation d’alcool et risque de cancer du poumon. Le biais de
confusion ira dans le sens d’une surestimation.
C. Biais de mesure ou de mémoire

Le biais de mesure est dû à la façon de mesurer le facteur étudié ou le critère de résultat.
Exemple – Dans les études cas-témoins, un biais de mesure classique du facteur étudié est le biais de
mémoire. On interroge les cas et les témoins sur leur exposition à un facteur dans le passé. Les cas vont
en général mieux se souvenir de leur exposition au facteur étudié que les témoins. Cela entraîne une
surestimation du lien entre le facteur étudié et le critère de résultat.
129 Année 2022 – 2023


Rédigé en collaboration avec le Pr. ROY
NDLR – Hors-programme depuis 2020, ce cours réapparaît en 2022-2023 (d’après nos informations).
I. Introduction
Remarque – Dans ce cours, “log” est le logarithme népérien.
L’analyse de la survie s’inscrit dans un contexte médical : nous allons quantifier la probabilité de
décès, de rechute ou de survie, évaluer des facteurs pronostiques et comparer des traitements.
Le risque (ou probabilité) de décès d’un individu est de toute façon égal à 1 ! Ainsi, la probabilité
de décéder estimée sur une cohorte n’a de sens qu’à délai fixé. La variable d’intérêt est la variable
aléatoire T, que constitue la durée qui sépare le diagnostic de la mort (ou de la rechute). C’est de cette
variable que nous étudions la distribution.
II. Base de l’analyse de la survie

A. Contexte
On a :
▪ Mesure du temps écoulé entre deux évènements ;
▪ Distribution non gaussienne : ne suit pas une loi normale ;
▪ Utilisation de méthodes non-paramétriques ;
▪ Prise en compte de données incomplètes : données censurées (une partie des
individus n’a pas présenté l'évènement, nous disons que les données sont censurées
à droite) et tronquées.
Nous allons nous intéresser au temps entre une origine et un évènement, par exemple :
Décès : mortalité toute cause ≠ décès maladie : mortalité spécifique.
131 Année 2022 – 2023

B. Censure
L’observation est censurée (à droite) si nous savons seulement que T > t, date à laquelle
l’observation s’est achevée :
▪ L’évènement est le décès (= mortalité globale, donc toute cause) et le sujet est en vie
à la fin de l’étude ;
▪ L’évènement est le décès par cancer (donc mortalité spécifique) et l’observation
s’achève par un accident (cause de mortalité différente, nous ne pouvons donc pas
conclure sur le délai de mort par cancer).
Voilà des données fictives si tous les sujets tombaient malade au même moment :
Cas théorique : tout le monde tombe malade au même moment puis certains décèdent après.
Dans la réalité, les dates d’origines sont échelonnées au cours du temps :
Cas pratique : tout le monde ne tombe pas malade au même moment.
Remarque – Légende :
• (B) : Date de point, nous ne disposons pas de la durée de survie pour II et VIII, les données sont
censurées à droite, ils sont toujours vivants à la date de point. II et VIII constituent des exclus
vivants ;
• (A) : Date de point, nous connaissons tous les temps de survie du groupe.
Le IX est perdu de vue, il biaise l’information, il manque une information : nous ne connaissons
pas son statut à la date de point, nous ne savons pas s'il est mort ou vivant. Ce type de biais est à éviter
absolument.

Pour pouvoir plus facilement analyser, nous allons ramener tous les sujets à la même date
d’origine, nous allons changer l’échelle. L’abscisse représente alors le temps de participation à l’étude.
La date de début de maladie est ramenée en abscisse, seules les durées des maladies sont prises en compte, pas les dates.
En résumé, certains sujets ne sont pas suivis jusqu’à ce que l’évènement se produise, pour eux
nous savons seulement que T > ti. L’observation correspondante est une observation censurée. Les
données de survie sont donc constituées de deux informations, la durée du suivi T, et l’indicateur
d’évènement δ : δ = 1 si l ’observation se termine par un décès, δ = 0 si le sujet est vivant à la fin.
1. Définitions
Il y a :
▪ Risque de décès : probabilité d’être décédé à la date t = fonction de répartition de la
variable T = R(t) = Pr(T ≤ t) : probabilité que le décès survienne avant ou à l’instant t ;
▪ Survie : probabilité d’être en vie à la date t = S(t) = Pr(T > t) = 1 – R(t) (pour une
distribution continue).
2. Distribution cumulée, durées de survie sans censure
Distribution cumulée : durées de survie sans censure.
Nous pouvons alors faire une fonction de répartition empirique (qui aura une forme
caractéristique des variables aléatoires discrètes) :
Fonction de répartition empirique.
133 Année 2022 – 2023

3. Données complètes et sans ex-æquo

Deux possibilités :
▪ Si t(i) est le ième temps de survie de l’échantillon, le risque est estimé par :
- 𝑡(𝑖)  𝑖/𝑛0 ;
▪ La survie est estimée par :
- 𝑡(𝑖) → (𝑛0 − 𝑖)/𝑛0 = 𝑛1 /𝑛0 = 1 − 𝑖/𝑛0 .
Exemple – Temps de survie en années (données complètes).
Moyenne : 2,994 ans ; Déviation standard : 3,363 ans.
La survie est une courbe empirique, c’est-à-dire construite à partir de valeurs. La survie est le
complément à 1 du risque (ces courbes sont valables en absence de censure).
La loi normale décrit mal la survie, nous ne pouvons donc pas donc pas faire d’approximation
par celle-ci !
4. Données incomplètes
Nous avons des données incomplètes lorsque certains sujets ne sont pas suivis jusqu’à ce que
l’évènement se produise :
▪ Pour eux, nous savons seulement que T > ti ;
▪ ti est une observation censurée (exclu vivant).
Les données censurées sont résumées par :

▪ T durée du suivi ;
▪ δ indicateur de l’évènement.
Si l’observation se termine par un décès, δ = 1.

Si le sujet est vivant à la fin du suivi, δ = 0.
III. Méthode de Kaplan-Meier et Test du Log-Rank

A. Kaplan-Meier
1. Données complètes (observation de i décès)
𝑺(𝒕𝒊 ) = (𝟏 − 𝒊⁄𝒏𝟎 )
𝟏 𝟏 𝟏
𝑺(𝒕𝒊 ) = (𝟏 − 𝒏 ) × (𝟏 − 𝒏 ) × … × (𝟏 − 𝒏 )
𝟎 𝟎 −𝟏 𝟎 −𝒊+𝟏

En absence d’ex-æquo, les temps de survie sont classés de manière croissante.
Exemple d’observation de 50 décès.
2. Données incomplètes (Σδi décès)
𝜹 𝜹𝟐 𝜹𝒊
𝑺(𝒕𝒊 ) = (𝟏 − 𝒏𝟏 ) × (𝟏 − 𝒏 ) × … × (𝟏 − 𝒏 )
𝟎 𝟎 −𝟏 𝟎 −𝒊+𝟏
Exemple d’observation de 50 décès.
Remarque – À noter que le temps n’intervient pas dans la méthode.
3. Erreur type de la survie en ti

On a :
▪ Si les données sont complètes (pas de censure), l’erreur type est celle d’une
proportion ;
ni Ŝi (1 − Ŝi )
Ŝi = et SE[Ŝi ] = √
n0 n0
▪ En cas de censure, l’erreur type est plus élevée que celle-ci, nous allons utiliser les
variances de Greenwood.
Exemples avec des erreurs-types.
Lorsque nous avons une égalité entre ev et mort, le décès passe avant la censure dans la méthode
de Kaplan-Meier. De plus il faut prendre en compte, s’il y en a un, le décès (ou les décès) affiché(s) au
niveau de l’année pour laquelle la survie est demandée car ce dernier aura eu lieu au cours de l’année,
et on cherche à calculer la probabilité de survie à la fin de cette année.
𝑆𝐽3 = (1 − 1/8) × (1 − 1/7) × (1 − 1/6) × 1 × (1 − 1/4) × (1 − 1/3)

𝑆𝐽3 = 7/8 × 6/7 × 5/6 × 1 × 3/4 × 2/3
𝑆𝐽3 = 5/8 × 1 × 2/4
𝑆𝐽3 = 5/16
Nous pouvons voir entre Sj3 et Sj4 que la censure ne modifie pas l’estimation de la survie à un
même temps.
135 Année 2022 – 2023

B. Comparaison de la survie dans deux groupes

Nous pouvons comparer :
▪ La survie moyenne ;
▪ La survie médiane ;
▪ La probabilité de survie à un “délai” donné.
La 3ème option est banale, comme dans les derniers cours nous pouvons utiliser le test classique.
𝑆1𝑖 − 𝑆2𝑖
𝜒=
√𝑉𝑎𝑟(𝑆̂1𝑖 ) + 𝑉𝑎𝑟(𝑆̂2𝑖 )
Mais cette troisième option ne compare la situation dans deux groupes qu’à un délai donné.
Or, nous souhaitons comparer les distributions de durées de survie, la spécificité des données de
survie suggère alors l’utilisation de méthodes non paramétriques.
C. Test du Log-Rank
Généralisation des tests de rang aux données censurées : les rangs des observations triées
globalement se distribuent-ils au hasard entre les deux groupes ?
▪ Le test du “Log-Rank” est le test efficace contre l’alternative de taux proportionnels
dans les deux groupes ;
▪ C’est formellement le principe du test de Mantel-Haenszel-Cochran.
Au niveau du calcul pratique, il faut :

▪ Calculer pour chaque date de décès le nombre attendu de décès qui serait observé
si les taux de décès étaient les mêmes dans les (deux) groupes ;
▪ Cumuler les différences entre observés et attendus jusqu’à la date du dernier décès
observé ;
▪ Évaluer la signification de la différence cumulée en la comparant à son erreur type.
Il faut noter que ce test du Log-Rank ne prend en compte que les rangs d’apparition des décès,
non la date.
Pour chaque date de décès il faut construire la table suivante :
Table à construire entre les décès et les effectifs.
Sous l’hypothèse nulle H0, les d+i décès se distribuent proportionnellement aux effectifs, le
nombre attendu dans le groupe 2 est donc :
𝑛2𝑖
𝑒2𝑖 = 𝑑+𝑖 ×
𝑛+𝑖
d+i étant fixé, la variance de 𝛥i = d2i - e2i est :
𝑛1𝑖 𝑛2𝑖 𝑑+𝑖 (𝑛+𝑖 − 𝑑+𝑖 )
𝑉𝑎𝑟(∆𝑖 ) = 2
𝑛+𝑖 (𝑛+𝑖 − 1)
(𝛴𝑖 ∆𝑖 )2
𝑡𝑒𝑠𝑡 =
𝛴𝑖 𝑉𝑎𝑟(∆𝑖 )

𝑘 𝑘
𝑛2𝑖
𝑈 = ∑ 𝑤𝑖 (𝑑2𝑖 − 𝑒2𝑖 ) = ∑ 𝑤𝑖 (𝑑2𝑖 − 𝑑+𝑖 )
𝑛+𝑖
𝑖=1 𝑖=1
Remarque – wi est le poids, il permet de donner plus d’importance aux différences de survie précoces
qu’aux différences de survie tardives.
Si k est grand ou si les marges de chaque tableau sont grandes, U suit une loi
asymptomatiquement normale.
Sous H0, le test s’écrit :
𝑛 2
[∑𝑘𝑖=1 𝑤𝑖 (𝑑2𝑖 − 𝑑+𝑖 𝑛 2𝑖 )]
+𝑖
𝜒2 = avec 𝜒 2 à 1 ddl
(𝑛 − 𝑑+𝑖 ) 𝑛1𝑖 𝑛2𝑖
∑𝑘𝑖=1 𝑤𝑖 𝑑+𝑖 +𝑖 2
(𝑛+𝑖 − 1) 𝑛+𝑖
Si wi = 1, nous pouvons faire le test de Mantel-Haenszel, de cox, ou du Log-Rank comparant :

𝑘 𝑘
𝑂2 = ∑ 𝑑2𝑖 𝑒𝑡 𝐸2 = ∑ 𝑒2𝑖
𝑖=1 𝑖=1
(𝑂2 − 𝐸2 )2
𝜒2 =
∑𝑘𝑖=1 𝜈𝑖
La formule approchée du Log-Rank ci-dessous est conservative (c’est-à-dire qu’elle est plus petite
que le Log-Rank, donc si nous rejetons la formule approchée, nous rejetons forcément la formule du
Log-Rank).
(𝑂2 − 𝐸2 )2 (𝑂1 − 𝐸1 )2
𝜒𝑎2 = +
𝐸2 𝐸1
Remarque – Exemple d’un Log-Rank :
Log-Rank test.
Extension du Log-Rank : le test s’étend simplement dans deux directions :

▪ Comparaison de plus de deux groupes : la table 2 × 2 est remplacée par une table
2 × k. La variance par une matrice de covariance. Le test est à k-1 ddl ;
▪ Contrôle pour les facteurs de confusion : nous stratifions les données selon les
valeurs des variables à contrôler. Nous calculons les observés, les attendus et les
variances dans chaque strate. Nous cumulons les résultats pour construire le test (les
attendus sont calculés à “facteurs de confusion constants”).
Conclusion : nous disposons de nombreux outils pour estimer la distribution de durée de survie
éventuellement censurée. Il existe également des tests de comparaison de distributions, mais nous
aimerions avoir des modèles de régression pour gérer simultanément plusieurs co-variables.
137 Année 2022 – 2023

IV. Taux de mortalité

Objectif : quantifier le risque de décéder maintenant, si on était en vie jusqu’à maintenant. Le
taux de décès λ(t) mesure la “force de mortalité” appliquée à la population des patients survivants à
la date t après le diagnostic.
𝑃𝑟(𝑡 ≤ 𝑇 < 𝑡 + 𝑑𝑡|𝑇 > 1)
𝜆(𝑡) = lim
𝑑𝑡→0 𝑑𝑡
λ(t) a une unité : T-1 ! C’est une probabilité conditionnelle dérivée par rapport au temps.
Le taux de décès n’est pas une probabilité en particulier, il est éventuellement > 1. λ est le taux
instantané de mortalité.
Relation entre R, S, λ.
Lorsque λ(t) est constant (= λ) la survie est dite exponentielle : 𝑺(𝒕) = 𝑒 −𝜆𝑡 . C’est le modèle le
plus simple, le modèle de survie paramétrique.
V. Survie paramétrique / exponentielle par intervalle
Modèle de survie exponentielle.
Dans le premier cas, λ ne varie pas au cours du temps (c’est une constante), nous allons regarder
l’aire sous la courbe, l’intégrale, le taux cumulé. C’est le modèle de survie exponentielle.
Modèle de survie par intervalle.

Ici, λ est constant par intervalle de temps, c’est un modèle acceptable, nous avons alors un
modèle de survie exponentielle par intervalle.
Remarque – Dans le cas général, λ varie.
Exemple : temps de survie en années. 100 données complètes, c’est-à-dire sans censure.
Moyenne : 2,994 ans ; Déviation standard : 3,363 ans.
Les données sont ici parfaitement décrites par une distribution exponentielle ayant la même
moyenne que les données ci-dessus. La distribution exponentielle de moyenne 1/λ est le plus simple
des modèles de survie paramétrique avec :
𝑺(𝒕) = 𝒆−𝝀𝒕
𝑹(𝒕) = 𝟏 − 𝒆−𝝀𝒕
Le paramètre λ est le taux de mortalité, ou nombre de décès par unité de temps, estimé par
n0 / (Σti) (= 1/moyenne détail pratique !). Les données étant complètes, nous avons en effet observé
n0 décès pour une durée totale d’observation de ces sujets égale à (Σti). Cette quantité s’exprime en
personnes-années d’observation : années d’observation accumulées par l’ensemble des personnes
étudiées.
n0 ne s’exprime pas en nombre d’individus !
La fonction de répartition exponentielle qui s’ajuste le mieux aux données est la fonction :
1
(− ×𝑡)
1−𝒆 2,994
Où 2,994 est la moyenne des temps de survie des données.
Différence entre R(t) et la loi exponentielle.
139 Année 2022 – 2023

A. Modèle paramétrique
Nous allons définir λ(t) à l’aide d’une fonction connue aux paramètres près :
Définition des paramètres.
Remarque – Pour le modèle de Weibull, quand γ = 1, nous retrouvons le modèle exponentiel.
B. Modèle exponentiel, relation entre R, S et λ

𝑆(𝑡) = 𝑒 −𝜆𝑡
𝑅(𝑡) = 1 − 𝑒 −𝜆𝑡
𝑅′(𝑡) = 𝜆𝑒 −𝜆𝑡
𝑅 ′ (𝑡)
𝜆(𝑡) = =𝜆
1 − 𝑅(𝑡)
𝑡
𝑙𝑜𝑔[𝑆(𝑡)] = 𝑙𝑜𝑔[1 − 𝑅(𝑡)] = − ∫ 𝜆𝑑𝑢 = −𝜆𝑡 = −𝛬(𝑡)
0
C. Modèle de Weibull, relation entre R, S et λ

𝛾
𝑆(𝑡) = 𝑒 −(𝜆𝑡)
𝛾
𝑅(𝑡) = 1 − 𝑒 −(𝜆𝑡)
𝛾
𝑅′(𝑡) = γ𝜆𝛾 𝑡 𝛾−1 𝑒 −(𝜆𝑡)
𝑅 ′ (𝑡)
𝜆(𝑡) = = γ𝜆𝛾 𝑡 𝛾−1
1 − 𝑅(𝑡)
𝑡
𝑙𝑜𝑔[𝑆(𝑡)] = 𝑙𝑜𝑔[1 − 𝑅(𝑡)] = − ∫ 𝜆𝑑𝑢 = −(𝜆𝑡)𝛾 = −𝛬(𝑡)
0
Modèle à deux paramètres. Le modèle exponentiel correspond au cas où γ = 1. Si γ > 1, le taux

est une fonction croissante du temps. Si γ < 1, le taux est une fonction décroissante du temps. Le taux
instantané est une puissance du temps.
D. Estimation par intervalle

Nous subdivisons la durée de suivi en intervalles dans lesquels le taux de décès est supposé
constant : t0 = 0, t1, t2, ........ti = fin du suivi.
Nous comptons le nombre de personnes ni-1 exposées au risque de décès en ti-1 pour chaque i.
Ici, nous nous concentrons sur un intervalle de temps donné.
Nous comptons le nombre de décès di et de sortis vivants ci dans l’intervalle [ti-1 ; ti]. Nous
estimons :
▪ Le taux de décès λi dans chaque intervalle ;
▪ La probabilité conditionnelle si = exp[-λi(ti – ti-1)] de survivre en ti si on était vivant
en ti-1.

Puisque l’on a si = exp[-λ × largeur

intervalle de temps, dans l’intervalle nous
avons un modèle de survie exponentiel.
Pour survivre en ti(S(ti)), il faut :

▪ Survivre jusqu’en ti-1 (S(tI-1)) ;
▪ Survivre dans l’intervalle ]ti-1 ti ] (si).
La survie en ti peut ainsi être calculée comme le produit de la survie dans des intervalles
successifs :
𝑆(𝑡) = 𝑠1 × 𝑠2 × . . .× 𝑠𝑖
Remarque – Exemple : estimation de λ :
λi = nombre de décès / ni × Δti × temps de participation de tous les participants.
λ est constant dans l’intervalle, nous avons quatre sujets décédés et deux censures. Ici nous avons
une estimation car nous avons des données incomplètes à cause des censures ! Il faut bien diviser par
le temps de participation de tous les participants même les censures !!!
VI. Approximation actuarielle

Nous ne connaissons pas les dates exactes de décès ou de censure dans l’intervalle, mais
seulement leurs nombres ci et di.
A. Sans censure
Si ci = 0, la probabilité de décéder dans l’intervalle et le taux de décès dans ce même intervalle
sont estimés par :
𝒅𝒊
𝒓̂𝒊 = 𝒏𝒊−𝟏
𝒅𝒊
𝝀̂𝒊 = 𝒅
𝒏𝒊−𝟏 × ∆𝒕𝒊 − 𝒊 × ∆𝒕𝒊
𝟐
Remarque – Nous remarquons que nous retirons la moitié aux décès, nous faisons l’hypothèse que les
décès se sont produits à la moitié du temps (= moyenne). ri = probabilité de décéder en “première
intention”.
141 Année 2022 – 2023

B. Avec censure
Si ci ≠ 0, c’est-à-dire en cas de censure :
𝒅𝒊
𝒓̂𝒊 = 𝒄
𝒏𝒊−𝟏 − 𝒊
𝟐
𝒅𝒊
𝝀̂𝒊 = 𝒄 𝒅
(𝒏𝒊−𝟏 − 𝒊 ) × ∆𝒕𝒊 − 𝒊 × ∆𝒕𝒊
𝟐 𝟐
𝒔̂𝒊 = 𝟏 − 𝒓̂𝒊
Nous supposons ici également que les décès et les censures interviennent au milieu de l’intervalle.
Remarque – Dans l’approximation actuarielle, le calcul de l’estimation du taux de mortalité revient à

faire l’opération « Nombre de décès / Σ (temps de participation) », avec les décès et les censures ayant
lieu (en moyenne) au milieu de l’intervalle.
Exemple d’approximation actuarielle.
VII. Modèle à taux proportionnel

Dans le cas d’un facteur dichotomique, le modèle s’écrit : λ1(t) = αλ0(t), où α est appelé le taux
relatif du groupe 1 par rapport au groupe 0. L’idée du modèle à taux de mortalité proportionnels est
implicite dans le test du « Log-Rank » qui évalue l’hypothèse ‘‘α = 1 ?’’.
Si nous modélisons linéairement le paramètre λ des distributions exponentielles et de Weibull,

nous obtenons des modèles à taux proportionnels.
Le modèle de Cox est un modèle à taux proportionnels dans lequel la forme analytique du taux
n’est pas spécifiée. λ0(t) est estimé à partir de données mais pas de paramètres.
Si les taux sont proportionnels, les risques ne le sont pas eux !
Le modèle s ’écrit λ(t, z) = λ(t, 0) × exp(ßz), la fonction λ(t, 0) est le taux de base (inconnu), z un
vecteur de covariable (mesurée), ß un vecteur de paramètre (à estimer) = influence du traitement
(ttt) sur la survie et le décès : nouveau paramètre que nous allons estimer.

Le taux cumulé et la survie sont donc :

𝛬(𝑡, 𝑧) = 𝛬(𝑡, 0) × 𝑒 𝛽𝑧
𝑆(𝑡, 𝑧) = 𝑒 −𝛬(𝑡,𝑧) = 𝑆(𝑡, 0)exp(𝛽𝑧)
Les survies S(t,z) et S(t,0) ne sont pas proportionnelles !
Le log du taux relatif est une fonction linéaire des covariables :

𝑚
𝜆(𝑡, 𝑧)
log = ∑ 𝛽𝑖 𝑧𝑖 = 𝛽𝑧
𝜆(𝑡, 0)
𝑖=1
𝜆(𝑡, 𝑧1 , … , 𝑧𝑖 , … , 𝑧𝑚 )
log = 𝛽𝑖 𝑧𝑖
𝜆(𝑡, 𝑧1 , … ,0, … , 𝑧𝑚 )
Αi = eßi est le taux relatif des sujets pour lesquels zi = 1 par rapport à ceux pour lesquels zi = 0,
toutes choses égales par ailleurs.
Exemple – Analyse avec le modèle de Cox :

→ Étudier le temps de rémission avec le nouveau traitement 6-MP; comparer la distribution du temps
de rémission dans les deux groupes « traitement standard » (corticoïdes + placebo) et « nouveau
traitement » (corticoïdes et 6-MP).
→ Le modèle est :
• 𝜆(𝑡, 𝑧) = 𝜆(𝑡, 0)𝑒𝑥𝑝(𝛽𝑧) ; z = 1 pour le nouveau traitement et z = 0 pour le traitement standard ;
• 𝛼 = 𝑒𝑥𝑝(𝛽) est le taux relatif de rechute dans le groupe 6-MP comparé au groupe placebo ;
• Le taux de rechute dans le groupe traitement est 𝜆(𝑡, 0).
A. Ajustement pour une variable de confusion

Bien que l’étude soit randomisée, la valeur de log-wbc est différente pour les traités et les non
traités.
Il convient donc de prendre en compte cette variable dans l’évaluation de la différence.
La méthode de régression réalise cela avec le modèle :

▪ λ (t, traitement, log wbc) = λ(t, 0,0)exp(β × traitement + γ × log wbc) ;
▪ 𝛼 = 𝑒𝑥𝑝(𝛽) est alors le taux relatif des “traités” vs “placebo” à wbc constant (nous
enlevons des effets autres que le traitement car nous nous intéressons seulement à
celui-là !) ;
▪ 𝛽 = −1,2941 𝑒𝑥𝑝(𝛽) = 0,2742.
B. Survie ajustée
0,80 = bras placebo, 0,2742 =
taux relatif de la puissance de survie :
▪ 0,800,2742 = 0,94 =
bras chimio ;
▪ 0,400,2742 = 0,78 ;
▪ 0,200,2742 = 0,64.
Ceci nous permet d’avoir une

survie à taux proportionnels, nous passons d’une courbe à l’autre de survie grâce à α.
143 Année 2022 – 2023

Ci-dessous sont résumées les formules utiles lorsqu’on compare deux groupes (1 et 0) dans un
modèle à taux proportionnels :
Modèle à taux proportionnels
𝜆1 (𝑡) = 𝛼 × 𝜆0 (𝑡)
𝑆1 (𝑡) = 𝑆0 (𝑡)𝛼
Distribution exponentielle Distribution de Weibull Modèle de Cox
La fonction 𝜆0 (𝑡) n’est pas définie :

elle n’est pas modélisée en
𝜆0 (𝑡) = 𝜆 𝜆0 (𝑡) = 𝛾 𝜆𝛾 𝑡 𝛾−1
𝛾 fonction de paramètres (λ, γ, …)
𝑆0 (𝑡) = 𝑒 −𝜆𝑡 𝑆0 (𝑡) = 𝑒 −(𝜆𝑡)
mais est estimée à chaque instant à
partir des données de l’échantillon.

Intelligence artificielle (HP)
Intelligence artificielle (hors-programme)

NDLR – Ce cours est une introduction à la notion d’intelligence artificielle. Il est hors-programme pour
cette année 2022-2023 (d’après nos informations), mais, dans le doute, il a été laissé dans le polycopié.
Le professeur a décidé de mettre l’accent sur les modèles d’apprentissage et notamment les points
communs et les différences qu’il existe entre les modèles d’apprentissage classiques et ceux basés sur
l’utilisation des réseaux neuronaux.
En effet, les algorithmes d’apprentissage sont des modèles.
S’il s’avère que ce cours est de nouveau au programme pour l’année 2023-2023, il est conseillé de s’y
rendre.
I. Variabilité
La notion de variabilité est primordiale. En effet, un patient n’est jamais parfaitement identique
à un autre : sa maladie, sa réponse au traitement, son pronostic, etc. Tout est susceptible de varier.
Cette variabilité pose alors une question fondamentale dans le soin : comment analyser,
comprendre, décider dans un monde où la variabilité est la règle ? Il faut bien comprendre que cette
notion de variabilité ne concerne pas que la biostatistique mais tout le domaine du soin.
« Si les patients étaient identiques entre eux, il n’y aurait pas besoin de
biostatistiques, mais il n’y aurait pas de médecine non plus. »
Valleron AJ Préface.
II. Modèles
NDLR – Les équations des modèles ne sont pas à retenir dans le cadre de la première année.
A. Modèle diagnostique
Les modèles diagnostiques prennent en compte l’effet de

variables sur la probabilité de la maladie.
𝛽 +Σ𝛽𝑗 𝑋𝑗
𝑒 0 1
Le modèle logistique : 𝑃(𝑌 = 1|𝑋) = 𝛽 +Σ𝛽𝑗 𝑋𝑗 = −(𝛽0 +Σ𝛽𝑗 𝑋𝑗 ) est un exemple de modèle
1+𝑒 0 1+𝑒
diagnostique. (Ce modèle est donné à titre d’exemple, il n’est pas au programme de PASS).
Cela permet de donner une probabilité que le sujet soit atteint de la maladie, en fonction de
covariables.
Il reste une partie qui n’est pas expliquée par les covariables et qui est donc source d’erreur. Les
modèles diagnostiques prennent en compte l’effet de variables sur la probabilité de la maladie.
Remarque – Exemple concret : un modèle étudiant la tension artérielle pour estimer la probabilité que
le patient souffre d’une hypertension artérielle est un modèle diagnostique.
145 Année 2022 – 2023

B. Modèle pronostique
Les modèles pronostiques étudient l’effet de variables chez les patients,

associées à la survenue d’évènements comme la rechute ou le décès.
Le modèle de survie de Cox 𝜆(𝑡, 𝑋) = 𝜆(𝑡, 0)exp (Σ𝛽𝑗 𝑋𝑗 ) est un exemple de modèle pronostique.
(Ce modèle est donné à titre d’exemple, il n’est pas au programme de PASS).
Remarque – Exemple concret : le stade du cancer est une variable associée à son pronostic, la taille de
la tumeur est un critère pronostic du cancer.
C. Modèle théranostique ou de réponse thérapeutique
Les modèles théranostiques étudient l’effet des co-variables sur une

réponse favorable au traitement. Ils fonctionnent avec interation.
Le but est de repérer les patients qui ne répondront pas favorablement au traitement pour leur
éviter un traitement lourd et inutile.
Remarque – Exemple concret : certains polymorphismes peuvent être associés à la variabilité dans la
réponse aux traitements.
D. Exemple concret : le modèle linéaire

Le modèle linéaire est le plus simple des modèles. Il s’exprime grâce à l’équation :
𝑌 = 𝛽0 + Σ𝛽𝑗 . 𝑋𝑗 , plus un terme d’erreur qui n’est pas présenté.
Le modèle linéaire a été étudié en univarié lors du cours de corrélation-régression :
𝑌 = 𝛽0 + 𝛽1 . 𝑋1
ß0 étant l’ordonné à l’origine et ß1 étant la pente de la droite de la régression linéaire. Il faut noter
qu’il existe une grande partie de la variabilité de Y qui n’est pas expliqué par X : c’est ce qu’on appelle
la résiduelle.
III. Estimation
Dans cette partie, nous allons chercher à comprendre comment nous pouvons estimer les
paramètres d’un modèle, c’est-à-dire les coefficients β associés aux variables explicatives X. (cf. le
cours Corrélation-Régression).
A. Modèle linéaire simple

Dans le cadre du modèle linéaire simple, nous avons la formule suivante : 𝒀 = 𝜷𝟎 + 𝜷𝟏 × 𝑿 qui
correspond à la relation théorique inconnue (en trait plein). Sur l’échantillon d’étude, il est possible
d’obtenir une estimation de l’ordonnée à l’origine et une estimation de la pente, qui caractérisent la
droite (en pointillés) obtenue sur l’échantillon. On estime ainsi la force de la relation entre X et Y.
Comme vu en corrélation-régression, ß0 correspond à l’ordonnée à l’origine c’est-à-dire la valeur

de Y quand X vaut 0 et ß1 correspond à la pente (ou coefficient de régression) de la droite de régression.
Les estimations de ces deux paramètres sont notées respectivement 𝜷 ̂𝟎 et 𝜷
̂𝟏 .

Modèle linéaire simple.
B. Modèle linéaire et Moindres Carrés Ordinaires

Cette méthode ne s’applique que pour les modèles linéaires.
L’objectif de l’estimation de ces paramètres 𝜷̂𝟎 et 𝜷

̂𝟏 est donc d’obtenir la droite de régression
qui passe le plus près possible de l’ensemble des points, résumant ainsi le nuage de points obtenu.
Il faut alors travailler sur les résidus notés ei qui, pour l’ensemble des valeurs de la variable X, sont
les écarts entre la valeur observée sur les données (notée yi) et la valeur qui serait prédite par le
modèle (notée µi), située sur la droite de régression créée.
L’objectif est de minimiser la somme des écarts quadratiques (au carré) entre les valeurs
observées yi et les valeurs prédites µi (autrement dit des écarts ei) sur l’ensemble des n valeurs de
l’échantillon. Cela fournit des estimations de l’ordonnée à l’origine (𝜷̂𝟎 ) et de la pente (𝜷
̂𝟏 ) de la
droite de régression.
̂𝟎 𝐞𝐭 𝜷
Les valeurs 𝜷 ̂𝟏 qui rendent minimale cette somme des
carrés des écarts sont les estimations des paramètres.
La méthode des moindres carrés ordinaires est un estimateur qui fournit des estimations de ces
paramètres.
Il faut donc bien choisir la droite minimisant la somme des carrés des écarts ei et choisir les valeurs
des paramètres 𝛽 ̂0 et 𝛽
̂1 de sorte que ∑𝑛𝑖=1 𝑒𝑖2 = ∑𝑛𝑖=1(𝑦𝑖 − 𝜇𝑖 )2 = ∑𝑛𝑖=1[𝑦𝑖 − (𝛽0 + 𝛽1 𝑥𝑖 )]2 soit le
plus petit possible.
Cette fonction qui associe les valeurs des paramètres à un

échantillon s’appelle un estimateur.
Modèle linéaire.
147 Année 2022 – 2023

Ici, chaque point de la droite est caractérisé par un couple (xi ; yi) qui sont des valeurs théoriques.
Or, les valeurs observées, estimées dans l’échantillon, ne sont pas strictement identiques : pour un x
fixé, le y observé est différent du y théorique, prédit par le modèle linéaire. C’est cet écart que nous
cherchons à minimiser par la méthode de la somme des écarts quadratiques.
̂0 et 𝛽
Ainsi, les valeurs estimées de 𝛽 ̂1 minimisant la somme des écarts quadratiques sont celles
obtenues en annulant les dérivées partielles de cette somme par rapport à ces deux paramètres : nous
avons donc une solution unique pour les valeurs de 𝛽 ̂0 et 𝛽
̂1 .
Exemple – Ici, nous avons un modèle de régression linéaire multiple où le poids à la naissance (variable
expliquée Y) sur l’axe des ordonnées est expliquée par deux variables : l’âge gestationnel (en SA) et le
sexe du nouveau-né. On remarque que la droite de régression linéaire des garçons est décalée vers le
haut par rapport à celles des filles. En moyenne, leur poids à la naissance est plus élevé. Néanmoins, il
existe une forte dispersion des valeurs des poids à la naissance observée autour des valeurs prédites.
La part de la variabilité du poids à la naissance expliquée soit par l’âge gestationnel soit par le sexe est
donc faible. Le modèle prédit assez peu la variabilité.
Modèle de régression linéaire entre le poids à la naissance et l’âge gestationnel.
C. La vraisemblance
La vraisemblance est une autre méthode d’estimation des paramètres, plus générale, qui pourra
donc être utilisée pour les modèles logistiques ou les modèles de survie. La vraisemblance de la valeur
d’un paramètre est la probabilité des données si le paramètre a cette valeur. C’est-à-dire que c’est
une quantité qui mesure l’accord des données avec la valeur de ce paramètre.
La méthode du maximum de vraisemblance consiste à choisir pour estimation du ou des

paramètres la valeur qui a la vraisemblance maximale. Ainsi c’est une méthode générale de
construction d’estimateurs.
Remarque – La vraisemblance étant une autre méthode d’estimation des paramètres, cela en fait
estimateur.
La vraisemblance d’un modèle est la vraisemblance des

estimations du maximum de vraisemblance de ses
paramètres.

D. Maximum de vraisemblance du modèle linéaire

Pour votre année de PASS, il faut que vous reteniez de cette méthode qu’elle fournit, dans le cas
du modèle linéaire, les mêmes estimations des paramètres que la méthode des moindres carrés.
Cependant, dans le cas d’un modèle non linéaire, on ne peut pas utiliser la méthode des moindres
carrés ordinaires. Dans ce cas-là, pour obtenir les estimations des paramètres, vous devrez utiliser la
méthode du maximum de vraisemblance.
IV. Part de la variance expliquée
Rôle de la variance.
On voit sur ce graphique que la variance totale, caractérisée par la dispersion des valeurs du poids
à la naissance, n’est que partiellement expliquée par le modèle. Donc la durée de la grossesse en
semaine d’aménorrhée et le poids à la naissance n’expliquent qu’une partie de la variance totale.
Une grande partie de la variance totale est donc représentée par la variance résiduelle, c’est-à-
dire la dispersion des valeurs observées autour des valeurs prédites par les deux droites de régression.
Les capacités de prédictions d’un réseau de neurones sera donc limité par la part de la variabilité
expliquée : il y a forcément une part que le réseau ne peut pas prédire puisque cette part n’est pas
expliquée par les covariables.
V. Intelligence artificielle
A. Définition
Au sens commun, l’intelligence peut être définie comme la faculté à s’adapter à
l’environnement.
Cela sous-entend déjà que pour ce concept, la notion d’apprentissage est essentielle.
L’intelligence artificielle, elle, est la capacité à résoudre des problématiques simples ou complexes à
l’aide de modèles simples et de réseaux de neurones.
149 Année 2022 – 2023

B. Création de l’IA et développement

Parmi les éléments contributifs à la création et au développement de l’intelligence artificielle, on
retrouve :
▪ Les travaux de cryptanalyse d’une équipe de mathématiciens polonais, repris par
l’équipe de A. Turing pendant la seconde guerre mondiale, ayant conduit au
décryptage de la machine Enigma. Le but à l’époque était de créer un automate
capable de décrypter les messages ;
▪ L’ordinateur Deep Blue d’IBM, ayant remporté une victoire contre le champion
d’échecs G. Kasparov en 1997.
Bombe électromécanique de Turing (à gauche) et Deep Blue IBM® (à droite).
Un test intéressant dans le cadre du développement de l’IA est le test de Turing, qui consiste à
mettre en relation un individu avec un ordinateur. Le test est réussi lorsque l’individu qui communique
avec l’ordinateur ne peut indiquer s’il communique avec un homme ou une machine.
C. L’IA et les données

L’objectif des modèles d’apprentissage (ou des réseaux neuronaux d’apprentissage profonds) est
de faire des prédictions chez des individus dont les données n’ont pas été utilisées lors de
l’apprentissage. Toute l’information vient des données ! Pour que le réseau de neurones apprenne, on
doit disposer d’individus chez lesquels sont disponibles les variables utilisées pour la prédiction ainsi
que le critère à prédire.
L’apprentissage nécessite un gros volume de données et une puissance de calcul importante (qui
est disponible aujourd’hui, grâce notamment aux cartes graphiques). Mais quelle est l’information
réellement contenue dans ces données, et cette information permet-elle vraiment de faire des
prédictions chez de nouveaux individus ?
VI. Deep Learning, l’apprentissage profond

NDLR – Partie inspirée par les conférences de Y. Lecun pour USI et le Collège de France.
A. L’apprentissage supervisé
Ce type d’apprentissage n’est pas exclusif à l’IA, car les modèles de régression l’emploient
également. Il s’agit pour un individu d’apprendre à prédire la valeur la plus probable d’une variable Y
en fonction des valeurs prises par ses covariables X.
L’objectif quand on met au point une IA est de pouvoir l’entraîner au lieu de la programmer
entièrement. Pour les réseaux neuronaux, l’apprentissage supervisé se fait en les entraînant à
reconnaître des images, des objets, des visages, etc.

L’algorithme apprend de ses erreurs. En effet, lorsqu’il arrive à reconnaître correctement un

objet, il n’y a qu’une faible modification de ses paramètres.
En revanche, lorsqu’il se trompe, l’ajustement de ses paramètres est important. Ainsi, lorsque
l’algorithme se trouvera confronté à nouveau à cet objet, il y aura une forte probabilité qu’il le
reconnaisse. Ainsi, les paramètres sont progressivement corrigés pour fournir une prédiction optimale.
Applications – Reconnaissance d’images, conduite automatique, traduction, reconnaissance

automatique de la parole, diagnostic des tumeurs ou des mélanomes en imagerie médicale… Dans le
cas de la reconnaissance de mélanomes, les machines font très vite mieux que l’humain en cherchant
quels éléments l’orientent vers un mélanome ou vers un simple grain de beauté bénin.
Pour pouvoir entraîner un réseau neuronal, des dizaines de milliers d’images seront nécessaires.
On recherche ensuite la propriété de généralisation, c’est-à-dire la capacité du réseau à reconnaître
des images qu’il n’a jamais vues.
Remarque – Il n’y a pas de frontière entre le réseau de neurones et le modèle : on a en quelque sorte
« entraîné » notre modèle en lui fournissant des moyennes et écarts-types, eux-mêmes issus
d’estimations.
B. L’apprentissage profond, ou deep learning

L’apprentissage profond s’applique à des réseaux de neurones multicouches. Le système est
entraîné sur des dizaines de milliers d’exemples, avec un ajustement continu de ses coefficients.
Il convergera progressivement vers la combinaison qui minimise l’erreur de prédiction moyenne,

en modifiant les poids des paramètres (la différence entre la valeur prédite et la valeur vraie moyennée
sur des milliers d’exemples).
C. L’apprentissage par renforcement

Cet apprentissage est une autre approche, utilisée dans le domaine des jeux (échecs, jeu de go…).
Ce système s’appuie sur l’association des réponses à une punition ou à une récompense. Une mauvaise
réponse entrainera une punition, une bonne réponse entrainera une récompense → Renforcement
de la stratégie.
Les performances obtenues grâce à cette méthode d’apprentissage dépasseront les capacités
humaines.
VII. Réseaux neuronaux

A. Réseau
Un réseau est un ensemble de neurones mais également de connexions entre neurones. Ces
neurones vont recevoir un signal (en entrée, ce sont nos variables explicatives que l’on fournit au
réseau), le traiter et fournir de nouveaux signaux (en sortie, ce sont nos prédictions).
Les neurones vont ainsi constituer des unités de calcul que l’on va pouvoir traiter soit par des
traitements simples (comme par exemple en sommant les différents signaux entrants), soit par des
traitements plus complexes.
151 Année 2022 – 2023

B. Perceptron monocouche
Remarque – C’est le réseau le plus simple qu’il existe historiquement.
Perceptron monocouche.
Dans ce schéma, le grand cercle représente le neurone de sortie. Un neurone de sortie va être
relié à I (lisez « grand I ») neurones d’entrée. Le neurone de sortie va donc recevoir I signaux notée Xi,
avec i allant de 1 à I, provenant de ces neurones. Le neurone de sortie va pondérer chacun de ces
signaux par des poids wi. Il faut voir ce poids comme un équivalent du paramètre β associé à une
variable dans les modèles vus précédemment.
Ce neurone de sortie va également être associé à un biais noté b, et une fonction d’activation.
Ces trois éléments (les poids, le biais et la fonction d’activation) sont propres à 1 neurone de sortie.
Ce schéma du perceptron monocouche peut également être constitué de plusieurs neurones de

sortie mais ce n’est pas le cas ici, on n’en a qu’un seul.
NDLR – Une somme pondérée est une somme où les éléments de l’addition ont plus ou moins
d’importance selon leur poids.
On peut faire l’analogie avec les points totaux du Baccalauréat où les points de chaque matière
(les éléments de l’addition) sont pondérés par les coefficients des matières en question (leur poids).
Le signal reçu par le neurone en sortie va donc être composé de la somme des I signaux allant de
X1 à XI pondérés par leurs poids respectifs, notés wi et allant également de w1 à wI. Il y a autant de
séries de Xi poids qu’il y a de neurones en sortie. Le signal comprend également le biais du perceptron,
noté b. On a ainsi la somme des wiXi, à laquelle s’additionne le biais b.
Pour rendre cette somme de X + 1 termes plus lisible, on peut la remplacer par la formule
∑𝐼𝑖=0 𝑤𝑖 𝑋𝑖
avec w0 = b et X0 = 1.
La forme linéaire de ce signal va passer par une fonction d’activation. Dans le schéma du
perceptron monocouche, la fonction d’activation la plus utilisée est celle d’O. Heaviside. Dans celle-ci,
on va comparer la valeur obtenue par la forme linéaire du signal avec un seuil θ. La fonction
d’activation d’Heaviside va ainsi renvoyer un signal Boléen, c’est-à-dire un signal pouvant prendre deux
valeurs :
▪ Si la forme linéaire est supérieure ou égale à 𝜃, le signal renvoyé prend la valeur 1 ;
▪ Si la forme linéaire est inférieure stricte à 𝜃, le signal renvoyé prend la valeur 0.
Comparer la forme linéaire à 𝜃 revient à comparer une valeur z qu’on pose à 0. Cette valeur z est
définie par la formule 𝑧 = (∑𝐼0 𝑤𝑖 𝑋𝑖 ) − 𝜃. On a ainsi deux possibilités comme précédemment :
▪ Si z ≥ 0, alors le signal renvoyé prend la valeur 1 ;
▪ Si z < 0, alors le signal renvoyé prend la valeur 0.

On note ainsi H(z) la fonction d’activation d’Heaviside qui ne peut prendre que deux
valeurs : 0 ou 1.
Cette fonction aura une forme de marche d’escalier :
Fonction H(z) en forme de marche d’escalier.
Remarque – C’est en réalité une fonction discontinue, il ne devrait pas y avoir de trait vertical.
Pour résumer : un perceptron monocouche est un ensemble

de neurones sans couche cachée. On a I neurones d’entrée
qui recueillent un ensemble de I signaux. Chaque neurone de
sortie associe à ces neurones d’entrée I poids, ajoute un
paramètre de biais et applique à la forme linéaire obtenue
une fonction d’activation.
Exemple – Prenons le cas d’un perceptron monocouche avec simplement deux neurones en entrée et
un neurone en sortie, utilisant une fonction d’activation d’Heaviside (fonction en marche). L’utilisation
de ce perceptron va permettre de classer des points en deux groupes de points : groupe à majorité bleu
ou groupe à majorité vert. Le perceptron sépare le plan en deux demis plans, avec d’un côté les valeurs
pour lesquels z = 0 et de l’autre, celles pour lesquelles z=1. Ceci revient à estimer les valeurs des points
et du seuil 𝜃 qui définissent une droite séparant le plan X1X2 en deux demi-plans. Cette droite est
obtenue pour z = 0, soit ( ∑𝐼0 𝑤𝑖 𝑋𝑖 ) – 𝜃 = 0. Puisque l’on a deux neurones, après estimation des
paramètres w1, w2 et 𝜃, l’équation 𝑤0 + 𝑤1 𝑋1 + 𝑤2 𝑋2 − 𝜃 = 0 est celle d’une droite d’ordonnée à
𝜃−𝑤0 −𝑤1
l’origine 𝑤2
et de pente 𝑤2
.
Si nous avions utilisé le même perceptron

monocouche mais avec trois neurones en entrée et un
neurone en sortie, associé à une fonction d’Heaviside,
nous aurions eu un séparateur plan 2D dans un espace
3D. Avec plus de neurones, nous aurions eu un
séparateur hyperplan.
Il est intéressant de noter que malgré l’utilisation

de seulement deux paramètres d’intérêt, il y a déjà trois
poids différents. Puisqu’il y a plus de poids que de
paramètres, il y a une infinité de possibilités de poids
pour obtenir cette même droite. La seule chose
importante est que les rapports d’ordonnée à l’origine
𝜃−𝑤0 −𝑤
𝑤2
et de pente 𝑤 1 restent identiques.
2
153 Année 2022 – 2023

C. Réseau neuronal multicouche

La structure d’un réseau neuronal multicouche comprend :
▪ Une couche d’entrée, avec autant de neurones que de signaux que l’on souhaite
capter ;
▪ Une ou plusieurs couches cachées ;
▪ Une couche de sortie fournissant un ou plusieurs signaux, qui comprend autant de
neurones que de modalités d’intérêt (soit qualitatives c’est à dire de classification,
soit quantitatives).
Exemple – Exemple d’un schéma de réseau neuronal multicouche : Ici on

retrouve I neurones en entrée, 3 couches cachées et 2 neurones en sortie.
Il y a donc beaucoup de poids à définir et corriger dans ce modèle.
Il existe plusieurs fonctions d’activation, présentées dans les parties

suivantes.
1. La fonction ReLU (Rectifier Linear Unit)

C’est une fonction affine par morceaux définie sur R dans l’intervalle [0 ; + ∞[ par :
La fonction ReLU.
2. La fonction Tangente Hyperbolique

Elle est définie sur R dans l’intervalle [-1 ; 1] par :
La fonction tangente hyperbolique.
3. La fonction Sigmoïde (ou logistique)

Elle est intéressante pour prédire des probabilités puisqu’elle est définie sur le même intervalle
que celles-ci. Elle est définie sur R dans l’intervalle [0 ; 1] par :
La fonction sigmoïde.

4. La fonction Softmax
C’est une extension de la fonction sigmoïde. C’est une fonction continuellement dérivable qui
peut donc être utilisée pour l’entraînement des réseaux. En effet, la continuité d’une fonction est un
élément important pour l’estimation et la correction des poids. La discontinuité de la fonction
d’Heaviside, à l’inverse, peut poser problème pour corriger des poids.
Remarque – Le professeur a choisi d’illustrer le même exemple que précédemment, avec un simulateur
de perceptron monocouche. La fonction d’activation utilisée ici est une fonction continue : la fonction
sigmoïde. Le perceptron monocouche doit donc tracer une droite qui sépare le plan en deux demi-plans,
en discriminant parfaitement les points rouges des points verts. Il existe en réalité une infinité de droites
qui remplissent ces conditions, ainsi, celle que l’on voudrait utiliser n’est pas forcément celle que le
perceptron trouvera. Pour trouver cette droite, le perceptron corrige « à tâtons » les valeurs qu’il avait
précédemment donné aux poids w0, w1 et w2.
Ce qui relie les valeurs des poids à la droite est un calcul (qu’il ne faut pas savoir faire) qui donne
𝜃−𝑤0 −𝑤1
la valeur de l’ordonnée à l’origine 𝑏0 = 𝑤2
et de pente 𝑏1 = 𝑤2
.
Ainsi, lorsque l’on modifie les poids, nous modifions également l’allure de la droite, nous pouvons
dire que les paramètres de la droite dépendent des poids. A force de tester des poids, et en se rappelant
de ses erreurs, nous pouvons voir que le perceptron monocouche réussit à trouver des poids qui
permettent de discriminer correctement les points Puisqu’il existe une infinité de droites possibles, et
une infinité de poids possibles pour chaque droite, il est logique que le perceptron ne trouve pas les
poids que nous avions choisi nous-même.
Formulation de l’équation sous forme y = ax + b.
NDLR – Les simulations du professeur étaient très illustratives, il peut être intéressant de refaire ça
vous-même avec ce lien : https://lucleray.github.io/perceptron.
155 Année 2022 – 2023

D. Les différentes architectures des réseaux neuronaux

On retrouve les réseaux neuronaux à propagation avant (feed-forward networks) qui
correspondent aux schémas de neurones vus précédemment : le perceptron monocouche et le réseau
neuronal multicouche. Dans cette architecture, un neurone de la couche J reçoit des signaux de la
couche J-1 et transmet les signaux à un neurone de la couche J+1.
Les réseaux récurrents, plus complexes, ont la possibilité d’avoir des boucles d’activation. Dans
cette architecture, le neurone de la couche J peut transmettre également des informations à d’autres
neurones de sa propre couche J et à J-1 en plus de transmettre des informations aux neurones de la
couche J+1. (On peut transmettre non seulement à J+1 mais également à J et J-1.)
E. L’apprentissage supervisé
Le réseau de neurones apprend à partir des données qu’on lui donne. Les paramètres de ce
réseau correspondent aux poids. L’ajustement de ces poids se fait par apprentissage : on donne des
valeurs initiales aléatoires au réseau puis les poids sont ajustés, mis à jour en continu, afin de
maximiser la vraisemblance des données de l’échantillon d’apprentissage.
L’objectif de l’apprentissage est de permettre au réseau de neurones de prédire un ou plusieurs

signaux en sortie pour des valeurs ne faisant pas partie de l’échantillon utilisé pour l’apprentissage :
l’échantillon d’apprentissage intègre donc la variable réponse.
Pour les réseaux neuronaux à propagation avant, les corrections des poids se font par des
méthodes de rétropropagation du gradient ou par d’autres méthodes assimilées. On corrige d’abord
les poids de la dernière couche, puis ceux des couches intermédiaires, pour finir par corriger ceux de
la première couche. Pour les réseaux récurrents, les corrections des poids se font par des méthodes
de rétropropagation à travers le temps.
F. Performances d’un réseau de neurones utilisé pour la

classification sur un échantillon test
L’étude des performances d’un réseau neuronal utilisé comme un algorithme de classification est
surtout intéressante sur le plan clinique. Les critères retenus sont :
▪ L’exactitude, c’est-à-dire la proportion de résultats corrects :
- (VP + VN) / (VP+VN+FP+FN) = Exactitude ;
▪ Le rappel, c’est-à-dire la sensibilité :
- VP / (VP +FN) = Sensibilité ;
▪ La précision, qu’on appelle aussi la valeur prédictive positive :
- VP / (VP + FP) = Valeur Prédictive Positive ;
▪ La spécificité :
- VN / (VN + FP) = Spécificité ;
▪ Et enfin l’aire sous la courbe ROC (AUC).
Remarque – Ces critères doivent être déterminés à partir de l’échantillon test, et non pas sur
l’échantillon sur lequel l’algorithme a fait son apprentissage (minimisation des erreurs, donc on
trouverait des valeurs biaisées).
(Les notions de sensibilité, de spécificité, d’AUC, ainsi que de valeurs prédictives sont détaillées
dans Tests Diagnostiques et il est important de comprendre leur sens et de pouvoir les calculer).

VIII. Big Data – Données de grandes dimensions

Les données ou « la data » sont de grandes dimensions pouvant être de deux types : un grand
nombre d’observations noté n, ou un grand nombre de variables noté m.
Les données peuvent résulter de l’association de ces deux types :

▪ La catégorie des grands nombres d’observations (n) regroupe les entrepôts de
données (par exemple les entrepôts hospitaliers ou les entrepôts régionaux) et les
bases de données de l’Assurance Maladie ;
▪ La catégorie des grands nombres de variables (m) regroupe le domaine de la biologie
moléculaire (on parle des « omics ») et le domaine de l’imagerie médicale (on parle
de « radiomique »).
Parlons à présent des chiffres que représentent les omics, c’est-à-dire les données du domaine
de la biologie moléculaire. La biologie moléculaire concerne la génomique, la transcriptomique et la
protéomique.
Concernant la génomique, le génome humain comprend 3.109 paires de base (3 milliards) tandis
que l’exome (les exons) comprend environ 3.107 paires de bases, ce qui représente à peu près 1 % du
génome entier. Il existe aussi de nombreuses recherches sur les polymorphismes qui étudient environ
entre 0,5.106 et 2.106 de SNP (Single Nucleotide Polymorphisme).
Concernant la transcriptomique, c’est-à-dire l’étude de l’expression des

gènes qui reflète leur activité, il existe environ 22 000 gènes dans le génome
humain. Par rapport à la génomique, l’ordre de grandeur est largement réduit,
mais cela représente néanmoins une quantité importante de données.
Concernant la protéomique, qui étudie les protéines, on n’étudie qu’une

partie d’entre elles. Grâce à des méthodes physico-chimiques, on va
sélectionner et analyser simultanément quelques centaines de protéines
différentes (300 à 500).
Dans le domaine des omics, nous sommes parfois confrontés à des données comprenant un très
grand nombre de variables.
Ainsi, pour estimer les nombreux paramètres (notées ßj) d’un modèle du domaine de la omic,
nous utilisons des modèles logistiques ou de Cox (Cf. II Modèles).
NDLR – Le modèle logistique et le modèle de Cox ne sont pas au programme PASS.
Un biomarqueur est une variable biologique associée au diagnostic

(biomarqueur diagnostique), au pronostic (biomarqueur pronostique) ou
à la réponse thérapeutique (biomarqueur théranostique). L’effet d’un
biomarqueur sur le diagnostic, le pronostic ou la réponse au traitement
est estimé grâce à la valeur du paramètre ß associé à ce biomarqueur.
On peut ainsi mettre en place des études d’identification, pour mettre en évidence parmi les
différentes variables possibles lesquelles sont des biomarqueurs mais également pour estimer leurs
effets.
Cependant ces études présentent, en absence de correction, des risques de biais, notamment le
biais d’optimisme qui a pour conséquence de surestimer l’effet de ces marqueurs biologiques.
157 Année 2022 – 2023

Exemple – Sont présentés ci-dessous les résultats d’une étude de simulation, dont l’effet du
biomarqueur est estimé par un paramètre ß = 0,2. En gris, nous avons la distribution de toutes les
estimations de ce paramètre ß qui fluctuent autour de la valeur 0,2 (il n’y a pas de biais). En hachuré,
nous avons la distribution des estimations du paramètre ß issues uniquement des biomarqueurs
présentant des résultats significatifs.
En moyenne, cette distribution associée aux résultats significatifs fournit des estimations
présentant un biais (valeurs décalées sur la droite).
Cependant, on remarque que plus l’étude d’identification est de grande taille, plus la fluctuation
autour de la valeur vraie est réduite (c’est le principe de fluctuation d’échantillonnage), et plus le biais
est faible.
Distribution des estimations du paramètre β (en gris) et des estimations issues uniquement des biomarqueurs présentant
des résultats significatifs (en hachuré).
Le biais d’optimisme est lié au mécanisme de sélection statistique et est retrouvé dans les
études d’identification de biomarqueurs. Pour contrer ce biais, il faut, entre autres,
augmenter l’effectif de l’étude. L’utilisation des fonctions de pénalisation limite également.
Pour réduire le biais d’optimisme, différentes méthodes, dites pénalisées, ont été développées.
On peut citer par exemple la méthode LASSO, la méthode RIDGE, etc. Celles-ci vont rétrécir les
estimations de ces paramètres ßj, contrairement aux analyses non-corrigées qui, elles, vont avoir
tendance à surestimer l’effet des biomarqueurs. On a ainsi une compensation qui permet de fournir
des estimations de ces paramètres les plus proches possibles des vraies valeurs.
IX. Conclusion
L’utilisation de modèles statistiques classiques ou de réseaux neuronaux d’apprentissage
profonds vise à fournir des modèles prédictifs, soit de valeur, soit d’état. Ces modèles et réseaux
neuronaux nous permettent également de dire que l’analyse des propriétés des réseaux neuronaux
est intimement liée à celle des propriétés des modèles de régression classiquement utilisés.
L’Intelligence artificielle ne doit pas être une boite noire dans le domaine de la santé, c’est-à-dire
que les praticiens de ce secteur doivent en avoir une connaissance minimale afin de comprendre
quelles sont les suggestions potentielles de ces approches et leurs limites.

X. Le mot du tutorat
Vous avez certainement du mal à cerner ce qu’il faut bien comprendre de ce cours étant donné
qu’il est très différent des autres cours de biostatistiques, c’est pourquoi le tutorat vous propose de
revenir sur quelques notions essentielles à retirer du cours !
Le professeur veut bien vous faire comprendre que ce ne sont que l’application de modèles
mathématiques plus ou moins compliqués, pour prédire des données.
Exemples de modèles :
▪ Diagnostique ;
▪ Pronostic ;
▪ Théranostique.
Exemples de modèles mathématiques utilisés pour prédire ces informations :

▪ Modèle linéaire ;
▪ Modèles de survie de Cox ;
▪ Modèles logistiques.
Le but d’un modèle est de prédire des données en fonction de covariables. Il faut donc bien
comprendre que les réseaux neuronaux ne peuvent pas faire mieux qu’un modèle: ce sont des
applications automatisées du modèle, ce qui permet juste qu’il n’y ait pas un mathématicien en train
de poser les opérations sur un tableau mais en réalité, le mathématicien avec ses modèles fait aussi
bien ! Le but d’une IA est donc de donner des estimations de paramètres qui nous intéressent.
Pour pouvoir prédire des données, il faut :

▪ Entrer des covariables (qui expliquent le paramètre que l’on doit trouver, même si
attention, elles ne l’expliquent pas tout ! C’est exactement comme dans le chapitre
corrélation-régression ) ;
▪ Associer des paramètres, ou poids, à notre modèle, qui doivent être ajustés
progressivement pour que l’estimation se rapproche de + en + de la vraie valeur.
Pour ajuster ces paramètres, ou poids, il y a 2 méthodes :

▪ Moindres carrés ordinaires → s’applique uniquement au modèle linéaire ;
▪ Maximum de vraisemblance → s’applique pour n’importe quel modèle.
L’ajustement des paramètres correspond à ce qu’on appelle l’apprentissage ! Il nécessite un

grand nombre de données d’entrainements et peut-être de plusieurs types :
▪ Apprentissage profond (pour les gros réseaux neuronaux multicouches) ;
▪ Apprentissage supervisé (apprendre de ses erreurs) ;
▪ Apprentissage par renforcement (récompense/punition).
Pour corriger ces paramètres au fur et à mesure que le réseau répète les opérations, il existe des
méthodes de rétropropagation du gradient (pour les réseaux neuronaux à propagation avant) et des
méthodes de rétropropagation à travers le temps (pour les réseaux récurrents). Cela permet d’ajuster
les paramètres pour que l’IA puisse donner une meilleure estimation (= une plus proche de la réalité).
Finalement, l’intelligence artificielle prend souvent la forme de « neurones » : soit un perceptron
monocouche (modèle le plus simple) soit un réseau neuronal multicouche (opérations + compliquées).
Ces neurones mettent les modèles mathématiques en application par l’utilisation des fonctions
d’activation : Heaviside : {0 ; 1}, ReLU : [0 ; +∞[, Tangente hyperbolique [-1 ; 1], Sigmoïde [0 ; 1] et
Softmax.
159 Année 2022 – 2023


Remarques
Polycopié UE3
Remerciements
Un grand merci aux personnes qui ont donné de leur temps à la rédaction du contenu :
Laura LAGRESLE – Responsable de l’UE3

- Laura LAGRESLE
- Lien-Anh VO TRAN
Responsable des supports pédagogiques :
- Ariane MARCHAL
Responsable de la gestion des commandes et de la distribution des polycopiés :
- Nassira LAKSIOIR
Il s'agit des premières années d’existence des polys PASS du Tutorat, bâties sur les six ans
d’édition des polys PACES. Ce polycopié sera bien-sûr amélioré dans son contenu et dans sa forme au
cours des années à venir.
Pour toutes suggestions, remarques et corrections, vous pouvez vous rendre sur le forum dédié
aux polycopiés dans le module Sides NG du Tutorat.
Source des images sur la page de garde

Image du haut : créée par Lien-Anh.
Image du bas : créée par Lien-Anh.
Le Tutorat est fier d’annoncer que ses polycopiés sont imprimés à partir de papier 100 % recyclé !
Informations de législations concernant les polycopiés

Ce polycopié est réservé à un usage personnel.
La copie, diffusion totale ou même partielle de ce polycopié est interdite
en dehors du cadre du Tutorat Lyon-Est.
161 Année 2022 – 2023

APolycopié UE3!22!23

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

APolycopié UE3!22!23

Transféré par

Droits d'auteur :

Formats disponibles

ÉDITION 3

La parole du professeur au cours de la présente année universitaire fera toujours foi.

UE1 UE2 UE3 UE4 UE5

UE6 UE7 UE8

3 Année 2022 – 2023

Table des matières

Variables aléatoires & Lois classiques

Évaluation des tests diagnostiques

Principe d’un test statistique

Comparaisons de moyennes et de variances

Statistiques pour l’épidémiologie

Intelligence artificielle (hors-programme)

Épreuves EM1 CCB EM2 EB

Tutorat Santé PASS Lyon-Est 4

Statistiques descriptives ............................................................................................................. 11

5 Année 2022 – 2023

II. Lois classiques ....................................................................................................................... 40

Tutorat Santé PASS Lyon-Est 6

B. Test du Chi-2 – Test bilatéral............................................................................................. 72

7 Année 2022 – 2023

III. L’essentiel ........................................................................................................................... 102

Tutorat Santé PASS Lyon-Est 8

I. Introduction ......................................................................................................................... 131

9 Année 2022 – 2023

C. L’IA et les données .......................................................................................................... 150

Tutorat Santé PASS Lyon-Est 10

11 Année 2022 – 2023

L’intervalle de confiance correspond à l’intervalle comprenant la vraie valeur du risque à 95 % de

La méthodologie de la recherche correspond à :

II. Statistiques descriptives

1. Variables qualitatives nominales

Exemples – Sexe, groupe sanguin.

Tutorat Santé PASS Lyon-Est 12

2. Variables qualitatives ordinales

Exemples – Intensité d’une douleur, stade d’une maladie.

Ci-contre se trouvent des exemples

13 Année 2022 – 2023

C. Statistiques descriptives d’une variable quantitative

1. Classements et représentations d’une variable quantitative

Valeurs brutes des délais d’incubation.

Valeurs déduites des valeurs brutes.

Histogramme des fréquences cumulées.

Tutorat Santé PASS Lyon-Est 14

2. Paramètres de variables quantitatives

- si n est impair, valeur de rang (n+1)/2 ;

- si n est pair, toute valeur de ]x(n/2)+x((n/2)+1)[.

En pratique, la médiane est la moyenne de ces deux valeurs.

▪ Mode ou classe modale :

C’est la différence entre les valeurs extrêmes.

Valeur de rang p(n+1).

Q1, Q2, Q3 sont les quartiles, Q2 est la médiane.

15 Année 2022 – 2023

Illustration des quantiles et moyenne.

III. Loi normale

Distribution normale décrite par sa moyenne et écart-type.

La fonction de répartition est l’intégrale de la densité.

Tutorat Santé PASS Lyon-Est 16

Fonction de répartition de la distribution normale.

B. Loi normale centrée réduite

Remarque – On dit que nous centrons et que nous réduisons.

Distribution normale centrée réduite.

Lorsque nous centrons et que nous réduisons, nous observons :

Intervalle et pourcentage des valeurs.

17 Année 2022 – 2023