Vous êtes sur la page 1sur 154

ÉDITION 3

UE 4
Biostatistiques
Année universitaire 2017-2018
Tutorat PACES Lyon Est 2
Polycopié UE4

Polycopié UE4
Introduction

Informations générales sur les polycopiés


Les polycopiés du Tutorat PACES Lyon Est sont mis à votre disposition comme compléments
possibles à votre méthode de travail. Ils n'ont pas vocation à remplacer votre présence en cours ou le
cours de l'enseignant. Les polycopiés ont été rédigés à partir des cours de l'année précédente, il est
donc possible que certaines parties ne soient plus au programme ou soient devenues inexactes (eh
oui, la science évolue !). Nous vous conseillons de vous approprier au maximum ces polycopiés en les
annotant, en les surlignant, en les corrigeant et en les modifiant en fonction du nouveau cours.

Nous insistons sur le fait que les polycopiés du Tutorat sont des Supports Pédagogiques, et ne
sont absolument pas une manière de remplacer les cours en amphithéâtre, ou une référence pour le
concours PACES.

La parole du professeur au cours de la présente année universitaire fera toujours foi.

Informations concernant l'UE4 et son polycopié


L'UE4, ou biostatistiques, est une matière de réflexion et de compréhension. Dans le cadre de la
PACES, Cette UE diffère très largement des matières « à par cœur », et vous demandera une certaine
charge de travail afin de vous approprier pleinement ses secrets.

Au sein de cette UE, vous retrouverez plusieurs cours, abordant tous, de manières variées, les
statistiques en médecine, les différentes techniques utilisées pour mener telle ou telle étude clinique,
les aspects de tests diagnostiques, ou encore la façon d'étudier de comparer et de traiter différents
groupes de patients.

L'UE4 est une matière très complète, vous présentant de nombreux aspects des « coulisses » des
études cliniques, des modalités de prise en charge des patients, et avec laquelle vous apprendrez de
multiples nouveaux termes, bien utiles pour appréhender la richesse du discours médical.

Une très bonne connaissance des éléments du cours associée à une bonne compréhension sont
nécessaire à la réussite des exercices. Il reste cependant difficile de comprendre instantanément les
bons raisonnements pour résoudre un problème compliqué. L'entraînement sur les annales et la
répétition des méthodes de résolution sont deux autres piliers de la réussite.

3 Année 2016 - 2017


Sommaire

Sommaire

Introduction ...................................................................................................................................................................... 3
Sommaire .......................................................................................................................................................................... 4
Introduction ...................................................................................................................................................................... 9
I. Introduction ............................................................................................................................................................... 9
II. Statistiques descriptives ......................................................................................................................................... 10
A. Notions ......................................................................................................................................................... 10
B. Variables ....................................................................................................................................................... 10
C. Statistiques descriptives d’une variable quantitative .................................................................................. 11
III. Loi Normale ........................................................................................................................................................... 14
A. Distribution de probabilité ........................................................................................................................... 14
B. Loi normale centrée réduite......................................................................................................................... 14
IV. Distribution à deux variables qualitatives ............................................................................................................. 15
V. Conclusion .............................................................................................................................................................. 16
Applications des équations différentielles ....................................................................................................................... 17
I. Rappels de notations et définitions ......................................................................................................................... 17
II. Équations différentielles......................................................................................................................................... 17
III. Système d’équations différentielles ...................................................................................................................... 18
IV. Exemples ............................................................................................................................................................... 18
A. Bactériologie ................................................................................................................................................ 18
B. Pharmacologie ............................................................................................................................................. 19
C. Physique ....................................................................................................................................................... 20
D. Synthèse des trois exemples ........................................................................................................................ 21
V. Caractéristiques des équations différentielles ....................................................................................................... 22
A. Ordre ............................................................................................................................................................ 22
B. Linéarité .................................................................................................... Erreur ! Le signet n’est pas défini.
C. Coefficients ............................................................................................... Erreur ! Le signet n’est pas défini.
D. Second membre ........................................................................................................................................... 23
VI. Caractéristiques des systèmes équations différentielles ...................................................................................... 23
A. Ordre ............................................................................................................................................................ 23
B. Linéarité ....................................................................................................................................................... 24
C. Coefficients .................................................................................................................................................. 24
D. Second membre ........................................................................................................................................... 24
E. Caractéristiques des équations différentielles exemples............................................................................. 24
VII. Solutions des équations différentielles ................................................................................................................ 25
A. Généralités ................................................................................................................................................... 25
B. Premier cas ................................................................................................................................................... 25
C. Deuxième cas ............................................................................................................................................... 26
VIII. Applications ......................................................................................................................................................... 28

Tutorat PACES Lyon Est 4


Polycopié UE4

A. Épidémiologie............................................................................................................................................... 28
D. Pharmacocinétique ...................................................................................................................................... 32
Probabilités ..................................................................................................................................................................... 37
I. Introduction ............................................................................................................................................................. 37
II. Probabilités ............................................................................................................................................................. 37
A. Expérience aléatoire et évènements............................................................................................................ 37
B. Probabilité .................................................................................................................................................... 40
III. Probabilités conditionnelles .................................................................................................................................. 42
A. Définition...................................................................................................................................................... 42
B. Formules des probabilités composées, totales et formule de Bayes ........................................................... 43
IV. Indépendance........................................................................................................................................................ 44
Variables aléatoires discrètes et continues – Lois classiques ............................................................................................ 47
I. Variables aléatoires continues et discrètes ............................................................................................................. 47
A. Définition...................................................................................................................................................... 47
B. Loi de probabilité et fonction de répartition................................................................................................ 48
C. Espérance et variance .................................................................................................................................. 49
D. Variables aléatoires indépendantes ............................................................................................................. 51
II. Lois classiques ........................................................................................................................................................ 51
A. Lois discrètes : Bernoulli, binomiale, Poisson .............................................................................................. 51
B. Lois continues : loi normale ......................................................................................................................... 54
III. Conclusion ............................................................................................................................................................. 57
De l’évaluation des tests diagnostiques à l’analyse de la décision médicale ..................................................................... 59
I. Évaluation des tests diagnostiques ......................................................................................................................... 59
A. Valeurs intrinsèques du test ........................................................................................................................ 59
B. Les valeurs prédictives positive et négative ................................................................................................. 62
C. Ratio de vraisemblance, probabilité pré et post-test................................................................................... 63
D. Odds ............................................................................................................................................................. 63
II. Analyse de la décision médicale ............................................................................................................................. 64
A. Choix d’un test diagnostique ........................................................................................................................ 64
B. Choix d’un traitement .................................................................................................................................. 65
Fluctuations d’échantillonnage – Estimations ponctuelles et par intervalles de confiance ............................................... 69
I. Introduction : principe des statistiques inférentielles ............................................................................................. 69
II. Échantillonnage ...................................................................................................................................................... 69
III. Estimations ponctuelles et estimateurs ................................................................................................................ 70
A. Généralités ................................................................................................................................................... 70
B. Estimateur de l’espérance : M ..................................................................................................................... 71
2
C. Estimateur de la variance : s ....................................................................................................................... 71
D. Estimateur d’une proportion : F ................................................................................................................... 72
IV. Intervalles de fluctuations et intervalles de confiance.......................................................................................... 72
A. Intervalle de fluctuation / pari ..................................................................................................................... 72
B. Intervalle de confiance ................................................................................................................................. 73

5 Année 2016 - 2017


Sommaire

Principe d’un test statistique ........................................................................................................................................... 75


I. Introduction ............................................................................................................................................................. 75
II. Comparaison d’une moyenne à une valeur théorique : test d’hypothèse ............................................................. 75
A. D’une question d’ordre général à une hypothèse ....................................................................................... 75
B. Test de l’hypothèse nulle ............................................................................................................................. 76
C. Risque de première espèce .......................................................................................................................... 77
D. Significativité ................................................................................................................................................ 77
E. Conclusion .................................................................................................................................................... 79
III. Comparaison d’une proportion observée à une proportion théorique ................................................................ 79
A. Approximation par la loi normale ................................................................................................................ 79
B. Test du Chi-2 ................................................................................................................................................ 80
C. Conclusion .................................................................................................................................................... 82
IV. Comparaison d’une distribution observée à une distribution à k modalités ........................................................ 82
V. Comparaison de deux proportions ......................................................................................................................... 83
A. Exemple ........................................................................................................................................................ 83
B. Approximation par la loi normale ................................................................................................................ 84
C. Test du Chi-2 ................................................................................................................................................ 84
D. Conclusion .................................................................................................................................................... 85
VI. Risques " et # ....................................................................................................................................................... 86
VII. Conclusion ............................................................................................................................................................ 86
Comparaisons de moyennes et de variances.................................................................................................................... 87
I. Introduction (rappel du cours précédant) ............................................................................................................... 87
II. Comparaison d’une moyenne à une valeur théorique ........................................................................................... 88
A. Rappel .......................................................................................................................................................... 88
B. Théorie ......................................................................................................................................................... 89
C. Exemples ...................................................................................................................................................... 89
III. Comparaison de deux moy. (échantillons indépendants) ..................................................................................... 92
IV. Comparaison de deux moyennes (échantillons appariés)..................................................................................... 93
V. Comparaison de plusieurs moy. : analyse de variance........................................................................................... 94
A. Introduction ................................................................................................................................................. 94
B. Principe de l’ANOVA ..................................................................................................................................... 94
C. Exemple ........................................................................................................................................................ 96
VI. Prévalence et incidence ........................................................................................................................................ 97
A. Prévalence .................................................................................................................................................... 97
B. Incidence ...................................................................................................................................................... 97
Corrélation – Régression ................................................................................................................................................. 99
I. Corrélation ............................................................................................................................................................... 99
A. Introduction ................................................................................................................................................. 99
B. Quantification de la relation ...................................................................................................................... 100
C. Coefficient de corrélation .......................................................................................................................... 100
II. Régression ............................................................................................................................................................ 103

Tutorat PACES Lyon Est 6


Polycopié UE4

A. Introduction ............................................................................................................................................... 103


B. Régression linéaire ..................................................................................................................................... 103
C. Relation Régression-Corrélation ................................................................................................................ 105
III. L’essentiel ............................................................................................................................................................ 108
Analyse de la survie ....................................................................................................................................................... 109
I. Introduction ........................................................................................................................................................... 109
II. Base de l’analyse de la survie ............................................................................................................................... 109
III. Méthode de Kaplan-Meier et Test du Log-Rank .................................................................................................. 113
A. Kaplan-Meier .............................................................................................................................................. 113
B. Comparaison de la survie dans deux groupes ............................................................................................ 114
C. Test du Log-Rank ........................................................................................................................................ 114
IV. Taux de mortalité ................................................................................................................................................ 117
V. Survie paramétrique / exponentielle par intervalle ............................................................................................. 117
VI. Approximation actuarielle ................................................................................................................................... 120
VII. Modèle à taux proportionnel ............................................................................................................................. 121
Essais cliniques .............................................................................................................................................................. 109
I. Introduction ........................................................................................................................................................... 125
A. Historique ................................................................................................................................................... 125
B. Définitions .................................................................................................................................................. 125
C. Démarche ................................................................................................................................................... 125
D. Principaux acteurs ...................................................................................................................................... 126
II. Protocole .............................................................................................................................................................. 126
A. Questions posées ....................................................................................................................................... 126
B. Les phases de développement ................................................................................................................... 127
C. Échantillon.................................................................................................................................................. 127
D. Population de l’étude ................................................................................................................................. 130
E. Taille de l’étude .......................................................................................................................................... 131
III. Conduite et analyse ............................................................................................................................................. 133
A. Conduite ..................................................................................................................................................... 133
B. Analyse statistique ..................................................................................................................................... 133
IV. Réglementation ................................................................................................................................................... 134
V. L’essentiel ............................................................................................................................................................. 134
Statistiques pour l’épidémiologie .................................................................................................................................. 135
I. Introduction ........................................................................................................................................................... 135
II. Épidémiologie descriptive .................................................................................................................................... 135
A. La prévalence d’une maladie ..................................................................................................................... 136
B. Incidence d’une maladie ............................................................................................................................ 138
C. Risque de la maladie .................................................................................................................................. 139
III. Epidémiologie analytique .................................................................................................................................... 140
A. Tableau de contingence ............................................................................................................................. 141
B. Détermination de l’association entre maladie et facteur de risque .......................................................... 142

7 Année 2016 - 2017


Sommaire

C. Mesure de l’ampleur de l’association facteur de risque-maladie .............................................................. 143


D. Exemples .................................................................................................................................................... 145
IV. Biais potentiels .................................................................................................................................................... 150
A. Biais de sélection ........................................................................................................................................ 150
B. Biais de confusion ...................................................................................................................................... 150
C. Biais de mesure ou de mémoire................................................................................................................. 151
Remerciements et Remarques ....................................................................................................................................... 135

Tutorat PACES Lyon Est 8


Introduction

Introduction
Rédigé à partir du cours du Pr ROY

Note de la rédaction. – Ce cours est une introduction et un aperçu de notions qui seront
développées par la suite dans le semestre. Il ne faut pas s’inquiéter s’il ne paraît pas clair, petit à
petit ce sont des notions que vous allez apprivoiser.

I. Introduction
La médecine est une médecine factuelle, c’est l’Evidence Based Medecine (EBM). Chaque
information a un niveau de preuve scientifique, la littérature scientifique médicale permet la diffusion
des connaissances : cette communication scientifique permet un accès aux découvertes de façon
compréhensible en préservant l’intégrité de l’information. Il n’y a pas de sciences sans quantification
des résultats : une question, un dessin d’étude, un niveau de preuve.

Un patient n’est jamais identique à un autre, sa maladie, sa réponse au traitement, son pronostic,
tout varie. Comment alors Analyser, Comprendre, Décider dans un monde où la variabilité est la règle
? Pour répondre à des questions d’ordre général, nous utilisons des échantillons représentatifs de la
population dont ils sont issus.

En effet, il existe des variabilités de résultats. Avec un test parfait, nous distinguerions
parfaitement les malades des non malades. Or, dans la réalité, il existe des faux positifs (des non
malades positifs au test) et des faux négatifs (des malades négatifs au test). Dès lors, il va falloir définir
un seuil pour lequel nous considérons le test positif, ce seuil représente un compromis entre les faux
positifs et les faux négatifs, par exemple nous pouvons avoir un test où nous n'aurons aucun faux
négatif qui serait hypothétiquement « toutes les personnes testées sont malades », ainsi nous ne
passerons pas à côté des malades mais nous aurons un nombre de faux positifs énorme. Ainsi, il va
falloir choisir un seuil qui permet de détecter le plus de malades sans se tromper.

Choix du seuil avec Sp = Spécificité et Se = Sensibilité (notion revue plus tard dans le semestre).

L’inférence statistique correspond à une interprétation, ce n’est pas une simple analyse
descriptive ; nous tirons des conclusions générales à partir de cas particuliers.

L’intervalle de confiance correspond à l’intervalle comprenant la vraie valeur du risque à 95%


de chance. C’est-à-dire que si l’étude était reproduite un très grand nombre de fois, 95% des intervalles
de confiance obtenus contiendraient la vraie valeur du paramètre estimé.

9 Année 2016 - 2017


UE4 – Biostatistiques

Méthodologie de la recherche :

- Une seule question,


- Dessin d’étude adapté,
- Plan d’analyse adapté,
- Déroulement de l’étude,
- Analyse des résultats,
- Interprétation des résultats.

Comment analyser les études ? Par une collecte des données puis une analyse déductive ou
descriptive et une analyse d’inférence ou inductive, c’est-à-dire généraliser à partir d’une étude.

II. Statistiques descriptives


A. Notions
La population est un ensemble d’individus bien défini (qui, où, quand ?). Souvent, l’étude ne peut
être faite sur la population totale, nous utilisons donc un échantillon ; mais pour faire de l’inférence
statistique il faut un échantillon représentatif, donc sélectionné au hasard.

Nous définissons également l’unité statistique, qui est un élément de l’échantillon. L’ensemble
des unités statistique constituent l’échantillon. On remplacera volontiers par la suite le terme « unité
statistique » par le terme « individu ».

La distribution statistique correspond à l’ensemble des couples (xi, ni) où xi est une modalité de
la variable X et ni le nombre de fois où cette modalité est observée (c’est-à-dire l’effectif ou la
fréquence absolue). Cette distribution peut être également l’ensemble des couples (xi, fi) où fi est la
fréquence relative (ou proportion) de la modalité xi.
'(
$% = (avec n l’effectif total des observations).
'

B. Variables
1. Variables qualitatives nominales
Ce sont des variables sans relation d’ordre.

Exemples. – Sexe, groupe sanguin.

Elles peuvent être binaires, c’est-à-dire ne prendre que deux modalités, comme la variable Sexe
(à femme ou homme).

Répartition de la fréquence des hommes et des femmes dans un groupe donné (variable qualitative binaire).

Tutorat PACES Lyon Est 10


Introduction

2. Variables qualitatives ordinales


Nous ne pouvons pas faire de moyenne. Il existe une notion d’ordre entre les différentes
modalités de la variable.

Exemples. – Intensité d’une douleur, stade d’une maladie.

Score de killip.

3. Variables quantitatives
Elles sont discrètes (exemple : nombre d’enfants, titres d’anticorps sériques) ou continues
(exemples : taille, poids). Pour les variables continues, nous pouvons faire de la discrétisation c’est-à-
dire l’arrondir (exemples : taille en cm par exemple ou âge en année).

4. Séries

Exemple de série.

C. Statistiques descriptives d’une variable quantitative


1. Classements et représentation d’une variable quantitative
Nous allons prendre un exemple, le délai d’incubation (en jours) d’une maladie infectieuse virale,
n = 150. Si nous prenons les valeurs brutes, nous ne pouvons rien en tirer, mais si nous faisons un
tableau de valeurs ou une division en classes avec un histogramme, nous arrivons à mieux analyser la
situation.

Valeurs brutes des délais d’incubation.

11 Année 2016 - 2017


UE4 – Biostatistiques

Valeurs déduites des valeurs brutes.

Nous pouvons également calculer la fréquence cumulée ce qui donne une fonction en escalier
(car les valeurs sont discrètes ; en effet, nous ne pouvons pas avoir 2,5 enfants par exemple et la durée
d’incubation est discrétisée en jours).

Histogramme des fréquences cumulées.

Nota Bene. – Si nous avons des classes inégales dans un histogramme, nous pouvons calculer la
+(
densité de fréquence )* = .
,-./%0123(
2. Paramètres de variables quantitatives
Nous allons ensuite pouvoir approfondir l’étude des valeurs prisent par notre variable grâce à
différents paramètres.

Paramètres de position

§ Moyenne arithmétique :

4%
4=
5
Avec 4% la somme des différentes valeurs de X et n le nombre total.

Tutorat PACES Lyon Est 12


Introduction

§ Médiane :

Elle partage la série des valeurs triées en deux parties de même effectif, c’est-à-dire qu’il y a
autant de valeurs inférieures que de valeurs supérieures à la médiane.
- Si n est impair, valeur de rang (n+1)/2 ;
- Si n est pair, toute valeur de ]x(n/2)+x((n/2)+1)[.
En pratique, la médiane est la moyenne de ces deux valeurs.

§ Le mode ou classe modale :

Le mode est la valeur observée avec la plus grande fréquence. Sa valeur s’obtient directement à
partir du tableau statistique ou du diagramme en bâtons. La classe modale est celle qui correspond au
plus grand effectif si toutes les classes ont la même amplitude.

Paramètres de dispersion
Le problème de la moyenne est sa sensibilité aux valeurs extrêmes, ainsi nous allons calculer des
paramètres de dispersion.

§ Variance :

7
(9% − 4)7 9% 7
6 = = − 47
5 5

§ Écart-type :

6= <=>*=5?@

§ Extrêmes et entendue : différence entre les valeurs extrêmes.

§ Coefficient de variation :
6
AB =
4

§ Quantile de p : valeur de rang p(n+1). Q1, Q2, Q3 sont les quartiles, Q2 est la médiane.

Illustration des quantiles et moyenne.

13 Année 2016 - 2017


UE4 – Biostatistiques

III. Loi Normale


A. Distribution de probabilité
La distribution normale est entièrement décrite par sa moyenne C et sa variance DE ou son écart
type D. C’est une méthode statistique nécessitant une fonction de répartition continue, nous allons
étudier la dérivée, la densité de probabilité définie par l’équation (n’est pas à apprendre) :

La densité est une fonction symétrique par rapport à la moyenne :

Distribution normale décrite par sa moyenne et écart-type.

La fonction de répartition est l’intégrale de la densité.

Fonction de répartition de la distribution normale.

B. Loi normale centrée réduite


C’est une valeur plus pratique d’utilisation, la valeur est centrée sur sa moyenne et divisée par
son écart type = écart réduit.

Tutorat PACES Lyon Est 14


Introduction

Si X suit une distribution normale de moyenne F et d’écart type 6, alors l’écart réduit suit une
distribution normale standard de moyenne 0 et d’écart type 1.

Remarque. – On dit que nous centrons et que nous réduisons.

Distribution normale centrée réduite.

Lorsque nous centrons et que nous réduisons, nous observons :

En représentation graphique cela donne :

Représentation graphique d’une distribution normale centrée réduite.

IV. Distribution à deux variables qualitatives


Nous avons deux variables aléatoires X et Y avec des indices qui dépendent de la modalité, si nous
faisons le total des effectifs, nous avons un effectif total n1 en gardant X constant et Y variable de i à n.

Nous pouvons également le faire pour des fréquences relatives, dans ce cas il ne faut pas oublier
de diviser par n, nous obtenons alors comme valeur totale 1.

15 Année 2016 - 2017


UE4 – Biostatistiques

Exemple 1 de distribution à deux variables.

Exemple 2 de distribution à deux variables.

V. Conclusion
Présentation des données, tableaux et graphes :
§ Tableau des effectifs et des proportions de la distribution

§ Diagrammes et histogrammes

Résumés quantitatifs des données (données en nombre fini) :


§ Paramètres de position
- Moyenne arithmétique
- Médiane
- Mode : Mo ou Valeur la plus fréquente

§ Paramètres de dispersion ou variabilité


- Extrêmes
- Variance
- Écart-type.

Tutorat PACES Lyon Est 16


Applications des équations différentielles

Applications des équations différentielles


Rédigé à partir du cours du Dr DRONNE

I. Rappels de notations et définitions


Soit y une fonction de la variable t, notée y(t) :

§ Sa dérivée première (= d’ordre 1) par rapport à t est :

§ Sa dérivée seconde (= d’ordre 2) par rapport à t est :

ième
§ Sa dérivée n (= d’ordre n) par rapport à t est :

Il ne faut pas confondre la notation puissance et la notation


d'ordre de dérivation :
§ y(2) = y'' : dérivées d'ordre 2 de y,
§ y2 = y × y : y élevé à la puissance 2.

En physique, les notations utilisées pour les dérivées par rapport au temps sont :
§ H = y' : cette notation désigne une dérivée première de y par rapport au temps.
§ H = y'' : cette notation désigne une dérivée seconde de y par rapport au temps.

Les formules usuelles de dérivation sont disponibles sur spiral. Nous distinguons les dérivées de
fonctions et les dérivées de fonctions composées.

II. Équations différentielles


Une équation différentielle ordinaire est une équation dont l’inconnue y est une fonction et qui
fait intervenir au moins une dérivée de y (y' et/ ou y'' … et/ou y(n)).

Exemples. – Soit y une fonction de t :


§ 5y(3) = 7 cos t est une équation différentielle.
§ 2y’’ + (2t)y’ + 5 = 6t² est une équation différentielle.
§ 4y² + 3t = 7 n’est pas une équation différentielle car elle ne contient pas de dérivée de y.

17 Année 2016 - 2017


UE4 – Biostatistiques

L’objectif est de résoudre l’équation différentielle afin de déterminer l’expression de y en fonction


de t. On dit aussi que l’on « intègre » l’équation différentielle. L’expression y(t) est la solution générale
de l’équation différentielle.
§ Si l’équation différentielle est d’ordre 1, sa solution générale comporte une constance
arbitraire. Cette expression définit donc une famille de solutions.
§ Si l’équation différentielle est d’ordre n, sa solution générale comporte n constantes
arbitraires.

Pour pouvoir calculer la (ou les) constante(s) arbitraire(s) et trouver ainsi la solution recherchée,
il faut connaitre une (ou plusieurs) conditions initiales :
§ Si l’équation différentielle est d’ordre 1, il faut connaître une condition initiale. Il s’agit
classiquement de la valeur y quand t = 0. Nous notons alors y(0) = y0.
§ Si l’équation différentielle est d’ordre n, il faut connaître n conditions initiales.

III. Système d’équations différentielles


Un système d’équations différentielles (ou système différentiel) comporte plusieurs équations
différentielles liées entre elles, c’est-à-dire qu’elles dépendent les unes des autres.

Exemple. – Soit y1 et y2 deux fonctions de t :

Il s’agit d’un système d’équations différentielles. Chaque équation différentielle dépend de y1 et


de y2. L’objectif est de résoudre le système afin de déterminer les expressions des fonctions y1,
y2,…, yn en fonction de t. Les solutions sont donc : y1(t), y2(t), …, yn(t).
Pour trouver la solution recherchée, il faut avoir des conditions initiales. S’il n’y a pas d’équation
différentielle d’ordre 1 dans le système, il faut n conditions initiales. Il s’agit classiquement des
valeurs des fonctions y1, y2, …, yn quand t = 0 :

IV. Exemples
A. Bactériologie
Énoncé du problème :
§ Soit une population de bactéries qui se développent dans un milieu favorable (listeria
dans du fromage au lait cru).
§ Nous voulons connaître le nombre de bactéries au cours du temps afin de déterminer
une date limite de consommation (= temps au-delà duquel le nombre de bactérie devient
dangereux pour la santé).

Tutorat PACES Lyon Est 18


Applications des équations différentielles

Schéma du problème

Pour simplifier, l’hypothèse que la « production » de bactéries est proportionnelle au nombre de


bactéries présentes à chaque instant est posée. L’équation différentielle suivante est formulée :

Soit B le nombre de bactéries (fonctions du temps t)

B(0) = B0

k : coefficient de proportionnalité (ici k > 0)

La solution de cette équation différentielle est :

B(t) = B0.ekt

Cette équation différentielle suit un modèle mono-exponentiel représenté ci-dessous :

Tmax = date limite de consommation (temps auquel B > Bmax).

B. Pharmacologie
Enoncé du problème :
§ Soit un complexe qui se forme lorsqu’un ligand se fixe sur un récepteur et qui devient
alors actif pour transmettre un « signal » à l’intérieur de la cellule lui permettant de
produire une protéine particulière.
§ Nous voulons connaître la concentration en complexe au cours du temps afin d’en
déduire la concentration en protéines produite par la cellule.

19 Année 2016 - 2017


UE4 – Biostatistiques

Schéma du problème

Pour simplifier, les hypothèses suivantes sont posées :


§ La réaction suivante est irréversible : L + R → C ;
§ Il n’y a pas de production ni de dégradation de L, R, ou C ;
§ La production de C est proportionnelle aux concentrations de L et R présents dans le milieu.

Au préalable, trois espèces sont distinguées : L (ligands), R (récepteurs) et C (complexes). Le


système d’équation différentielle suivant est ensuite formulé :

k : vitesse de réaction.

La solution du système est : [C](t), [L](t), [R](t). Cet exemple peut être modélisé par le graphique
ci-dessous :

Modélisation du système.

C. Physique
Enoncé du problème :
§ Soit un solide de masse m soumis à un ressort de constante de raideur k.
§ Nous voulons connaître l’évolution de sa position au cours du temps.

Tutorat PACES Lyon Est 20


Applications des équations différentielles

Schéma du problème

Pour simplifier, l’hypothèse de l’absence de frottement sera posée.

L’équation différentielle suivante peut ainsi être formulée (fonction x qui représente la position
du mobile sur Ox), c’est l’équation du mouvement du solide selon l’axe (Ox) :

L’équation ci-dessous est une équation d’ordre 2, il faut donc deux conditions initiales pour la
résoudre, par exemple :

La solution de l’équation différentielle est x(t), c’est une fonction trigonométrique (cos)
représenté ci-dessous :

Cette équation suit un régime périodique.

D. Synthèse des trois exemples


Les équations différentielles trouvées sont :

Bactériologie Pharmacologie Physique

m4 + kx = 0

Les caractéristiques et les solutions des équations différentielles sont très différentes.

21 Année 2016 - 2017


UE4 – Biostatistiques

V. Caractéristiques des équations différentielles


Les quatre caractéristiques d’équations différentielles ci-dessous sont à savoir reconnaître :
§ Ordre ;
§ Linéarité / non linéarité ;
§ Coefficients constants / non constants ;
§ Avec / sans second membre ;

A. Ordre
L’ordre de l’équation différentielle est l’ordre de la plus haute dérivée.
Exemples.
er
§ 2y’ + (2t)y² + 5 = 6t² est une équation du 1 ordre.
nd
§ 4y(2) + 3y’ + (cos t) y = 7 est une équation du 2 ordre.

B. Linéarité
Une équation linéaire ne contient pas de terme non linéaire en y.
Exemples de termes non linéaires (en y).
I
§ y², yn, H , , ln(y), cos(y), sin(y)…
J
I
§ y’2, y’n, H′ , , ln(, ln(y’), cos(y’), sin(y’)…
JL
J
§ yy’,
JM

Exemple d'équations différentielles linéaires et non linéaires.


§ 4y’’ + 3y’ + (cos t)y = 7t3 est une équation différentielle linéaire ;
§ 4y’’+ 3y’ + (y + t)y = 7 est une équation différentielle non linéaire ;
§ 4y’’ + 3 yy’ + 7y = 7 est une équation différentielle non linéaire.

Précisions sur la linéarité : On considère une ED qui porte sur la fonction y, on dira que cette ED est
linéaire si elle ne contient pas de termes non linéaires en y. Par exemple, des termes comme cos(y),
sin(y) sont des termes non linéaires en y. Il faut bien comprendre que la linéarité (ou la non linéarité)
de l’ED se regarde par rapport à la fonction considérée.

1) Si on a une fonction y qui dépend de t et que l’on a l’ED suivante :

y'+(cos t) * y = 3

Il n’y a pas de terme non linéaire en y donc l’ED est linéaire

2) Si on a une fonction w qui dépend de y et que l’on a l’ED suivante :

w' + (cos y) * w = 3

Il n’y a pas de terme non linéaire en w donc l’ED est linéaire

Tutorat PACES Lyon Est 22


Applications des équations différentielles

3) Si on a une fonction C qui dépend de z et que l’on a l’ED suivante :

C' + (cos C) * z = 3

Il y a un terme non linéaire en C donc l’ED est non linéaire

C. Coefficients
Les coefficients sont les termes situés devant y, y’, y’. Ces coefficients sont dits non constants
s’ils dépendent de t.

Exemples.
§ 4y’’ + 3y’ + 7y = cos t est une équation différentielle à coefficients constants.
§ 4y’’ + (3t)y’ + 7y = 8 est une équation différentielle à coefficients non constants.

D. Second membre
Le second membre regroupe l’ensemble des termes de l’équation différentielle qui ne comporte
ni y ni y' ni y''. Il peut être constant ou fonction de t. Il se met classiquement à la droite du signe égal.

Exemples.
§ 4y’’ + 3y’ = cos t, le second membre de cette équation est d(t) = cos t ;
§ 4y’’ + 3y’ + sin t + 6 = 0, le second membre de cette équation est d(t) = – sin t – 6 ;
§ 4y’’ + 3y’ + (sin t)y = 0, le second membre de cette équation est d(t) = 0, cette équation
est sans second membre.

VI. Caractéristiques des systèmes équations différentielles


Les caractéristiques des systèmes d’équations différentielles sont les mêmes que celles des
équations différentielles, pour rappel :

§ Ordre ;
§ Linéarité / non linéarité ;
§ Coefficients constants / non constants ;
§ Avec / sans second membre ;

A. Ordre
L’ordre d’un système est l’ordre de l’équation différentielle qui a la plus haute dérivée.

Exemple. – Soit y1 et y2 deux fonctions de t.

Ce système est d’ordre 2.

23 Année 2016 - 2017


UE4 – Biostatistiques

B. Linéarité
Un système est dit linéaire si toutes ses équations différentielles sont linéaires (c’est-à-dire pas
de terme non linéaire en chacune des fonctions et pas de terme « mixte »).

Exemple. – Soit y1 et y2 deux fonctions de t.

Ce système est non linéaire car il comporte un terme mixte (y1 x y2).

C. Coefficients
Un système est dit « à coefficients constants » si toutes les équations différentielles sont à
coefficients constants.

Exemple. – Soit y1 et y2 deux fonctions de t.

Ce système est à coefficients constants.

D. Second membre
Un système est dit « avec second membre » si au moins une des équations différentielles du
système comporte un second membre.

Exemple. – Soit y1 et y2 deux fonctions de t.

Ce système est avec second membre.

E. Caractéristiques des équations différentielles exemples


§ Bactériologie
2N
= k.B ⇔ B’ - kB = 0 (k P ℝ)
20

er
C’est une équation linéaire, du 1 ordre, à coefficients constants et sans second membre.

§ Pharmacologie (fonction [C], [L] et [R])

Tutorat PACES Lyon Est 24


Applications des équations différentielles

er
C’est un système d’équations différentielles non linéaire, de 1 ordre, à coefficients constants et
sans second membre.

§ Physique (fonction de x)

m4+ kx = 0 ⇔mx’’ + kx = 0 (m et k P ℜ)

nd
C’est une équation linéaire, de 2 ordre, à coefficients constants et sans second membre.

VII. Solutions des équations différentielles


A. Généralités
Soit y une fonction de t et soit une équation différentielle de y. Résoudre cette équation
différentielle revient à trouver l’expression de y en fonction de t. Cette expression y(t) est la solution
générale de l’équation différentielle.

Remarques
§ Si l’équation différentielle est d’ordre 1, la solution générale comporte une constante
arbitraire, il faut donc une condition initiale.
§ Si l’équation différentielle est d’ordre n, la solution générale comporte n constantes
arbitraires, il faut n conditions initiales.

Deux cas sont à connaître :

Cas n°1 Cas n°2 (cas particulier)

H’ = T(U) × H H’ = = × H (a P ℜ)

B. Premier cas
Le premier cas concerne l’équation suivante :

H’ = T(U) × H ⇔ H’ − T(U) × H = 0
Avec g(t), une fonction de t.

C’est une équation différentielle linéaire, à coefficients non constants et sans second membre.

La solution générale de cette équation différentielle est :

H(U) = W. @ Y(0) (K P ℝ)
Avec G(t) la primitive de g(t).

25 Année 2016 - 2017


UE4 – Biostatistiques

Remarques
§ La solution est à connaître mais la démonstration (qui est sur spiral) n’est pas au
programme de la PACES.
§ Sur spiral, une fiche rappel des calculs de primitives est disponible. Exemple : la primitive
I
de est ln (y).
J

§ Il y a également sur spiral des rappels des propriétés des exponentielles et des logarithmes
népériens. Exemple : @ (,Z[) = @ , × @ [ .
§ Maîtrisez bien vos relations mathématiques vous gagnerez beaucoup de temps, même
pour l’UE3.

C. Deuxième cas
Le deuxième cas concerne l’équation différentielle suivante :

H’ = = × H ⇔ H’ − =H = 0 (a P ℝ)

er
C’est une équation linéaire, de 1 ordre, à coefficients constants et sans second membre.

La solution générale de cette équation différentielle est :

H(U) = \. @ ,0 (\ P ℝ)
Démonstration :
§ Considérons un cas particulier du cas précédent : g(t) = a
§ La primitive de g(t) est :

](U) = =U + _ (b P ℝ)
§ La solution est :

H(U) = W. @ Y(0) = W. @ (,0Z[)


§ Avec les propriétés de l’exponentielle :

H U = K.@ ,0 . @ [ = (K@ [ ) . @ ,0
§ (K@ [ ) est une constante que nous pouvons appeler \.
§ La solution générale de l’équation différentielle est donc :

y(t) = \.@ ,0 (\ P ℝ)

La condition initiale est ensuite utilisée pour trouver la valeur de \ :

La solution recherchée est donc :

H(U) = H` @ ,0

Tutorat PACES Lyon Est 26


Applications des équations différentielles

Exemple de bactériologie, la solution recherchée est :

a(U) = a` @ b0
Remarques
§ Il est important d’être capable de retrouver une solution générale mais aussi particulière
avec l’utilisation d’une condition initiale.

EXERCICE ̶ Concours 2011 • QCM1


Parmi les propositions suivantes, indiquer la (ou les) proposition(s) vraie(s) :

A. Soit y une fonction de x plusieurs fois dérivable sur ℝ. Soit l’équation : 4x²c(E) + 2c(d) + 2x = 0.
ème
Cette équation différentielle est linéaire, du 3 ordre, à coefficients non constants et sans
second membre.
e²c ec
B. Soit y une fonction de t plusieurs fois dérivable sur ℝ. Soit l’équation : 2 + 4y - 3ty = 2t.
eg² eg
Cette équation différentielle est linéaire, du 2ème ordre, à coefficients non constants et avec
second membre.
C. Soit y une fonction de x plusieurs fois dérivable sur ℝ. Soit l’équation : 2c(E) +hd c= 4 cos x.
Cette équation différentielle est linéaire, du 2ème ordre, à coefficients non constants et avec
second membre.
D. Soit y une fonction de t dérivable sur ℝ. Cette fonction vérifie : 3y’ - 2y = 0 et y(0) = 3.
La solution recherchée de cette équation différentielle avec prise en compte de la condition
initiale est une fonction décroissante.
E. Soit y une fonction de x dérivable sur ℝ. Soit l’équation : y’ - hi c = 0.
l
La solution générale de cette équation différentielle est y(x) = \@ jk avec \ P ℜ.

EXERCICE ̶ Correction
ème
A. Faux : l’équation est linéaire, du 3 ordre, à coefficients non constants mais avec second
membre : d(x) = -2x.
B. Faux : l’équation est non linéaire.
ème
C. Vrai : l’équation est bien linéaire, du 2 ordre, à coefficients non constants et avec second
membre.
7
D. Faux : 3y’ - 2y = 0 ⇔ 3y’ = 2y ⇔y’ = y. La solution générale est : y(t) = \@ 70/m (\ P
m
ℝ). La
solution recherchée avec la condition initiale est : y(t) = y(0) x @ 70/m = 3@ 70/m (fonction
croissante).

Remarque concernant a@ [0 (a et b P ℝ) :
§ Si a > 0 et b > 0 ou si a < 0 et b < 0 alors la fonction est croissante.
§ Si a > 0 et b < 0 ou si a < 0 et b > 0 alors la fonction est décroissante.

27 Année 2016 - 2017


UE4 – Biostatistiques

Rappel. – Savoir si une fonction est croissante / décroissante sur un intervalle Ù calcul de dérivée
§ Soit la fonction y(t) = a x @ [0 avec a et b P ℝ ;
§ Calcul de la dérivée : y’(t) = ab x @ [0 ;
§ Comme @ [0 > 0 (∀t P ℝ), le signe de y’(t) dépend du signe de ab :
- a et b de même signe : ab > 0 donc y(t) > 0 " fonction croissante.
- a et b de signe opposé : ab < 0 donc y(t) > 0 " fonction décroissante.

E. Faux : y’ - 4 j H = 0 ⇒ y’ = 4 j H. La forme de la solution générale est : y(x) = \@ Y(k) avec G primitive


rs
de g et \ P ℝ et pour g(x) = 4 j . La solution générale est donc y(x) = \@ s . .

VIII. Applications
Deux applications seront présentées :
§ En épidémiologie avec le modèle SI (susceptibles et infectés) et le modèle SIR
(susceptibles, infectés et retirés) ;
§ En pharmacocinétique concernant la variation (concentration sanguine puis élimination)

A. Épidémiologie
1. Modèle SI
Énoncé du problème : soit une maladie contagieuse (rougeole) qui touche une population de n
individus. Nous considérons deux groupes :
§ “susceptibles” : personnes non malades mais pouvant attraper la maladie.
§ “infectés” : personnes malades et contagieuses.

Nous voulons connaître le nombre de malades à chaque instant.

Schéma du problème

Pour simplifier, nous supposons que l’augmentation du nombre de malades est proportionnelle
au nombre de susceptibles et de malades (contact nécessaire).

Soit S les susceptibles et I les infectés, le système d’équation suivant peut être formulé :

Avec k le taux de contamination.

Tutorat PACES Lyon Est 28


Applications des équations différentielles

Nous posons l’hypothèse que S(t) + I(t) = n.

Les solutions sont I(t) et S(t). La situation est modélisée par le graphique suivant :

Modélisation du problème.

Avec t` = 1, u` = 500 et k = 0.001. Suivant ce schéma, toute la population devient infectée.

2. Modèle SIR
Énoncé du problème : soit une maladie contagieuse (rougeole) qui touche une population de n
individus. On considère trois groupes :
§ “susceptibles” : personnes non malades mais pouvant attraper la maladie ;
§ “infectés” : personnes malades et contagieuses ;
§ “retirés” : personnes mortes, mises en quarantaines ou immunisés, c’est-à-dire ne
pouvant plus ni attraper la maladie ni la transmettre.

Nous voulons connaître le nombre de malades à chaque instant et le nombre de personnes à


vacciner pour éviter une épidémie.

Schéma du problème

Les premiers modèles SIR ont été élaboré par Kermarck et McKendrick en 1927 à partir des
données épidémiologiques de la peste de Bombay (1905-1906).

Soit S les susceptibles, I les infectés et R les retirés, le système d’équation suivant peut être
formulé :

Avec k le taux de contamination et r le taux de retrait.

29 Année 2016 - 2017


UE4 – Biostatistiques

er
Ce système est non linéaire, du 1 ordre, à coefficients constants, sans second membre.

Nous posons l’hypothèse que S(t) + I(t) + R(t) = n.

Les solutions sont I(t), S(t) et R(t). La modélisation graphique est différente selon les conditions
initiales. Avec un premier jeu de conditions initiales, voici le graphique obtenu :

Modélisation du problème.

ème
Avec t` = 1, u` = 500, v` = 0, k = 0.001 et r = 0.1. Le pic épidémique se trouve alors au 21 jour.

Avec un deuxième jeu de conditions initiales, voici le graphique obtenu :

Avec t` = 1, u` = 95, v` = 0, k = 0.001 et r = 0.1. Une absence d’épidémie est constatée.


L’étape suivante est la détermination d’un “taux” de vaccination v pour diminuer le nombre
de susceptibles :

Schématisation du problème.

Le système d’équation différentielle suivant peut être posé :

Tutorat PACES Lyon Est 30


Applications des équations différentielles

Les solutions sont, comme précédemment, I(t), S(t) et R(t). Le graphique suivant modélise cette
situation :

Avec t` = 1, u` = 500, v` = 0, k = 0.001, r = 0.1 et v = 0.1. Dans ce cas, il y a absence d’épidémie.

La natalité peut être également prise en compte. Soit f(n) la fonction de natalité dépendant de la
population totale.

Le système d’équation différentielle suivant peut être formulé :

La mortalité peut également être prise en compte. Soit m la mortalité par une autre cause que la
maladie étudiée.

31 Année 2016 - 2017


UE4 – Biostatistiques

Le système d’équation différentielle suivant peut être formulé :

B. Pharmacocinétique
La pharmacocinétique est l’étude du devenir d’un principe actif dans l’organisme. L’objectif
est l’étude de l’évolution temporelle de la concentration en principe actif dans le compartiment
d’intérêt : C(t).

Evolution de la concentration en fonction du temps : pharmacocinétique.

Nous administrons à un patient un analgésique et nous souhaitons étudier la façon dont évolue
la concentration plasmatique (C) de ce médicament au cours du temps et selon différents schémas
d’administration :
§ Par voie intraveineuse (IV), en bolus c’est-à-dire de façon instantanée.
§ Par voie orale (= per os = PO), en une prise.

1. Modèle mono-compartimental, IV bolus


Une dose (D) de cet analgésique est tout d’abord administrée au patient par voie IV, en bolus.
Nous considérons un modèle mono-compartimental dans lequel le principe actif est éliminé du
compartiment central avec une constante d’élimination w3 .

Schéma du problème

Tutorat PACES Lyon Est 32


Applications des équations différentielles

La condition initiale est que la concentration dans le compartiment central est immédiatement
maximale :
x
C(0) = A` =
y
Avec V le volume de distribution.

L’équation différentielle modélise la diminution de principe actif dans le compartiment central en


fonction de son élimination :
2z
= -w3 . A ⇔ C’+ w3 . A= 0
20

er
C’est une équation différentielle du 1 ordre, à coefficients constants et sans second membre.

La solution de l’équation différentielle est C(t) = A` @ {b| 0 . Le graphique suivant modélise cette
équation, elle suit un modèle mono-exponentiel :

Avec }I/7 la demi vie du principe actif (= temps pour lequel C = A` /2).

Pour calculer le }I/7 :

§ Nous savons que }I/7 est correspond au temps pour lequel C = A` /2, l’équation suivante
z~
peut en être déduite : C(}I/7 ) = .
7

{b| Å
§ Nous pouvons aussi écrire : C(} ) = A` @ Ä .
Ä

§ Le système suivant en est déduit :

z~ {b| Å
§ Par identification : = A` @ Ä ;
7

{b| Å I
§ Puisque A` ≠ 0 : @ Ä = ;
7

I
§ En passant aux ln : -w3 }I/7 = ln = - ln 2 ;
7

/' 7
§ Donc }I/7 = .
b|

33 Année 2016 - 2017


UE4 – Biostatistiques

2. Modèle “mono-compartimental”, per os, une prise


Une dose (D) d’analgésique est ensuite administrée à ce patient par voie orale en une prise. Nous
considérons un modèle dans lequel le principe actif est absorbé dans le compartiment central avec
une constante d’absorption w, > 0 et en est éliminé avec une constante d’élimination w3 > 0.

Schéma du problème

Ce modèle est dit mono-compartimental car le compartiment d’absorption n’est pas compté
comme un compartiment (= compartiment “virtuel”=voie digestive).

Le système d’équations différentielles suivant est posé :

er
Ce système est linéaire, du 1 ordre, à coefficients constants, et sans second membre.

Les solutions du système sont A, (U) et C(t). Le graphique suivant modélise cette équation, elle
suit un modèle bi-exponentiel :

Avec }-,k le temps auquel C = A-,k

Tutorat PACES Lyon Est 34


Applications des équations différentielles

EXERCICE ̶ Concours 2011 • QCM2


On administre à un patient un principe actif (PA) selon deux schémas d’administration : voie
intraveineuse (IV) en bolus et voie orale en une prise. Parmi les propositions suivantes, indiquer la (ou
les) proposition(s) vraie(s) :
A. Dans le cadre d’un modèle mono-compartimental pour une administration du PA en IV bolus,
l’équation différentielle traduisant la variation de la concentration plasmatique C au cours du
temps est linéaire, du 1er ordre, à coefficients constants et sans second membre.
B. Dans le cas d’un modèle mono-compartimental pour une administration du PA en IV bolus,
la concentration initiale plasmatique est C(0) = 0.
C. Dans le cas d’un modèle mono-compartimental pour une administration du PA par voie orale
en une prise, la concentration A, dans le compartiment d’absorption (visuel) évolue selon
une fonction décroissante.
D. Dans le cas d’un modèle mono-compartimental pour une administration du PA par voie orale
en une prise, la concentration C dans le compartiment central évolue selon une courbe bi-
exponentielle.
E. Dans le cas d’un modèle mono-compartimental pour une administration du PA par voie orale
en une prise, la concentration initiale dans le compartiment d’absorption (virtuel) est A, (0) =
0 et la concentration initiale dans le compartiment central est C(0) ≠0.

EXERCICE ̶ Correction
A. Vrai : C’ + w3 A= 0.
x
B. Faux : C(0) = A` = .
y
2zÉ x
C. Vrai : l’équation différentielle est = -w, A, (avec A, (0) = > 0). La solution recherchée est
20 y
A, (t) = A, (0) x @ {bÉ 0 , c’est une fonction décroissante.
D. Vrai.
x
E. Faux : A, (0) = et C(0) = 0.
y

3. Comparaison de profils pharmacocinétiques


L’évolution de la concentration plasmatique au cours du temps est différente suivant le mode
d’administrations à dose unique :

35 Année 2016 - 2017


UE4 – Biostatistiques

La pharmacocinétique est l’étude de l’évolution de la concentration au cours du temps en


fonction de la dose administrée : C(t) en fonction de D(t).

La pharmacodynamique est l’étude de l’effet au cours du temps en fonction de la concentration


au cours du temps : E(t) en fonction de C(t).

Nous pouvons donc établir un lien entre pharmacocinétique et pharmacodynamie :

L’étude de la pharmacocinétique et de la pharmacodynamie de population est nécessaire pour


les dossiers d’Autorisation de Mise sur le Marché (AMM) des médicaments.

Tutorat PACES Lyon Est 36


Probabilités

Probabilités
Rédigé à partir du cours du Dr BARDEL

I. Introduction
Les probabilités sont une notion fondamentale pour les métiers de la santé. Elles sont utiles pour :

§ Le diagnostic ;

Exemples. – Probabilité qu'un patient soit malade connaissant ses facteurs de risque, probabilité
qu'un individu soit atteint d'une maladie connaissant le résultat d'un test diagnostic.

§ Le pronostic ;

Exemple. – Probabilité de survie à 10 ans pour une femme traitée pour un cancer du sein.

§ La thérapeutique ;

Exemples. – Probabilité qu'un patient présente un effet secondaire de son traitement, probabilité
qu'un patient ne réponde pas bien au traitement.

§ La génétique.

Exemple. – Pour un couple, calcul du risque d’avoir un enfant malade.

Les probabilités sont les bases théoriques des statistiques qui sont beaucoup utilisées dans le
monde médical. Quelques exemples d’utilisation des statistiques dans le monde médical :

§ Pour les essais cliniques (pour tester l’efficacité d’un traitement, un effet secondaire...).
Exemples : calcul du nombre de patients nécessaires à l’étude, conclusion de l’étude.

§ En épidémiologie.
Exemples : description de l’état de santé d’une population, recherche de facteurs de risque.

§ Pour le contrôle qualité.

§ Dans la recherche.
Exemples : analyse de résultats d’expériences, critique d’articles.

II. Probabilités
A. Expérience aléatoire et évènements
Expérience aléatoire. – Expérience qui peut être répétée, qui a plusieurs résultats possibles et dont
le résultat est imprévisible.
Exemples. – Lancé d'un dé à six faces, observation du statut maladie d'un individu.

Évènement élémentaire. – Résultat d’une expérience aléatoire.


Exemples. – “Obtenir trois lors du lancé d’un dé à six faces”, “être malade”.

37 Année 2016 - 2017


UE4 – Biostatistiques

Ensemble fondamental (ou univers). – Ensemble de tous les résultats possibles (évènements
élémentaires) d’une expérience aléatoire. Il est noté Ω ou S.
Exemple. – Pour un lancé de dé à six faces, Ω = {1,2,3,4,5,6}.

Ω peut être :

§ Un ensemble fini ;
Exemple : statut vis-à-vis de la maladie, Ω = {“Malade”, “Non malade”}.

§ Un ensemble infini dénombrable ;


Exemple : nombre de lancés avant d'obtenir face avec une pièce, Ω = {1, 2, ...}.

§ Un ensemble infini indénombrable.


Exemple : mesure du taux de cholestérol sanguin.

Un Ω discret correspond à un Ω fini ou infini dénombrable.

Un Ω continu correspond à un Ω infini indénombrable.

Évènement (non élémentaire). – Sous-ensemble de Ω.


Exemple. – Évènement A « obtenir un résultat strictement supérieur à quatre lors du lancé d'un
dé à six faces » : A = {5,6}.

Représentation de deux événements non élémentaires.

Il existe des évènements particuliers : l’évènement total Ω est certain, l’évènement vide Ø est un
évènement impossible.

Il est possible de réaliser des opérations sur les évènements :

§ L'union se note (Ö ∪ a) ou (A ou B). Ö ∪ a est réalisé dès que A ou B est réalisé.

Union des évènements A et B.

Tutorat PACES Lyon Est 38


Probabilités

§ L'intersection se note (Ö ∩ a), (A et B) ou encore (A,B). L’évènement Ö ∩ a est réalisé


dès que A et B sont réalisés dans la même expérience.

Intersection des évènements A et B.

§ La complémentarité se note A(Ö) ou Ā ou (non A). L’évènement complémentaire de A


contient tous les éléments de Ω qui ne sont pas dans A.

Complémentaire de l’évènement A.

Il est également possible de donner des complémentaires de Ö ∩ a et Ö ∪ a :

Ö ∩ a = Ö ∪ B et Ö∪a = Ö∩a

Évènements incompatibles. – A et B sont dits incompatibles si Ö ∩ a = Ø .

Évènements incompatibles

39 Année 2016 - 2017


UE4 – Biostatistiques

Système complet d'évènements. – Nous appelons système complet d’évènements toute partition
de Ω, c’est-à-dire tout ensemble d’évènement (Ai) tel que :
§ ∀*, Ö* ≠ Ø ;
§ ∀* ≠ j, Ö* ∩ Öé = Ø (évènements deux à deux incompatibles) ;
§ % Ö% = è.

Exemple récapitulatif des précédentes définitions : lancé d'un dé à six faces


Évènement A : “Obtenir un résultat pair”, A = {2,4,6}.
Évènement B : “Obtenir un résultat ≥ 3”, B = {3,4,5,6}.
Évènement C : “Obtenir cinq”, C = {5}.
Évènement D : “Obtenir un résultat impair”, D = {1,3,5}.

Ω {1,2,3,4,5,6}
Union Ö ∪ a {2,3,4,5,6}
Intersection Ö ∩ a {4,6}
Complémentaire de B : a {1,2}
A et C : incompatibles Ö∩A = Ø
Ö ¹ Ø et ê ¹ Ø
Système complet
Ö∩ê = Ø
d'évènements A et D
Ö∪ê = è

B. Probabilité
1. Définition
Probabilité. – Nous appelons probabilité, sur Ω, une application P qui à tout évènement A associe
un réel P(A) positif ou nul tel que :
§ P(Ω) =1.
§ Si A et B sont incompatibles, alors ë(Ö ∪ a) = ë(Ö) + ë(a).

Exemple. – Croisement entre plantes hétérozygotes Aa pour un caractère à dominance stricte (a=
allèle mute, récessif).

Lorsque n " +¥, la fréquence relative tend vers la probabilité (selon la loi des grands nombres).

Tutorat PACES Lyon Est 40


Probabilités

2. Propriétés

Par définition, ë(è) = 1 et ë(Ø) = 0.

ìî>$=?@ )@ Ö
ë(Ö) =
ìî>$=?@ )@ è
Il existe plusieurs propriétés régissant les probabilités :

§ Si A1, A2, ...An sont n évènements incompatibles deux à deux alors :

§ ë(Ā) = 1 − ë(Ö).

§ Si A et B sont des évènements tels que Ö ⊂ a alors ë(Ö) ≤ ë(a).

§ ó(ò) ≤ ô.

Pour deux évènements A et B, ë(Ö ∪ a) = ë(Ö) + ë(a) − ë(Ö ∩ a).

3. Probabilité sur un ensemble Ω fini


Si è = {õ1, õ2, … , õ5}, pour définir une probabilité sur è il suffit de se donner n nombres réels
pi tels que :
§ ∀*, ü* ≥ 0.
'
§ % ° I ü* = 1.

Les ü* sont les probabilités des évènements élémentaires {õ*}.

La probabilité d’un évènement A quelconque est la somme des probabilités des évènements
élémentaires qui constituent A.

Cas particulier Ù Cas de l’équiprobabilité – Tous les évènements élémentaires ont la même
probabilité. Soit è = {õ1, õ2, … , õ5}, les probabilités des évènements élémentaires sont
ü1 = ü2 = … = ü5 = 1/5. La probabilité d’un évènement A quelconque s’écrit alors :
5¢£_>@ )@ ?=ì $=<¢>=_§@ì à §= >é=§*ì=U*¢5 )@ Ö
ë Ö =
5¢£_>@ )@ ?=ì ü¢ìì*_§@ì )@ § L @5ì@£_§@

Les calculs de probabilités se ramènent à des problèmes de dénombrement.


Exemple. – Lancé d’un dé à six faces, Ω = {1,2,3,4,5,6}. Si A = “obtenir un résultat strictement
inférieur à trois” = {1,2}, alors ë(Ö) = 2/6 = 1/3.

41 Année 2016 - 2017


UE4 – Biostatistiques

4. Possibilité sur un ensemble Ω infini


Il y a deux cas possibles, l’ensemble Ω infini peut être dénombrable ou indénombrable :

§ Si Ω est dénombrable : si è = {õ1, õ2, … , õ5. . . } ; pour définir une probabilité sur è, il
suffit de se donner une suite (ü5) de nombres réels positifs tels que Z© %°I ü* = 1. C’est
une définition simplifiée d’une probabilité sur un ensemble Ω infini dénombrable. La
probabilité d'un évènement A quelconque est la somme des probabilités des évènements
élémentaires qui constituent A à savoir P(A) = Z©
™ ∈ ¨ üé .

§ Si Ω est indénombrable : nous définirons une probabilité sur è en utilisant une mesure
m définie sur cet ensemble.
Exemple de mesure : la surface, le volume… La probabilité d’un évènement A quelconque
se calculera ainsi : ë(Ö) = £(Ö)/£(è).

III. Probabilités conditionnelles


A. Définition
Soit B un évènement de probabilité non nulle. Pour tout évènement A, nous appelons probabilité
conditionnelle de A sachant que B est réalisé le réel ë(Ö|a) défini par :

ó(ò|Æ) = ó(ò ∩ Æ) / ó(Æ)

Remarque. – ë(Ö|a) se note aussi ëN (Ö).

Exemples de probabilités conditionnelles :


§ Probabilité, pour un fumeur (B), de développer un cancer du poumon (A) ;
§ Probabilité d'avoir la maladie d'Alzheimer (A) sachant que l'individu porte l'allèle apoE4
(B). Cet exemple est lié à la notion de pénétrance : ë(Ø|Té5¢UHü@) ;
§ Sensibilité, spécificité d'un test diagnostique, VPP, VPN.

ë(Ö|a) vérifie toutes les propriétés des probabilités, en particulier :

§ ë(è|a) = 1 et ë(Ø|a) = 0.

§ ë(Ā|a) = 1 − ë(Ö|a).

§ ë(Ö1 ∪ Ö2|a) = ë(Ö1|a) + ë(Ö2|a) − ë(Ö1 ∩ Ö2|a).

Tutorat PACES Lyon Est 42


Probabilités

Attention aux sources d’erreurs classiques :


§ ò|Æ n’est pas un évènement. Il n’existe pas d’évènements conditionnels.
§ ë(Ö|a) ≠ ë(a|Ö).
§ Ne pas confondre ë(Ö|a) et ë(Ö ∩ a).

B. Formules des probabilités composées, totales et formule de Bayes


1. Formule des probabilités composées : probabilité d’intersection d’évènements
De la formule des probabilités conditionnelles, nous déduisons ó(ò ∩ Æ) = ó(Æ) × ó(ò|Æ).

De même, ë(a ∩ Ö) = ë(Ö) × ë(a|Ö). Or, ë(a ∩ Ö) = ë(Ö ∩ a). Donc :

ó(ò ∩ Æ) = ó(Æ) × ó(ò|Æ) = ó(ò) × ó(Æ|ò)

On peut généraliser cette formule à n évènements. Soient n évènements ÖI , Ö7 , … , Ö5.

2. Formule des probabilités totales


Dans un cas simple, avec partition de è en 2, Ö et Ā forment un système complet d’évènements.
Pour tout évènement B : ë(a) = ë(a|Ö) × ë(Ö) + ë(a|Ā) × ë(Ā).

La démonstration de cette formule est à retenir :

a = a ∩ è = a ∩ (Ö ∪ Ā)

a = (a ∩ Ö) ∪ (a ∩ Ā)

(a ∩ Ö) et (a ∩ Ā) sont incompatibles donc ë(a) = ë(a ∩ Ö) + ë(a ∩ Ā)

Nous appliquons la formule des probabilités composées :

ó(Æ) = ó(Æ|ò) × ó(ò) + ó(Æ|Ā) × ó(Ā)

Il est possible de généraliser cette formule dans le cadre d’une partition de è en n.

Si {ÖI , Ö7 , … , Ö5} forment un système complet d’évènements, alors pour tout évènement B :
'

ë(a) = ë(a|Ö*) × ë(Ö*)


%°I

La démonstration se fait de la même façon que dans le cas simple.

43 Année 2016 - 2017


UE4 – Biostatistiques

3. Le théorème de Bayes
Le théorème de Bayes permet d’exprimer ë(Öé|a) en fonction des ë(a|Öé) et de ë(Öé).

Exemple d'application Ù Tests diagnostiques.

Connaissant la prévalence d'une maladie [ë(Ø)] et la probabilité qu'un test diagnostique soit
positif chez les malades [ë(} + |Ø)] et chez les individus sains ë(} Ø) , calculer la probabilité
qu'un individu soit malade si son test est positif [ë(Ø|}+) = Bëë].

Dans le cas général, le théorème de Bayes se définit ainsi : soient {ÖI , Ö7 , … , Ö5} un système
complet d’évènements et B un évènement de probabilité non nulle. Pour tout j {1,2, …, n} on a :

Dans un cas plus simple, il est possible de démontrer le théorème facilement :

Soient Ö et Ā un système complet d’évènements.

ë(Ö|a) = ë(Ö ∩ a) / ë(a)


Définition des probabilités conditionnelles

ë(Ö|a) = ë(Ö) × ë(a|Ö) / ë(a)


Numérateur : formule des probabilités composées

ë(Ö|a) = ë(Ö) × ë(a|Ö) / ë(a|Ö) × ë(Ö) + ë(a|Ā) × ë(Ā)


Dénominateur : formule des probabilités totales

IV. Indépendance
Deux évènements A et B ≠ Ø sont indépendants (relativement à la probabilité P) si et seulement
si : ó(ò|Æ) = ó(ò). Nous avons alors de la même façon ë(a|Ö) = ë(a). La réalisation d’un des
évènements n’a pas d’influence sur la probabilité de réalisation de l’autre évènement.

Il est possible de définir l’indépendance de deux évènements d’une autre façon : A et B sont
indépendants (relativement à la probabilité P) si et seulement si ó(ò ∩ Æ) = ó(ò) × ó(Æ).

A et B indépendants revient au même qu’A et a indépendants, Ā et B indépendants, Ā et a


indépendants.

Attention à ne pas confondre deux notions différentes :


§ A et B incompatibles signifie que Ö ∩ a = Ø : ne fait pas intervenir la probabilité.
§ A et B indépendants signifie que ë(Ö ∩ a) = ë(Ö) × ë(a).

Deux évènements incompatibles ne sont pas indépendants :

A et B incompatibles donc Ö ∩ a = Ø, ë(Ö ∩ a) = 0

Si Ö ≠ Ø et a ≠ Ø alors ë(Ö) × ë(a) ≠ 0

Donc ë(Ö ∩ a) ≠ ë(Ö) × ë(a). A et B ne sont pas indépendants.

Tutorat PACES Lyon Est 44


Probabilités

D’une façon plus générale, n évènements peuvent être indépendants deux à deux ou bien
mutuellement indépendants :

§ (A1, A2, …, An) sont indépendants deux à deux si et seulement si ∀* ∈ {1,2, … , 5} et ∀é ∈


{1,2, … , 5}, pour * ≠ é : ë(Ö* ∩ Öé) = ë(Ö*) × ë(Öé).

Exemple Ù Cas de trois événements. – A, B et C indépendants deux à deux si et seulement si :


§ ë(Ö ∩ a) = ë(Ö) × ë(a),
§ Et ë(Ö ∩ A) = ë(Ö) × ë(A),
§ Et ë(a ∩ A) = ë(a) × ë(A).

§ (A1, A2, …, An) sont mutuellement indépendants si et seulement si :

Exemple Ù Cas de trois événements. – A, B et C mutuellement indépendants si et seulement si :


§ ë(Ö ∩ a) = ë(Ö) × ë(a),
§ Et ë(Ö ∩ A) = ë(Ö) × ë(A),
§ Et ë(a ∩ A) = ë(a) × ë(A),
§ Et ë(Ö ∩ a ∩ A) = ë(Ö) × ë(a) × ë(A).

Nous parlerons d’épreuves indépendantes lorsque le résultat d’une des épreuves n’a aucune
influence sur le résultat des autres épreuves. L’application en statistiques des épreuves indépendantes
est la constitution de n échantillons.

Exemple Ù Réalisation de cinq lancés d'une pièce équilibrée


∞* : “Obtenir face au i-ème lancé”.
Probabilité p d’obtenir cinq fois face : ë(∞1 ∩ ∞2 ∩ ∞3 ∩ ∞4 ∩ ∞5).
Les cinq lancés sont indépendants : ü = ë(∞1) × ë(∞2) × ë(∞3) × ë(∞4) × ë(∞5) = (½)¥ .

45 Année 2016 - 2017


UE4 – Biostatistiques

Tutorat PACES Lyon Est 46


Variables aléatoires discrètes et continues – Lois classiques

Variables aléatoires discrètes et continues


– Lois classiques
Rédigé à partir du cours du Dr BARDEL

Note de la rédaction. – Dans ce chapitre, les exemples ne seront pas détaillés car bien détaillés
sur le diaporama du professeur Bardel.

Nous considérons dans ce chapitre un ensemble fondamental des résultats d’une expérience
aléatoire que l’on note Ω. Une variable aléatoire correspond à l’attribution d’un nombre à chaque
résultat de l’expérience. Une variable aléatoire est une variable quantitative.

Illustration d’une variable aléatoire.

Dans cette illustration, les évènements de l’ensemble Ω, notés õ, sont associés à un nombre réel,
noté x, qui est la réalisation de la variable X. Il faut, de plus, ne pas oublier que plusieurs événements
peuvent être associés à une même réalisation, comme le souligne l’exemple avec xi et õ 2 et õ 3.

Exemples. – Nombre obtenu avec un dé ; facteur rhésus ; nombre de filles dans une fratrie.

I. Variables aléatoires continues et discrètes


A. Définition
Comme nous l’avons précisé dans l’introduction, une variable aléatoire est l’attribution d’un
nombre à un événement de l’ensemble Ω. Soit, en langage mathématique (purement informatif), nous
appelons variable aléatoire sur Ω toute application X : Ω → ℝ telle que, ∀ =, _ ∈ ℝ, X-1 ( =, _ ) est un
événement.

Nous allons donc utiliser une notation particulière pour caractériser les variables aléatoires et
leurs valeurs possibles. Nous utiliserons des majuscules (X, Y, Z, …) pour les variables aléatoires et des
minuscules (xi, a, z) pour les valeurs possibles de cette variable aléatoire, appelées aussi réalisations.
Les événements sont notés : (X = k), (0 ≤ Z ≤ 1).

47 Année 2016 - 2017


UE4 – Biostatistiques

Ces variables aléatoires font, de plus, appel à différentes propriétés utiles pour réaliser les
différents exercices.

Si X et Y sont deux variables aléatoires définies sur Ω, alors :


§ 9 + ∑ est une variable aléatoire définie sur Ω ;
§ 9×∑ est une variable aléatoire définie sur Ω ;
§ ∀\ ∈ ℝ, \9 est une variable aléatoire définie sur Ω.

Il faut aussi distinguer deux types de variables aléatoires (VA) :

§ une VA discrète prend un nombre fini ou infini dénombrable de valeurs possibles


Exemples : résultat d’un lancer de dé ou nombre d’opérations effectuées dans un service.

§ une VA continue prend un nombre infini indénombrable de valeurs possibles.


Exemple : taux de glucose dans le sang, ou poids des nouveau-nés

B. Loi de probabilité et fonction de répartition


1. Lois de probabilité dans le cas des variables aléatoires discrètes
Soit X une variable aléatoire discrète. Sa loi de probabilité est déterminée par :
§ l’ensemble des valeurs possibles xi (* ∈ t, fini ou infini dénombrable car VA discrète) ;
§ les probabilités ü% = ë(9 = 4% ).

En découle différentes propriétés :


§ ∀* ∈ t, ë(9 = 4% ) ≥ 0 ;
§ %∈∏ ë9 = 4% = %∈∏ ü% = 1 (soit la somme des probabilités de chaque événement est
égale à 1).

Représentation classique

2. Fonction de répartition dans le cas des variables aléatoires discrètes


Nous appelons fonction de répartition (fdr) de X toute fonction F telle que ∀U ∈ ℝ, ∞ U =
ë 9 ≤ U . Cela revient à une distribution des probabilités cumulées, soit à la somme des probabilités
des événements dont la valeur associée est inférieure à t.

Nous notons, à propos de ces fonctions de répartition, différentes propriétés :


§ ∀g ∈ ℝ, 0 ≤ ∞(U) ≤ 1 ;
§ F est croissante ;
§ π∫ª º h = Ω ;
h→{©
§ π∫ª º h = ô ;
h→Z©

§ Dans le cas discret, F est une fonction « en marches d’escalier ».

Tutorat PACES Lyon Est 48


Variables aléatoires discrètes et continues – Lois classiques

Calcul de probabilités :

ë 9 = 4% = ë 9 ≤ 4% − ë 9 ≤ 4%{I = ∞ 4% − ∞ 4%{I

Si = ≤ _, ë = < 9 ≤ _ = ∞ _ − ∞(=)

3. Lois de probabilité dans le cas des variables aléatoires continues


Contrairement aux VA discrètes, ici, les valeurs possibles de X sont infinies indénombrables. On
ne peut donc pas définir de loi de probabilité par l’ensemble des (4*, ü*) et ∀*, ë 9 = 4% = ü% = 0.

Nous parlons donc dans le cas de variables aléatoires continues de densité de probabilité (ddp),
qui correspond à toute fonction f telle que :
§ ∀4 ∈ ℝ, $(4) ≥ 0 ;

§ {©
$ 4 )4 = 1 (aire sous la courbe égale à 1).

Probabilité d'un intervalle

4. Fonction de répartition dans le cas des variables aléatoires continues


Comme dans le cas de VA discrètes, la fonction de répartition se définit de la même manière,
soit toute fonction F telle que ∀U ∈ ℝ, ∞ U = ë 9 ≤ U . Elle emprunte là aussi les mêmes propriétés
(détaillées dans la sous-partie 2). Cependant, nous n’aurons plus de fonctions en marche d’escaliers
mais des fonctions continues.

Dans ce cas de figure, nous pourrons d’ailleurs trouver un lien entre densité de probabilité et
fonction de répartition :
k
Soit, une VA X dont la ddp est f. F : x → F(x) = {©
$ U )U . Alors, nous aurons :
[

ë =≤9≤_ = $ U )U = ∞ _ − ∞(=)
,

C. Espérance et variance
1. Espérance : définitions et propriétés
L’espérance, que nous notons E(X) ou Fk , est la moyenne théorique, elle renseigne sur la position
des valeurs possibles sur une échelle. Elle se définit différemment en fonction de la nature de la VA
(discrète ou continue).

49 Année 2016 - 2017


UE4 – Biostatistiques

Espérance dans le cas d’une VA discrète :

ø(9) = 4% ×ë 9 = 4% = 4% ×ü%
% %

Avec i ∈ 0, 5 si 9(è) fini et i ∈ 0, +∞ si 9(è) infini dénombrable.

Espérance dans le cas d’une VA continue :

Soit X une VA continue et soit f sa ddp. Son espérance est définie par :

ø 9 = 4$ 4 )4

Nous parlons de variable aléatoire centrée dans le cas où ø(9) = 0. Donc la VA ∑ avec ∑ =
9 – ø(9) est une variable aléatoire centrée (utile pour passer d’une loi normale à une loi normale
centrée réduite (nous verrons comment réduire dans la suite du cours)).

L’espérance est un paramètre linéaire, ce qui explique les propriétés suivantes :


§ ø =9 + _ = =ø 9 + _ ;
§ ø 9 + ∑ = ø 9 + ø(∑).

2. Variance : définitions et propriétés


La variance d’une distribution mesure sa dispersion autour de sa moyenne. Elle se note <=>(9)
ou 6k7 .
Elle se définit, quel que soit la VA discrète ou continue, telle que :
7
<=> 9 = ø 9−ø 9 = ø 9 7 − ø(9)7

Dans le cas d’une VA discrète, nous aurons :

Dans le cas d’une VA continue, nous aurons :

Contrairement à l’espérance, une variance est toujours positive ou nulle. De plus, elle n’est pas
linéaire, ce qui explique les propriétés suivantes :
§ <=> =9 = = 7 <=> 9 ;
§ <=> 9 + _ = <=> 9 ;
§ <=> 9 + ∑ = <=> 9 + <=> ∑ + 2?¢< 9, ∑ .

Tutorat PACES Lyon Est 50


Variables aléatoires discrètes et continues – Lois classiques

§ Si ¬ et √ sont 2 VA indépendantes ƒ≈∆«» …∆ (¬, √) = Ω (attention réciproque fausse).

De plus, si <=>(9) = 1, alors X est une VA réduite.

3. Écart-type
Soit X une VA. On note 6k l’écart-type de cette VA et se définit par :

6k = <=>(9)

Pour avoir une variable centrée réduite, il faut centrer votre VA puis la réduire, soit :
9 − ø(9)
À=
6k

Z est la VA centrée réduite associée à X

Propriétés de Z :
§ ø À =0;
§ <=> À = 1.

D. Variables aléatoires indépendantes


Deux événements sont dits indépendants si et seulement si ë(Ö ∩ a) = ë(Ö) × ë(a).

Soient X et Y deux VA indépendantes à valeurs respectivement dans ø = 4I , 47 , … et ∞ =


HI , H7 , … , donc ∀(4% , H™ ) ∈ ø×∞ : ë(9 = 4% ; ∑ = H™ ) = ë 9 = 4% ×ë ∑ = H™

Si 9 et ∑ sont indépendantes, alors :


§ ?¢< (9, ∑) = 0 (réciproque fausse) ;
§ <=> (9 + ∑) = <=> (9) + <=> (∑).

Si 9I , 97 , … , 95 sont indépendantes alors :

<=> (9I + 97 + ⋯ + 95) = <=> (9I ) + <=> (9I ) + … + <=> (95)

II. Lois classiques


A. Lois discrètes : Bernoulli, binomiale, Poisson
1. Bernoulli
Bernoulli est une loi discrète c’est-à-dire d’une VA discrète qui ne peut prendre que deux valeurs :
0 et 1. La VA prend la valeur 1 si l’événement observé se réalise et 0 si l’événement observé ne se
réalise pas. Pour chaque valeur, nous déterminons une probabilité. Soit la probabilité p d’obtenir 1 et
q celle d’obtenir 0. Nous pouvons donc en déduire que Õ = 1 − ü. Si X suit une loi de Bernoulli de
paramètre p (c’est-à-dire que la probabilité d’obtenir 1 dans cette loi est égale à p), nous noterons de
la façon suivante :

9 → a@>5(ü)

51 Année 2016 - 2017


UE4 – Biostatistiques

Dans le cas où X suit une loi de Bernoulli de paramètre p, nous pourrons en déduire l’espérance
et la variance de X beaucoup plus simplement, en reprenant les formules ci-dessus :

ø 9 = 0×Õ + 1×ü = ü

ø 9 7 = 07 ×Õ + 17 ×ü = ü

Donc on en déduit que : <=> 9 = ø 9 7 − ø 9 7


= ü − ü 7 = ü 1 − ü = üÕ.

Œ(¬) = œ et ƒ«(¬) = œ–

La loi de Bernoulli est utile pour modéliser les résultats d’une expérience à deux issues possibles
comme par exemple le statut d’une maladie d’un individu.

Le schéma de Bernoulli consiste à répéter une épreuve de Bernoulli n fois et ce de façon


indépendante. Cela correspond donc à une suite de n VA indépendantes qui suivent toutes la même
loi de Bernoulli de paramètre p. Par exemple, cela consiste à observer la présence d’effets indésirables
chez 10 patients ayant reçu le même traitement.

2. Loi binomiale
Mise en situation : on se trouve dans une population où la proportion de Rh+ est égale à 0,85. On
prend un groupe de 5 patients et on souhaite savoir la probabilité d’avoir 2 patients avec un Rh+.

Modélisation : on va d’abord appliquer cela à un seul individu. On pose X la VA représentant son


groupe de Rhésus. On considéra que Rh+ correspond au nombre 1 et que Rh- au nombre 0. On se
retrouve alors dans le cas d’une loi de Bernoulli de paramètre 0,85. Donc 9 → a@>5(0,85).

Cependant, cela ne fonctionne que pour un patient. Donc, pour 5 patients, nous allons définir une
nouvelle VA notée u' , correspondant au nombre de Rh+. Cela consiste donc à répéter 5 fois l’épreuve
de Bernoulli et ce de façon indépendante. Nous aurons alors :

u' = 9I + 97 + 9m + 9j + 9¥

u' suit alors une loi binomiale

La loi binomiale consiste donc en la répétition de n épreuves de Bernoulli indépendantes de


paramètre p. La loi binomiale se définit donc par deux paramètres : n et p. Nous noterons donc de la
façon suivante : u' → ℬ(5, ü).

La probabilité d’obtenir k succès parmi les n répétitions, notée P(Sn = k) est égale à :

ë u' = w = A'b ü b (1 − ü)'{b

A'b correspond au nombre de combinaisons de k éléments parmi n.


5 5!
A'b = =
w w! 5 − w !
5! = 1×2× …×5

0! = 1

Tutorat PACES Lyon Est 52


Variables aléatoires discrètes et continues – Lois classiques

Représentation graphique de deux lois binomiales de paramètre p différent et paramètre n identique.

Représentation d’une loi de probabilité et de la fonction de répartition d’une loi binomiale de paramètre 10 et 0,1.

En reprenant toujours le même développement, nous pouvons en déduire facilement


l’espérance, la variance ainsi que l’écart-type de la loi binomiale à partir de la loi de Bernoulli.

Nous avons ainsi :

Œ ‘’ = ’œ
ƒ« ‘’ = ’œ–
D‘’ = ’œ–

Démonstration de ces formules à partir des formules de Bernoulli.

3. Loi de Poisson
Mise en situation : nous savons qu’en France, 17 nouveaux cas de VIH apparaissent chaque jour,
en moyenne. Nous souhaitons savoir la probabilité pour que seulement 10 nouveaux cas apparaissent
en une journée.

Modélisation : pour pouvoir répondre à cette question, nous utilisons une nouvelle loi : la loi de
Poisson. Soit X le nombre de nouveaux cas de VIH par jour. Nous avons une indépendance des
nouveaux cas entre eux et nous connaissons, en outre, le nombre moyen noté \, de nouveaux cas par
jour. X suit donc une loi de Poisson de paramètre \. Soit 9 → ë(\).

53 Année 2016 - 2017


UE4 – Biostatistiques

La loi de Poisson est donc une loi du nombre d’événements dans un intervalle (de temps ou
d’espace) donné. Elle prend donc les valeurs dans ℕ. Nous l'utilisons le plus souvent dans le cas où les
événements sont rares.

Ainsi, P(X = k) correspond à la probabilité qu’un événement survienne k fois dans un intervalle de
temps ou d’espace donné.

@ {◊ \b
ë 9=w = ü¢î> w ∈ ℕ
w!
Espérance, variances et écart-type de la loi de Poisson :

Œ ¬ =ÿ
ƒ« ¬ = ÿ
D¬ = ÿ

Représentation graphique de la loi de probabilité de la loi de Poisson.

Approximation de la loi binomiale par la loi de Poisson


Quand n est grand, que p est petit et que 5 × ü n’est pas trop grand, nous pouvons approximer
la loi binomiale de paramètre n et p par la loi de Poisson de paramètre 5ü. Soit :

Ÿ(’; œ) ↝ ó(’œ)

€∆’e‹g‹∆’» e’ƒœœ≈‹…ƒg‹∆’ : ’ > fiΩ ; œ ≤ Ω, ô ; ’œ < ôΩ

Cela a un grand intérêt dans la simplification des calculs. Il est en effet plus aisé d’utiliser la loi de
Poisson que la loi binomiale.

B. Lois continues : loi normale


Il s’agit de la loi la plus utilisée en statistiques et la plus importante. Elle permet en effet, de
modéliser de nombreux phénomènes et d’approximer de nombreuses autres lois, en particulier quand
l’effectif est élevé (soit n grand).

Elle est définie par deux paramètres :


§ C son espérance ;
§ D son écart-type (on utilise parfois 6 7 soit sa variance).

Tutorat PACES Lyon Est 54


Variables aléatoires discrètes et continues – Lois classiques

Nous noterons alors la loi normale de paramètres F et 6 ainsi : 9 → N (F; 6).

Comme nous sommes dans le cas d’une loi continue, nous utiliserons une densité de probabilité,
qui est définie par :
1 1 4−F 7
$ 4 = × exp − ∀4 ∈ℝ
6× 2‡ 2 6

Représentation graphique de la densité de probabilité de deux lois normales de paramètres différents.

Comme nous pouvons le supposer à partir de ces deux représentations graphiques, la loi normale
présente différentes propriétés :
§ elle est symétrique par rapport à l’axe vertical passant par F ;
§ elle présente deux points d’inflexion : F − 6 et F + 6 ;
§ elle possède une médiane = mode = C ;
§ son aire sous la courbe vaut 1.
NB : Dans le cadre de la loi normale, les points d’inflexion sont les points de la courbe où la pente
est la plus importante en valeur absolue.

Dans le cas de 2 VA indépendantes suivant une loi normale, on peut composer avec une troisième
telle que :

Fonction de répartition
Soit X une VA suivant une loi normale de paramètres F @U 6. Sa fonction de répartition est alors
définie par :
k 7
1 1 U−F
∞ 4 =ë 9≤4 = exp (− ))U
6 2‡ {© 2 6

Nous pouvons alors calculer la probabilité telle que :

ë = ≤ 9 ≤ _ = ∞ _ − ∞(=)

Cependant, le calcul ne peut se réaliser de façon algébrique, nous allons recourir à des tables.

55 Année 2016 - 2017


UE4 – Biostatistiques

Loi normale centrée-réduite


Soit X une VA suivant toujours une loi normale de paramètres F @U 6. Nous définissons alors À
une VA telle que :
9−F
À=
6
Alors, À suit une loi normale centrée réduite, c’est-à-dire une loi normale de paramètres 0
(espérance) et 1 (écart-type). Sa densité de probabilité est alors beaucoup plus aisée :
1 1
$ „ = exp − „ 7
2‡ 2

Représentation graphique de la ddp d’une loi normale centrée réduite.

En reprenant les propriétés générales de la représentation graphique de la loi normale, nous


pouvons donc affirmer que la représentation graphique de la loi normale centrée réduite est
symétrique par rapport à l’axe vertical passant par 0, qu’elle présente deux points d’inflexion : -1 et 1
et que sa médiane et son mode sont égaux à 0.

Nous noterons ‰ la fdr de la loi normale centrée réduite. Nous aurons alors :
ë À≤„ =‰ „
ë À ≥„ =1−ë À ≤„ =1− ‰ „
ë À ≥ „ = ë À ≤ −„ = ‰ −„ (du fait de la symétrie de la ddp)

Illustration du calcul de la probabilité P(Z≤ „).

Nous utiliserons alors ensuite les tables de la loi normale qui seront données pour les calculs des
probabilités. Ainsi, pour une valeur de z donnée, la 1ère table donne ë(À ≤ „). Pour une probabilité p
donnée, la 2ème table donne z tel que ë(À ≥ „) = ü.

Tutorat PACES Lyon Est 56


Variables aléatoires discrètes et continues – Lois classiques

Théorème de la limite centrale (TLC)


Soient 9I , 97 , … , 95 des variables mutuellement indépendantes de même loi de probabilité
ℒ(FÊ ; 6Ê ), alors lorque n est suffisamment grand, la variable aléatoire u5 = 9I + 97 + ⋯ + 95 suit
approximativement une loi normale d’espérance 5 × FÊ et d’écart-type 5×6Ê .
Ê ZÊÄ Z⋯ZÊÁ
Ainsi, pour Ø = , si n est suffisamment grand (n ≥ 30) :
'


Ë ↝ È(CË = C¬ ; DË = )

Approximation de la loi binomiale par la loi normale


'
Soit Sn → ℬ(5, ü) et soit 9 → a@>5(ü) (soit u' = %°I 9% avec Xi indépendants).

Nous aurons alors d’après le TLC, une approximation de Sn par la loi normale de paramètres ’œ
et ’œ– .

Æ ’, œ ↝ Í ÎÏ ; ’œ–

€∆’e‹g‹∆’» e’ƒœœ≈‹…ƒg‹∆’ : ’ ≥ dΩ ; ’œ ≥ fi ; ’(ô − œ) ≥ fi

Remarque. – Il s’agit de l’approximation d’une loi discrète, où ë(9 = w) ≠ 0, par une loi continue,
donc où ë(9 = w) = 0. Nous appliquons donc une correction de continuité. Cependant, cette
correction est négligeable dans le cadre de la PACES.

III. Conclusion
Bien retenir les conditions d’application des différentes lois et les approximations ainsi que les
conditions pour approximer.

Connaître les rôles spécifiques des différentes lois et ce qu’elles représentent dans le cadre des
calculs des probabilités.

57 Année 2016 - 2017


UE4 – Biostatistiques

Tutorat PACES Lyon Est 58


De l’évaluation des tests diagnostiques à l’analyse de la décision médicale

De l’évaluation des tests diagnostiques à l’analyse


de la décision médicale
Rédigé à partir du cours du Dr RABILLOUD

Note de la rédaction [NDLR]. – Ce polycopié ne contient pas toutes les démonstrations ni tous les
exemples vus en cours mais reprend toutes les notions essentielles pour comprendre le chapitre et
résoudre tous les exercices des épreuves de Tutorat ou du concours. Pour plus de clarté, certaines
notions ne sont pas traitées dans le même ordre que dans les diapositives de l'enseignant
présentées en cours.

I. Évaluation des tests diagnostiques


Un test diagnostique est un examen dont le résultat va apporter une information sur l’état du
patient et, par là, influencer sa prise en charge autant au niveau diagnostique que thérapeutique. Nous
pouvons par exemple citer comme tests diagnostiques les cultures bactériologiques, les images
radiologiques ou encore les dosages biochimiques.
Il en existe une multitude que nous distinguons notamment par la présentation du résultat :
§ Binaire : présence ou absence d’un signe clinique. Exemple : douleur thoracique.
§ Ordinal : échelle à niveau témoignant de la gravité d’une pathologie.
Exemple : classification BIRADS utilisée en radiologie pour le stade du cancer du sein.
§ Quantitatif continu : à partir d’une valeur, nous considérons le patient comme malade.
Exemple : dosage des hormones thyroïdiennes dans l’hyperthyroïdie.

A. Valeurs intrinsèques du test


Le seuil diagnostique est la valeur à partir de laquelle un individu est considéré comme malade.
Cependant, ce seuil est souvent arbitraire, c’est-à-dire que nous le choisissons en fonction de la
majorité. Les seuils diagnostiques sont donc modulables. Leur résultat ne constitue donc pas une
indication parfaite de l’état du patient. On leur définit ainsi des critères de jugement de performance
: la sensibilité (Se) et la spécificité (Sp) d’un test.

NDLR. – La sensibilité et la spécificité sont appelées « valeurs intrinsèques du test » car elles ne
dépendent que de la performance du test sans être influencées par la prévalence de la maladie.

Un test “parfait”, c’est-à-dire totalement capable de discriminer les malades des non-malades,
est appelé Gold Standard. Il nous permet ainsi de calculer les valeurs intrinsèques du test.

Sensibilité (Se)
C'est la capacité d’un test à détecter tous les malades ou vrais positifs (VP), et donc à éviter les
faux négatifs (FN). Il s’agit donc de la probabilité qu’un sujet soit positif au test sachant qu’il est
réellement malade (T+ : événement « test positif »).


u@ = = ü(} + Ø)
Bë + ∞Ì

59 Année 2016 - 2017


UE4 – Biostatistiques

Spécificité (Sp)
C'est la capacité d’un test à détecter uniquement les non malades (VN) et donc à éviter les
faux positifs (FP). Il s’agit donc de la probabilité qu’un sujet soit négatif au test sachant qu’il n’est
réellement pas malade (T- : événement « test négatif »).


uü = = ü(} − Ø)
BÌ + ∞ë

Ces deux valeurs varient en fonction de la valeur seuil attribuée au test. Nous choisirons donc un
seuil différent en fonction de ce que nous cherchons : soit un test sensible, soit un test spécifique.

État réel des sujets

Malades Non malades

Positif VP FP
Test

Négatif FN VN

VP + FN FP + VN

Tableau récapitulant les différentes possibilités lors du test.

Test sensible Test spécifique

Pour que le test soit très sensible, il faut


placer la valeur seuil bas. Le problème c’est que Pour que le test soit très spécifique, il faut
nous détecterons beaucoup de FP ce qui risque placer la valeur seuil haut. Ici, nous risquons
de créer un stress inutile chez de nombreux d’oublier les patients atteints.
patients non atteints.

Tutorat PACES Lyon Est 60


De l’évaluation des tests diagnostiques à l’analyse de la décision médicale

Dépistage du cancer du sein à l’aide d’un test ordinal avec modification du seuil diagnostique.

Nous constatons avec l'exemple ci-dessus que le seuil choisi va considérablement modifier les
valeurs intrinsèques de notre test, c’est-à-dire la sensibilité et spécificité. Ainsi, il faut trouver un
équilibre pour : à la fois détecter le plus de malades (sensibilité élevée) et ne pas détecter à tort des
non-malades (spécificité élevée).

La valeur seuil de diagnostic est donc à fixer en fonction de la prévalence de la maladie : le test
doit être très sensible si nous sommes dans une population ciblée, le but étant dans ce cas de repérer
un maximum de malades. Le test doit surtout être spécifique si la prévalence diminue.

Nous aurons donc recours à un test :


§ Sensible en cas de dépistage de masse. Exemple : dépistage du cancer colorectal.
§ Spécifique pour confirmer le diagnostic avant d’entamer un traitement lourd et invasif
Exemple : chimiothérapie.

La courbe ROC est un graphique nous permettant de choisir le test qui sera le plus intéressant
pour répondre à la question clinique posée.

Elle représente les valeurs intrinsèques du test simultanément : pour chaque seuil diagnostique,
nous déterminons le couple (Se ; Sp). Nous visualisons alors l’éloignement de la courbe à la diagonale.
Celle-ci correspond à un test non discriminant quel que soit le seuil choisi (c’est-à-dire pour lesquels
nous avons toujours Sp = Se).

Un test sera d’autant plus discriminant


qu’il s’éloigne de cette diagonale.

61 Année 2016 - 2017


UE4 – Biostatistiques

Le point supérieur gauche n’est jamais atteint : il s’agit du Gold Standard (Se = 100% ; Sp = 100%).
La capacité d’un test peut ainsi être estimée par l’aire sous la courbe (ASC). Plus cette aire est
importante (soit plus il se rapproche du test parfait sur la courbe) meilleur sera le test.

Courbe ROC

Attention. – Notez bien que l’abscisse correspond à (1-Sp) et non à Sp !

B. Les valeurs prédictives positive et négative


Il s’agit de probabilités calculées après la réalisation d’un test diagnostic. Elles permettent
d’aboutir aux probabilités post-test, vrais indicateurs de la décision médicale. Nous parlons de valeurs
extrinsèques du test.

Elles dépendent des valeurs intrinsèques du test et de la prévalence de la maladie. Celle-ci est
également appelée probabilité pré-test (d’avoir la maladie), c’est-à-dire la probabilité d’être malade
avant d’avoir réalisé le test.

NDLR. – Le test va en effet modifier la probabilité d’être malade en fonction du résultat de ce test.
S’il ne modifie pas cette probabilité, alors il est inutile (aucun renseignement utile nous a été
apporté).

Valeur prédictive positive (lorsque le test revient positif)

Bë Ó3 × .(Ô)
Bëë = ü Ø } + = =
Bë + ∞ë Ó3 ×. Ô Z I{Ó. ×.(Ô)

Valeur prédictive négative (lorsque le test revient négatif)

BÌ Ó. × .(Ô)
BëÌ = ü Ø } − = =
BÌ + ∞Ì Ó. ×. Ô Z I{Ó3 ×.(Ô)
Propriétés :
§ Plus la prévalence de la maladie est élevée, meilleure est la VPP.
§ Plus la prévalence de la maladie est basse, meilleure est la VPN.
§ Plus le test est sensible, meilleure est la VPN.
§ Plus le test est spécifique, meilleure est la VPP.

Tutorat PACES Lyon Est 62


De l’évaluation des tests diagnostiques à l’analyse de la décision médicale

Par exemple, si le test utilisé revient positif et que la probabilité post-test est supérieure à 50%,
alors le résultat est accepté et le patient est considéré comme atteint.

C. Ratio de vraisemblance, probabilité pré et post-test


Ratio de vraisemblance positif
Plus le ratio de vraisemblance positif est grand (toujours supérieur à 1), plus le test est capable
d’affirmer la présence de la maladie lorsqu’il est positif.

u@
vB+ =
1 − uü

Ratio de vraisemblance négatif


Plus le ratio de vraisemblance négatif tend vers 0 (toujours inférieur à 1), plus le test est capable
d’éliminer la présence de la maladie lorsqu’il est négatif.

1 − u@
vB− =

Ces ratios de vraisemblance permettent ainsi de comparer les tests entre eux, pour savoir lequel
sera le plus pertinent en fonction de la question posée, c’est-à-dire si nous voulons un test spécifique
ou sensible. De plus, nous pouvons aussi savoir si un test est plus sensible ou plus spécifique. Pour cela,
I
il suffit de comparer le RV+ et du même test (nous prenons l’inverse du ratio de vraisemblance
y{
négatif pour pouvoir comparer ces deux ratios n'appartenant pas au même intervalle).

D. Odds
L’Odds ratio est un autre moyen d’accéder à la probabilité post-test d’être malade. Il estime le
risque relatif d’être malade en fonction du résultat des valeurs intrinsèques d’un test, de son résultat
et de la prévalence de la maladie. En effet, si la prévalence d’une maladie est élevée, nous aurons
d’autant plus tendance à croire à la positivité d’un test par exemple.

De même que pour la probabilité pré-test, nous avons :

Ú .
Ò))ì ü>é-U@ìU = = (avec p la prévalence de la maladie)
Ú I{.

63 Année 2016 - 2017


UE4 – Biostatistiques

En fonction du résultat du test (positif ou négatif), nous aurons l’odds post-test positif ou négatif
(respectivement) :

Lorsque le test revient positif

Ò))ì ü¢ìU-U@ìU = Ò))ì ü>é-U@ìU ×vB +

Lorsque le test revient négatif

Ò))ì ü¢ìU-U@ìU = Ò))ì ü>é-U@ìU ×vB −

Nous pouvons, en outre, passer de l’odds post-test à la probabilité post-test.

Ò))ì ü¢ìU−U@ìU
ë>¢_=_*§*Ué ü¢ìU-U@ìU =
1 + ¢))ì ü¢ìU−U@ìU

NDLR. – Il s’agit d’une formule générale qui fonctionne à la fois si le test est positif ou négatif.
Cependant, n’oubliez pas que si vous utilisez l’odds post-test positif, vous aurez une probabilité
post-test positif, de même si le test est négatif.

II. Analyse de la décision médicale


A. Choix d’un test diagnostique
Il s’agit de recueillir dans la littérature, les valeurs nécessaires au calcul des ratios de
vraisemblance et des valeurs intrinsèques de chaque test diagnostique à notre disposition. Nous
choisissons ensuite le test le plus approprié selon ce que nous cherchons à mettre en évidence, c’est-
à-dire un dépistage de masse par exemple, ou un test spécifique pour confirmer un diagnostic.

Prenons ici un exemple pour mieux comprendre : un patient arrive aux urgences avec douleurs
abdominales violentes, des troubles urinaires avec du sang dans les urines. Nous suspectons des calculs
au niveau de l’uretère (voie urinaire excrétrice). Pour confirmer ce diagnostic, nous cherchons le test
présentant la meilleure sensibilité ainsi que la meilleure spécificité.

D’après la littérature scientifique et médicale, nous avons trois tests :

§ ASP

§ Échographie

§ Uroscanner

Tutorat PACES Lyon Est 64


De l’évaluation des tests diagnostiques à l’analyse de la décision médicale

Résumé des données des différents tests lors de suspicion de calculs dans les voies excrétrices urinaire.

Nous constatons donc que l’uroscanner est le meilleur test avec la meilleure sensibilité et la
meilleure spécificité.

B. Choix d’un traitement


Il s’agit de s’aider des statistiques pour décider d’une conduite à tenir (CAT).

La démarche est la suivante :

§ Définition du cas clinique : tumeur cérébrale chez un homme de 40 ans diagnostiquée


par scanner (Sescanner = 0,96 ce qui correspond à la probabilité que le patient soit vraiment
atteint ; et 1 - Spscanner = 0,08 ce qui correspond à la probabilité que le patient ne soit pas
atteint alors que ce test est revenu positif).

§ Définition des stratégies : comparer la réalisation ou non d’une artériographie pour


confirmer les résultats du scanner revenus positifs et justifier le traitement associé.

§ Détermination des probabilités associées à chaque stratégie.

§ Détermination de l’utilité / espérance de vie (EDV) associée à chaque résultat.

§ Construction de l’arbre de décision :

65 Année 2016 - 2017


UE4 – Biostatistiques

Utilités associées aux quatre situations.

Résumé des données des différents tests lors de suspicion de calculs dans les voies excrétrices urinaire.

Calcul des utilités attendues pour chaque stratégie :

Si nous réalisons le test « artériographie », alors l’espérance de vie, notée EDV sera :

øêB = ü Ø × u@×øêB Ø + } + + 1 − u@ ×øêB Ø + } −

ü(Ø)× 1 − uü ×øêB Ø + } + + uü×(øêB(Ø + }+)

Soit après application numérique,

øêB = 0,92 × (0,96×11 + (1 − 0,96) × 2,2) + 0,08 × (0×20 + 1×21) = ôô, iÙ

Si nous réalisons le test « intervention chirurgicale », alors l’espérance de vie, notée EDV sera :
øêB = ü Ø ×øêB Ø + ∅U@ìU + ü(Ø)×øêB(Ø − ∅U@ìU)

Soit après application numérique,


øêB = 0,92 × 11 + 0,08 × 20 = ôô, ˆE

L’EDV est supérieure si nous réalisons une intervention chirurgicale, c’est donc cette méthode qui
sera retenue.

Tutorat PACES Lyon Est 66


De l’évaluation des tests diagnostiques à l’analyse de la décision médicale

Il s’agit bien d’une aide objective à la décision prenant en


compte l’incertitude des examens. Ces arbres de décision nous
aident à prendre la décision, mais ne nous la donnent pas ! Une
décision humaine est ensuite prise. Il faut voir cet arbre comme
un outils de décision médicale.
(NDLR. - Item récurrent lors des épreuves ou au concours, à bien
connaître.)

À RETENIR
§ Sensibilité et spécificité (définitions - formules - dans quel cas nous les utilisons) ;

§ VPP et VPN (formules - savoir qu’elles dépendent de la prévalence et des valeurs


intrinsèques du test) ;

§ RV+ et RV- (formules et leur utilité pour affirmer ou éliminer la présence de la maladie
en fonction du résultat du test) ;

§ Odds et probabilité pré et post-test ;

§ Arbre de décision (bien comprendre le fonctionnement, plus que d’apprendre par cœur
les formules).

Vous devez impérativement comprendre ce cours pour pouvoir suivre correctement celui sur
l’épidémiologie. Les notions de ce cours y seront utilisées.

67 Année 2016 - 2017


UE4 – Biostatistiques

Tutorat PACES Lyon Est 68


Fluctuations d’échantillonnage – Estimations ponctuelles et par intervalles de confiance

Fluctuations d’échantillonnage – Estimations


ponctuelles et par intervalles de confiance
Rédigé à partir du cours du Dr BARDEL

Note de la rédaction. – Dans un souci de clarté, l’ordre des parties a été modifié. Attention lors
du suivi du cours magistral !

I. Introduction : principe des statistiques inférentielles


Il s’agit de réaliser des statistiques dans un échantillon d’une population étudiée et de considérer
les résultats comme représentatifs de cette population. En effet, il est difficile de recueillir des
données complètes sur l’ensemble d’une pop. Nous allons donc former des échantillons statistiques.

II. Échantillonnage
Pour qu’un échantillon soit qualifié de « statistique », il doit répondre à plusieurs critères :
§ il doit être issu d’un tirage au sort aléatoire ; c’est-à-dire que chaque individu a la même
probabilité d’être tiré au sort.
§ et réalisé manière indépendante, il y a donc remise après tirage ou tirage au sein d’une
grande population par rapport à la taille de l’échantillon.

L’échantillon sera alors considéré comme représentatif de la population mais à plus petite
échelle rendant les calculs plus accessibles. À noter que plus la taille d’un échantillon augmente plus
les résultats seront représentatifs de la population (jusqu’à une certaine taille car sinon les individus
perdent leur indépendance).

Les proportions observées de points verts dans les échantillons 1, 2, 3 et 4 sont des estimations ponctuelles de la vraie
proportion dans la population

69 Année 2016 - 2017


UE4 – Biostatistiques

III. Estimations ponctuelles et estimateurs


A. Généralités
Les réalisations des différents paramètres (moyenne, variance…) au sein de l’échantillon seront
appelées des « estimations ». Il s’agit de calculs ponctuels :

Cependant, contrairement aux statistiques descriptives, les individus ne seront plus considérés
comme uniques. Il peut s’agir de n’importe quel individu de la population qui a été tiré au sort pour
constituer un échantillon. Nous avons donc recours, pour les décrire, à des variables aléatoires. Il s’agit
d’une inconnue X définie sur l’ensemble des valeurs que peut prendre n’importe quel individu de la
population générale.

L’estimation d’un échantillon est reliée à la valeur vraie de la population via un estimateur. Un
estimateur est une variable aléatoire exprimée en fonction des variables aléatoires d’échantillon Xi :

} = $(9I , 97 , … , 9' )

Un estimateur attribue donc à un échantillon une estimation d’un paramètre. Une estimation est
une valeur calculée de l’estimateur pour un échantillon donné, à partir des valeurs observées dans
l’échantillon xi :

U = $(4I , 47 , … , 4' )

Il s’agit d’une réalisation de l’estimateur.

Tutorat PACES Lyon Est 70


Fluctuations d’échantillonnage – Estimations ponctuelles et par intervalles de confiance

B. Estimateur de l’espérance : M

Loi de l’estimateur de l’espérance : soit M la combinaison de variables aléatoires Xi d’un


échantillon statistique de n individus (cf. définition de M ci-dessus) :

§ si les Xi suivent une loi normale ; ¬‹ → È(C¬ , D¬ ) :

- M est une combinaison linéaire de variables aléatoires gaussiennes et suit


également une loi normale : Ø → Ì(FÔ ; 6Ô )

§ si les Xi ne suivent pas une loi normale ; ¬‹ → ˜ C¬ ; D¬ :


- Si 5 ≥ 30, d’après le théorème centré limite (TCL), Ø ↝ Ì(FÔ ; 6Ô ).
- Si 5 ≤ 30, alors nous ne pouvons pas conclure (hors programme de PACES).

Espérance de M : Œ Ë = CË = C¬

DE¬
Variance de M : ƒ« Ë = DEË =

Nota Bene. – On dit que M est un bon estimateur de l’espérance, car d’après le TCL, lorsque n tend
vers l’infini, la moyenne observée sur un échantillon de taille n suit une loi normale de moyenne
FÊ et d’écart type 0.

C. Estimateur de la variance : s2
' '
1 1
u7 = (9% − Ø)7 = ( 9%7 − 5×Ø 7 )
5−1 5−1
%°I %°I

71 Année 2016 - 2017


UE4 – Biostatistiques

Attention à ne pas confondre :

§ La variance descriptive d’un échantillon :


uAø
ì37 =
5
è appartient aux statistiques descriptives, utilisée pour décrire la variabilité d’un ensemble
de mesures.

§ L’estimation de la variance de la population réalisée à partir d’un échantillon :


uAø
ì7 =
5−1
è appartient aux statistiques inférentielles, calculée à partir d’un estimateur non biaisé de
la variance.
'
(avec uAø = %°I(4% − £)²)

Nota Bene. – se² est un estimateur biaisé de la variance, alors que s² en est un bon estimateur.

D. Estimateur d’une proportion : F


'
u' %°I 9%
∞= =
5 5
Où Sn est une variable aléatoire représentant le nombre de patients malades dans un
échantillon de taille n.

Sn suit une loi binomiale de paramètres n et p. Si 5 ≥ 30, 5ü ≥ 5 et 5(1 − ü) ≥ 5, alors :

u5 " Ì(5ü; 5üÕ)


ÓÁ
Loi de l’estimateur d’une proportion : toujours sous les mêmes conditions, ∞ = suit
'
approximativement une loi normale de paramètres :

Espérance de F : Œ(º) = œ

œ–
Variance de F : ƒ«(º) =

Remarque. – F est un bon estimateur d’une proportion.

IV. Intervalles de fluctuations et intervalles de confiance


A. Intervalle de fluctuation / pari
Dans la population, connaissant la moyenne C et l’écart type D, nous pouvons construire un
intervalle de fluctuation (IF) qui contient, avec une probabilité fixée à 95%, la moyenne ou la
proportion que nous observerons dans un échantillon statistique.

Tutorat PACES Lyon Est 72


Fluctuations d’échantillonnage – Estimations ponctuelles et par intervalles de confiance

La valeur complémentaire ¯ = 5% est le risque que la moyenne ou la proportion n’appartienne


pas à l’intervalle.

1. Intervalle de fluctuation de la moyenne

2. Intervalle de fluctuation d’une proportion

B. Intervalle de confiance
Dans la population cible, la vraie valeur d’un paramètre est inconnue, et nous disposons
seulement de son estimation ponctuelle dans un échantillon. À partir de son estimation, nous
construisons l’intervalle de confiance (IC) qui va contenir la vraie valeur avec une probabilité, que nous
appelons « niveau de confiance », de 1 − ¯ = 95%.

La valeur complémentaire ¯ = 5%, est le risque que l’intervalle de confiance ne contienne pas le
paramètre vrai (celui de la population).

Un intervalle de confiance ne peut être établi que si ’ ≥ dΩ.

73 Année 2016 - 2017


UE4 – Biostatistiques

Les bornes de l’IC dépendent de l’échantillon étudié, on dit qu’il est « aléatoire » en opposition
à l’IF qui est « fixé ». En effet, les données utilisées sont celles de la population qui reste invariable.

Nous définissons :
§ la largeur I d’un IC : I = borne supérieure – borne inférieure.
§ la précision i d’un IC : i= ½ x I.

Nota Bene. – i et I dépendent de n, plus la taille de l’échantillon est grande, plus l’IC est étroit.

1. Intervalle de confiance de la moyenne


Pour un échantillon donné :

2. Intervalle de confiance d’une proportion


Pour considérer l’intervalle de confiance d’une proportion comme valide, certaines conditions
sont à vérifier, soient f1 et f2 les deux bornes de l’IC :
§ 5 ≥ 30 ;
§ 5$1 ≥ 5 ;
§ 5(1 − $1) ≥ 5 ;
§ 5$2 ≥ 5 ;
§ 5(1 − $2) ≥ 5.

Calcul du nombre de sujets nécessaires dans un échantillon pour une précision donnée :

7
$(1 − $) × „˙/7
5≥
*I7

Tutorat PACES Lyon Est 74


Principe d’un test statistique

Principe d’un test statistique


Rédigé à partir du cours du Pr ROY

Nota Bene. – Les formules de ce cours (sauf mention contraire) sont à apprendre, il faut essayer
de bien comprendre les exemples ; ce cours est essentiel.

I. Introduction
Un test statistique est un test d’hypothèse. Ces tests ne sont pas à confondre avec d’autres types
de tests comme les tests diagnostiques. Les tests statistiques sont basés sur l’inférence statistique :
analyser des résultats sur un échantillon aléatoire et en tirer des conclusions sur la population d’origine
de l’échantillon.

Mais dès lors, quelle est l’hypothèse testée par le test d’hypothèse ? Comment relier les notions
de test d’hypothèse et d’inférence statistique ?

II. Comparaison d’une moyenne à une valeur théorique :


test d’hypothèse

A. D’une question d’ordre général à une hypothèse

En 1997, nous avons : tour de taille moyen = 84.6 cm (France). En 2006, nous nous intéressons à
un échantillon aléatoire de 30 personnes, nous obtenons les résultats suivants :

88.39 85.92 88.41 90.36 87.15 89.66 88.5 87.71 89.91 88.86 90.93 88.60 83.67 87.36 83.82 86.19
87.19 90.34 87.56 87.98 87.31 88.56 88.85 87.67 91.35 86.44 90.22 91.41 85.92 91.47

h = 88.26 cm

Nous nous demandons alors si le tour de taille moyen est différent en 2006 de ce qu’il était en
1997. Attention, bien évidemment 84,6 est différent de 88,26 mais nous recherchons si cette
différence est significativement significative !

Comment alors traduire cette question d’ordre général en test d’hypothèse ? Nous ne
connaissons pas la vérité mais nous savons calculer la probabilité de ce que nous observons sous
certaines conditions.

L’hypothèse testée est : entre 1997 et 2006, le tour de taille n’a pas changé. Cette hypothèse
concerne la population. Nous ne savons pas si l’hypothèse testée est vraie, mais nous pouvons
appliquer le calcul des probabilités.

Formalisation. – Notation en langage “mathématique” : F 2006 = F 1997 = 84,6.

75 Année 2016 - 2017


UE4 – Biostatistiques

Pour rappel, évidemment 88.26 ≠ 84.6 mais quelle est la probabilité d’observer sur un échantillon
aléatoire de n individus, issu d’une population dans laquelle F = 84,6 ?£, une moyenne calculée
supérieure ou égale à 88.26 cm, c’est-à-dire au moins aussi éloignée de 84.6 cm que l’est 88.26 cm ?

Pour répondre à cette question, l’hypothèse, qui va être testée, est appelée hypothèse nulle, que
nous écrivons H0. Notre hypothèse nulle dans cet exemple est que le tour de taille moyen dans la
population de 1997 est le même que le tour de taille moyen dans la population de 2006.

Ceci nous amène à nous demander : Quelle serait la probabilité d’observer une estimation de la
moyenne d’au moins 88.26 cm (μ de l’échantillon) si le tour de taille moyen en 2006 était de 84.6 cm
(μ de la population) ?

Dans cet exemple, nous supposerons ici que la variable est distribuée normalement, c'est-à-dire
qu'elle suit une loi Normale.

Nous distinguerons alors deux cas :

§ D est connu et vaut 2 cm.

§ D est inconnu et est estimé à partir de l’échantillon.

B. Test de l’hypothèse nulle

§ Premier cas : 6 est connu et vaut 2 cm.

Nota Bene. – ë(À ≥ 10.02) = 1 − ë(À ≤ 10.02).

Nous allons lire alors dans la table de la loi Normale, la plus grande valeur de cette table est 4,9 ;
nous avons alors ë(À ≤ 4.9) = 0,999998 ; d’où 1 − 0,999998 = 0,00002. Ainsi, la probabilité
d’avoir un écart aussi important est très faible.

§ Deuxième cas : 6 inconnu, nous allons alors utiliser s l’estimateur de F. L’écart-type


estimé à partir de l’échantillon est de 4,13.

De la même manière, nous allons lire alors dans la table de la loi Normale, la plus grande valeur
de cette table est 4,9 ; nous avons alors ë(À ≤ 4.9) = 0,999998 ; d’où 1 − 0,999998 = 0,00002.

Tutorat PACES Lyon Est 76


Principe d’un test statistique

C. Risque de première espèce


Nous pouvons alors calculer “p” : le niveau de significativité, mais attention cette probabilité
seule ne représente pas une règle de décision ! Il faut définir une probabilité seuil " qui constitue le
risque de première espèce, c’est-à-dire la probabilité de rejeter l’hypothèse nulle alors qu’elle est
vraie. La valeur retenue est une valeur de probabilité faible, le plus souvent ¯ = 5%.

Comparaison d’une moyenne à une valeur théorique

M = variable aléatoire, différente en fonction de l’échantillon.

Sous H0, nous obtenons la courbe suivante :

La zone grise est la zone de rejet de l’hypothèse nulle, elle représente la probabilité ¯. Si notre
valeur est dans cet intervalle, nous rejetons H0, si p > ¯, nous ne rejetons pas H0.

La statistique du test repose sur la valeur prise par une variable aléatoire de distribution connue
sous l’hypothèse nulle. La probabilité d’observer une valeur au moins aussi éloignée de la valeur de
référence que celle observée sur l’échantillon est le petit p = degré de significativité du test. Si cette
probabilité est très faible, l’hypothèse nulle est peu vraisemblable, elle est alors rejetée.

D. Significativité
La probabilité d’une valeur au moins aussi éloignée de la valeur de référence que celle observée
sur l’échantillon est le petit p (degré de significativité du test).
Si on précise, avant la réalisation du test, le sens de la différence qui conduit à rejeter l’hypothèse
nulle, le test est unilatéral :
§ Ecriture d’un test unilatéral : ˚` ∶ µ7``˛ = µIˇˇ! et ˚I ∶ µ7``˛ > µIˇˇ!
Ou
˚` ∶ µ7``˛ = µIˇˇ! et ˚I ∶ µ7``˛ < µIˇˇ!

77 Année 2016 - 2017


UE4 – Biostatistiques

Si on précise, avant la réalisation du test, que l’hypothèse nulle peut être rejetée quel que soit le sens
de la différence, le test est bilatéral :
§ Ecriture d’un test bilatéral : ˚` ∶ µ7``˛ = µIˇˇ! et ˚I ∶ µ7``˛ ≠ µIˇˇ!

La valeur du seuil de significativité est fixée avant le test dans le protocole de l’étude. C’est le
risque d’erreur consenti de rejeter l’hypothèse nulle alors qu’elle est vraie. Le degré de significativité
du test est comparé à la valeur du seuil de significativité une fois l’étude terminée.

À l’issue du test statistique :

§ Soit H0 est rejetée, avec le risque ¯ d’avoir rejeté l’hypothèse nulle à tort. Le petit “p”
(alors inférieur au risque α) est la probabilité d’une valeur au moins aussi éloignée de
l’hypothèse nulle que la valeur observée. Plus cette probabilité est faible, plus le test est
significatif. L’hypothèse nulle est rejetée au profit d’une hypothèse alternative, H1.

§ Soit il n’a pas été possible de rejeter H0, parce qu’il n’y a pas de différence, ou parce que
l’étude n’a pas été capable de détecter une différence réelle.

Attention. – Quand on rejette l’hypothèse nulle H0, on accepte l’hypothèse alternative H1.
En revanche, si on ne rejette pas l’hypothèse nulle, cela ne veut pas dire pour autant qu’on
l’accepte !
La formulation de l’hypothèse alternative englobe une infinité de possibilités de rejeter
l’hypothèse nulle.
Par exemple, l’hypothèse alternative d’un test bilatéral de comparaison de moyennes (µ1 ≠ µ2)
englobe une infinité de différences théoriques tant positives que négatives entre les 2 valeurs
théoriques des moyennes.

Il faut malgré tout noter que la valeur du degré de significativité dépend de la nature unilatérale
ou bilatérale du test effectué. Si nous avons observé une moyenne de 85 cm sur l’échantillon nous
aurons :

Remarque. – Nous utilisons ici les compléments à 1 pour lire dans la table de la loi Normale.

Tutorat PACES Lyon Est 78


Principe d’un test statistique

E. Conclusion

H0 vraie H0 fausse
Interprétation
H0 non rejetée β
correcte

Interprétation
H0 rejetée α
correcte

# est le risque de deuxième espèce,


le risque de ne pas rejeter H0 alors qu’elle est fausse.

Le petit p ouvre l’analyse : si le test est significatif, la différence observée n’est pas due au hasard.
Nous calculons alors des estimations ponctuelles des paramètres d’intérêt, et leurs intervalles de
confiance.

III. Comparaison d’une proportion observée à une


proportion théorique
A. Approximation par la loi normale – Test bilatéral
Exemple. – Sur un échantillon aléatoire de 50 personnes ayant des origines basques, 35 sont
rhésus positif. Que peut-on conclure sachant que, dans la population française, 85% sont rhésus
positif ?

On va centrer et réduire,
H0 : π = 0.85 = π0
H1 : π ≠0.85 (bilatérale)
n = 50,
f (observée) = 35/50 = 0.70
¯ = 0.05
Sous H0

79 Année 2016 - 2017


UE4 – Biostatistiques

p est donc < α, nous rejetons H0, la prévalence des sujets rhésus positifs dans la population basque est
inférieure à 0,85.

B. Test du Chi-2 – Test bilatéral


H0 : π = 0.85
H1 : π ≠ 0.85 (bilatérale)
n = 50
f (observée) = 0.70
¯ = 0.05

Avec Oi = effectif observé ; Ei = effectif attendu; ddl = degrés de liberté

Les effectifs observés (35 et 15) sont comparés aux effectifs attendus sous l’hypothèse nulle. Il
faut comprendre alors que les effectifs attendus sont les effectifs si H0 est vraie : dans ce cas
l’hypothèse nulle est que la moyenne de rhésus positifs est de 0,85 dans la population française et
dans la population basque, il y a 50 basques dans notre échantillon, sous l’hypothèse nulle nous aurons
comme effectif attendu 50 x 0,85 = 42,5 et 50 - 42,5 =7,5.

On peut alors faire le Chi-2 suivant :

Conditions d’applications 50 × 0,85 ≥ 5 et 50 × 0,15 ≥ 5.

Attention. – Nous sommes à 1 ddl, il faudra donc regarder dans la table du Chi-2 à 1ddl.

Tutorat PACES Lyon Est 80


Principe d’un test statistique

C. Approximation par la loi normale – Test unilatéral

H0 : π = 0.85 = π0
Sous H0,
H1 : π <0.85 (unilatérale)
n = 50,
f (observée) = 35/50 = 0.70
¯ = 0.05

0,0015 < 0,05 donc nous rejetons l’hypothèse nulle.

D. Test du Chi-2 – Test unilatéral


H0 : π = 0.85 = π0
H1 : π <0.85 (unilatérale)
n = 50,
f (observée) = 35/50 = 0.70
¯ = 0.05

Avec Oi = effectif observé ; Ei = effectif attendu; ddl = degrés de liberté

81 Année 2016 - 2017


UE4 – Biostatistiques

Remarque. – Le test du Chi-2 est par définition bilatéral. La valeur « test » de notre Chi-2 sera
donc la même que notre hypothèse de départ soit bilatérale ou unilatérale. La probabilité petit p
qui sera lue dans la table du Chi-2 correspond à celle d’un test bilatéral.
Cependant, il est quand même possible de conclure grâce au test du Chi-2 si le test est unilatéral.
Il existe deux méthodes donnant les mêmes conclusions :
• Diviser la probabilité lue dans la table par 2, puis la comparer au risque α (cf. calcul ci-dessus) ;
• Soit, regarder la valeur du Chi-2 seuil dans la table pour 2α, puis la comparer à notre valeur
test que nous avons calculé.
Par exemple, ici, α=0,05. La valeur de Chi-2 seuil pour 2α est de 2,7055. Notre valeur test est de
8,82. Nous remarquons que 8,82>2,7055 (petit p > α), donc nous rejetons l’hypothèse nulle
d’égalité des proportions.

E. Conclusion
Le petit p ouvre l’analyse : si le test est significatif, la différence observée n’est pas due au hasard.
L’hypothèse nulle est rejetée, avec un degré de significativité p < 0,01. Nous disposons d’une
estimation ponctuelle de la proportion de sujets rhésus positif, nous pouvons calculer un intervalle de
confiance.

IV. Comparaison d’une distribution observée à une


distribution à k modalités

Échantillon représentatif (aléatoire) de n individus associé à k modalités d’une variable qualitative


avec O1, O2, …, Ok les effectifs observés sur l’échantillon de taille n.

Soient üI = ÒI /5, ü7 = Ò7 /5, …, üb = Òb /5, les proportions observées.

Sous l’hypothèse nulle H0, la variable qualitative a une distribution de probabilités p1, p2, …, pK.
Sous l’hypothèse alternative H1, la variable a une distribution différente.

Test du Chi-2

Tutorat PACES Lyon Est 82


Principe d’un test statistique

Donc au risque ¯, quand notre Chi-2 est supérieur au Chi-2 seuil (c’est-à-dire au Chi2 pour
α = 5%) nous rejetons H0. Lorsque le Chi-2 est plus petit que le Chi-2 seuil, nous ne pouvons pas
rejeter l’hypothèse nulle.

Attention. – Il faut penser aux conditions d’application : tous les effectifs attendus sous H0 doivent
être supérieurs à 5 !

Remarques

§ Les Ei ne sont pas indépendants. Ainsi lorsque (k-1) valeurs sont calculées, la dernière
valeur s’impose car la somme des effectifs attendus est égale à n ! C’est pourquoi il n’y a
que (k-1) ddl.

§ La comparaison d’une proportion observée à une probabilité théorique, vue


précédemment, correspond à la situation où k = 2 (d’où 1 ddl).

V. Comparaison de deux proportions


A. Exemple

Ici, nous allons comparer la proportion de décès lors de deux traitements (TTT), l’hypothèse
testée est alors un test bilatéral.
H0 : ‡chir = ‡ortho
H1 : ‡chir ≠ ‡ortho à ¯ = 0,05

Remarque. – L’hypothèse nulle et l’hypothèse alternative concernent la population.

Test d ’hypothèse
Nous ne connaissons pas la vérité, mais la probabilité d’observer ce que l’on observe sous une
certaine hypothèse. Ainsi, pour montrer une différence d’efficacité entre deux thérapeutiques, il
faudra calculer la probabilité d’un résultat au moins aussi éloigné de l’hypothèse nulle que le résultat
observé, cette probabilité étant calculée sous l’hypothèse nulle d’absence de différence d’efficacité.
Si cette probabilité est très faible, l’hypothèse nulle est peu vraisemblable, elle est alors rejetée : la
différence observée est significative.

83 Année 2016 - 2017


UE4 – Biostatistiques

B. Approximation par la loi normale


Sous H0 :

Attention. – Ici, les effectifs des deux traitements sont différents d’où le dénominateur.

Ici, la probabilité de décéder si les deux traitements n’avaient pas de différence d’effets est :
Ì_ )@ )é?èì 67
ü` = = = 0,33
5 204
d’où :

C. Test du Chi-2

L’hypothèse nulle est celle de l’indépendance entre les probabilités de traitement chirurgical ou
orthopédique et le pronostic vital. Le calcul des effectifs attendus sous l’hypothèse nulle en découle.

Par exemple pour le traitement chirurgical : nous avons vu précédemment que la probabilité de
décès sous l’hypothèse nulle est de 0,33 ; d’où la probabilité de décéder sous H0 dans le groupe
traitement chirurgical est ntraitement chirurgical × 0,33 = 139 × 45,7 ; à partir de ce moment, comme nous
avons un tableau avec des marges fixées, il suffit de faire des soustractions pour avoir les autres
effectifs attendus. On comprend donc mieux pourquoi le test est à 1 ddl. Lorsque nous trouvons un
effectif, nous pouvons en déduire les trois autres.

Dans un tableau à l lignes et c colonnes, le test est à (l-1) x (c-1) ddl.

Tutorat PACES Lyon Est 84


Principe d’un test statistique

Nous obtenons alors le tableau suivant :

Cette méthode est équivalente aux quatre calculs suivants :

Application non présente dans le cours de 2014, au niveau du test :

En effet, il faut savoir que pour 1 ddl, le Chi-2 représente le carré d’une loi normale centrée
réduite, nous pouvons alors regarder dans la table de la loi Normale pour la racine du Chi-2 ; ici 3,1.

D. Conclusion
Le petit p ouvre l’analyse : si le test est significatif, la différence observée n’est pas due au hasard.
Nous calculons alors une estimation ponctuelle de la différence d’efficacité et son intervalle de
confiance. Sous les conditions de normalité pour les variables aléatoires fA et fB :

85 Année 2016 - 2017


UE4 – Biostatistiques

VI. Risques " et #


Nous sommes confrontés aux deux risques d’erreur :

§ Le risque de première espèce (") : probabilité de rejeter l’hypothèse nulle (H0) alors
qu’elle est vraie. Il est fixé avant l’essai.

§ Le risque de seconde espèce (#) : probabilité de ne pas rejeter H0 alors qu’elle est fausse.

§ Puissance = 1-β

Puissance

§ Quand nous augmentons la taille de l’étude, il y a moins de fluctuation : la densité se


resserre, la puissance augmente.

§ Il y a une opposition entre ¯ et $, quand " augmente : la puissance augmente.

§ Quand la différence attendue entre les moyennes augmente : la puissance augmente.

VII. Conclusion
Nécessité d’inclure suffisamment de patients dans une étude compte tenu de la différence
d’efficacité attendue : études multicentriques nationales, européennes, internationales.

Pour les exercices à la fin du cours voir le diapo de l’année en cours et l’explication en cours.

Tutorat PACES Lyon Est 86


Comparaisons de moyennes et de variances

Comparaisons de moyennes et de variances


Rédigé à partir du cours du Pr ROY

Note de la rédaction. – L’introduction est un exercice pour se remettre en tête le cours précédant.

I. Introduction (rappel du cours précédant)


En 2006, nous observons un échantillon aléatoire de 30 personnes, la moyenne du tour de taille
observée est de 9 = 85,3 cm. Pour rappel, la question posée est le tour de taille moyen est-il supérieur
en 2006 à ce qu’il était en 1997 ? Nous connaissons 6 = 2 cm.

§ pour un test unilatéral, nous allons avoir H0 : F7``˛ = 84,6 et H1 : F7``˛ > 84,6.

Évidemment 85,3 > 84,6 ; mais quelle est la probabilité d’observer, sur un échantillon aléatoire
de 30 individus, issu d’une population dans laquelle μ = 84,6 cm, une moyenne calculée supérieure ou
égale à 85,30 cm ; c’est-à-dire supérieure à 84,6 cm (test unilatéral) et au moins aussi éloignée de 84,6
cm que l’est 85,30 cm ?

Calcul de la probabilité d’avoir une moyenne supérieure ou égale à 85,30


en sachant que la moyenne de notre groupe est égale à 84,6 (test unilatéral).

La grandeur « test » T=1,917 est supérieure à la valeur seuil 1,645 donc nous rejetons l’hypothèse
nulle d’égalité du tour de taille moyen en 1997 et du tour de taille moyen en 2006.

Nous pouvons conclure de la même façon lorsque nous comparons le petit p calculé (p<0,0281) et le
risque α (0,05). Petit p est inférieur à α donc la probabilité d’observer cette différence de tour de taille
moyen entre 1997 et 2006 est trop faible. De ce fait nous rejetons l’hypothèse nulle.

87 Année 2016 - 2017


UE4 – Biostatistiques

§ pour un test bilatéral, nous allons avoir H0 : F7``˛ = 84,6 et H1 : F7``˛ ≠ 84,6.

Évidemment 85,3 ≠ 84,6 mais quelle est la probabilité d’observer, sur un échantillon aléatoire de
30 individus, issu d’une population dans laquelle μ = 84,6 cm, une moyenne calculée supérieure ou
égale à 85,30 cm, c’est-à-dire supérieure à 84.6 cm (test unilatéral) et au moins aussi éloignée de 84,6
cm que l’est 85,30 cm ?

Calcul lors d’un test bilatéral.

Dans ce test, nous ne pouvons pas rejeter l’hypothèse nulle car le petit p est supérieur au risque
α consenti.

II. Comparaison d’une moyenne à une valeur théorique


A. Rappel
Soit X une variable aléatoire de moyenne F et d’écart-type 6 dans une population N. Soit un
échantillon de taille n, nous avons donc :

Ê ZÊÄ Z⋯ZÊÁ
Ø= est un estimateur de F.
'

k Z kÄ Z⋯Z kÁ
£= est une estimation de F.
'

I ' I ' 7
u7 = %°I(9% − Ø)7 = ( %°I 9% − 5×Ø) est un estimateur non biaisé de 6 7 .
'{I '{I

I ' I '
ì7 = %°I(4% − £)7 = ( %°I 4%
7
− 5×£) est une estimation non biaisé de 6 7 .
'{I '{I

Tutorat PACES Lyon Est 88


Comparaisons de moyennes et de variances

B. Théorie

n ≥ 30 n < 30
Ø − F` Ø − F`
X normale
6 → Ì(0; 1) 6 → Ì(0; 1)
D connue
5 5

Ø − F`
→ uUî)@5U(5 − 1))§) Ø − F`
X normale u → uUî)@5U(5 − 1))§)
u
D inconnue 5 5
→ Ì(0; 1)

Ø − F`
X quelconque
6 → Ì(0; 1)
D connue
5

Ø − F`
X quelconque → Ì(0; 1)
D inconnue
u
5

Ce tableau est essentiel et est donc à connaître parfaitement afin


de résoudre tous les exercices le jour du concours. Les conditions
(taille de l’échantillon, loi suivie par X, etc..) doivent être
respectées pour utiliser telle ou telle formule. Je vous invite donc
à vous entraîner régulièrement pour bien assimiler toutes ces
formules et conditions.

C. Exemples
1. Exemple 1
400 jeunes conscrits sont examinés et nous relevons leur taille. La moyenne de cet échantillon
aléatoire est : 4 = 172,2cm. Peut-on admettre que ce groupe de 400 jeunes est un échantillon tiré au
sort d’une population où la variable taille suit une loi Normale de moyenne m = 171,3 cm et d’écart-
type s = 7 cm?

89 Année 2016 - 2017


UE4 – Biostatistiques

§ Si le protocole d’étude avait fixé le risque de première espèce à ¯ = 5%.

§ Si le protocole d’étude avait fixé le risque de première espèce à ¯ = 0,1%.

Formulation des hypothèses H0 et H1 :


§ H0 : F = 171,3 ?£
§ H1 : F ≠ 171,3 ?£ (test bilatéral)

er
1 cas - X normale, D connue, sous H0

Ø − F`
6 → Ì(0 ; 1)
5

172,2 − 171,3
= 2,57
7
400

ü = ü À > 2,57 = ü À > 2,57 + ü À < −2,57

= 2× 1 − ‰ 2,57 = 2× 1 − 0,9949 = 0,0102

Le niveau de significativité du test vaut 0,0102.

En fonction du risque de première espèce retenu, nous aurons deux cas de figures :

§ si le risque de première espèce préalablement fixé est de 5%.


- l’hypothèse nulle est rejetée (car p<α) ;
- la taille moyenne de la population d’origine de l’échantillon est supérieure à 171,3
cm ;
- une estimation ponctuelle de la taille de la population d’origine est 172,2 cm ;
- vous pouvez fournir un intervalle de confiance à 95 % de cette estimation (cf.
cours correspondant).

§ si le risque de première espèce préalablement fixé est de 0,1%.


- l’hypothèse nulle ne peut être rejetée (car p>α) ;
- au risque de première espèce consenti, la taille moyenne de la population
d’origine de l’échantillon n’est pas significativement différente de 172,2 cm ;
- Vous pouvez fournir un intervalle de confiance à 99,9% de cette estimation (cf.
cours correspondant).

Tutorat PACES Lyon Est 90


Comparaisons de moyennes et de variances

2. Exemple 2

20 rats femelles sont tirés au hasard d’une lignée ; le poids utérin après traitement ostrogénique
est mesuré : 9 18 21 26 14 18 22 27 15 19 22 29 15 19 24 30 16 20 24 32. La moyenne et l’écart-type
de l’échantillon sont :

4 = £ = 21 £T

(4% − 4)7
= 5,76 £T
20

Les lignées usuelles ont un poids moyen de 24 mg. Peut-on admettre que notre lignée est une
lignée usuelle ? Nous supposons que la variable X, poids utérin, est gaussienne.
' '
7
1 7
1
ì = ( (4% − £) ) = ( 4% 7 − 5×£ 7 )
5−1 5−1
%°I %°I

Nous allons alors faire une estimation de l’écart-type de la population, s = 5,91 mg.

Formulation des hypothèses H0 et H1 :


§ H0 : F = 24 £T ;
§ H1 : F ≠ 24 £T (test bilatéral).

ème
2 cas - X normale, D inconnue, sous H0, nous prendrons " = 0,05 (bilatéral) :
Ô{%~
n < 30 ∶ & → uUî)@5U(19 ))§)
Á

Nous calculons la grandeur « test » sous l’hypothèse nulle :


21 − 24
U'[( = = −2,27
5,91
20

ü = ü } Iˇ > 2,27

2,0930 < 2,27 < 2,5395

0,02 < ü < 0,05

Notre lignée ne semble pas usuelle. (p<0,05)

91 Année 2016 - 2017


UE4 – Biostatistiques

III. Comparaison de deux moyennes (échantillons


indépendants)
Deux groupes de femmes primipares, âgées de 20 à 25 ans, ont accouché normalement par voie
basse et à terme, d’une petite fille. Le premier groupe est composé de femmes qui ont arrêté de fumer
au tout début de leur grossesse et le second de femmes qui n’ont jamais fumé.
§ n1 = 49, 4I = 2950 T et ìkI = 168 T ;
§ n2 = 49, 47 = 3010 T et ìk7 = 170 T.

Évidemment 2950 ≠ 3010. Mais quelle est la probabilité d’observer, sur deux échantillons
aléatoires de 49 nouveaux nés de sexe féminin issus d’une même population, une différence de valeurs
moyennes de 3010 – 2950, c’est-à-dire de 60 grammes ou plus ? Ici, nous comparons une différence.
er
1 cas - n1 ≥ 30 et n2 ≥ 30 :

ØI − Ø7 − (FI − F7 ) ØI − Ø7 − 0
= → Ì(0; 1)
7 7 7 7
uI u uI u
+ 7 + 7
5I 57 5I 57

ème
2 cas - n1 < 30 et/ou n2 < 30, deux conditions :

§ X normale ;

§ Variances inconnues égales à 6 7 (soit, en résumé, les variances doivent être égales).

ØI − Ø7 − 0
}=
5I − 1 uI 7 + (57 − 1)u7 7 1 1
+
5I + 57 − 2 5I 57

(Cette formule n’est pas à connaître par cœur)

Il faut donc au préalable faire un test d’égalité des variances :

§ H0 : 6I 7 = 67 7 ;

§ H1 : 6I 7 ≠ 67 7 .

Sous l’hypothèse nulle :

uI 7
∞= → ∞(5I − 1; 57 − 1)
u7 7

Pour comparer des variances observées au risque ¯, nous faisons le rapport de la plus grande
des deux à la plus petite et nous comparons ce rapport à la valeur de la table de Fischer correspondant
au seuil ¯ pour (’ô − ô) et (’E − ô) degrés de liberté. Si notre valeur test est supérieure à notre valeur
seuil lue dans la table, nous rejetons l’hypothèse nulle d’égalité des variances et nous ne pouvons pas
continuer le test de comparaison des deux moyennes. Si notre valeur test est inférieure à notre valeur
seuil, nous concluons que nos variances ne sont pas significativement différentes et nous pouvons
continuer la comparaison des moyennes.

Tutorat PACES Lyon Est 92


Comparaisons de moyennes et de variances

Si nous repassons au test, nous avons :


(£I − £7 ) 2950 − 3010
„= = = −1,76
ìI 7 ì7 7 1687 1707
+ +
5I 57 49 49

Formulation d'une hypothèse bilatérale


§ H0 : FI = F7 ;

§ H1 : FI ≠ F7 .
ü = ë À > 1,76 = 2×(1 − ‰ 1,76 ) = 2(1 − 0,9608) = 0,0784
H0 non rejetée

Formulation d'une hypothèse unilatérale


§ H0 : FI = F7 ;
§ H1 : FI < F7 .
ü = ë À < −1,76 = ‰ −1,76 = 1 − ‰ 1,76 = 1 − 0,9608 = 0,0392
Rejet de H0

IV. Comparaison de deux moyennes (échantillons appariés)


Le meilleur exemple est l’essai en cross-over : le sujet est son propre témoin. Ordre des
traitements attribué par tirage au sort (par exemple d’abord placebo puis traitement ou d’abord
traitement puis placebo). Ce type d’essai prend en compte la corrélation entre les valeurs observées
chez un même sujet : c’est-à-dire qu'au départ si une valeur est déjà haute, elle a plus de chance d’être
également haute à la fin.

Tableau illustrant un essai en cross-over.

Il faut travailler sur la distribution des différences pour permettre de pallier la corrélation. Nous
allons tester l’hypothèse À = 0, nous travaillons sur la moyenne des différences, ce qui revient à
observer une moyenne théorique sur une observée.

93 Année 2016 - 2017


UE4 – Biostatistiques

V. Comparaison de plusieurs moy. : analyse de variance


A. Introduction
k échantillons Ei (i = 1 à k), chacun étant issu d’une population dans laquelle X suit une loi Normale
de moyennes F% et de variance 6% 7 inconnues. Les moyennes diffèrent-elles ?

Hypothèse à tester préalablement (hors PACES) : les variances sont égales ; quelque soit i, 6% 7 =
7
6 .

Formulation des hypothèses nulle et alternative :

§ H0 : FI = F7 = ⋯ = Fb

§ H1 : au moins deux de ces moyennes diffèrent.

Notations :

Ti est la somme totale des valeurs d’un échantillon

T est la somme totale des valeurs

mi est la moyenne d’un échantillon

N est l’effectif total, la somme de


l’effectif de tous les échantillons.

B. Principe de l’ANOVA
Dans l’ANOVA, nous calculons une estimation de la variance commune 6 7 dans deux cas :

§ sans tenir compte de l’hypothèse H0 ;

§ en supposant H0 vraie.

Estimation de 6 7 avec H0 vraie ou non (c’est-à-dire sans tenir compte de H0) :

Tutorat PACES Lyon Est 94


Comparaisons de moyennes et de variances

Ceci représente la variance d’un échantillon donné, c’est la somme des écarts quadratiques à la
moyenne divisée par l’effectif total (N) moins le nombre d’échantillon (k).

Estimation de 6 7 avec H0 vraie :

Cela correspond à la somme des carrés des écarts totaux, c’est-à-dire par rapport à une moyenne
générale.

Test : comparaison de la variance résiduelle et de la variance entre colonnes présentée ici

Nous allons faire un test de Fisher pour tester les variances :

u) 7
∞ = 7 → ∞(w − 1; Ì − w)
u

Entre colonnes = SCC ; Résiduelle=SCR; Totale=SCT

Si l’hypothèse nulle est rejetée ; nous allons, pour confirmer, comparer des moyennes deux à
deux en contrôlant le risque de première espèce grâce à la correction de Bonferroni entre autres. En
effet, si nous ne corrigeons pas le risque par la multiplication des tests nous aurons forcément un test
significatif.

95 Année 2016 - 2017


UE4 – Biostatistiques

"
Correction de Bonferroni = avec ¯ le risque de première espèce et Q le nombre de paires
*
possibles parmi le nombre de groupe noté k.

Soit Q = (b7 ) (que l’on dit « 2 parmi k »).

Récapitulatif des formules importantes à connaître de cette partie :


uAv
ì7 = sans tenir compte de ˚`
Ì−w
uA}
ìÅ 7 = (en supposant ˚` vraie)
Ì−1

uAA
ìz 7 =
w−1
ì) 7
∞= → ∞ w − 1; Ì − w
ì7
NDLR. – Moyen mnémotechnique pour retenir les degrés de liberté : ìz 7 , au numérateur, utilise
(k-1) qui va donc se retrouver en premier ddl et de même avec ì 7 et (N-k).

Rappel. – La variance la plus importante est toujours au numérateur. Or comme nous divisons par
un plus petit nombre SCC que SCR (w − 1 < Ì − w), nous pouvons aussi trouver rapidement la
formule en cas d’hésitation.

C. Exemple
Comparaison des durées moyennes d’hospitalisation des patients admis dans trois services d’un
centre hospitalier pour broncho-pneumopathie chronique.

Durée moyenne d’hospitalisation pour broncho-pneumopathie chronique dans 3 services.

W = 3, Ì = 212, Ì − W = 209, W − 1 = 2, uAv = 8699,5 ; u2 = 41,62 ; uAA = 687,5 ; 67 E = 343,75.

Nous posons ¯ = 0,05, dans la table de Fisher pour 209 et 2 ddl. Au seuil ¯, nous avons
Fseuil = 2,209 ; notre F observé est de 8,26 et est donc > au Fseuil, nous rejetons l’hypothèse nulle.

Nous allons alors comparer les moyennes deux à deux : en contrôlant le risque de première
espèce en appliquant la correction de Bonferroni, ici nous avons trois séries, nous allons donc
comparer A avec B, A avec C et B avec C, ici nous allons faire trois tests dans ce cas (2 parmi 3 est égal
à 3). La comparaison des moyennes va être alors effectuée avec une probabilité de non plus ¯ mais de
¯ /3.

Note. – Nous pouvons également multiplier le petit p par le nombre de comparaison à la place !

Tutorat PACES Lyon Est 96


Comparaisons de moyennes et de variances

VI. Prévalence et incidence


A. Prévalence
La prévalence représente la proportion de la population atteinte de la maladie à un moment
donné. C’est l’estimation d’une probabilité théorique. La prévalence n’a pas d’unité.

Exemple. – Nous nous intéressons à la prévalence des infections nosocomiales dans les hôpitaux
français en 1996. Pour ce faire, nous allons faire une étude transversale c’est-à-dire une étude un
jour donné. Nous disposons d’un échantillon de 46 000 patients hospitalisés dont 3370 patients
avec une infection nosocomiale.

Nous notons comme prévalence 3370/46000 = 7,3 pour 100.

L’intervalle de confiance à 95 % (approximation gaussienne) est donné par :

ë× 1 − ë 0,073× 1 − 0,073
ë ± 1,96 = 0,073 ± 1,96
Ì 46000

Soit [7.06 à 7.54 pour 100 patients hospitalisés]

B. Incidence
Le taux d’incidence mesure la « vitesse d ’apparition » des nouveaux cas, il permet d’estimer la
probabilité pour un individu de développer la maladie par unité de temps. Le taux d’incidence à une
unité : T-1, contrairement à la prévalence.

Estimation d’une incidence sur une étude de cohorte :


§ Dénombrement de la population étudiée ;
§ Fixer la période d’observation (exemple : un an) ;
§ Définition précise des cas ;
§ Utilisation d’un estimateur sans biais = le taux d’incidence observé.

La durée totale d’observation s’exprime en “personnes-années” d’observation.

Attention. – Cette unité est différente du temps d’observation.

Graphique représentant l’apparition d’événements en fonction du temps.

97 Année 2016 - 2017


UE4 – Biostatistiques

Le taux d’incidence estimé est le rapport du nombre d’évènement divisé par la durée totale
d’observation.
§ M= nombre total de cas observés (ici 2) ;
§ T= nombre total d’unités de temps observées en années (ici 18 ans) ;
Ô
§ Estimateur : t = ;
Å
7
§ Estimation : t = an-1.
I9

Exemple. – Taux d’incidence de la tuberculose en France en 2005, la durée d’observation totale


est de 58 370 786 personnes-années et de 5195 cas de maladie (données InVS).

Estimation du taux d’incidence :


5195
t= = 0,000089 =5{I
58 370 786

Soit, 8,9 pour 100000 personnes-années.

Variance de l’estimateur d’un taux d’incidence :



§ Variance d’un taux d’incidence estimé : u 7 = ;
Å


§ Erreur type d’un taux d’incidence estimé : u = .
Å

T = durée totale d’observation, par exemple : effectifs × période

Intervalle de confiance à 95 % :
0,000089
0,000089 ± 1,96
58 370 786

Soit [0.0000866 à 0.0000914], soit 8.66 à 9.14 pour 100 000 personnes-années.

Tutorat PACES Lyon Est 98


Corrélation – Régression

Corrélation – Régression
Rédigé à partir du cours du Dr MAUCORT-BOULCH

I. Corrélation
A. Introduction
1. Rappels
Commençons par quelques définitions apprises dans le chapitre des variables aléatoires :

Variable aléatoire. – Une variable aléatoire sur è correspond à toute application X : è " ℝ telle
que ∀ x∈ ℝ, 9 {I ([a, b]) est un événement.

Variance. – Elle est notée var(X) (ou 6 7 ). Elle mesure la dispersion d’une variable aléatoire X
autour de son espérance mathématique (moyenne) E(X) (ou F). Sa formule est :
6 7 = E[(9 − F)7 ] = E(X²) - [E(X)]²

2. Définition de la corrélation
Corrélation. – Elle représente une co-relation. C’est une dépendance réciproque de deux
phénomènes qui varient conjointement. Elle correspond au degré de liaison de deux variables
aléatoires X et Y.

3. Différentes notions
§ La corrélation entre le cancer du poumon et le tabagisme met en jeu deux variables
aléatoires qualitatives.
§ Celle entre le poids à la naissance et le sexe met en jeu une variable aléatoire quantitative
et une qualitative.
§ Celle entre le poids et la taille à la naissance met en jeu deux variables aléatoires
quantitatives (cette dernière situation est l’objet de ce cours).

Remarque. – La corrélation entre des mesures faites avec deux appareils différents implique une
concordance entre les deux méthodes.
Exemple Ù Âge gestationnel et poids à la naissance

99 Année 2016 - 2017


UE4 – Biostatistiques

B. Quantification de la relation
1. Définition de la covariance
Soit un couple de variables aléatoires quantitatives X et Y. Nous notons leur moyenne respective
E(X) = FÊ et E(Y) = F: et leur variance respective 6²Ê et 6²: . Nous pouvons ainsi écrire :

?¢<(9, ∑) = 6Ê,: = ø[(9 − FÊ )(∑ − F: )]


=( (k( {%> )(J( {%? )
=
'
= Œ(¬√) − Œ(¬)Œ(√)

2. Propriétés
§ ?¢<(9, ∑) = ?¢<(∑, 9)
§ ?¢<(?∑, 9) = ? ?¢<(∑, 9) = ? ?¢<(9, ∑), ? étant une constante.
§ ?¢<(9, 9) = 6Ê,Ê = 6 7Ê
§ <=> (9 + ∑) = <=>(9) + <=>(∑) + 2 ?¢<(9, ∑)
§ X et Y indépendantes implique Æ ø(9∑) = ø(9)ø(∑)

Attention. – L’inverse n’est pas nécessairement vrai !

Exemple Ù Âge gestationnel et poids à la naissance

Variances et covariance
m˛ Z m! Z m9 Z mˇ Z j`
F¨Y = = 38
¥

7¥9ˇ Z 79˛9 Z mImm Z mm˛` Z mj9`


F@A = = 3086
¥

Donc en moyenne, quand l’âge gestationnel augmente, le poids de naissance augmente.

C. Coefficient de corrélation
1. Coefficient de corrélation de Pearson
Nous le notons BÊ,: et le calculons avec la formule suivante :
C>,?
BÊ,: =
C> C?

Tutorat PACES Lyon Est 100


Corrélation – Régression

L’estimateur de BÊ,: est :


Dr( E( Dr( DE(
{
>Ê,: = Á Á²
Ä
DrÄ ( Dr( DEÄ ( (DE( )²
( { )×( { )
Á Á² Á Á²

Dr( DE(
=k( J( {
>Ê,: = Á
Ä
Dr( (DE( )²
(=k Ä ( { ) × (=J Ä ( { )
Á Á

Propriétés :
§ -1 ≤ BÊ,: ≤ 1
§ BÊ,: = B:,Ê
§ Le signe de BÊ,: est le signe de 6Ê,:
§ Ce coefficient n’a pas d’unité
§ Si X et Y indépendantes alors BÊ,: = 0

Cas particulier. – Si X et Y ∼ N alors BÊ,: = 0 donc cela implique que X et Y sont indépendantes.

2. Test du coefficient de corrélation linéaire

Hypothèses
§ ( X,Y ) ∼ Ì7

§ Ou ① Y ∼ N avec 6²: constante ∀ 4 et vice versa


② Relation linéaire entre X et Y

Statistique de test (paramétrique)


Soient ˚` : B = 0
˚I : B ≠ 0

G{H G I{G²
Sous ˚` , t = = ∼ U'{722/ avec 6²H estimé par u²H = .
C²H '{7
C²I

« ’JE
t= → g’{Eee≈,"
ô{«²

§ U ≥ U(31%/ '{722/, ˙ " nous rejetons H0


§ U < U(31%/ '{722/, ˙ " nous ne pouvons pas rejeter H0

101 Année 2016 - 2017


UE4 – Biostatistiques

Applications (âge gestationnel et poids à la naissance)


ì²Ê = 2 et ì²: = 105410.8
n=5
454.8
> = = 0.99
2×105410.8
Test
Soient ˚` : B = 0 ˚I : B ≠ 0

0.99× 5 − 2
U = = 12.16
1 − 0.99²

C’est un test à 3 ddl, au risque ¯ = 0.05

Lecture dans la table de la loi de Student


˙ ˙
P( } ≥ U(31%/,'{722/ ) = ¯ ⇔ P(} ≥ U(31%/,'{722/ ) = ou P(} ≤ −U(31%/,'{722/ ) =
7 7

Avec 3 ddl, le seuil de rejet de H0 est égal à 3,18 pour un risque consenti ¯ = 5 %. Or U =
12,16 et 12,16 > 3,18 ; nous rejetons donc l’hypothèse nulle et nous concluons à une dépendance
entre l’âge gestationnel et le poids à la naissance. Attention aux conditions de validité et à la
robustesse du test !

Tutorat PACES Lyon Est 102


Corrélation – Régression

3. Test non paramétrique de Spearman


Le test non paramétrique ne comprend pas d’hypothèses sur la distribution de (¬, √). Les valeurs
de X sont rangées dans l’ordre croissant avec des rangs >% de 1 à n. C’est le même fonctionnement pour
Y, avec des rangs ì% de 1 à n. Les ex-æquo prennent leur rang moyen. Nous avons ainsi des couples de
rangs (>% , ì% ), (* ∈ 1, . . . , 5).

Statistique de test :

La formule du coefficient de Pearson → BÓ .

Nous avons l’approximation de BÓ par >Ó :


§ )% = >% - ì% ;
˛=( 2(Ä
§ >Ó = 1 - ;
' 'Ä {I
§ Elle est d’autant meilleure qu’il y a peu d’ex-æquo ;
§ Pour n ≤ 10, on consulte la table de Spearman ;
§ Pour n > 10, sous H0 , BÓ = 0.

G& {H& I{G Ä &


t= ∼ U'{722/ avec 6G estimé par uG =
CK '{7

II. Régression
A. Introduction

Exemple de courbe de régression, âge gestationnel et poids à la naissance.

B. Régression linéaire
1. Définition
Régression linéaire simple. – On considère deux variables aléatoires X et Y. L’une est à expliquer,
c’est la variable dépendante Y, l’autre est explicative, c’est la variable indépendante X. La droite
décrivant les variations de Y en fonction de X correspond à la droite de régression de Y en X. Le
diagramme de dispersion, ou la courbe empirique de régression, ont une forme générale
approximativement linéaire. En effet, la droite de régression linéaire est la droite qui s’ajuste le
mieux aux données.

103 Année 2016 - 2017


UE4 – Biostatistiques

2. Équation
Principe :

§ Y = f(X) + P
§ Y = $` + $I .X + P
§ H% = _` + _I .4% + @% Où _` estime $` et _I estime $I
§ @% ∼ Ì iid
§ @% = H% - (_` + _I .4% )

3. Méthode des Moindres Carrés Ordinaires


Principe
Cette méthode a pour but de minimiser les écarts de @% et d’éviter que les écarts positifs et
négatifs ne se compensent.

Ainsi :

Résolution

une solution unique :

→ (H% − Y) = _I .(4% − X)

Tutorat PACES Lyon Est 104


Corrélation – Régression

Remarques :
§ La droite passe par le point moyen (9,∑).
§ _` représente la valeur moyenne de Y quand X est centré sur sa moyenne.
§ _I correspond à la variation moyenne de Y par unité d’augmentation de X. En l’absence
de relation entre X et Y, _I = 0.
§ @% correspond à l’erreur commise en résumant H% par la valeur prédite par le modèle H%
en 4% .

Exemple (âge gestationnel et poids à la naissance)


La droite de régression s’écrit PN = _` + _I . Ö] + P.
C>,? j7`j.`9
Ainsi : _I = = = 174.14
C²> 7j.Ij

_` = Y − _I . X = 1867.72 − 174.14×32 = − 3704.74


Un fœtus prend en moyenne 174.14 g de poids par semaine d’aménorrhée supplémentaire. Le
poids moyen estimé à 0 SA est de −3704.74 T. L’ordonnée à l’origine n’a pas de sens ici !

C. Relation Régression-Corrélation
1. Coefficients de régression et de corrélation

6k,J covariance de (X,Y)


Dh,c
«h,c = 6k écart type de X
DhDc
6J écart type de Y

C>,? C>
_I = Æ >Ê,: = _I
C²> C?

Remarque. – Si 6Ê = 6: alors >Ê,: = _I .

2. Informations
L’information est apportée par X pour expliquer Y. L’objectif d’un modèle est d’expliquer au
maximum les données observées Y à partir de X. Les valeurs de Y représentent une quantité
d’informations que nous cherchons à expliquer à l’aide de X.
§ Si Y ne dépend pas de X alors _I = 0, Y = _` = Y, la droite de régression est horizontale et
X n’explique rien de Y.
§ Si Y dépend parfaitement linéairement de X, les points Y s’alignent parfaitement sur la
droite, idéalement tous les @% =0 ∀*, X explique tout, nous pouvons prédire Y sans erreur.

Le plus souvent, X exprime en partie l’information contenue dans Y.

105 Année 2016 - 2017


UE4 – Biostatistiques

3. Quantification de l’information
Nous allons décomposer l’équation.

L’information à expliquer est à l’écart entre les H% observés et ∑ la valeur moyenne de Y.

§ Pour une observation i :

§ Nous pouvons montrer que :

§ Pour tous les H% :

§ Soit uAøÅ = uAø + uAøN avec SCE = Somme des Carrés des Écarts

T = totale / R = résiduelle / E = expliquée

4. Coefficient de détermination

= +

5. Tests
La relation entre Y et X est-elle significative ?

§ Soient ˚` : $I = 0 ˚I : $I ≠ 0

⇒ t=
[ {`
C O
∼ U'{722/ , 6[ estimé par

§ U ≥ U(31%/ '{722/,˙ " Nous rejetons H0


§ U < U(31%/ '{722/,˙ " Nous ne pouvons rejeter H0
§ Tester _I équivaut à tester >k,J

Tutorat PACES Lyon Est 106


Corrélation – Régression

La relation entre Y et X est-elle réellement linéaire ?

Nous prenons en compte la validité de la droite de régression. Si la relation est linéaire, les résidus
@% ne contiennent plus d’information structurée ⇒ exploration des résidus.

§ Normalité des résidus : les tests sont relatifs à l’hypothèse @% ∼ Ì**) : Kolmogorov-
Smirnov, Shapiro-Wilks… Ils sont peu puissants, c’est une procédure empirique qui utilise
les graphiques. La droite de Henry correspond à l’opposition des quantiles théoriques de
la loi normale versus les quantiles de la distribution des résidus estimée sur les données.

§ Homoscédasticité des résidus : c’est la répartition homogène des résidus, indépendante


des valeurs prédites. Les tests sont formels. L’approche est empirique graphique, les
3
résidus sont standardisés ( ( ) en fonction des H% .
(|(

§ Indépendance des résidus : absence de corrélation entre résidus (hors programme).

Exemple (âge gestationnel et poids à la naissance)


Significativité de la relation :
_I = 174.14 ì[ = 4.71
I!j.Ij
Sous ˚` , U = = 37.0
j.!I

U(31%/ 7``22/,¥% = 1.97 < U(31%/ I˛922/,¥% < U(31%/ I7`22/,¥% = 1.98

U > 1.98 > U(31%/ I˛922/,¥% . Au risque 5 %, nous rejetons donc H0. Le poids à la naissance
dépend de l’âge gestationnel.

Lecture dans la table de Student.

Droite de Henry. Résidus standardisés.

107 Année 2016 - 2017


UE4 – Biostatistiques

6. Analyse de variance

Variance totale = variance intergroupe de valeurs de X + variance intra-groupe de valeurs de X


Ainsi la régression linéaire ≡ comparaison de variances (ANOVA).
L’ANOVA est une comparaison de moyennes.

ÓQ
Test F : F= ∼ ∞(I,A{7)22/
ÓR

III. L’essentiel
À RETENIR

§ Le coefficient de corrélation est une variable aléatoire. Le test du coefficient de corrélation de


Pearson (paramétrique) ou de Spearman (non paramétrique) ∼ U'{722/ .

§ Régression linéaire ≡ ANOVA. Test des paramètres de régression, examen des résidus.

À COMPRENDRE

§ La corrélation quantifie la force de la relation entre X et Y : >Ê: . C'est la mesure de la relation


symétrique.

§ La régression estime les paramètres de l'équation permettant de décrire la forme fonctionnelle de


la relation entre une variable dépendante (Y) et une variable explicative (X). C'est une mesure de
la relation asymétrique.

Tutorat PACES Lyon Est 108


Analyse de la survie

Analyse de la survie
Rédigé à partir du cours du Pr ROY

Remarque. – Dans ce cours, “log” est le logarithme népérien.

I. Introduction
L’analyse de la survie s’inscrit dans un contexte médical : nous allons quantifier la probabilité de
décès, de rechute ou de survie, évaluer des facteurs pronostiques et comparer des traitements.

Le risque (ou probabilité) de décès d’un individu est de toute façon égal à un ! Ainsi, la probabilité
de décéder estimée sur une cohorte n’a de sens qu’à délai fixé. La variable d’intérêt est la variable
aléatoire T, que constitue la durée qui sépare le diagnostic de la mort (ou de la rechute). C’est cette
variable dont nous étudions la distribution.

II. Base de l’analyse de la survie


Contexte
§ mesure du temps écoulé entre deux évènements ;
§ distribution non gaussienne : ne suit pas une loi Normale ;
§ utilisation de méthodes non-paramétriques ;
§ prise en compte de données incomplètes : données censurées (une partie des individus
n’a pas présenté l'évènement, nous disons que les données sont censurées à droite) et
tronquées.

Nous allons nous intéresser au temps entre une origine et un évènement, par exemple :

Décès : mortalité toute cause ≠ décès maladie : mortalité spécifique

Censure
L’observation est censurée (à droite) si nous savons seulement que T > t, date à laquelle
l’observation s’est achevée :

§ l’événement est le décès (= mortalité globale, donc toute cause) et le sujet est en vie à la
fin de l’étude.

109 Année 2016 - 2017


UE4 – Biostatistiques

§ l’événement est le décès par cancer (donc mortalité spécifique) et l’observation s’achève
par un accident (cause de mortalité différente, nous ne pouvons donc pas conclure sur le
délai de mort par cancer).

Voilà des données fictives si tous les sujets tombaient malade au même moment :

Dans la réalité, les dates d’origines sont échelonnées au cours du temps :

(B) : Date de point, nous ne disposons pas de la durée de survie pour II et VIII, les données sont censurées
à droite, ils sont toujours vivant à la date de point. II et VIII constituent des exclus vivants.
(A) : Date de point, nous connaissons tous les temps de survie du groupe.

Le IX est perdu de vue, il biaise l’information, il manque une information : nous ne connaissons
pas son statut à la date de point, nous ne savons pas s'il est mort ou vivant. Ce type de biais est à éviter
absolument.

Pour pouvoir plus facilement analyser, nous allons ramener tous les sujets à la même date
d’origine, nous allons changer l’échelle. L’abscisse représente alors le temps de participation à l’étude.

Tutorat PACES Lyon Est 110


Analyse de la survie

En résumé, certains sujets ne sont pas suivis jusqu’à ce que l’événement se produise, pour eux
nous savons seulement que T > ti. L’observation correspondante est une observation censurée. Les
données de survie sont donc constituées de deux informations, la durée du suivi T, et l’indicateur
d’événement S : S = 1 si l ’observation se termine par un décès, S = 0 si le sujet est vivant à la fin des
dernières nouvelles.

Définitions
§ Risque de décès : probabilité d’être décédé à la date t = fonction de répartition de la
variable } = v(U) = ë>(} ≤ U) : probabilité que le décès survienne avant t ou à l’instant t.

§ Survie : probabilité d’être en vie à la date U = u(U) = ë>(} > U) = 1 − v(U) (pour
une distribution continue).

Distribution cumulée, durées de survie SANS CENSURE

Nous pouvons alors faire une fonction de répartition empirique (qui aura une forme
caractéristique des variables aléatoires discrètes) :

Données complètes et sans ex-æquo


ème
Si U(*) est le i temps de survie de l’échantillon, le risque est estimé par :

§ U(*) " */5`

La survie est estimée par :

§ U(*) → (5` − *)/5` = 5I /5` = 1 − */5`

Exemple. – Temps de survie en années (données complètes)

Moyenne: 2,994 ans déviation standard: 3,363 ans.

111 Année 2016 - 2017


UE4 – Biostatistiques

La survie est une courbe empirique, c’est-à-dire construite à partir de valeurs. La survie est le
complément à 1 du risque (ces courbes sont valables en absence de censure).

Attention. – La loi Normale décrit mal la survie, nous ne pouvons donc pas donc pas faire
d’approximation par la loi Normale !

Données incomplètes
Nous avons des données incomplètes lorsque certains sujets ne sont pas suivis jusqu’à ce que
l’évènement se produise :
§ pour eux, nous savons seulement que T > g‹ ;
§ g‹ est une observation censurée (exclu vivant).

Les données censurées sont résumées par :

§ T durée du suivi, S indicateur de l’évènement.

Si l’observation se termine par un décès, U = 1.


Si le sujet est vivant à la fin du suivi, U = 0.

Tutorat PACES Lyon Est 112


Analyse de la survie

III. Méthode de Kaplan-Meier et Test du Log-Rank


A. Kaplan-Meier
Données complètes (observation de i décès)

‘ g‹ = ô − ‹ ’ Ω

ô ô ô
‘ g‹ = ô − ∗ ô− ∗… ô−
’Ω ’Ω − ô ’Ω − ‹ + ô

En absence d’ex-æquo, les temps de survie sont classés de manière croissante.

Exemple d’observation de 50 décès :

Données incomplètes (WS i décès)

Uô UE U‹
‘ g‹ = ô − ∗ ô− ∗… ô−
’Ω ’Ω − ô ’Ω − ‹ + ô

Exemple d’observation de 50 décès :

Nota Bene. – À noter que le temps n’intervient pas dans la méthode.

Erreur type de la survie en ti


§ si les données sont complètes (pas de censure) l’erreur type est celle d’une proportion ;

§ en cas de censure, l’erreur type est plus élevée que celle ci, nous allons utiliser les
variances de Greenwood.

113 Année 2016 - 2017


UE4 – Biostatistiques

Exemple :

Lorsque nous avons une égalité entre ev et mort, le décès passe avant la censure dans la méthode
de Kaplan-Meier.

uXm = (1 − ⅛) × (1 − 1/7) × (1 − ⅙) × 1 × (1 − ¼) × (1 − ⅓)
uXm = ⅞ × 6/7 × ⅚ × 1 × ¾ × 2/3
uXm = ⅝ × 1 × 2/4
uXm = 5/16

Nous pouvons voir entre Sj3 et Sj4 que la censure ne modifie pas l’estimation de la survie à un
même temps.

B. Comparaison de la survie dans deux groupes


Nous pouvons comparer :
§ la survie moyenne,
§ la survie médiane,
§ la probabilité de survie à un “délai” donné.
ème
La 3 option est banale, comme dans les derniers cours nous pouvons utiliser le test classique.

Mais cette troisième option ne compare la situation dans deux groupes qu’à un délai donné. Or
nous souhaitons comparer les distributions de durées de survie, la spécificité des données de survie
suggère alors l’utilisation de méthodes non paramétriques.

C. Test du Log-Rank
Généralisation des tests de rang aux données censurées : les rangs des observations triées
globalement se distribuent-ils au hasard entre les deux groupes ?
§ Le test du “log-rank” est le test efficace contre l’alternative de taux proportionnels dans
les deux groupes.
§ C’est formellement le principe du test de Mantel-Haenszel-Cochran.

Tutorat PACES Lyon Est 114


Analyse de la survie

Au niveau du calcul pratique, il faut :

§ Calculer pour chaque date de décès le nombre attendu de décès qui serait observé si les
taux de décès étaient les mêmes dans les (deux) groupes.
§ Cumuler les différences entre observés et attendus jusqu’à la date du dernier décès
observé.

§ Evaluer la signification de la différence cumulée en la comparant à son erreur type.

Il faut noter que ce test du Log-Rank ne prend en compte que les rangs d’apparition des décès
non la date.

Pour chaque date de décès il faut construire la table suivante :

Sous l’hypothèse nulle H0, les d+i décès se distribuent proportionnellement aux effectifs, le
nombre attendu dans le groupe 2 est donc :

d+i étant fixé, la variance de ai = d2i - e2i est :

Remarque. – wi est le poids, il permet de donner plus d’importance aux différences de survie
précoces qu’aux différences de survie tardives.

Si k est grand ou si les marges de chaque tableau sont grandes, U suit une loi
asymptomatiquement normale. Sous H0, le test s’écrit :

Si wi = 1, nous pouvons faire le test de Mantel-Haenszel, de cox, ou du logrank comparant :

115 Année 2016 - 2017


UE4 – Biostatistiques

La formule approchée du logrank ci-dessous est conservative (c’est-à-dire qu’elle est plus petite
que le log rank, donc si nous rejetons la formule approchée, nous rejetons forcément la formule du log
rank).

Exemple :

Extension du Log-rank : le test s’étend simplement dans deux directions :

§ Comparaison de plus de deux groupes : la table 2 x 2 est remplacée par une table 2 x k. La
variance par une matrice de covariance. Le test est à k-1 ddl.

§ Contrôle pour des facteurs de confusion : nous stratifions les données selon les valeurs
des variables à contrôler. Nous calculons les observés, les attendus et les variances dans
chaque strate. Nous cumulons les résultats pour construire le test (les attendus sont
calculés à “facteurs de confusion constants”).

Conclusion : nous disposons de nombreux outils pour estimer la distribution de durée de survie
éventuellement censurée. Il existe également des tests de comparaison de distributions, mais nous
aimerions avoir des modèles de régression pour gérer simultanément plusieurs co-variables.

Tutorat PACES Lyon Est 116


Analyse de la survie

IV. Taux de mortalité


Objectif : quantifier le risque de décéder maintenant, si on était en vie jusqu’à maintenant. Le
taux de décès \(t) mesure la “force de mortalité” appliquée à la population des patients survivants à
la date t après le diagnostic.

\(t) a une unité : T-1 ! C’est une probabilité conditionnelle dérivée par rapport au temps.
Le taux de décès n’est pas une probabilité en particulier il est éventuellement > 1. \ est le taux
instantané de mortalité.

Relation entre R, S, ÿ :

Lorsque \(t) est constant (= \) la survie est dite exponentielle : ‘ g = @ {◊g . C’est le modèle le
plus simple, c’est le modèle de survie paramétrique.

V. Survie paramétrique / exponentielle par intervalle

Dans le premier cas, \ ne varie pas au cours du temps (c’est une constante), nous allons regarder
l’aire sous la courbe, l’intégrale, le taux cumulé. C’est le modèle de survie exponentielle.

Ici, \ est constant par intervalle de temps, c’est un modèle acceptable, nous avons alors un
modèle de survie exponentielle par intervalle.

117 Année 2016 - 2017


UE4 – Biostatistiques

Nota Bene. – Dans le cas général, \ varie.


Exemple 1 : temps de survie en années. 100 données complètes, c’est-à-dire sans censure.

Moyenne : 2,994 ans déviation standard: 3,363 ans.

Les données sont ici parfaitement décrites par une distribution exponentielle ayant la même
moyenne que les données ci-dessus. La distribution exponentielle de moyenne 1/\ est le plus simple
des modèles de survie paramétrique avec :

S(t) = exp(-ÿt)
R(t) = 1-exp(-ÿt)

Le paramètre \ est le taux de mortalité, ou nombre de décès par unité de temps, estimé par
5` / (WU% ) (= 1/moyenne détail pratique !). Les données étant complètes, nous avons en effet observé
n0 décès pour une durée totale d’observation de ces sujets égale à (Wti). Cette quantité s’exprime en
personnes-années d’observation : années d’observation accumulées par l’ensemble des personnes
étudiées.

Attention. – n0 ne s’exprime pas en nombre d’individus !

La fonction de répartition exponentielle qui s’ajuste le mieux aux données est la fonction :
1 − @4ü (−1/2.994 × U) où 2,994 est la moyenne des temps de survie des données.

Modèle paramétrique
Nous allons définir \(t) à l’aide d’une fonction connues aux paramètres près :

Nota Bene. – Pour le modèle de Weibull, quand b = 1, nous retrouvons le modèle exponentiel.

Tutorat PACES Lyon Est 118


Analyse de la survie

Modèle exponentiel, relation entre R,S et ÿ

Modèle de Weibull, relation entre R,S et \ :

Modèle à deux paramètres. Le modèle exponentiel correspond au cas où b=1. Si γ >1, le taux est
une fonction croissante du temps. Si γ <1, le taux est une fonction décroissante du temps. Le taux
instantané est une puissance du temps.

Estimation par intervalle


Nous subdivisons la durée de suivi en intervalles dans lesquels le taux de décès est supposé
constant :

§ t0=0, t1, t2, ........ti = fin du suivi.

Nous comptons le nombre de personnes ni-1 exposées au risque de décès en ti-1 pour chaque i.

Attention. – Ici nous nous concentrons sur un intervalle de temps donné.

Nous comptons le nombre de décès di et de sortis vivants ci dans l’intervalle [U%{I , U% [.

Nous estimons :
§ le taux de décès ÿi dans chaque intervalle,
§ la probabilité conditionnelle »‹ = chœ −ÿ‹ g‹ − g‹−ô de survivre en ti si on était
vivant en ti-1.
(u% = exp (−\ ∗ §=>T@î> *5U@><=§§@ )@ U@£üì), dans l’intervalle nous avons un modèle de
survie exponentiel)

119 Année 2016 - 2017


UE4 – Biostatistiques

Pour survivre en ti(S(ti)), il faut :


§ survivre jusqu’en ti-1 (S(tI-1)) ;
§ survivre dans l’intervalle ]ti-1 ti ] (si).

La survie en ti peut ainsi être calculée comme le produit de la survie dans des intervalles
successifs :

u(U) = ìI × ì7 × . . . . . ì%

Exemple estimation de ÿ :

\* = 5_ )@ )é?èì / 5* ∗ aU* ∗ U@£üì )@ ü=>U*?*ü=U*¢5 )@ g∆d» ≈c» œƒ«g‹…‹œƒ’g».

\ est constant dans l’intervalle, nous avons quatre sujets décédés et deux censures, ici nous avons
une estimation car nous avons des données incomplètes à cause de censures ! Il faut bien diviser par
le temps de participation de tous les participants même les censures !!!!

VI. Approximation actuarielle


Nous ne connaissons pas les dates exactes de décès ou de censure dans l’intervalle, mais
seulement leurs nombres ci et di.

§ si ci = 0, la probabilité de décéder dans l’intervalle et le taux de décès dans ce même


intervalle sont estimés par :

e‹
«e =
’‹{ô

e‹
ÿe =
e‹
’‹{ô ∗ ∆g‹ − ∗ ∆g‹
E

Remarque. – Nous remarquons que nous retirons la moitié aux décès, nous faisons l’hypothèse
que les décès se sont produits à la moitié du temps (=moyenne). ri = probabilité de décéder en
“première intention”.

Tutorat PACES Lyon Est 120


Analyse de la survie

§ en cas de censures ci ≠ 0 :

e‹
«e = …‹
’‹{ô −
E

e‹
ÿe =
…‹ e
’‹{ô − ∗ ∆g‹ − ‹ ∗ ∆g‹
E E

»e = ô − «e

Nous supposons ici également que les décès et les censures interviennent au milieu de l’intervalle.

Remarque. – Dans l’approximation actuarielle, le calcul de l’estimation du taux de mortalité


revient à faire l’opération 5¢£_>@ )@ )é?èì U@£üì )@ ü=>U*?*ü=U*¢5, avec les décès et les
censures ayant lieu (en moyenne) au milieu de l’intervalle.

Exemple :

VII. Modèle à taux proportionnel


Dans le cas d’un facteur dichotomique le modèle s’écrit : \1(t) = ¯\0(t) ; ¯ est appelé le taux
relatif du groupe 1 par rapport au groupe 0. L’idée du modèle à taux de mortalité proportionnels est
implicite dans le test du « log-rank » qui évalue l’hypothèse “¯=1 ?”.

Si nous modélisons linéairement le paramètre \ des distributions exponentielles et de Weibull,


nous obtenons des modèles à taux proportionnels.

Le modèle de Cox est un modèle à taux proportionnels dans lequel la forme analytique du taux
n’est pas spécifiée. \0(t) est estimé à partir de données mais pas de paramètres.

Si les taux sont proportionnels, les risques ne le sont pas eux !

Le modèle s ’écrit \(U, „) = \(U, 0)@4ü($„), la fonction \(U, 0) est le taux de base (inconnu),
z un vecteur de covariable (mesurée), # un vecteur de paramètre (à estimer) (= influence du ttt sur
la survie et le décès : nouveau paramètre que nous allons estimer).

Le taux cumulé et la survie sont donc :

Les survies S(t,z) et S(t,0) ne sont pas proportionnelles !!

121 Année 2016 - 2017


UE4 – Biostatistiques

Le log du taux relatif est une fonction linéaire des covariables :

¯ i = e$ i est le taux relatif des sujets pour lesquels zi = 1 par rapport à ceux pour lesquels zi = 0,
toutes choses égales par ailleurs.

Exemple : analyse avec le modèle de Cox

§ Etudier le temps de rémission avec le nouveau traitement 6-MP; comparer la distribution


du temps de rémission dans les deux groupes « traitement standard » (corticoïdes +
placebo) et « nouveau traitement » (corticoïdes et 6-MP).

§ le modèle est :
- \(U, „) = \(U, 0)@4ü($„) ; z = 1 pour le nouveau traitement et z = 0 pour le traitement
standard,
- ¯ = @4ü($) est le taux relatif de rechute dans le groupe 6-MP comparé au groupe
placebo,
- le taux de rechute dans le groupe traitement est \(U, 0).

Ajustement pour une variable de confusion


§ Bien que l’étude soit randomisée, la valeur de logwbc est différente pour les traités et les
non traités. Il convient donc de prendre en compte cette variable dans l’évaluation de la
différence.

§ La méthode de régression réalise cela avec le modèle :


- \ (U, U>=*U@£@5U, §¢Tg_?) = \(U, 0,0)@4ü($×U>=*U@£@5U + bק¢Tg_?) ;
- ¯ = @4ü($) est alors le taux relatif des “traités” vs “placebo” à wbc constant (nous
enlevons des effets autres que le traitement car nous nous intéressons seulement à celui là !) ;
- $ = −1.2941 @4ü($) = 0,2742.

Survie ajustée

Tutorat PACES Lyon Est 122


Analyse de la survie

0.80 = bras placebo, 0,2742 = taux relatif de la puissance de survie

0.800.2742 = 0,94 = bras chimio !

0.400.2742 = 0,78

0.200.2742 = 0,64

Ceci nous permet d’avoir une survie à taux proportionnels, nous passons d’une courbe à l’autre
de survie grâce à ¯.

Ci-dessous sont résumées les formules utiles lorsqu’on compare deux groupes (1 et 0) dans un
modèle à taux proportionnels :

Modèle à taux proportionnels

\I U = ¯ ∗ \` U
uI U = u` (U)˙

Distribution exponentielle Distribution de Weibull Modèle de Cox

La fonction \` U n’est pas définie :


elle n’est pas modélisée en fonction
\` U = \ \` U = b \h U h{I
i de paramètres (λ, γ, …) mais est
u` U = @ {◊0 u` U = @ {(◊0)
estimée à chaque instant à partir
des données de l’échantillon.

123 Année 2016 - 2017


UE4 – Biostatistiques

Tutorat PACES Lyon Est 124


Essais cliniques

Essais cliniques
Rédigé à partir du cours du Dr MAUCORT-BOULCH

I. Introduction
A. Historique
§ 980-1087. – Avicenne, dans son ouvrage le Canon de la Médecine, décrit les sept règles
d’évaluation de l’effet d’une drogue sur une maladie.

§ 1747. – James Lind soumet 6 groupes de marins atteints de scorbut à des traitements différents.

§ 1948. – Sir Bradford Hill (statisticien) travaille sur la streptomycine et la tuberculose pulmonaire.

B. Définitions
Essai clinique. – Expérimentation planifiée dessinée pour identifier l’intervention appropriée à de
futurs patients présentant une condition médicale donnée, et dans laquelle les résultats d’un
groupe de patients traités par l’intervention évaluée sont comparés à ceux d’un groupe de patients
traités par une intervention contrôle, les deux groupes étant inclus, traités et suivis durant la même
période de temps.

Expérimentation. – Vise à estimer l'effet :


§ d'un traitement médicamenteux ou chirurgical
§ d'un traitement non médicamenteux, prise en charge
§ des stratégies thérapeutiques
§ d'actions en santé
§ d'examens diagnostiques
Clinique (définition différente en fonction du cadre). – Pour un essai clinique, elle correspond à
une expérience qui évalue un ‘traitement’ sur l’Homme. Par la suite, elle va permettre d’expliquer
l’effet d’un traitement (‘explicatifs’), ou de prendre une décision clinique (‘gestion’). Chez l’Homme,
il faut prendre en compte la grande diversité et les fluctuations inter-individuelles.

C. Démarche
Lors d’un essai clinique, il y a une démarche précise à respecter. L’objectif de l’essai est de
comparer un effet dans différents groupes d’intervention. Pour cela, il faut un contexte scientifique.
Une question est posée pour dégager une étude avec un schéma adapté à la question. Des tests
d’hypothèses visant à comparer les grandeurs évaluées dans les deux bras d’étude vont être mis en
place. La comparaison de deux interventions se réalise toujours en présence d’un groupe référent,
groupe « contrôle ». Il est nécessaire que le résultat soit imputable à la seule intervention, il ne faut
pas que les fluctuations d’échantillonnage faussent les résultats. Par la suite une analyse statistique,
une interprétation et une conclusion sont nécessaires. La communication des conclusions de l’étude
est primordiale.

125 Année 2016 - 2017


UE4 – Biostatistiques

D. Principaux acteurs
§ Investigateur : c’est le médecin surveillant la réalisation de l’étude. Le médecin responsable
de l’étude est l’investigateur principal. L’investigateur coordinateur coordonne la réalisation
de l’essai dans les essais multicentriques.

§ Promoteur : c’est une personne physique ou morale prenant l’initiative de la réalisation d’une
étude.

§ Biostatisticien : il va participer à l’écriture du protocole, réaliser les analyses et aider à


l’interprétation des résultats.

II. Protocole
A. Questions posées
1. Question clinique
La pertinence de la question clinique est déterminée par une revue exhaustive de la littérature
scientifique (rapports de cas, séries de cas, études observationnelles, essais contrôlés randomisés
validés ou non, méta-analyse). La confirmation d’un résultat d’un essai antérieur est possible en
enlevant au maximum les biais possibles ou la réalisation d’un essai innovant est nécessaire si aucune
étude n’a été faite.

Un essai ne peut répondre qu’à une unique question.

Cette question va conditionner le schéma d’étude, le plan expérimental qui est consigné dans un
protocole.
Exemples de questions :
§ Est-ce que la fibrinolyse pré-hospitalière est meilleure que l’angioplastie primaire dans la
prise en charge de l’infarctus du myocarde en phase aiguë (étude CAPTIM) ?

§ La caféine améliore-t-elle la prise en charge des apnées du prématuré en termes de survie,


retard mental ou déficit sensoriel ?

§ La radiothérapie étendue améliore-t-elle la survie des patients atteint de tumeur cérébrale


en post-opératoire par rapport à la radiothérapie limitée ?

2. Critères de jugement
Il faut un unique critère de jugement principal possédant une pertinence clinique. Il est défini
précisément, sans ambiguïté.

Nous allons développer les points suivants :

§ critère(s) qui le compose(nt) ;

§ terme au bout duquel il est recueilli ;

§ modalités d’évaluation, standardisation.

Tutorat PACES Lyon Est 126


Essais cliniques

Son évaluation doit être facile, fiable (préalablement évaluée), nous allons devoir assurer la
formation des cliniciens. Le critère de jugement porte le résultat du test et sera à l’origine de la
conclusion sur le traitement testé.

Exemples de critère de jugement :

§ Décès, ré-infarctus non fatal, accident vasculaire cérébral non fatal à 30 jours : Critère
composite : si le patient présente un de ces trois critères, il est en situation d’échec

§ Décès, paralysie cérébrale, retard mental (score <85 sur l’échelle de Bayley), surdité ou
cécité à un âge corrigé de 18 à 21 mois : critère composite

§ Décès : critère simple

B. Les phases de développement

Phase Détails

§ L'étude de la molécule se réalise sur l'animal ;


Préclinique
§ Nous allons déterminer la DL50 (dose létale 50).

C'est l'étude de la tolérance, nous allons réaliser une escalade de doses


c'est-à-dire que nous partons de la dose la plus basse pour atteindre la dose
la plus forte tolérée, et des effets secondaires des volontaires sains, souvent
Phase I
avec une rémunération. L'étude de la pharmacocinétique et de la
pharmacodynamie sont effectuées lors de cette phase. La phase I est une
étude de petite taille, de 20 à 80 participants.

Nous allons déterminer la dose optimale et réaliser une étude des effets
secondaires. L'identification de la population de patients pouvant bénéficier
Phase II
du traitement est réalisée durant cette phase. Les études sont de taille
modérée, de 100 à 200 participants.

L'étude d'efficacité est réalisée. La comparaison entre traitement testé


et soit un placebo, soit un traitement de référence va permettre de mesurer
Phase III
l'efficacité de la molécule. L'AMM est possiblement obtenue à l'issue de la
phase III. L'étude est de grande taille.

Elle est réalisée après l'obtention de l'AMM (elle est post-AMM). C'est la
Phase IV phase de pharmacovigilance, où nous recherchons les effets secondaires
rares, les complications tardives.

C. Échantillon
1. Pourquoi réaliser une randomisation ?
Lors d’un essai comparatif, le but est de démontrer soit l’efficacité d’un nouveau traitement soit
sa supériorité par rapport à un traitement de référence. On souhaite que le résultat soit imputable à
la seule intervention c’est-à-dire que le résultat ne soit pas dû aux fluctuations d’échantillonnage.

127 Année 2016 - 2017


UE4 – Biostatistiques

Seul le traitement doit différencier les deux groupes inclus dans l’essai. Pour que cela soit possible, il
faut une distribution au hasard des caractéristiques (observables ou non) dans les groupes comparés.

Si l’intervenant choisit de manière volontaire l’allocation du patient à l’un des deux bras de
traitement cela peut entraîner des biais. C’est pourquoi l’ambivalence des investigateurs et des
patients est nécessaire.

L’allocation aléatoire est le seul moyen de


rendre les groupes comparables en tout point.

Des tests d’hypothèse avec H0 d’absence de différence entre les groupes sont utilisés.

Chaque patient a la même chance de bénéficier du meilleur traitement. La randomisation assure


une répartition équilibrée des caractéristiques en moyenne quand n tend vers l’infini.

Le hasard peut introduire des déséquilibres, en particulier lorsque n n’est pas très grand. Ceci
pose problème si le déséquilibre touche un facteur de confusion. Pour rétablir une comparaison, il faut
un équilibre entre les bras au sein de chaque catégorie d’un facteur de confusion.

2. Principes de la randomisation
Nous pouvons utiliser une table de nombre au hasard (voir exemple ci-dessous). La liste est
établie avant le début de l’essai. L’équilibre des effectifs entre les groupes est nécessaire. L’allocation
du bras se réalise après vérification de la possible inclusion du patient.

Une procédure centralisée est préférable. Les investigateurs contactent le centre en charge de la
randomisation pour chaque nouveau patient à inclure (téléphone, fax, internet).

Exemple de table de nombres aléatoires :

§ Création d’une table de nombre aléatoire (entre 0 et 99 ici). Chaque nombre possède la
même probabilité d’être tiré au sort.
§ Choix d’un sens de lecture (par exemple, de gauche à droite et de haut en bas).
§ Définition d’une règle a priori relative à la table : les nombres entre 0 et 49 alloueront le
patient au bras A et les nombres entre 50 et 99 alloueront le patient au bras B.

La séquence est donc ici BABBBBABABABBAAABAAA. L’équilibre est, en moyenne, respecté entre
les deux bras. C’est-à-dire que le premier patient sera attribué au bras B, le second au bras A, le
troisième au bras B et ainsi de suite.

Tutorat PACES Lyon Est 128


Essais cliniques

Il existe plusieurs randomisations possibles :

§ Stratification : élaboration d'une liste de randomisation au sein de chaque catégorie


variable pour laquelle nous souhaitons un équilibre absolu. Il en résulte un équilibre entre
les bras au sein de chaque strate. Dans les essais multicentriques, il est recommandé de
stratifier sur le centre pour tenir compte du recrutement différents possible entre les
centres. Il ne faut pas plus de deux ou trois variables de stratification.

§ Randomisation par bloc : elle consiste en un tirage de nombres aléatoires par un bloc
puis en l’ordonnancement des blocs. Si nous utilisons la stratification en parallèle, nous
allons randomiser par bloc en plus au sein de chaque strate. Il faut un équilibre au niveau
des effectifs entre les bras tous les m sujets inclus. Des blocs de 4 seront donc de la forme
AABB, BBAA, ABAB, BABA, ABBA, BAAB.

§ Randomisation adaptative : à chaque nouvelle inclusion, nous allons tenir compte de


l’équilibre de chaque bras. Nous allons utiliser la probabilité d’allocation dans un groupe
en fonction de la distribution du facteur de confusion dans les bras. C’est-à-dire qu’il y a
inclusion de chaque patient dans le bras où il apporte le moins de déséquilibre.

3. L’insu
L’insu correspond à l’aveugle. L’évaluation du critère de jugement principal en aveugle permet
d’éviter les biais d’information. L’insu évite les comportements différents des patients et des
médecins. En effet l’insu correspond à la non connaissance par le patient ou le médecin du traitement
reçu, ils ne savent si c’est le bras A ou le bras B qui reçoit le traitement ou le placebo.
§ Double aveugle : patients et médecins ignorent le traitement reçu.
§ Simple aveugle : seuls les patients ignorent le traitement reçu.

Ainsi, nous allons pouvoir conserver la comparabilité des groupes jusqu’au bout de l’essai.
Une attention particulière doit être apportée aux traitements (forme galénique, goût…), il ne faut pas
que le placebo soit reconnaissable.

Ce n’est pas toujours possible et justifié d’avoir un essai avec insu, lors de traitements
chirurgicaux, de traitements avec des effets secondaires caractéristiques, des essais en cancérologie
(nous ne pouvons pas mettre un placebo en cancérologie par exemple). Si l’insu est impossible,
maintien de la comparabilité des groupes par réajustement des traitements selon des procédures
standardisées.

4. Différents schémas de comparaison

129 Année 2016 - 2017


UE4 – Biostatistiques

Remarque. – Dans le plan factoriel, le patient reçoit une combinaison des 2 traitements, on peut
tester s’il y a une synergie ou un antagonisme entre les deux molécules.

Lors d’un essai contrôlé :

Il faut choisir soit un placebo (substance inerte sur le plan pharmacologique), soit un traitement
de référence. Nous utilisons généralement un placebo en l’absence de traitement de référence
recommandé, il y a bien-sûr des exceptions en cancérologie, par exemple, où nous ne donnons pas de
placebo lorsqu’un traitement existe déjà.

La définition précise des interventions pour une standardisation, en particulier dans les essais
multicentriques est une étape indispensable. Par exemple, pour les traitements, nous allons définir :
la molécule, la forme galénique, la durée du traitement, la posologie, les horaires de prise, le mode de
conservation.

Lors du choix du groupe contrôle, nous pouvons utiliser un groupe historique ou un groupe
contemporain. Lors de l’utilisation d’un groupe historique, certains points peuvent fausser les résultats
de l’étude. Les patients d’une époque ne sont pas comparables à ceux d’une autre époque, il y a une
évolution dans le temps des modes de prise en charge d’une maladie, de la maladie elle-même. De
nombreux facteurs autres que le traitement lui-même peuvent venir fausser son évaluation. Le groupe
contemporain évite les biais liés aux différences de recrutement dans le temps.

D. Population de l’étude
Deux notions sont à distinguer lors d'un essai clinique : la population et l'échantillon. Nous
cherchons à améliorer la prise en charge thérapeutique d'une population, c'est la population cible.
Une étude exhaustive est impossible étant donné qu'il est impensable de faire l'essai sur l'ensemble
de la population. C'est pourquoi nous allons réaliser l'essai sur une partie seulement de la population :
c'est l'échantillon. L'échantillon est tiré d'une population source.

Population cible Æ Population source Æ Echantillon

L’objectif d’un essai est à l’échelle d’une population. Pour cela nous allons utiliser l’inférence.
L’inférence permet que les résultats observés soient vrais pour la population dont est issu l’échantillon
(population source). L’extrapolation des résultats à la population pour laquelle nous souhaitons au
final appliquer le traitement (population cible) est nécessaire. Il faut que l’échantillon soit représentatif
de la population source.

Tutorat PACES Lyon Est 130


Essais cliniques

Il existe des critères d’éligibilité pour inclure ou exclure certains patients de l’essai clinique :

§ critères d'inclusion : nous regardons les caractéristiques de la population cible


" généralisation des résultats.

§ critères d'exclusion (ou de non-inclusion) : ils limitent l'inclusion en définissant des


caractéristiques qui restreignent l'intérêt du traitement, son efficacité, une balance
bénéfice-risque défavorable. Ils sont fondamentaux pour la sécurité de l'essai.

E. Taille de l’étude
La question clinique doit être traduite en une question statistique. Pour comparer une grandeur
estimée, la réalisation d’un test statistique est nécessaire.

Voici des rappels concernant les tests statistiques :

§ Hypothèse alternative H1, différence minimale critique : il est nécessaire de définir une
hypothèse H1 précise correspondant à la différence minimale que l’on s’attend à
observer. Nous allons utiliser des informations dans la littérature pour déterminer H1. Il
faut par la même occasion une définition d’un risque $ ou d’une puissance (1 - $).

§ Risques consentis
- ¯ = Pr(∣Z∣ ≥ seuil ∣ H0 vraie) choisi a priori ¹ degré de signification p = Pr(∣Z∣ > ∣z0∣),
- $ = Pr (∣Z∣ < seuil ∣ H0 fausse).

Réalité
H0 vraie H0 fausse
Décision

H0 non rejetée Correct β

H0 rejetée α 1-β

131 Année 2016 - 2017


UE4 – Biostatistiques

§ Variable quantitative continue


Test réalisé : soient deux bras E (pour expérimental) et R (pour référence).
H0 : FE −FR = 0 H1 : FE −FR ≠ 0

Si 6E =6R = 6 et nE =nR =n alors :

§ Nombre de sujets nécessaire

Différence d’efficacité minimale cliniquement pertinente S. C’est pour cette différence que nous
fixons un risque $.

D’où

§ Variable qualitative binaire


Soient deux bras E et R
H0 : ‡E − ‡R = 0 H 1: ‡ E − ‡ R ≠ 0
Si nE = nR = n alors :

N.B. - Dans cette formule, p0 correspond à la moyenne de pE et pR

Bilan

Autrement dit, on doit augmenter le nombre de sujets lorsqu’on veut peu de risque de se tromper
(α et β faibles), ou lorsqu’on souhaite mettre en évidence un faible écart entre les deux groupes (σ
important et δ faible).

Tutorat PACES Lyon Est 132


Essais cliniques

III. Conduite et analyse


A. Conduite
La surveillance est très importante dans un essai clinique. Il faut contrôler la qualité des données,
la compliance des patients (cruciale, elle est à estimer et à rapporter), la qualité du monitorage de
l’essai. Il existe un comité indépendant de surveillance, c’est un comité de validation des événements.
Il est constitué par un groupe d’experts évaluant la sécurité des patients et l’efficacité du traitement
lors d’analyses intermédiaires. Il peut être amené à recommander l’arrêt de l’essai. Il est très utile pour
des études internationales multicentriques pour lesquelles la surveillance peut s’avérer complexe.

B. Analyse statistique
1. Données manquantes
Les données manquantes sont à envisager dès le protocole.

Nous observons des perdus de vue " manque le critère de jugement principal pour certains
participants :
§ des perdus de vue indépendamment de l’essai, c’est-à-dire pour des motifs identiques
dans les deux bras " biais de sélection non différentiel (perte de puissance),
§ des perdus de vue pour une raison liée au traitement " biais de sélection différentiel
(sus ou sous-estimation de l’effet traitement).

Il existe des méthodes statistiques pour prendre en compte les données manquantes.
Par exemple, nous pouvons utiliser la méthode du biais maximum pour les critères de jugement
dichotomiques. Il faut remplacer les critères de jugement manquants par des succès dans un groupe,
des échecs dans l’autre et analyser puis inversement. Si les conclusions sont concordantes, alors nous
pouvons conclure.

2. Analyse en intention de traiter


Tous les participants à l’étude restent étudiés dans le groupe auquel ils ont été assignés.

Il n’y a aucune exclusion a posteriori. Ceci permet d’assurer le maintien de la comparabilité des
groupes.

Il peut exister un biais d’attrition ce qui entraîne une non comparabilité des groupes au moment
du recueil du critère de jugement principal. L’exclusion des patients qui n’ont pas commencé le
traitement pour une raison indépendante du bras de randomisation entraîne une analyse en intention
de traiter modifiée. L’exclusion de l’analyse des patients pour lesquels le protocole initial n’est pas
totalement respecté constitue une analyse per-protocole.

3. Analyses statistiques
Les analyses statistiques sont des analyses intermédiaires prévues dès le protocole. Beaucoup
de paramètres sont à prendre en compte : « Flow chart », la description des caractéristiques globales
et par les bras, les données manquantes. Nous allons étudier le risque relatif, la différence de risque,
les taux relatifs (critère de survie) et surtout les intervalles de confiance.

133 Année 2016 - 2017


UE4 – Biostatistiques

Le rejet de l’hypothèse H0 ne signifie pas l’acceptation de l’hypothèse


H1 utilisée pour le calcul du nombre de sujets nécessaires.
Le non-rejet de l’hypothèse H0 ne signifie pas l’équivalence d’efficacité.

IV. Réglementation
Il existe de nombreuses lois concernant l’expérimentation humaine en se basant sur les principes
de la Déclaration Universelle des Droits de l’Homme (ONU 1978) : liberté, sécurité, égalité, dignité
humaine.

Nous retrouvons quatre grands principes :


§ Principe de respect de la personne humaine (consentement) ;
§ Principe de bienfaisance (balance bénéfices/risques) ;
§ Principe de justice ;
§ Principe du respect de la dignité de la science et de ses propres exigences
méthodologiques.

Différentes lois sont présentes pour encadrer les essais cliniques.

§ Loi du 20 décembre 1988. – ‘relative à la protection des personnes qui se prêtent à des
recherches biomédicales’ (Loi Huriet-Serusclat).
§ Transposition de la directive européenne 2001/20. – Loi relative à la politique de santé
publique du 9 août 2004.

Il existe un Comité de Protection des Personnes (CPP) pour surveiller l’intérêt des patients inclus
dans les essais cliniques.

V. L’essentiel
À RETENIR

Quatre principes :

– Comparatif

– Contrôlé

– Randomisé

– En aveugle

L’hypothèse H1 du calcul du nombre de sujets n’est pas l’hypothèse alternative du test réalisé,
elle n’est pas l’hypothèse en faveur de laquelle se fait la conclusion.

À COMPRENDRE

Il y a une interaction forte entre les différents acteurs (investigateurs et biostatisticien). Tout est
consigné dans un protocole. Le protocole et le déroulement conditionnent les conclusions.

Tutorat PACES Lyon Est 134


Statistiques pour l’épidémiologie

Statistiques pour l’épidémiologie


Rédigé à partir du cours du Dr RABILLOUD

I. Introduction
L’épidémiologie est une étude de type observationnelle. Il existe deux schémas d’étude :
§ L'épidémiologie descriptive,
§ L'épidémiologie analytique.

L’épidémiologie descriptive possède pour objectif de décrire la fréquence des maladies dans
différentes populations et au cours du temps. Il s’agit par exemple de décrire l’hétérogénéité de la
fréquence des cancers selon la zone géographique ou l’évolution de la fréquence avec le temps. Ces
études permettent de soulever des hypothèses sur les facteurs associés au risque de cancer.

Les études d’épidémiologie analytique ont pour objectif de quantifier l’association entre des
facteurs d’exposition et le risque de développer une maladie donnée. Il s’agit par exemple de quantifier
le lien entre l’exposition à l’amiante et le risque de cancer du poumon.

Contrairement aux études expérimentales dont l’exemple le plus classique est l’essai clinique
randomisé, dans les études observationnelles il n’y a pas d’intervention. Nous observons par exemple
des sujets qui sont exposés ou non à un facteur que nous pensons être associé à une augmentation du
risque de développer une maladie. L’investigateur ne contrôle pas l’exposition au facteur de risque.

Les résultats d’une étude d’observation ne permettent pas de


conclure à une relation causale entre facteur et maladie.

L’établissement d’une relation causale repose sur un faisceau d’arguments.

II. Épidémiologie descriptive


L’épidémiologie descriptive étudie la présence et l’évolution d’une (ou plusieurs) maladie(s) dans
une population. Elle fournit des indicateurs de santé, ces derniers vont pouvoir mesurer l’importance
d’un événement dans une population donnée. La prévalence mesure la proportion de cas à un moment
donné tandis que l’incidence mesure la vitesse d’apparition des nouveaux cas.

Il y a deux types d’étude :


§ Les études transversales,
§ Les études de cohorte.

Par la suite, nous allons réaliser une extension à l’ensemble de la population.

Si nous nous plaçons sur une échelle de temps, une étude transversale consiste à faire une coupe
à un moment donné et à mesurer la fréquence de la maladie sur cette coupe. Il s’agit d’une
photographie de la population à un moment donné. Dans une étude transversale, il n’y a pas de suivi
des sujets. Nous les observons à un moment donné et ils ont ou ils n’ont pas la maladie.

135 Année 2016 - 2017


UE4 – Biostatistiques

Exemple d'étude transversale.

Une étude transversale est réalisée un jour donné dans tous les hôpitaux en France, ceci permet
une mesure de la prévalence des infections nosocomiales par exemple. Ce type d’étude est réalisé
tous les 5 ans environ. L’évolution de la prévalence est un indicateur de l’efficacité de la lutte
contre les infections nosocomiales.

Les études qui vont permettre de mesurer la vitesse d’apparition de la maladie dans une
population sont les études de cohorte. La différence principale entre une étude transversale et une
étude de cohorte porte sur le suivi des sujets qui vont participer à l’étude.

Dans une étude de cohorte, que l’on appelle également étude longitudinale, les sujets n’ont pas
la maladie étudiée au moment de leur entrée dans la cohorte. Ils vont être suivis un temps plus ou
moins long et on recueille l’apparition ou non de la maladie au cours du suivi.

Exemple d'une étude de cohorte.

Il existe un suivi des habitants de la ville de Framingham (Massachusetts, Etats-Unis). Cette étude
a commencé en 1948, la première cohorte de Framingham était constituée de 5209 hommes et
femmes âgés de 30 à 62 ans qui n’avaient pas d’antécédent d’infarctus du myocarde ou d’accident
vasculaire cérébral et pas de symptômes de maladie cardiovasculaire au moment de l’inclusion.
On a observé au cours du temps l’apparition des événements cardio-vasculaires au niveau de cette
population. Elle a contribué à la connaissance des facteurs de risque des maladies cardio-
vasculaires.

B. La prévalence d’une maladie


La prévalence d’une maladie est la proportion de malades présents dans une population à un
instant donné.
Ø
ë=
Ì
Exemple.
§ Effectif de malades : diabète insulinodépendant.
§ Effectif total des sujets : population française de 20 ans ou plus.

La prévalence dépend de l’incidence (vitesse d’apparition des nouveaux cas) et de la durée de la


maladie. Si nous prenons l’exemple théorique de 2 maladies qui ont la même incidence (même
vitesse d’apparition des nouveaux cas), mais des durées moyennes différentes, on constate que la
maladie à durée moyenne plus grande aura une prévalence plus importante.

La prévalence mesure indirectement l’incidence et elle permet d’évaluer la prise en charge


médicale.

Tutorat PACES Lyon Est 136


Statistiques pour l’épidémiologie

Principe de l’estimation d’une prévalence.

Lors d’une étude transversale, nous réalisons l’estimation d’une prévalence.

Il faut constituer un échantillon représentatif de la population. Un échantillon est représentatif


d’une population s’il ressemble à la population. Le caractère représentatif ou non d’un échantillon
dépend de la façon dont a été constitué l’échantillon. De plus un estimateur est à utiliser : on va
prendre la proportion observée sur l’échantillon, que l’on le note ë. Un estimateur correspond à une
fonction utilisée pour calculer, dans notre cas, la prévalence. Le chapeau sur le P permet d’indiquer
que la valeur calculée sur l’échantillon est une estimation de la prévalence dans la population. La
prévalence est une valeur liée à la population totale et non à l’échantillon c’est pour cela que l’on passe
par un ESTIMATEUR DE LA PREVALENCE.

Exemple.

Estimation de la prévalence des infections nosocomiales dans les hôpitaux français en 1996. On
réalise une étude transversale à un jour donné. L’étude se réalise au sein d’un échantillon de
46 000 patients hospitalisés, on note 3370 patients avec une infection nosocomiale.
On suppose que l’échantillon constitué un jour donné est représentatif de la population des
patients hospitalisés au cours de l’année 1996. On se sert de la valeur calculée sur l’échantillon de
l’étude pour parler de la prévalence des infections nosocomiales dans les hôpitaux français en
1996. Il s’agit d’un exemple d’inférence statistique.
3370
ë= = 7,3%
46000
On utilise une approximation de la distribution de la prévalence par une distribution normale.

0,073× 1 − 0,073
Ì(0,073; )
46 000

On calcule l’intervalle de confiance.

0,073× 1 − 0,073
tAˇ¥% = 0,073 ± 1,96
46 000

L’intervalle de confiance à 95 % est 7,1 % ; 7,5 % . Avec une précision de l’estimation à 0,2 %.
C’est-à-dire que la prévalence des infections nosocomiales dans les hôpitaux français en 1996 a
95 % de chances d’être comprise entre 7,1 % et 7,5 %.

On utilise l’intervalle de confiance pour déduire l’intervalle dans lequel il est le plus probable de
trouver la prévalence d’après son estimation.

Il ne faut pas oublier de vérifier les conditions d’approximation par la distribution normale !

C’est la première chose à faire, ça peut vous éviter de faire des calculs si jamais on est hors
conditions.

Conditions a priori :
§ 5 = 46 000 ≥ 30

137 Année 2016 - 2017


UE4 – Biostatistiques

Conditions a posteriori :
§ 46 000×0,071 ≥ 5
§ 46 000×(1 − 0,071) ≥ 5
§ 46 000×0,073 ≥ 5
§ 46 000×(1 − 0,073) ≥ 5

B. Incidence d’une maladie


Le taux d’incidence mesure la « vitesse d’apparition » des nouveaux cas. Il mesure la probabilité
pour un individu de développer la maladie par unité de temps. Le taux d’incidence n’est pas une
probabilité, mais une probabilité par unité de temps. Nous voyons ainsi la dimension dynamique des
taux d’incidence et de mortalité.
ë(U ≤ } < U + )U } ≥ U)
\ U = lim
20→` )U

Il s’agit formellement du rapport d’une probabilité conditionnelle (la probabilité que


l’événement survienne dans l’intervalle de temps dt sachant qu’il ne s’est pas produit avant t) sur la
longueur de l’unité de temps.

Lors d’études de cohorte, on peut estimer cet indicateur de santé.

Exemple
Estimation du taux d’incidence d’une maladie

Il y a eu deux événements au cours du suivi.


2
36 0,055
\= = = 0,11 ü=> ü@>ì¢55@ − =55é@
0,5 0,5
La probabilité pour une personne de développer la maladie sur une unité de temps de 1⁄2 année
est de 0,055.
Elle est de 0,11 pour une année. Nous disons que le taux d’incidence est estimé à 0,11 personne-
année.
Il mesure bien la vitesse d’apparition de la maladie.

Lorsque l’évènement étudié est le décès, on parle de force de mortalité.

Tutorat PACES Lyon Est 138


Statistiques pour l’épidémiologie

Nous pouvons estimer le taux d’incidence en se basant sur l’observation d’un groupe d’individus.
Pour cela, nous supposons que :
§ Tous les individus ont le même taux (on se base sur l’observation d’un groupe d’individus)
§ Le taux est constant sur la période (on se base sur l’observation d’une période de suivi)

Sous ces hypothèses, les individus et les unités de temps sont interchangeables. Ainsi, le suivi de
10 personnes pendant 1 demi-année est équivalent à suivre 5 personnes pendant 2 demi-années, soit
un an.

La formule utile pour le taux d’incidence est la suivante :


5¢£_>@ )@ 5¢î<@=î4 ?=ì
\=
5¢£_>@ )@ ü@>ì¢55@ì − =55é@

Dans l'exemple précédent, le nombre d'années est 18. Donc 2 / 18 = 0,11 par personne-année.
L’estimation du taux d’incidence de la maladie est de 11 nouveaux cas pour 100 personnes-année.

Nous pouvons aussi utiliser cette formule suivante pour estimer le taux d’incidence :

5¢£_>@ )′é<é5@£@5Uì
5¢£_>@ ) L î5*Ué )@ U@£üì
\=
k¢5Tî@î> ) L î5*Ué )@ U@£üì

On peut aussi calculer la variance de ce taux d’incidence \ :

\
<=> \ =
5¢£_>@ )@ ü@>ì¢55@ì − =55é@ì

C. Risque de la maladie
Le risque de la maladie correspond à l’incidence cumulée de la maladie jusqu’à un temps t.

v U = ü(} ≤ U)

Le risque correspond à une probabilité. Il s’agit de la probabilité d’avoir développé la maladie au


temps t.
Ø
v U =
Ì

Avec M le nombre de nouveaux cas sur la période de suivi ; et N le nombre de sujets à risque au
début de la période.

Exemple.
Estimation du risque de récidive d’une maladie. On se place dans une cohorte de 368 femmes
opérées d’un cancer du sein et suivies pendant 5 ans. On peut estimer le risque de récidive à 5 ans.
Tous les sujets ont eu la maladie.
130
>¥ ,'( = ≈ 35%
368

139 Année 2016 - 2017


UE4 – Biostatistiques

La durée du suivi est variable d’un individu à l’autre. Le taux d’incidence est constant sur la période
considérée.
La probabilité de développer la maladie avant le temps t = 1 - la probabilité de ne pas l’avoir
développée.

v U = 1 − @ {◊0 (que si \ constant).


@ {◊0 = Probabilité de ne pas avoir développé la maladie au temps t.
\U = taux cumulé.
Exemple.
Estimation du risque de maladie sur une période de 3 ans

v U = 1 − @ {◊0

>m ,'( = 1 − @ {`,II×m = 0,28

Le risque est estimé à 28% en 3 ans.

III. Epidémiologie analytique


L’objectif d’une étude analytique est de rechercher la ou les cause(s) d’une maladie. La force
d’association entre le facteur de risque et la maladie est aussi mesurée.

Dans ce cours, nous allons étudier deux méthodes.

Études de cohorte
Nous constituons un groupe de sujets exposés au facteur de risque et un groupe non exposé, tous
les sujets sont initialement sains. Nous allons suivre les sujets dans le temps pour voir l’apparition ou
non de la maladie. Les sujets n’ont pas le critère de résultat au moment où ils rentrent dans l’étude.
Une étude de cohorte permet de mesurer l’incidence du critère de résultat.

La cohorte peut être reconstituée dans le passé : cohortes historiques. L’identification d’un
facteur de risque de survenue de la maladie est possible ainsi que des facteurs pronostiques.

Tutorat PACES Lyon Est 140


Statistiques pour l’épidémiologie

Études cas-témoins
Nous constituons un groupe de sujets malades (les cas) et un groupe de sujets non malades (les
témoins). Nous recherchons l’exposition antérieur (la plupart du temps) des sujets à un facteur de
risque via un interrogatoire. L’identification d’un facteur de risque de survenue de la maladie est dans
ce type d’étude possible aussi.

Les avantages des études cas-témoins par rapport aux études de cohorte :

§ Plus rapides étant donné qu’il n’y a pas de suivi.

§ Nécessitent moins de sujets à inclure.

§ Bien moins lourdes à mettre en place.

Les inconvénients des études cas-témoins par rapport aux études de cohorte :
§ Risque de biais plus important (biais de sélection des cas et des témoins, biais de mesure
du facteur étudié car l’exposition n’est pas mesurée en temps réel, biais de confusion).

§ Incidence de la maladie non mesurée directement.

Le facteur d’exposition est le facteur étudié, par exemple nous pouvons étudier la consommation
de tabac, d’alcool, l’exposition à l’amiante. La maladie est le critère de résultat, par exemple le cancer
du poumon, de l’œsophage, les maladies cardio-vasculaires. Les critères permettant d’identifier un
facteur de risque d’une maladie sont multiples.

§ L’exposition au facteur de risque doit précéder la survenue de la maladie.

§ Il faut mettre en évidence un sur-risque chez les exposés par rapport aux non-exposés.

§ Une cohérence et une force de l’association doivent s’observer.

§ La plausibilité clinique et biologique sont importantes.

§ La mise en évidence d’un effet dose doit s’observer.

A. Tableau de contingence
Pour les deux types d’études, il faut réaliser un tableau de contingence. (Etre capable de le faire
++)

Malades Non-malades TOTAL

Exposés a b a + b = m0

Non-exposés c d c + d = m1

TOTAL a + c = n0 b + d = n1 a+b+c+d=n

141 Année 2016 - 2017


UE4 – Biostatistiques

Dans une étude de cohorte, les calculs n’ont de sens que sur les lignes du tableau. Dans une étude
cas-témoins, les calculs n’ont de sens que sur les colonnes du tableau.

Il faut bien comprendre pourquoi ! Cela déterminera ce que vous pourrez calculer à partir de vos
données. Tout vient de la manière de sélectionner votre échantillon.

Par exemple ça n’a pas de sens de regarder une proportion d’exposés / non exposés dans une
étude de cohorte puisque c’est vous (l’investigateur de l’étude) qui décidez de combien vous en prenez
en exposés ou non…

B. Détermination de l’association entre maladie et facteur de risque


L’utilisation du test du Chi-2 est nécessaire pour tester l’indépendance entre la maladie et le
facteur d’exposition. Attention, ce test ne mesure pas la force de l’association, il mesure le degré de
confiance que nous pouvons avoir lorsque nous concluons qu’il existe une différence réelle entre les
populations comparées. Pour mesurer l’ampleur du lien entre le facteur de risque et la maladie, nous
utilisons l’odds ratio et le risque relatif.

§ H0 : il y a indépendance entre le facteur d’exposition étudié et la maladie.


§ H1 : il existe une association entre le facteur d’exposition étudié et la maladie.

(m‹ − Œ‹ )E
~oEô ee≈
Œ‹

Nous allons utiliser les valeurs du tableau de contingence. Oi représente les effectifs observés
(valeurs a, b, c et d) et Ei les effectifs attendus.

Calculs des effectifs attendus :

Malades Non malades TOTAL

(5` ×£` )
Exposés ø= a + b = m0
5

Non exposés c + d = m1

TOTAL a + c = n0 b + d = n1 a+b+c+d=n

Deux possibilités :

§ oE < 3,84, nous ne rejetons pas H0 au risque " = fi% : l’association n’est pas
statistiquement significative au risque de 5%.

§ oE > 3,84, nous rejetons H0 : l’association est statistiquement significative au risque ¯ =


5% et ddl = 1.

Tutorat PACES Lyon Est 142


Statistiques pour l’épidémiologie

C. Mesure de l’ampleur de l’association facteur de risque-maladie


1. Risque relatif et taux relatif

Risque relatif
v*ìÕî@ ?ℎ@„ §@ì @4ü¢ìéì ) L =<¢*> §= £=§=)*@
vv =
v*ìÕî@ ?ℎ@„ §@ì 5¢5 − @4ü¢ìéì ) L =<¢*> §= £=§=)*@

 0
Soit, vv =
~ 0

=
£`
vv = ?
£I

Si le RR = 3,2 ; les exposés de l’échantillon ont 3,2 fois plus de risque de développer la maladie
que les non exposés.

Taux relatif

}=î4 ) L *5?*)@5?@ ?ℎ@„ §@ì @4ü¢ìéì


}v =
}=î4 ) L *5?*)@5?@ ?ℎ@„ §@ì 5¢5 − @4ü¢ìéì

\I (U)
}v U =
\` (U)

Si le taux relatif est constant au cours de la période de suivi et que l’événement est rare ou la
durée d’observation courte, nous avons }v ≈ vv.

Nous pouvons interpréter les résultats obtenus sur l’échantillon :

§ Si RR ou TR ou odds ratio > 1, le facteur est associé à une augmentation du risque d’être
malade.

§ Si RR ou TR ou odds ratio < 1, le facteur est associé à une diminution du risque d’être
malade.

Dans le cas d’une étude cas-témoins,


il n’y a pas de suivi des patients, par conséquent,
nous ne pouvons PAS calculer le RR ou le TR !

Cf A) pour bien comprendre pourquoi !

143 Année 2016 - 2017


UE4 – Biostatistiques

2. Odds ratio
L’odds ratio ne se calcule pas de la même manière si nous nous plaçons dans une étude de
cohorte ou dans une étude cas-témoins.

Dans une étude de cohorte

Odds de la maladie chez les non-exposés :


? ?
£I ? £I
Ò))ì )@ §= £=§=)*@ ?ℎ@„ §@ì 5¢5 − @4ü¢ìéì = ? = ) =)
1−
£I £I

Odds de la maladie chez les exposés :


= =
£` £` =
Ò))ì £=§=)*@ ?ℎ@„ §@ì @4ü¢ìéì = = = _ =_
1−
£` £`

L’odds-ratio de la maladie correspond à :


=
Ò))ì £=§=)*@ ?ℎ@„ §@ì @4ü¢ìéì =×)
Òv = = b
? =
Ò))ì )@ §= £=§=)*@ ?ℎ@„ §@ì 5¢5 − @4ü¢ìéì _×?
)

Dans une étude cas-témoins


Odds de l’exposition chez les non malades :

ü(ø Ø) Ø=§=)@ì ?ℎ@„ §@ì U飢*5ì


Ò))ì ) L @4ü¢ì*U*¢50é-'%'( = =
1 − ü(ø Ø) Ì¢5 £=§=)@ì ?ℎ@„ §@ì U飢*5ì

_
Ò))ì ) L @4ü¢ì*U*¢50é-'%'( =
)
Odds de l’exposition chez les malades :

ü(ø Ø) Ø=§=)@ì ?ℎ@„ §@ì ?=ì


Ò))ì ) L @4ü¢ì*U*¢5),( = =
1 − ü(ø Ø) Ì¢5 £=§=)@ì ?ℎ@„ §@ì ?=ì

=
Ò))ì ) L @4ü¢ì*U*¢5),( =
?
L’odds ratio d’exposition correspond à :

Ò))ì ) L @4ü¢ì*U*¢5),(
Òv =
Ò))ì ) L @4ü¢ì*U*¢50é-'%'(

=
=×)
Òv = ? =
_ _×?
)

Tutorat PACES Lyon Est 144


Statistiques pour l’épidémiologie

Selon le type d’étude, nous estimons soit l’OR de la maladie pour les études de cohorte soit l’OR
d’exposition pour les études cas-témoins. Cependant OR de la maladie = OR d’exposition.

L’odds ratio s'interprète comme le risque relatif.

Si OR ou RR > 1 alors OR > vv

Lorsque l’évènement d’intérêt est rare dans la population étudiée, l’odds ratio est proche du
risque relatif et il peut s’interpréter comme un risque relatif.

À partir de ces estimations, nous pouvons calculer un intervalle de confiance. Si l’intervalle de


confiance ne contient pas la valeur 1 :
§ RR ou OR est significativement différent de 1.
§ Les résultats sont cohérents avec le test statistique.
§ L’association entre le facteur et la maladie est importante.

En revanche si l’intervalle de confiance contient 1, nous ne pouvons pas conclure.

Pour mesurer la force de l’association dans une étude de cohorte :


§ Taux relatif de l’évènement.
§ Risque relatif de l’évènement à un temps donné.
§ Odds ratio de l’évènement à un temps donné.

Alors que dans une étude de cas-témoins, il y a uniquement l’odds ratio d’exposition.

D. Exemples
1. Exemple d’une étude de cohorte
Nous constituons une cohorte de 368 femmes opérées pour un cancer du sein et suivies pendant
5 ans. L’objectif de l’étude est d’évaluer la valeur pronostique du type cytologique de la tumeur sur le
risque de récidive à 5 ans. Le facteur étudié est le type cytologique de la tumeur.

Le critère de résultat est la présence de récidive à 5 ans.

Estimation du risque de récidive à 5 ans selon le type cytologique de la tumeur :

Type cytologique 3
96
>ÅJ.3 m = ≈ 48%
201

Type cytologique 1 ou 2
34
>ÅJ.3 I '1 7 = ≈ 20%
167

L’hypothèse à tester dans cette étude est que le risque de récidive des femmes qui avaient une
tumeur de type cytologique 3 est différent du risque de récidive des femmes qui avaient une tumeur
de type 1 ou 2, soit un test bilatéral.

145 Année 2016 - 2017


UE4 – Biostatistiques

Nous commençons par réaliser un tableau de contingence :

Récidive Pas de récidive TOTAL

Type 3 96 105 201

Type 1 ou 2 34 133 167

TOTAL 130 238 368

Existe-t-il une relation entre le type cytologique et la récidive à 5 ans ?

Pour répondre, il faut utiliser un test du Chi-2. On calcule les effectifs attendus, ils sont entre
parenthèses dans le tableau.

Récidive Pas de récidive TOTAL

Type 3 96 (71) 105 (130) 201

Type 1 ou 2 34 (59) 133 (108) 167

TOTAL 130 238 368

(96 − 71)7 (105 − 130)7 (34 − 59)7 (133 − 108)7


qI7 = + + + = 29,99 (> 3,84)
71 130 59 108
Étant donné que q 7 > 3,84 : la probabilité que la différence observée soit due au hasard est
inférieure à 5%. La différence est significativement différente au risque de 5%. Le risque de récidives à
5 ans est plus élevé chez les femmes ayant un type cytologique 3 que chez celles ayant un type
cytologique 1 ou 2 et cette différence est statistiquement significative.

Quelle est la force de l’association entre le type cytologique et la récidive à 5 ans ?

Nous calculons le risque relatif :


v*ìÕî@ )@ >é?*)*<@ ÅJ.3 m
vv =
v*ìÕî@ )@ >é?*)*<@ÅJ.3 I '1 7

SENS DE LECTURE DU TABLEAU

Récidive Pas de récidive TOTAL

Type 3 96 = a 105 = b 201 = m0

Type 1 ou 2 34 = c 133 = d 167 = m1

TOTAL 130 = n0 238 = n1 368 = n

Tutorat PACES Lyon Est 146


Statistiques pour l’épidémiologie

=
£` 0,48
vv = ? = = 2,4
0,20
£I

Les femmes qui ont une tumeur de type 3 ont 2,4 fois plus de risque de récidiver à 5 ans que les
femmes ayant une tumeur de type 1 ou 2. Le risque relatif est estimé à 2,4. Nous pouvons aussi calculer
l’intervalle de confiance du risque relatif, dans cet exemple il est compris entre 1,8 et 3,3.

Taux d’incidence de la récidive dans le groupe cytologique 3 :


96 96
= ≈ 0,125
105×5 + 96×2,5 765

Taux d’incidence de la récidive dans le groupe cytologique 1 ou 2 :


34 34
= ≈ 0,045
133×5 + 34×2,5 750

Pour réaliser les calculs, nous avons calculé le nombre de personnes-année de suivi :

§ 5 personnes-année pour les femmes qui n’ont pas récidivé dans les 5 ans.

§ Délai en années entre l’intervention et la récidive pour celles qui ont récidivé dans les
5 ans.

Nous réalisons une approximation, en considérant que les femmes qui ont récidivé ont été suivies
2,5 ans.
`,I7¥
}v = ≈ 2,8
`,`j¥

Le taux relatif de récidive est estimé à 2,8 alors que le risque relatif de récidive à 5 ans est estimé
à 2,4.

Il y a une deuxième méthode pour calculer la force de l’association : l’odds ratio.

Nous pouvons estimer l’odds de récidive dans chaque groupe :


v}Hü@ 3
Ò))ì )@ >é?*)*<@ÅJ.3 m =
1−v}Hü@ 3
= =_

v}Hü@ 1 ¢î 2
Ò))ì )@ >é?*)*<@ÅJ.3 I '1 7 =
1−v}Hü@ 1 ¢î 2
= )?

Estimation de l’odds ratio de récidive :


É
,×2 ˇ˛ × Imm
Òv = O
r = = = 3,6
)×[ mj × I`¥
s

Les femmes ayant une tumeur de type 3 ont un odds de récidive multiplié par 3,6 par rapport à
celles ayant une tumeur de type 1 ou 2. Nous pouvons aussi calculer un intervalle de confiance, dans
le cas présent l’intervalle de confiance de l’odds ration estimé est compris entre 2,2 et 5,7.

147 Année 2016 - 2017


UE4 – Biostatistiques

Récapitulatif pour les études de cohorte

Nous calculons :
§ Le risque de la maladie ;
§ Le risque relatif ;
§ L’odds de la maladie chez les exposés et les non-exposés ;
§ L’odds ratio de la maladie.

2. Exemple d’une étude cas-témoin


L’échantillon des cas est constitué par 200 hommes hospitalisés dans un hôpital d’Ille et Vilaine
avec un diagnostic de cancer de l’œsophage. L’échantillon de cas est constitué par des cas incidents
c’est-à-dire des patients qui découvrent leur maladie au cours de leur actuelle hospitalisation. Il ne
faut pas constituer l’échantillon de cas avec des cas prévalents, ce sont des patients qui ont la maladie
mais le diagnostic a été fait avant l’hospitalisation en cours. En effet les sujets ont pu modifier leur
consommation d’alcool du fait de la maladie. L’échantillon de témoins est constitué de 775 hommes
tirés au sort dans la liste électorale d’Ille et Vilaine. L’objectif est d’obtenir un échantillon de témoins
représentatif de la population générale en termes d’exposition au facteur étudié c’est-à-dire la
consommation d’alcool. Pour mesurer l’exposition dans le passé, on réalise un interrogatoire. Le seuil
d’exposition est fixé à 80 g par jour. Si le sujet a une consommation supérieure ou égale à 80 g par
jour, il est dans le groupe exposé. En revanche si sa consommation est inférieure à 80 g par jour, il est
dans le groupe non exposé. On réalise un tableau de contingence.

Cancer Pas de cancer TOTAL

80 g ou plus 96 109 205

770
0 - 79 g 104 666

TOTAL 200 775 975

Il n’est pas possible d’estimer l’incidence de la maladie les effectifs des cas et des témoins étant
déterminés par l’investigateur. Il n’est donc pas possible d’estimer l’ampleur de l’association entre le
facteur étudié et le critère de résultat par un risque relatif ou un taux relatif.

Estimation de la probabilité d’être exposé chez les cas :


96
ü øØ = = 48%
200

Estimation de la probabilité d’être exposé chez les témoins :


109
ü øØ = = 14%
775

Tutorat PACES Lyon Est 148


Statistiques pour l’épidémiologie

Existe-t-il une relation entre la consommation d’alcool à dose élevée et le risque de cancer de
l’œsophage ?

Nous réalisons un test du Chi-2. Nous calculons les effectifs attendus, ils sont entre parenthèses
dans le tableau.

Cancer Pas de cancer TOTAL

80 g ou plus 96 (42,05) 109 (162,95) 205

0 - 79 g 104 (157,95) 666 (612,05) 770

TOTAL 200 775 975

La condition d’utilisation est : effectifs attendus ≥ 5.

(96 − 42,05)7 (109 − 169,95)7 (104 − 157,95)7 (666 − 612,05)7


qI7 = + + + = 110,26 > 3,84
42,0 169,95 157,95 612,05

Étant donné que qI7 >>> 3,84, la probabilité que la différence observée soit due au hasard est
très inférieure à 5%. Le degré de signification est p < 0,0001. La différence est statistiquement
significative. La probabilité d’être exposé est plus élevée chez les cas que chez les témoins.

Quelle est la force de l’association entre la consommation d’alcool à dose élevée et le risque de
cancer de l’œsophage ? Nous calculons l’odds ratio d’exposition :
=×) 96×666
Òv = = = 5,64
?×_ 104×109

L’odds ratio des cas est 5,6 fois plus élevé que celui des témoins. Mais l’odds ratio d’exposition
peut également s’interpréter comme l’odds ratio de la maladie des exposés par rapport aux non-
exposés. Les 2 odds ratio sont égaux. Les hommes qui ont été exposés à une consommation d’alcool ≥
80g par jour ont un risque de cancer de l’œsophage environ 5,6 fois plus élevé que les hommes ayant
été exposés à une consommation inférieure. L’intervalle de confiance à 95 % est compris entre 4 et
7,8. La mise en évidence d’un effet dose est possible. Nous étudions le lien entre la consommation
d’alcool (répartie sur plusieurs niveaux : nulle, faible, régulière et exagérée).

Cancer Pas de cancer

120 g ou plus 45 22

80 - 119 51 87

40 - 79 75 280

0 - 39 29 386

TOTAL 200 975

149 Année 2016 - 2017


UE4 – Biostatistiques

Le calcul de l’odds ratio pour chaque niveau de consommation par rapport au niveau de base
est calculé.
45
ÒvI7`t '1Z/ `{mˇt = 29 = 27,2
22
386

51
Òv9`t{IIˇ/ `{mˇt = 29 = 7,8
87
386

75
Òvj`{!ˇt/ `{mˇt = 29 = 3,6
280
386

La force de l’association augmente avec la quantité d’alcool.

Récapitulatif pour les études cas-témoins


Nous calculons :
§ la probabilité d’être exposé ;
§ l’odds d’exposition chez les malades et les non malades ;
§ l’odds ratio d’exposition.

IV. Biais potentiels (QCM de cours)


Un biais est une erreur systématique qui va entraîner une sous ou une sur-estimation du lien
entre le facteur étudié et le critère de résultat. Il existe différents types de biais.

A. Biais de sélection
Le biais de sélection correspond à la sélection d’un échantillon qui n’est pas représentatif de la
population cible.

Exemple
Une étude cas-témoins est réalisée pour quantifier le lien entre la consommation d’alcool et le
risque de cancer de l’œsophage. Les sujets inclus dans le groupe des témoins sont des patients
hospitalisés dans un service de gastro-entérologie et qui n’ont pas de cancer de l’œsophage. Les
témoins inclus peuvent avoir des pathologies pour lesquelles la consommation est un facteur de
risque. Ils ont une probabilité plus importante d’être exposés à l’alcool que la population générale.
Cela va entraîner une sous-estimation du lien entre la consommation d’alcool et le risque de
cancer de l’œsophage.

B. Biais de confusion
Le biais de confusion est dû à des facteurs liés à la fois au facteur étudié et au critère de résultat.
Ce sont des facteurs de confusion.

Tutorat PACES Lyon Est 150


Statistiques pour l’épidémiologie

Exemple.
Le tabac est un facteur de risque pour le cancer du poumon. Les sujets qui consomment de l’alcool
sont également le plus souvent fumeurs. Le lien mis en évidence entre consommation d’alcool et
risque de cancer du poumon peut être au moins en partie expliqué par la consommation de tabac.
La consommation de tabac est un facteur de confusion potentiel. Il peut entraîner un biais de
confusion dans la quantification du lien entre consommation d’alcool et risque de cancer du
poumon. Le biais de confusion ira dans le sens d’une surestimation.

C. Biais de mesure ou de mémoire


Le biais de mesure est dû à la façon de mesurer le facteur étudié ou le critère de résultat.

Exemple.
Dans les études cas-témoins, un biais de mesure classique du facteur étudié est le biais de
mémoire. On interroge les cas et les témoins sur leur exposition à un facteur dans le passé. Les cas
vont en général mieux se souvenir de leur exposition au facteur étudié que les témoins. Cela
entraîne une surestimation du lien entre le facteur étudié et le critère de résultat.

151 Année 2016 - 2017


UE4 – Biostatistiques

Tutorat PACES Lyon Est 152


Remerciements et Remarques

Remerciements et Remarques

§ Un grand merci aux personnes qui ont donné de leur temps à la rédaction du contenu :

- Julie DIAS
- Noé MOREAU

Responsable de la matière : Nicolas PRIN

§ Responsables Supports Pédagogiques :

- Juliane PIC-GRENIER
- Julien CHABAUD-SASSOULAS

Pour toutes suggestions, remarques et corrections, vous pouvez vous rendre sur le forum dédié
aux Polys dans le module Spiral du Tutorat.

Il s'agit de la troisième année d’existence des Polys du Tutorat. Ce poly sera bien sûr amélioré
dans son contenu et dans sa forme au cours des années à venir.

Les Polys du Tutorat sont rédigés à partir des cours de l'année précédente. Ils n'ont aucune valeur
de référence de cours. Ils ne peuvent en aucun cas servir de référence opposable au concours PACES,
à une épreuve majeure ou au concours blanc du Tutorat. La seule référence qui fait foi pour le concours
PACES est le cours magistral donné en amphithéâtre par l'enseignant.

Le Tutorat déconseille fortement de se fier uniquement aux polys et de négliger les cours
magistraux. Une écoute active associée à une prise de notes efficace, puis un recopiage au propre reste
la méthode la plus appropriée à l'apprentissage des cours.

Informations de législations concernant les polycopiés


Ce polycopié est réservé à un usage personnel.

La copie, diffusion totale ou même partielle de ce polycopié est interdite


en dehors du cadre du Tutorat PACES Lyon-Est.

153 Année 2016 - 2017


UE4 – Biostatistiques

Tutorat PACES Lyon Est 154

Vous aimerez peut-être aussi