Académique Documents
Professionnel Documents
Culture Documents
UE3
Biostatistiques
Année universitaire 2022 – 2023
Présentation
Polycopié UE3
Introduction
Informations générales sur les polycopiés
Les polycopiés du Tutorat Lyon-Est sont mis à votre disposition comme compléments possibles à
votre méthode de travail. Ils n'ont pas vocation à remplacer votre présence en cours. Les polycopiés
ont été rédigés à partir des cours de l'année précédente, il est donc possible que certaines parties ne
soient plus au programme ou soient devenues inexactes. Nous vous conseillons de vous approprier au
maximum ces polycopiés en les annotant, en les surlignant, en les corrigeant et en les modifiant en
fonction du nouveau cours.
⚠ Ce polycopié a été rédigé à partir du cours PASS de l’année dernière. Il est donc possible que
certaines parties de ces cours se retrouvent hors-programme. Il est donc primordial de se rendre en
cours magistral donné en amphithéâtre par l'enseignant.
S1
SSH Chimie Biostatistiques Médicaments Cellule
Maïeutique UFP
- - - AAR - - - - - - BDR - - -
Médecine-Kiné MEAG H & BC
- - - ATC - - -
Odontologie MCFO
Module MAPS
Pharmacie Module Bases Fondamentales Module Diamant
Description de l'UE3
L'UE3 est la matière qui a pour but d'enseigner la connaissance des biostatistiques.
L’an passé :
✓ L’enseignant responsable de l’UE était le Pr. P. ROY ;
✓ Les durées des examens intermédiaires et finaux étaient respectivement de 30 et 45 minutes ;
✓ Coef. PASS 1,5 (Maïeutique = 10 / Médecine-Kiné-Ergo = 10 / Odontologie = 10 / Pharmacie = 10).
Statistiques descriptives
Probabilités
Fluctuation d’échantillonnage
Corrélation – Régression
Essais cliniques
Analyse de la survie
Note de la rédaction du Tutorat – Ce tableau est là à titre indicatif pour présenter l’UE et pour aider à
organiser son travail. Cependant pas de panique, il n’est là que pour aider dans le planning et dans la
gestion des révisions : certains chapitres exigent d’être davantage vus que d’autres, il faut donc être
vigilant avec les cours qui nécessitent un apprentissage plus long !
Le Tutorat recommande de venir participer aux épreuves majeures chaque semaine dans les
amphithéâtres de la faculté. Cela permettra de réviser, de s’entraîner, de s’évaluer et de se classer par
rapport aux autres étudiants.
Date
Fait
Les polycopiés du Tutorat étant rédigés à partir des cours de l'année précédente, ils n'ont aucune
valeur officielle de cours. Ils ne peuvent en aucun cas servir de référence opposable à une épreuve
majeure, à un concours blanc du Tutorat ou aux examens PASS. La seule référence qui fait foi pour les
examens PASS est le cours magistral donné en amphithéâtre par l'enseignant.
Le Tutorat déconseille fortement de se fier uniquement aux polycopiés et de négliger les cours
magistraux. Une écoute active associée à une prise de notes efficace, puis un recopiage au propre
reste la méthode la plus appropriée à l'apprentissage des cours.
Sommaire
Statistiques descriptives
Rédigé à partir du cours du Pr. ROY
Note de la rédaction – Ce cours est une introduction et un aperçu de notions qui seront développées
par la suite dans le semestre. Il ne faut pas s’inquiéter s’il ne paraît pas clair, petit à petit ce sont des
notions que vous allez apprivoiser.
I. Introduction
La médecine est une médecine factuelle, c’est l’Evidence Based Medecine (EBM). Chaque
information a un niveau de preuve scientifique, la littérature scientifique médicale permet la diffusion
des connaissances : cette communication scientifique permet un accès aux découvertes de façon
compréhensible en préservant l’intégrité de l’information. Il n’y a pas de sciences sans quantification
des résultats : une question, un dessin d’étude, un niveau de preuve.
Un patient n’est jamais identique à un autre, sa maladie, sa réponse au traitement, son pronostic,
tout varie. Comment alors analyser, comprendre, décider dans un monde où la variabilité est la règle ?
Pour répondre à des questions d’ordres générales, nous utilisons des échantillons représentatifs de la
population dont ils sont issus.
En effet, il existe des variabilités de résultats. Avec un test parfait, nous distinguerions
parfaitement les malades des non malades. Or, dans la réalité, il existe des faux positifs (des non
malades positifs au test) et des faux négatifs (des malades négatifs au test). Dès lors, il va falloir définir
un seuil pour lequel nous considérons le test positif, ce seuil représente un compromis entre les faux
positifs et les faux négatifs, par exemple nous pouvons avoir un test où nous n'aurons aucun faux
négatif qui serait hypothétiquement « toutes les personnes testées négatives sont non malades », ainsi
nous ne passerons pas à côté des malades (car ceux-ci auront un test forcément positif) mais nous
aurons un nombre de faux positifs énorme. Ainsi, il va falloir choisir un seuil qui permet de détecter le
plus de malades sans se tromper.
Choix du seuil avec Sp = Spécificité et Se = Sensibilité (notion revue plus tard dans le semestre).
L’inférence statistique correspond à une interprétation, ce n’est pas une simple analyse
descriptive ; nous tirons des conclusions générales à partir de cas particuliers.
Comment analyser les études ? Par une collecte des données puis une analyse déductive ou
descriptive et une analyse d’inférence ou inductive, c’est-à-dire généraliser à partir d’une étude.
Nous définissons également l’unité statistique, qui est un élément de l’échantillon. L’ensemble
des unités statistiques constituent l’échantillon. On remplacera volontiers par la suite le terme « unité
statistique » par le terme « individu ».
La distribution statistique correspond à l’ensemble des couples (xi, ni) où xi est une modalité de
la variable X et ni le nombre de fois où cette modalité est observée (c’est-à-dire l’effectif ou la
fréquence absolue). Cette distribution peut être également l’ensemble des couples (xi, fi) où fi est la
fréquence relative (ou proportion) de la modalité xi.
𝑛𝑖
𝑓𝑖 = (avec 𝑛 l'effectif total des observations)
𝑛
Remarque – Autrement dit, une distribution est une fonction qui associe une fréquence d'apparition à
une classe de valeur.
B. Variables
Elles peuvent être binaires, c’est-à-dire ne prendre que deux modalités, comme la variable sexe
(→ femme ou homme).
Répartition de la fréquence des hommes et des femmes dans un groupe donné (variable qualitative binaire).
Score de killip.
3. Variables quantitatives
Elles sont discrètes (exemple : nombre d’enfants, titres d’anticorps sériques) ou continues
(exemples : taille, poids).
Pour les variables continues, nous pouvons faire de la discrétisation c’est-à-dire l’arrondir
(exemples : taille en cm par exemple ou âge en année).
4. Séries
En mathématiques, on utilise le terme « série statistique » pour parler d’une liste de valeurs d’un
même ensemble.
Mais si nous faisons un tableau de valeurs ou une division en classes avec un histogramme, nous
arrivons à mieux analyser la situation :
Nous pouvons également calculer la fréquence cumulée ce qui donne une fonction en escalier
(car les valeurs sont discrètes ; en effet, nous ne pouvons pas avoir 2,5 enfants par exemple et la durée
d’incubation est discrétisée en jours).
Remarque – Si nous avons des classes inégales dans un histogramme, nous pouvons calculer la densité
de fréquence :
𝑓𝑖
𝑑𝑖 =
𝑎𝑚𝑝𝑙𝑖𝑡𝑢𝑑𝑒𝑖
Paramètres de position
▪ Moyenne arithmétique :
∑ xi
x̅ = (avec ∑ xi la somme des différentes valeurs de X et n le nombre total)
n
▪ Médiane :
Elle partage la série des valeurs triées en deux parties de même effectif, c’est-à-dire qu’il y a
autant de valeurs inférieures que de valeurs supérieures à la médiane.
Le mode est la valeur observée avec la plus grande fréquence. Sa valeur s’obtient directement à
partir du tableau statistique ou du diagramme en bâtons.
La classe modale est celle qui correspond au plus grand effectif si toutes les classes ont la même
amplitude.
Paramètres de dispersion
Le problème de la moyenne est sa sensibilité aux valeurs extrêmes, ainsi nous allons calculer des
paramètres de dispersion.
▪ Variance :
∑(X i − x̅)2 ∑ X i 2
σ2 = = − x̅ 2
n n
▪ Écart-type :
σ = √variance
▪ Extrêmes et étendue :
▪ Coefficient de variation :
σ
CV =
x̅
▪ Quantile de p :
Nous pouvons également le faire pour des fréquences relatives, dans ce cas il ne faut pas oublier
de diviser par n. Nous obtenons alors comme valeur totale 1.
V. Conclusion
Présentation des données, tableaux et graphes :
▪ Tableau des effectifs et des proportions de la distribution ;
▪ Diagrammes et histogrammes.
Loi normale :
Récapitulatif.
Probabilités
Rédigé à partir du cours de la Pr. BARDEL
Note de la rédaction – Les exercices corrigés présents sur le diaporama sont à la fin du chapitre.
I. Introduction
Les probabilités sont une notion fondamentale pour les métiers de la santé. Elles sont utiles pour :
▪ Le diagnostic ;
Exemples – Probabilité qu'un patient soit malade connaissant ses facteurs de risque, probabilité qu'un
individu soit atteint d'une maladie connaissant le résultat d'un test diagnostique.
▪ Le pronostic ;
Exemple – Probabilité de survie à 10 ans pour une femme traitée pour un cancer du sein.
▪ La thérapeutique ;
Exemples – Probabilité qu'un patient présente un effet secondaire de son traitement, probabilité qu'un
patient ne réponde pas bien au traitement.
▪ La génétique.
Exemple – Pour un couple, calcul du risque d’avoir un enfant malade.
Les probabilités sont les bases théoriques des statistiques qui sont beaucoup utilisées dans le
monde médical. Quelques exemples d’utilisation des statistiques dans le monde médical :
▪ Pour les essais cliniques (pour tester l’efficacité d’un traitement, un effet secondaire,
etc) ;
Exemples – Calcul du nombre de patients nécessaires à l’étude, conclusion de l’étude ;
▪ En épidémiologie ;
Exemples – Description de l’état de santé d’une population, recherche de facteurs de risque ;
▪ Dans la recherche.
Exemples – Analyse de résultats d’expériences, critique d’articles.
II. Probabilités
A. Expérience aléatoire et évènements
1. Définitions
Expérience aléatoire : expérience qui peut être répétée, qui a plusieurs résultats possibles et dont
le résultat est imprévisible.
Exemples – Lancer d'un dé à six faces, observation du statut maladie d'un individu.
Exemples – “Obtenir trois lors du lancer d’un dé à six faces”, “être malade”.
Ensemble fondamental (ou univers) : ensemble de tous les résultats possibles (évènements
élémentaires) d’une expérience aléatoire. Il est noté Ω ou S.
Ω peut être :
▪ Un ensemble fini :
- statut vis-à-vis de la maladie, Ω = {“Malade”, “Non malade”} ;
▪ Un ensemble infini dénombrable :
- nombre de lancers avant d'obtenir face avec la pièce, Ω = {1, 2, …} ;
▪ Un ensemble infini indénombrable :
- mesure du taux de cholestérol sanguin.
Exemple – Évènement A « obtenir un résultat strictement supérieur à quatre lors du lancer d'un dé à
six faces » : A = {5,6}.
Remarque – Il existe des évènements particuliers : l’évènement total Ω est certain, l’évènement vide Ø
est un évènement impossible.
2. Opérations
Il est possible de réaliser des opérations sur les évènements :
Complémentaire de l’évènement A.
Évènements incompatibles.
Remarque – Le système complet d'évènements : nous appelons système complet d’évènements toute
partition de Ω → c’est-à-dire tout ensemble d’évènement (Ai) tel que :
• ∀𝑖, 𝐴𝑖 ≠ Ø ;
• ∀𝑖 ≠ j, 𝐴𝑖 ∩ 𝐴𝑗 = Ø (évènements deux à deux incompatibles) ;
• ⋃𝑖 𝐴𝑖 = 𝛺.
Ω {1,2,3,4,5,6}
Union: 𝐴 ∪ 𝐵 {2,3,4,5,6}
Intersection: 𝐴 ∩ 𝐵 {4,6}
Complémentaire de B : 𝐵̅ {1,2}
A et C : incompatibles
𝐴∩𝐶 = Ø
(s’excluent mutuellement)
𝐴 Ø et 𝐷 Ø
Système complet
𝐴∩𝐷 = Ø
d'évènements A et D
𝐴∪𝐷 = 𝛺
B. Probabilité
1. Définition
Probabilité : nous appelons probabilité, sur Ω, une application P qui à tout évènement A associe
un réel P(A) positif ou nul tel que :
▪ P(Ω) = 1 ;
▪ Si A et B sont incompatibles, alors P(A ∪ B) = P(A) + P(B).
Exemple – Croisement entre plantes hétérozygotes Aa pour un caractère à dominance stricte (a = allèle
muté, récessif).
Lorsque n +, la fréquence relative tend vers la probabilité (selon la loi des grands nombres).
2. Propriétés
Deux évènements A et B.
Par définition :
𝑷(𝜴) = 𝟏 et 𝑷(Ø) = 𝟎
𝑠𝑢𝑟𝑓𝑎𝑐𝑒 𝑑𝑒 𝐴
𝑃(𝐴) =
𝑠𝑢𝑟𝑓𝑎𝑐𝑒 𝑑𝑒 𝛺
Il existe plusieurs propriétés régissant les probabilités :
▪ Si A1, A2, ...An sont n évènements incompatibles deux à deux alors :
𝑃(𝐴1 ∪ 𝐴2 ∪ … ∪ 𝐴𝑛 ) = ∑𝑛𝑖=1 𝑃(𝐴𝑖 ) ;
▪ 𝑷(Ā) = 𝟏 − 𝑷(𝑨) ;
▪ Si A et B sont des évènements tels que 𝑨 ⊂ 𝑩 alors 𝑷(𝑨) ≤ 𝑷(𝑩) ;
▪ 𝑷(𝑨) ≤ 𝟏 ;
▪ Pour deux évènements A et B, 𝑷(𝑨 ∪ 𝑩) = 𝑷(𝑨) + 𝑷(𝑩) − 𝑷(𝑨 ∩ 𝑩).
La probabilité d’un évènement A quelconque est la somme des probabilités des évènements
élémentaires qui constituent A.
Exemple – Cas particulier de l’équiprobabilité : tous les évènements élémentaires ont la même
probabilité. Soit Ω = {ω1, ω2, …, ωn}, les probabilités des évènements élémentaires sont
p1 = p2 = … = pn = 1/n. La probabilité d’un évènement A quelconque s’écrit alors :
𝑛𝑜𝑚𝑏𝑟𝑒 𝑑𝑒 𝑐𝑎𝑠 𝑓𝑎𝑣𝑜𝑟𝑎𝑏𝑙𝑒𝑠 à 𝑙𝑎 𝑟é𝑎𝑙𝑖𝑠𝑎𝑡𝑖𝑜𝑛 𝑑𝑒 𝐴
𝑃(𝐴) =
𝑛𝑜𝑚𝑏𝑟𝑒 𝑑𝑒 𝑐𝑎𝑠 𝑝𝑜𝑠𝑠𝑖𝑏𝑙𝑒𝑠 𝑑𝑒 𝑙 ′ 𝑒𝑛𝑠𝑒𝑚𝑏𝑙𝑒 Ω
Les calculs de probabilités se ramènent à des problèmes de dénombrement.
Exemple – Lancer d’un dé à six faces, Ω = {1,2,3,4,5,6}. Si A = “obtenir un résultat strictement inférieur
à trois” = {1,2}, alors P(A) 2/6 = 1/3.
▪ Si Ω est dénombrable : si Ω = {ω1, ω2, … , ωn. . . } ; pour définir une probabilité sur
Ω, il suffit de se donner une suite (pn) de nombres réels positifs tels que ∑+∞
i=1 pi = 1.
C’est une définition simplifiée d’une probabilité sur un ensemble Ω infini
dénombrable. La probabilité d'un évènement A quelconque est la somme des
probabilités des évènements élémentaires qui constituent A, à savoir :
+∞
P(A) = ∑ pj
j∈A
𝑷(𝑨 ∩ 𝑩)
𝑷(𝑨|𝑩) =
𝑷(𝑩)
𝐏(𝐀|𝐁) ≠ 𝐏(𝐁|𝐀).
𝐵 = 𝐵 ∩ 𝛺 = 𝐵 ∩ (𝐴 ∪ Ā)
𝐵 = (𝐵 ∩ 𝐴) ∪ (𝐵 ∩ Ā)
Or : (𝐵 ∩ 𝐴) et (𝐵 ∩ Ā) sont incompatibles
Si {A1, A2, …, An} forment un système complet d’évènements, alors pour tout évènement B :
𝑛
3. Le théorème de Bayes
Le théorème de Bayes permet d’exprimer 𝑃(𝐴𝑗|𝐵) en fonction des 𝑃(𝐵|𝐴𝑖) et de 𝑃(𝐴𝑖).
Connaissant la prévalence d'une maladie [𝑃(𝑀)] et la probabilité qu'un test diagnostique soit positif
̅ )], calculer la probabilité qu'un individu
chez les malades [𝑃(𝑇 + |𝑀)] et chez les individus sains [𝑃(𝑇 + |𝑀
soit malade si son test est positif [𝑃(𝑀|𝑇 + ) = 𝑉𝑃𝑃].
Dans le cas général, le théorème de Bayes se définit ainsi : soit {A1, A2, …, An} un système complet
d’évènements et B un évènement de probabilité non nulle. Pour tout j ∈ {1,2, …, n} on a :
IV. Indépendance
Deux évènements A et B de probabilité non nulle sont indépendants (relativement à la probabilité
P) si et seulement si : 𝑷(𝑨|𝑩) = 𝑷(𝑨). Nous avons alors de la même façon 𝑷(𝑩|𝑨) = 𝑷(𝑩). La
réalisation d’un des évènements n’a pas d’influence sur la probabilité de réalisation de l’autre
évènement.
Il est possible de définir l’indépendance de deux évènements d’une autre façon : A et B sont
indépendants (relativement à la probabilité P) si et seulement si 𝑷(𝑨 ∩ 𝑩) = 𝑷(𝑨) × 𝑷(𝑩).
Démonstration :
A et B incompatibles donc 𝑨 ∩ 𝑩 = Ø, 𝑷(𝑨 ∩ 𝑩) = 𝟎
Nous parlerons d’épreuves indépendantes lorsque le résultat d’une des épreuves n’a aucune
influence sur le résultat des autres épreuves. L’application en statistiques des épreuves indépendantes
est la constitution de n échantillons.
V. Exercices
A. Exercice : évènements
1. Énoncé
Soit un groupe de 3 personnes. On note Gi l’évènement « L’individu i est vacciné contre la
grippe ». Soient les deux évènements suivants :
▪ 𝐸1 : « Au moins un individu est vacciné contre la grippe » ;
▪ 𝐸2 : « Au moins 2 individus sont vaccinés contre la grippe ».
2. Correction
1) 𝐸1 : « Aucun individu n’est vacciné contre la grippe ».
2) Expression de 𝐸1 et 𝐸2 :
➔ 𝐸1 = 𝐺1 ∪ 𝐺2 ∪ 𝐺3 ou alors : 𝐸1 = complémentaire de 𝐸1 avec 𝐸1 = 𝐺1 ∩ 𝐺2 ∩ 𝐺3
➔ 𝐸2 = (𝐺1 ∩ 𝐺2 ∩ 𝐺3 ) ∪ (𝐺1 ∩ 𝐺2 ∩ 𝐺3 ) ∪ (𝐺1 ∩ 𝐺2 ∩ 𝐺3 ) ∪ (𝐺1 ∩ 𝐺2 ∩ 𝐺3 )
1. Énoncé
Dans une population, 45 % des personnes interrogées déclarent pratiquer une activité sportive,
30 % déclarent être fumeurs. Par ailleurs, 10 % déclarent être à la fois fumeurs et pratiquer une activité
sportive. Si on prend un individu au hasard dans cette population, quelle est la probabilité qu’il ne soit
ni sportif, ni fumeur ?
2. Correction
Méthode 1 : tableau
𝑃(𝑆 ∩ 𝐹) = 1 − 𝑃 (𝑆 ∩ 𝐹) = 1 − 𝑃(𝑆 ∪ 𝐹)
1. Énoncé
Dans un lycée, 20 % des élèves sont des garçons étudiant la biologie et 12 % sont des filles
étudiant la biologie. Il y a dans ce lycée autant de filles que de garçons. On choisit un élève au hasard
et on constate qu’il n’étudie pas la biologie.
1) Que représentent 20 % et 12 % ?
2. Correction
On notera G l’évènement « Être un garçon »
et B : « Etudier la biologie ».
0,30
𝑃(𝐺|𝐵) = ≈ 0,44
0,68
1. Énoncé
Un groupe de 70 individus est constitué de 40 malades et 30 non malades. Respectivement 45 %
des malades et 30 % des non malades sont fumeurs. On notera M : « Être malade » et F : « Être
fumeur ».
2. Correction
1) 𝑃(𝐹|𝑀) = 0,45 et 𝑃(𝐹|𝑀) = 0,30.
1. Énoncé
Un médecin examine les élèves d’un lycée pour déterminer leur aptitude au sport. Il constate
que :
▪ 1/3 des élèves est d’origine rurale, les autres étant citadins ;
▪ Parmi les ruraux, la moitié présente une bonne aptitude au sport ;
▪ Parmi les citadins, 40 % présentent une bonne aptitude au sport.
1) Si on prend un élève au hasard, quelle est la probabilité qu’il ait une bonne aptitude au sport ?
2) Si un élève a une bonne aptitude au sport, quelle est la probabilité pour qu’il soit d’origine
rurale ? Pour qu’il soit citadin ?
2. Correction
→ Informations de l’énoncé :
Pour un élève choisi au hasard, la probabilité d’avoir une bonne aptitude au sport vaut environ
0,43.
2) On a :
𝑃(𝑅 ∩ 𝑆) 0,165
𝑃(𝑅|𝑆) = = = 0,38
𝑃(𝑆) 0,43
𝑃(𝑅|𝑆) = 1 − 𝑃(𝑅|𝑆) = 1 − 0,38 = 0,62
Pour un élève ayant une bonne aptitude au sport, la probabilité d’être d’origine rurale vaut 0,38
et la probabilité d’être citadin vaut 0,62.
F. Exercice : probabilités
1. Énoncé
Sur un grand nombre de naissances, on a pu estimer :
▪ La probabilité d’avoir un garçon : 𝑃(𝐺) = 0,52 ;
▪ La probabilité d’avoir une fille : 𝑃(𝐹) = 0,48.
2. Correction
1) Avoir 3 garçons : 𝑮𝟏 ∩ 𝑮𝟐 ∩ 𝑮𝟑
P(« Avoir au moins 2 filles ») = P(« Avoir 2 filles ») + P(« Avoir 3 filles »)
Donc :
Nous considérons dans ce chapitre un ensemble fondamental des résultats d’une expérience
aléatoire que l’on note Ω (Omega). Une variable aléatoire correspond à l’attribution d’un nombre réel
x à chaque résultat de l’expérience. Une variable aléatoire est une variable quantitative.
Dans cette illustration, les évènements de l’ensemble Ω, notés 𝜔, sont associés à un nombre réel,
noté x, qui est la réalisation de la variable X. Il faut, de plus, ne pas oublier que plusieurs évènements
peuvent être associés à une même réalisation, comme le souligne l’exemple avec xi et 𝜔2 et 𝜔3. Cela
signifie qu’il n’y a pas forcément autant de valeurs de x que d’évènements élémentaires 𝜔.
Exemples – Nombre obtenu avec un dé, facteur rhésus, nombre de filles dans une fratrie, etc.
Nous allons donc utiliser une notation particulière pour caractériser les variables aléatoires et
leurs valeurs possibles. Nous utiliserons des majuscules (X, Y, Z, etc) pour les variables aléatoires et
des minuscules (xi, a, z) pour les valeurs possibles de cette variable aléatoire, appelées aussi
réalisations. Les évènements sont notés : (X = k), (0 ≤ Z ≤ 1).
Remarque – Vous pouvez lire (X = k) comme « la variable aléatoire X prend la valeur k ». Vous pourrez
ensuite chercher la probabilité que cela arrive.
Ces variables aléatoires font, de plus, appel à différentes propriétés utiles pour réaliser les
différents exercices.
Remarque – Ces propriétés sont des applications du cours sur les probabilités vu précédemment : la
probabilité que la variable aléatoire prenne la valeur x ne peut pas être négative puisqu’une probabilité
est comprise entre 0 et 1, et la somme des probabilités de tous les x correspond à faire la somme de
tous les évènements de notre univers, or, P(Ω)=1 donc la somme des probabilités vaut 1.
Représentation classique
Dès lors, la distribution ou loi de probabilité du nombre de filles dans la fratrie est :
Événements possibles GG GF ou FG FF
Valeurs possibles 0 1 2
Probabilités ¼ ½ ¼
Calcul de probabilités :
Nous parlons donc dans le cas de variables aléatoires continues de densité de probabilité (ddp),
qui correspond à toute fonction f telle que :
▪ ∀𝑥 ∈ ℝ, 𝑓(𝑥) ≥ 0 ;
+∞
▪ ∫−∞ 𝑓(𝑥)𝑑𝑥 = 1 (aire sous la courbe égale à 1) ;
▪ 𝑷(𝑿 = 𝒙𝒊 ) = 𝟎 . Attention ! Cela est valable uniquement pour les variables
aléatoires continues mais pas pour les variables aléatoires discrètes.
Elle emprunte là aussi les mêmes propriétés (détaillées dans la sous-partie 2). Cependant, nous
n’aurons plus de fonctions en marche d’escaliers mais des fonctions continues.
Dans ce cas de figure, nous pourrons d’ailleurs trouver un lien entre densité de probabilité et
fonction de répartition.
𝑥
Soit, une variable aléatoire (VA) X dont la ddp est f. F : x → F(x) = ∫−∞ 𝑓(𝑡)𝑑𝑡. Alors, nous aurons :
𝑏
C. Espérance et variance
Soit X une VA continue et soit f sa ddp. Son espérance est définie par :
+∞
𝐸(𝑋) = ∫ 𝑥𝑓(𝑥)𝑑𝑥
−∞
Nous parlons de variable aléatoire centrée dans le cas où 𝐸(𝑋) = 0. Donc la variable aléatoire 𝑌
avec 𝑌 = 𝑋 − 𝐸(𝑋) est une variable aléatoire centrée. C’est utile pour passer d’une loi normale à une
loi normale centrée réduite, nous verrons comment réduire dans la suite du cours.
La variance.
▪ Soit X une VA :
𝑣𝑎𝑟(𝑋) = ∑(𝑥𝑖 − 𝐸(𝑋))2 × 𝑃(𝑋 = 𝑥𝑖 )
𝑖
▪ Ou alors :
𝑣𝑎𝑟(𝑋) = 𝐸(𝑋 2 ) − 𝐸(𝑋)2 avec 𝐸(𝑋)2 = ∑ 𝑥𝑖2 × 𝑃(𝑋 = 𝑥𝑖 )
𝑖
▪ Ou alors :
+∞
𝑣𝑎𝑟(𝑋) = 𝐸(𝑋 2 ) − 𝐸(𝑋)2 𝑎𝑣𝑒𝑐 𝐸(𝑋 2 ) = ∫ 𝑥 2 × 𝑓(𝑥)𝑑𝑥
−∞
Contrairement à l’espérance, une variance est toujours positive ou nulle. De plus, elle n’est pas
linéaire, ce qui explique les propriétés suivantes :
▪ 𝑣𝑎𝑟(𝑎𝑋) = 𝑎2 𝑣𝑎𝑟(𝑋) ;
▪ 𝑣𝑎𝑟(𝑋 + 𝑏) = 𝑣𝑎𝑟(𝑋) ;
▪ 𝑣𝑎𝑟(𝑋 + 𝑌) = 𝑣𝑎𝑟(𝑋) + 𝑣𝑎𝑟(𝑌) + 2𝑐𝑜𝑣(𝑋, 𝑌) ;
▪ Si 𝑿 et 𝒀 sont 2 VA indépendantes 𝒂𝒍𝒐𝒓𝒔 𝒄𝒐𝒗(𝑿, 𝒀) = 𝟎 (attention réciproque
fausse).
3. Écart-type
Soit X une VA. On note 𝜎𝑥 l’écart-type de cette VA qui se définit par :
𝜎𝑥 = √𝑣𝑎𝑟(𝑋)
Pour avoir une variable centrée réduite, il faut centrer votre VA puis la réduire, soit :
𝑿−𝑬(𝑿)
𝒁=
𝝈𝒙
Propriétés de Z :
▪ E(Z) = 0 ;
▪ var(Z) = 1.
Soient X et Y deux VA indépendantes à valeurs respectivement dans E = {x1, x2…} et F = {y1, y2,…}
donc ∀(𝑥𝑖 , 𝑦𝑗 ) ∈ 𝐸 × 𝐹 : 𝑃(𝑋 = 𝑥𝑖 ; 𝑌 = 𝑦𝑗 ) = 𝑃(𝑋 = 𝑥𝑖 ) × 𝑃(𝑌 = 𝑦𝑗 )
1. Bernoulli
Bernoulli est une loi discrète, c’est-à-dire une VA discrète qui ne peut prendre que deux valeurs :
0 et 1. La VA prend la valeur 1 si l’évènement observé se réalise et 0 si l’évènement observé ne se
réalise pas. Pour chaque valeur, nous déterminons une probabilité.
Soit la probabilité p d’obtenir 1 et q celle d’obtenir 0. Nous pouvons donc en déduire que
𝑞 = 1 − 𝑝. Si X suit une loi de Bernoulli de paramètre p (c’est-à-dire que la probabilité d’obtenir 1
dans cette loi est égale à p), nous noterons de la façon suivante :
𝑋 → 𝐵𝑒𝑟𝑛(𝑝)
Dans le cas où X suit une loi de Bernoulli de paramètre p, nous pourrons en déduire l’espérance
et la variance de X beaucoup plus simplement, en reprenant les formules ci-dessus :
𝐸(𝑋) = 0 × 𝑞 + 1 × 𝑝 = 𝑝
𝐸(𝑋 2 ) = 02 × 𝑞 + 12 × 𝑝 = 𝑝
𝑬(𝑿) = 𝒑 et 𝒗𝒂𝒓(𝑿) = 𝒑𝒒
La loi de Bernoulli est utile pour modéliser les résultats d’une expérience à deux issues possibles
comme le statut maladie d’un individu.
Remarque – Attention, le schéma de Bernoulli est la répétition de VA qui suivent chacune la même loi
de Bernoulli. Si on pose une VA X qui correspond au nombre de patients ayant eu des effets indésirables
parmi les 10 patients, alors X ne suit pas une loi de Bernoulli car il y a plus de 2 issues possibles (il peut
y avoir 0 effet indésirable, 1, 2, 3, etc). Donc une somme de VA suivant une loi de Bernoulli ne donne
pas une VA suivant une loi de Bernoulli, c’est très important à comprendre. Ici, X suit une loi binomiale.
2. Loi binomiale
Mise en situation : on se trouve dans une population où la proportion de Rh+ est égale à 0,85. On
prend un groupe de 5 patients et on souhaite savoir la probabilité d’avoir 2 patients avec un Rh+.
Cependant, cela ne fonctionne que pour un patient. Donc, pour 5 patients, nous allons définir une
nouvelle VA notée Sn , correspondant au nombre de Rh+. Cela consiste donc à répéter 5 fois l’épreuve
de Bernoulli et ce de façon indépendante. Nous aurons alors :
Sn = X 1 + X 2 + X 3 + X 4 + X 5
Sn suit alors une loi binomiale
La loi binomiale se définit donc par deux paramètres : n et p. Nous noterons donc de la façon
suivante : Sn → ℬ(n, p).
La probabilité d’obtenir k succès parmi les n répétitions, notée P(Sn = k) est égale à :
Représentation d’une loi de probabilité et de la fonction de répartition d’une loi binomiale de paramètre 10 et 0,1.
𝑬(𝑺𝒏 ) = 𝒏𝒑
𝒗𝒂𝒓(𝑺𝒏 ) = 𝒏𝒑𝒒
𝝈𝑺𝒏 = √𝒏𝒑𝒒
Comme nous sommes dans le cas d’une loi continue, nous utiliserons une densité de probabilité,
qui est définie par :
1 1 𝑥−𝜇 2
𝑓(𝑥) = × exp (− ( ) ) ∀𝑥 ∈ℝ
𝜎 × √2𝜋 2 𝜎
Comme nous pouvons le supposer à partir de ces deux représentations graphiques, la loi normale
présente différentes propriétés :
▪ Elle est symétrique par rapport à l’axe vertical passant par μ ;
▪ Elle présente deux points d’inflexion : μ − σ et μ + σ ;
▪ Elle possède une médiane = mode = 𝛍 ;
▪ Son aire sous la courbe vaut 1.
Remarque – Dans le cadre de la loi normale, les points d’inflexions sont les points de la courbe où la
pente est la plus importante en valeur absolue.
Dans le cas de 2 VA indépendantes suivant une loi normale, on peut composer avec une troisième
telle que :
1. Fonction de répartition
Soit X une VA suivant une loi normale de paramètres 𝜇 𝑒𝑡 𝜎. Sa fonction de répartition est alors
définie par :
𝑥
1 1 𝑡−𝜇 2
𝐹(𝑥) = 𝑃(𝑋 ≤ 𝑥) = ∫ exp (− ( ) )𝑑𝑡
𝜎√2𝜋 −∞ 2 𝜎
Nous noterons 𝜙 la fonction de répartition de la loi normale centrée réduite. Nous aurons alors :
𝑃(𝑍 ≤ 𝑧) = 𝜙(𝑧)
𝑃(𝑍 ≥ 𝑧) = 1 − 𝑃(𝑍 ≤ 𝑧) = 1 − 𝜙(𝑧)
𝑃(𝑍 ≥ 𝑧) = 𝑃(𝑍 ≤ −𝑧) = 𝜙(−𝑧) (du fait de la symétrie de la ddp)
Nous utiliserons ensuite les tables de la loi normale qui seront données pour les calculs des
probabilités.
Ainsi, pour une valeur de z donnée, la 1ère table donne 𝑃(𝑍 ≤ 𝑧).
Pour une probabilité p donnée, la 2ème table donne z tel que 𝑃(𝑍 ≥ 𝑧) = 𝑝.
Exemples :
▪ Lire dans la table P(Z < 1,42)
On ne peut pas lire dans la table la probabilité pour un nombre négatif, nous allons donc utiliser
la symétrie de la courbe :
P(Z < -z) = P(Z > z) donc P(Z < -0,21) = P(Z > 0,21). Or, la table nous
donne les valeurs pour P(Z < z) et pas >.
Donc :
P(Z < - 0,21) = P(Z > 0,21)
P(Z < - 0,21) = 1 – P(Z < 0,21)
P(Z < - 0,21) = 1 – 0,58
P(Z < - 0,21) = 0,42.
Il existe une seconde table qui donne la valeur de z tel que P(Z > z) = p.
0,75 est trop grand pour être trouvé dans la table. Or en utilisant la symétrie de la courbe, on
peut dire que chercher z tel que P(Z > z) = 0,75 revient à chercher z tel que P(Z < z) = 0,25 et donc que
P(Z > -z) = 0,25. On peut lire alors dans la table que -z vaut 0,67 et en déduire que z vaut -0,67.
𝝈𝑿 √𝒑𝒒
𝑴 ↝ 𝑵 (𝝁𝑴 = 𝝁𝑿 ; 𝝈𝑴 = = )
√𝒏 𝒏
Remarque – En pratique, le TLC s’utilise pour approximer une proportion par une loi normale.
Remarque – Il s’agit de l’approximation d’une loi discrète, où 𝑃(𝑋 = 𝑘) ≠ 0, par une loi continue, donc
où 𝑃(𝑋 = 𝑘) = 0. Nous appliquons donc une correction de continuité. Cependant, cette correction est
négligeable dans le cadre de la première année.
III. Conclusion
Bien retenir les conditions d’application des différentes lois et les approximations ainsi que les
conditions pour approximer. Connaître les rôles spécifiques des différentes lois et ce qu’elles
représentent dans le cadre des calculs de probabilités.
Note de la rédaction – Ce polycopié ne contient pas toutes les démonstrations ni tous les exemples vus
en cours mais reprend toutes les notions essentielles pour comprendre le chapitre et résoudre tous les
exercices des épreuves de Tutorat ou du concours.
Pour plus de clarté, certaines notions ne sont pas traitées dans le même ordre que dans les
diapositives de l'enseignante présentées en cours.
Leur résultat ne constitue pas une indication parfaite de l’état du patient. On leur définit ainsi des
critères de jugement de performance :
▪ La sensibilité (Se) d’un test ;
▪ La spécificité (Sp) d’un test.
NDLR – La sensibilité et la spécificité sont appelées « valeurs intrinsèques du test » car elles ne
dépendent que de la performance du test sans être influencées par la prévalence de la maladie.
Un test “parfait”, c’est-à-dire totalement capable de discriminer les malades des non-malades,
est appelé Gold Standard. Il nous permet ainsi de calculer les valeurs intrinsèques du test.
𝑉𝑃 𝑉𝑁
𝑆𝑒 = = 𝑝(𝑇 + |𝑀) 𝑆𝑝 = ̅)
= 𝑝(𝑇 − |𝑀
𝑉𝑃 + 𝐹𝑁 𝑉𝑁 + 𝐹𝑃
Nous choisirons donc un seuil différent en fonction de ce que nous cherchons : soit un test
sensible, soit un test spécifique.
Positif VP FP
Test
Négatif FN VN
VP + FN FP + VN
Remarque – Vous pouvez mettre en lien ce tableau avec le chapitre des Probabilités :
Cela permet de comprendre les formules du chapitre si vous comprenez bien ce lien avec les
probabilités, vous pouvez retrouver les formules sans les apprendre par cœur.
𝑴 ̅
𝑴 Total
T+ 𝑉𝑃 = 𝑃(𝑇 + ∩ 𝑀) ̅)
𝐹𝑃 = 𝑃(𝑇 + ∩ 𝑀 𝑉𝑃 + 𝐹𝑃 = 𝑃(𝑇 + )
T- 𝐹𝑁 = 𝑃(𝑇 − ∩ 𝑀) ̅)
𝑉𝑁 = 𝑃(𝑇 − ∩ 𝑀 𝐹𝑁 + 𝑉𝑁 = 𝑃(𝑇 − )
Total 𝑉𝑃 + 𝐹𝑁 = 𝑃(𝑀) ̅)
𝐹𝑃 + 𝑉𝑁 = 𝑃(𝑀 𝑉𝑃+𝐹𝑃+𝐹𝑁+𝑉𝑁
Si on reprend la définition précédente de la sensibilité : il s’agit de la probabilité qu’un sujet soit positif
au test sachant qu’il est réellement malade (T+ : évènement « test positif »). On peut ainsi écrire :
𝑆𝑒 = 𝑃(𝑇 + |𝑀)
En appliquant la formule vue dans le cours de probabilités conditionnelles, tel que :
𝑃(𝐴 ∩ 𝐵)
𝑃(𝐴|𝐵) =
𝑃(𝐵)
On peut déduire que :
𝑃(𝑇 + ∩ 𝑀)
𝑃(𝑇 + |𝑀) =
𝑃(𝑀)
En utilisant maintenant le tableau à double entrée que nous avons réalisé plus haut, on obtient
P(T+∩M) = VP et P(M) = VP + FN. Ainsi :
𝑉𝑃
𝑆𝑒 = 𝑃(𝑇 + |𝑀) =
𝑉𝑃 + 𝐹𝑁
Étant une probabilité, la sensibilité est comprise entre 0 et 1. Un test sensible est un test dont la
sensibilité tend vers 1.
Nous pouvons appliquer la même chose à la spécificité : il s’agit de la probabilité qu’un sujet soit négatif
au test sachant qu’il n’est réellement pas malade (T- : évènement « test négatif »). On peut ainsi écrire :
𝑆𝑝 = 𝑃(𝑇 − |𝑀 ̅)
Et :
𝑃(𝑇 −∩ 𝑀̅)
̅) =
𝑃(𝑇 − |𝑀
𝑃(𝑀̅)
̅ ) = VN et P(M
En utilisant le tableau, on a P(T-|M ̅ ) = FP + VN, ainsi :
𝑉𝑁
𝑆𝑝 = 𝑃(𝑇 − |𝑀 ̅) =
𝐹𝑃 + 𝑉𝑁
Étant une probabilité, la spécificité est comprise entre 0 et 1. Un test spécifique est un test dont la
spécificité tend vers 1.
Remarque – Attention néanmoins, ceci n’est pas une généralité : ici, pour être positif il faut être au-
dessus du seuil choisi, cependant, il existe des maladies pour lesquelles, pour être positif, il faut être en
dessous d’un certain seuil (par exemple pour une hypothyroïdie avec le dosage de l’hormone T3). Cela
modifie les schémas précédents :
Pour que le test soit très sensible, il faut Pour que le test soit très spécifique, il faut
diminuer les faux négatifs : diminuer les faux positifs :
𝑉𝑃 𝑉𝑁
𝑆𝑒 = 𝑃(𝑇 + |𝑀) = ̅) =
𝑆𝑝 = 𝑃(𝑇 − |𝑀
𝑉𝑃 + 𝐹𝑁 𝐹𝑃 + 𝑉𝑁
Ainsi, la sensibilité tend vers 1. Ainsi, la spécificité tend vers 1.
Dépistage du cancer du sein à l’aide d’un test ordinal avec modification du seuil diagnostique.
Nous constatons avec l'exemple ci-dessus que le seuil choisi va considérablement modifier les
valeurs intrinsèques de notre test, c’est-à-dire la sensibilité et spécificité.
Ainsi, il faut trouver un équilibre pour à la fois : détecter le plus de malades (sensibilité élevée) et
ne pas détecter à tort des non-malades (spécificité élevée).
La valeur seuil de diagnostic est donc à fixer en fonction de la prévalence de la maladie : le test
doit être très sensible si nous sommes dans une population ciblée, le but étant dans ce cas de repérer
un maximum de malades.
La courbe ROC est un graphique nous permettant de choisir le test qui sera le plus intéressant
pour répondre à la question clinique posée.
Elle représente les valeurs intrinsèques du test simultanément : pour chaque seuil diagnostique,
nous déterminons le couple (Se ; Sp). Nous visualisons alors l’éloignement de la courbe à la diagonale.
Celle-ci correspond à un test non discriminant quel que soit le seuil choisi (c’est-à-dire pour lesquels
nous avons toujours Sp = Se).
Le point supérieur gauche n’est jamais atteint : il s’agit du Gold Standard (Se = 100 % ;
Sp = 100 %). La capacité d’un test peut ainsi être estimée par l’aire sous la courbe (ASC). Plus cette aire
est importante (soit plus il se rapproche du test parfait sur la courbe) meilleur sera le test.
Courbe ROC.
Elles dépendent des valeurs intrinsèques du test et de la prévalence de la maladie. Celle-ci est
également appelée probabilité pré-test (d’avoir la maladie), c’est-à-dire la probabilité d’être malade
avant d’avoir réalisé le test.
NDLR – Le test va en effet modifier la probabilité d’être malade en fonction du résultat de ce test. S’il
ne modifie pas cette probabilité, alors il est inutile (aucun renseignement utile nous a été apporté).
𝑉𝑃 𝑆𝑒 × 𝑃(𝑀)
𝑉𝑃𝑃 = 𝑃(𝑀 | 𝑇 +) = =
̅)
𝑉𝑃 + 𝐹𝑃 𝑆𝑒 × 𝑝(𝑀) + (1 − 𝑆𝑝) × 𝑝(𝑀
𝑉𝑁 𝑆𝑝 × 𝑃(𝑀̅)
̅ | 𝑇 −) =
𝑉𝑃𝑁 = 𝑃(𝑀 =
̅ ) + (1 − 𝑆𝑒) × 𝑝(𝑀)
𝑉𝑁 + 𝐹𝑁 𝑆𝑝 × 𝑝(𝑀
Propriétés :
▪ Plus la prévalence de la maladie est élevée, meilleure est la VPP ;
▪ Plus la prévalence de la maladie est basse, meilleure est la VPN ;
▪ Plus le test est sensible, meilleure est la VPN ;
▪ Plus le test est spécifique, meilleure est la VPP.
Remarque – Vous pouvez faire les mêmes applications des probabilités pour ces formules en reprenant
la méthode développée précédemment.
Ces ratios de vraisemblance permettent ainsi de comparer les tests entre eux, pour savoir lequel
sera le plus pertinent en fonction de la question posée, c’est-à-dire si nous voulons un test spécifique
ou sensible. De plus, nous pouvons aussi savoir si un test est plus sensible ou plus spécifique. Pour cela,
il suffit de comparer le RV+ et (1/RV-) du même test (nous prenons l’inverse du ratio de vraisemblance
négatif pour pouvoir comparer ces deux ratios n'appartenant pas au même intervalle).
D. Odds
L’Odds ratio est un autre moyen d’accéder à la probabilité post-test d’être malade.
Il estime le risque relatif d’être malade en fonction du résultat des valeurs intrinsèques d’un test,
de son résultat et de la prévalence de la maladie. En effet, si la prévalence d’une maladie est élevée,
nous aurons d’autant plus tendance à croire à la positivité d’un test par exemple.
En fonction du résultat du test (positif ou négatif), nous aurons l’odds post-test positif ou négatif
(respectivement) :
Tout d'abord il n'est très souvent pas indiqué explicitement dans l'énoncé si l'échantillon est
représentatif de la population ou non, il faut le déduire.
L’information est forcément dans l’énoncé. Cela dépend du schéma d’étude. Lorsque l’étude est
de type cas témoins (constitution d’un groupe de malades et d’un groupe de sujets non malades
indépendamment), cela n’a pas de sens d’estimer directement sur les données les valeurs prédictives
car la répartition malades / non malades n’est pas représentative de la prévalence d’une maladie dans
une population donnée.
Dès lors que l’étude est constituée d’un échantillon qui est le reflet d’une population donnée,
alors il est possible d’estimer directement les valeurs prédictives (et autres paramètres) pour cette
population.
Explication –
Une fois qu’on a déterminé si un échantillon est représentatif, on se retrouve alors face à plusieurs
scénarii possibles :
Cette notion de représentativité peut sembler complexe à cerner au début, mais elle est
fondamentale dans la résolution des exercices portant sur les tests diagnostiques.
Exemples d’exercices :
Nous choisissons ensuite le test le plus approprié selon ce que nous cherchons à mettre en
évidence, c’est-à-dire un dépistage de masse par exemple, ou un test spécifique pour confirmer un
diagnostic.
Prenons ici un exemple pour mieux comprendre : un patient arrive aux urgences avec des
douleurs abdominales violentes, des troubles urinaires avec du sang dans les urines.
Pour confirmer ce diagnostic, nous cherchons le test présentant la meilleure sensibilité ainsi que
la meilleure spécificité.
Nous constatons donc que l’uroscanner est le meilleur test avec la meilleure sensibilité et la
meilleure spécificité.
Résumé des données des différents tests lors de suspicion de calculs dans les voies excrétrices urinaire.
Résumé des données des différents tests lors de suspicion de calculs dans les voies excrétrices urinaires.
Si nous réalisons le test « intervention chirurgicale », alors l’espérance de vie, notée EDV sera :
𝐸𝐷𝑉 = 𝑃(𝑀) × 𝐸𝐷𝑉(𝑀 + ∅𝑡𝑒𝑠𝑡) + 𝑃(𝑀) × 𝐸𝐷𝑉(𝑀 − ∅𝑡𝑒𝑠𝑡)
Conclusion : l’EDV est supérieure si nous réalisons une intervention chirurgicale, c’est donc cette
méthode qui sera retenue.
Il s’agit bien d’une aide objective à la décision prenant en compte l’incertitude des examens.
Ces arbres de décision nous aident à prendre la décision, mais ils ne nous la donnent pas !
Une décision humaine est ensuite prise. Il faut voir cet arbre comme un outil de décision médicale.
À retenir :
▪ Sensibilité et spécificité (définitions – formules – dans quel cas nous les utilisons) ;
▪ VPP et VPN (formules - savoir lesquelles dépendent de la prévalence et des valeurs
intrinsèques du test) ;
▪ RV+ et RV- (formules et leur utilité pour affirmer ou éliminer la présence de la
maladie en fonction du résultat du test) ;
▪ Odds et probabilité pré et post-test ;
▪ Comprendre quand un échantillon est représentatif ou non ;
▪ Arbre de décision (bien comprendre le fonctionnement, plus que d’apprendre par
cœur les formules).
Remarque – Comprendre ce cours vous aidera à suivre correctement celui sur l’épidémiologie. Les
notions de ce cours y seront utilisées.
Note de la rédaction – Dans un souci de clarté, l’ordre des parties a été modifié. Attention lors du suivi
du cours magistral !
En effet, il est difficile de recueillir des données complètes sur l’ensemble d’une population. Nous
allons donc former des échantillons statistiques.
II. Échantillonnage
Pour qu’un échantillon soit qualifié de « statistique », il doit répondre à plusieurs critères :
▪ Il doit être issu d’un tirage au sort aléatoire, c’est-à-dire que chaque individu a la
même probabilité d’être tiré au sort ;
▪ Il doit être réalisé de manière indépendante, il y a donc remise après tirage ou tirage
au sein d’une grande population par rapport à la taille de l’échantillon.
L’échantillon sera alors considéré comme représentatif de la population mais à plus petite
échelle rendant les calculs plus accessibles.
À noter que plus la taille d’un échantillon augmente, plus les résultats seront représentatifs de la
population (jusqu’à une certaine taille car sinon les individus perdent leur indépendance).
Les proportions observées de points verts dans les échantillons 1, 2, 3 et 4 sont des estimations ponctuelles de la vraie
proportion dans la population.
Cependant, contrairement aux statistiques descriptives, les individus ne seront plus considérés
comme uniques. Il peut s’agir de n’importe quel individu de la population qui a été tiré au sort pour
constituer un échantillon. Nous avons donc recours, pour les décrire, à des variables aléatoires. Il s’agit
d’une inconnue X définie sur l’ensemble des valeurs que peut prendre n’importe quel individu de la
population générale.
L’estimation d’un échantillon est reliée à la valeur vraie de la population via un estimateur. Un
estimateur est une variable aléatoire exprimée en fonction des variables aléatoires d’échantillon Xi :
𝑇 = 𝑓(𝑋1 , 𝑋2 , … , 𝑋𝑛 )
Un estimateur attribue donc à un échantillon une estimation d’un paramètre. Une estimation est
une valeur calculée de l’estimateur pour un échantillon donné, à partir des valeurs observées dans
l’échantillon xi :
𝑡 = 𝑓(𝑥1 , 𝑥2 , … , 𝑥𝑛 )
Il s’agit d’une réalisation de l’estimateur.
NDLR – Il est important de distinguer ces notions et de faire attention aux notations.
Remarque – Si la variance var(T) d’un estimateur est faible : les estimations sont peu dispersées.
On peut montrer que l’erreur quadratique moyenne EQM s’exprime de la façon suivante :
𝐸𝑄𝑀 → 0
𝑛→+∞
C. Estimateur de l’espérance : M
Estimateur de l’espérance.
Espérance de M : 𝑬(𝑴) = 𝝁𝑴 = 𝝁𝑿
𝝈𝟐𝑿
Variance de M : 𝒗𝒂𝒓(𝑴) = 𝝈𝟐𝑴 = 𝒏
Remarque – On dit que M est un bon estimateur de l’espérance, car d’après le TCL, lorsque n tend vers
l’infini, la moyenne observée sur un échantillon de taille n suit une loi normale de moyenne µX et d’écart-
type 0.
D. Estimateur de la variance : s2
𝑛 𝑛
1 1
2
𝑆 = ∑(𝑋𝑖 − 𝑀)2 = (∑ 𝑋𝑖2 − 𝑛 × 𝑀2 )
𝑛−1 𝑛−1
𝑖=1 𝑖=1
Remarque – se2 est un estimateur biaisé de la variance, alors que s2 en est un bon estimateur.
𝑺𝒏 𝑵(𝒏𝒑; √𝒏𝒑𝒒)
𝑆𝑛
Loi de l’estimateur d’une proportion : toujours sous les mêmes conditions, 𝐹 = 𝑛
suit
approximativement une loi normale de paramètres :
▪ Espérance de F : 𝑬(𝑭) = 𝒑 ;
𝒑𝒒
▪ Variance de F : 𝒗𝒂𝒓(𝑭) = .
𝒏
B. Intervalle de confiance
Dans la population cible, la vraie valeur d’un paramètre est inconnue, et nous disposons
seulement de son estimation ponctuelle dans un échantillon.
À partir de son estimation, nous construisons l’intervalle de confiance (IC) qui va contenir la vraie
valeur avec une probabilité, que nous appelons « niveau de confiance », de 1 – α = 95 %.
Les bornes de l’IC dépendent de l’échantillon étudié, on dit qu’il est « aléatoire » en opposition
à l’IF qui est « fixé ».
En effet, les données utilisées sont celles de la population qui reste invariable.
Nous définissons :
▪ La largeur I d’un IC : I = borne supérieure – borne inférieure ;
▪ La précision i d’un IC : i = ½ × I.
Remarque – i et I dépendent de n, plus la taille de l’échantillon est grande, plus l’IC est étroit. Par
ailleurs, plus le niveau de confiance est élevé, plus l’IC est large.
𝑓(1 − 𝑓)
𝑖𝑐1−𝛼 (𝑝) = 𝑓 ± 𝑧𝛼/2 × √
𝑛
Pour considérer l’intervalle de confiance d’une proportion comme valide, certaines conditions
sont à vérifier, soient f1 et f2 les deux bornes de l’IC :
▪ 𝑛 ≥ 30 ;
▪ 𝑛 × 𝑓1 ≥ 5 ;
▪ 𝑛 × (1 − 𝑓1 ) ≥ 5 ;
▪ 𝑛 × 𝑓2 ≥ 5 ;
▪ 𝑛 × (1 − 𝑓2 ) ≥ 5.
Calcul du nombre de sujets nécessaires dans un échantillon pour une précision donnée :
2
𝑓(1 − 𝑓) × 𝑧𝛼/2
𝑛≥
𝑖12
Remarque – Les formules de ce cours (sauf mention contraire) sont à apprendre, il faut essayer de bien
comprendre les exemples. Ce cours est essentiel.
I. Introduction
Un test statistique est un test d’hypothèse. Ces tests ne sont pas à confondre avec d’autres types
de tests comme les tests diagnostiques. Les tests statistiques sont basés sur l’inférence statistique :
analyser des résultats sur un échantillon aléatoire et en tirer des conclusions sur la population d’origine
de l’échantillon.
Mais dès lors, quelle est l’hypothèse testée par le test d’hypothèse ? Comment relier les notions
de test d’hypothèse et d’inférence statistique ?
88.39 85.92 88.41 90.36 87.15 89.66 88.5 87.71 89.91 88.86 90.93 88.60 83.67 87.36 83.82
86.19 87.19 90.34 87.56 87.98 87.31 88.56 88.85 87.67 91.35 86.44 90.22 91.41 85.92 91.47
̅ = 𝟖𝟖, 𝟐𝟔 𝒄𝒎
𝒙
Nous nous demandons alors si le tour de taille moyen est différent en 2006 de ce qu’il était en
1997. Attention, bien évidemment 84,6 est différent de 88,26 mais nous recherchons si cette
différence est significativement significative !
Comment alors traduire cette question d’ordre général en test d’hypothèse ? Nous ne
connaissons pas la vérité mais nous savons calculer la probabilité de ce que nous observons sous
certaines conditions.
L’hypothèse testée est : entre 1997 et 2006, le tour de taille n’a pas changé. Cette hypothèse
concerne la population. Nous ne savons pas si l’hypothèse testée est vraie, mais nous pouvons
appliquer le calcul des probabilités.
Pour rappel, évidemment 88,26 ≠ 84,6 mais quelle est la probabilité d’observer sur un échantillon
aléatoire de n individus, issu d’une population dans laquelle µ = 84,6 cm, une moyenne calculée
supérieure ou égale à 88,26 cm, c’est-à-dire au moins aussi éloignée de 84,6 cm que l’est 88,26 cm ?
Pour répondre à cette question, l’hypothèse, qui va être testée, est appelée hypothèse nulle, que
nous écrivons H0. Notre hypothèse nulle dans cet exemple est que le tour de taille moyen dans la
population de 1997 est le même que le tour de taille moyen dans la population de 2006.
Ceci nous amène à nous demander : Quelle serait la probabilité d’observer une estimation de la
moyenne d’au moins 88,26 cm (μ de l’échantillon) si le tour de taille moyen en 2006 était de 84,6 cm
(μ de la population) ?
Dans cet exemple, nous supposerons ici que la variable est distribuée normalement, c'est-à-dire
qu'elle suit une loi normale.
L’énoncé présente en général une question qui correspond à l’hypothèse alternative. L’hypothèse
nulle n’est quasiment jamais dans l’énoncé.
Il faut donc la poser à partir de ce que l’on cherche à démontrer (si je cherche à démontrer une
différence de probabilités, je cherche à rejeter l’hypothèse nulle d’égalité de ces deux probabilités).
Cas n°1 : p < α, l’hypothèse nulle est rejetée. Elle est considérée comme trop peu probable pour
être retenue. Le niveau de significativité (p), inférieur dans ce cas au risque de première espèce
consenti (alpha), correspond à la probabilité d’observer un résultat au moins aussi éloigné de
l’hypothèse nulle que le résultat observé.
Cas n°2 : p > α, l’hypothèse nulle n’est pas rejetée. Le niveau de significativité (p) est plus grand
qu’alpha. Dans ce cas, on ne peut pas conclure en faveur de l’hypothèse alternative. L’étude n’a pas
permis de rejeter l’hypothèse nulle.
Nous allons alors lire dans la table de la loi normale, la plus grande valeur de cette table est 4,9 ;
nous avons alors P(Z ≤ 4,9) = 0,999998 ; d’où 1 – 0,999998 = 0,00002. Ainsi, la probabilité d’avoir un
écart aussi important sans qu’il y ait une différence entre 1997 et 2006 est très faible.
▪ Deuxième cas : σ est inconnu, nous allons alors utiliser s l’estimateur de µ. L’écart-
type estimé à partir de l’échantillon est de √(4,13).
1. Généralités
Nous pouvons alors calculer “p” : le niveau de significativité, mais attention cette probabilité
seule ne représente pas une règle de décision !
Il faut définir une probabilité seuil α qui constitue le risque de première espèce, c’est-à-dire la
probabilité de rejeter l’hypothèse nulle alors qu’elle est vraie.
Remarque – p est donc la probabilité d’obtenir deux valeurs aussi écartées l’une de l’autre alors qu’elles
sont en moyenne identique. C’est en quelque sorte la probabilité que H0 soit vraie. Si p est très faible,
alors il y a très peu de chance que H0 soit vraie.
La zone grise est la zone de rejet de l’hypothèse nulle, elle représente la probabilité α. Si notre
valeur est dans cet intervalle, nous rejetons H0, si p > α, nous ne rejetons pas H0.
La statistique du test repose sur la valeur prise par une variable aléatoire de distribution connue
sous l’hypothèse nulle.
La probabilité d’observer une valeur au moins aussi éloignée de la valeur de référence que celle
observée sur l’échantillon est le petit p = degré de significativité du test.
Si cette probabilité est très faible, l’hypothèse nulle est peu vraisemblable, elle est alors rejetée.
D. Significativité
La probabilité d’une valeur au moins aussi éloignée de la valeur de référence que celle observée
sur l’échantillon est le petit p (degré de significativité du test) :
▪ Si on précise, avant la réalisation du test, le sens de la différence qui conduit à rejeter
l’hypothèse nulle, le test est unilatéral :
- écriture d’un test unilatéral :
𝐻0 : µ2006 = µ1997 et 𝐻1 : µ2006 > µ1997
- ou :
𝐻0 : µ2006 = µ1997 et 𝐻1 : µ2006 < µ1997
▪ Si on précise, avant la réalisation du test, que l’hypothèse nulle peut être rejetée quel
que soit le sens de la différence, le test est bilatéral :
- écriture d’un test bilatéral :
𝐻0 : µ2006 = µ1997
- ou :
𝐻1 : µ2006 ≠ µ1997
La valeur du seuil de significativité est fixée avant le test dans le protocole de l’étude. C’est le
risque d’erreur consenti de rejeter l’hypothèse nulle alors qu’elle est vraie. Le degré de significativité
du test est comparé à la valeur du seuil de significativité une fois l’étude terminée.
Quand on rejette l’hypothèse nulle H0, on accepte l’hypothèse alternative H1. En revanche, si
on ne rejette pas l’hypothèse nulle, cela ne veut pas dire pour autant qu’on l’accepte !
Il faut malgré tout noter que la valeur du degré de significativité dépend de la nature unilatérale
ou bilatérale du test effectué. Si nous avons observé une moyenne de 85 cm sur l’échantillon nous
aurons :
𝑀 − 84,6 85 − 84,6
𝑃 ≥ |𝐻0 𝑣𝑟𝑎𝑖𝑒 = 𝑃(𝑍 ≥ 1,095) = 𝑝
√ 4 √ 4
( 30 30 )
𝑃(𝑍 ≥ 1,10) < 𝑃(𝑍 ≥ 1,095) < 𝑃(𝑍 ≥ 1,09)
1 − 0,8643 < 𝑝 < 1 − 0,8621
0,1357 < 𝑝 < 0,1379
Remarque – Nous utilisons ici les compléments à 1 pour lire dans la table de la Loi Normale.
E. Conclusion
Récapitulatif.
H0 vraie H0 fausse
Interprétation
H0 non rejetée
correcte
Interprétation
H0 rejetée
correcte
Le petit p ouvre l’analyse : si le test est significatif, la différence observée n’est pas due au hasard.
Nous calculons alors des estimations ponctuelles des paramètres d’intérêt, et leurs intervalles de
confiance.
On va centrer et réduire :
▪ H0 : π = 0,85 = π0 ;
▪ H1 : π ≠ 0,85 (bilatérale) ;
▪ n = 50 ;
▪ f (observée) = 35/50 = 0,70 ;
▪ α = 0,05 ;
▪ Sous H0.
𝐹 − 𝜋0
𝑍= ~𝑁(0,1)
√𝜋0 × (1 − 𝜋0 )
50
0,70 − 0,85
𝑧= = −2,97
√0,85 × 0,15
50
𝑃(|𝑍| > 2,97) = 𝑃(𝑍 < −2,97) + 𝑃(𝑍 > 2,97)
= (1 − ∅(2,97)) + (1 − ∅(2,97))
Conditions d’applications :
▪ 50 × 0,85 ≥ 5 ;
▪ 50 × 0,15 ≥ 5.
p est donc < α, nous rejetons H0, la prévalence des sujets rhésus positifs dans la population
basque est inférieure à 0,85.
(𝑂𝑖 − 𝐸𝑖 )2 2
∑ ~𝜒1𝑑𝑑𝑙
𝐸𝑖
Remarque – Avec :
• Oi = effectif observé ;
• Ei = effectif attendu ;
• ddl = degrés de liberté.
Les effectifs observés (35 et 15) sont comparés aux effectifs attendus sous l’hypothèse nulle. Il
faut comprendre alors que les effectifs attendus sont les effectifs si H0 est vraie : dans ce cas
l’hypothèse nulle est que la moyenne de rhésus positifs est de 0,85 dans la population française.
Dans la population basque, il y a 50 basques dans notre échantillon, sous l’hypothèse nulle nous
aurons comme effectif attendu 50 × 0,85 = 42,5 et 50 – 42,5 =7,5.
2
(35 − 42,5)2 (15 − 7,5)2
𝜒𝑜𝑏𝑠 = + = 8,82
42,5 7,5
2 2
𝑃(𝜒1𝑑𝑑𝑙 > 8,82) = 1 − 𝑃(𝜒1𝑑𝑑𝑙 < 8,82)
2
0,990 < 𝑃(𝜒1𝑑𝑑𝑙 < 8,82) < 0,999
2
0,001 < 1 − 𝑃(𝜒1𝑑𝑑𝑙 < 8,82) < 0,010
𝑝 < 0,01
Conditions d’applications :
▪ 50 × 0,85 ≥ 5 ;
▪ 50 × 0,15 ≥ 5.
Nous sommes à 1 ddl, il faudra donc regarder dans la table du Chi-2 à 1 ddl.
Sous H0, 0,0015 < 0,05 donc nous rejetons l’hypothèse nulle.
Les effectifs observés (35 et 15) sont comparés aux effectifs attendus sous l’hypothèse nulle (42,5
et 7,5). Ainsi :
2
(35 − 42,5)2 (15 − 7,5)2
𝜒𝑜𝑏𝑠 = + = 8,82
42,5 7,5
2 2
𝑃(𝜒1𝑑𝑑𝑙 > 8,82) = 1 − 𝑃(𝜒1𝑑𝑑𝑙 < 8,82)
2
0,990 < 𝑃(𝜒1𝑑𝑑𝑙 < 8,82) < 0,999
2
0,001 < 1 − 𝑃(𝜒1𝑑𝑑𝑙 < 8,82) < 0,010
0,001 < 2𝑝 < 0,010
𝑝 < 0,005
Conditions d’applications :
▪ 50 × 0,85 ≥ 5 ;
▪ 50 × 0,15 ≥ 5.
Remarque – Le test du Chi-2 est par définition bilatéral. La valeur « test » de notre Chi-2 sera donc la
même que notre hypothèse de départ soit bilatérale ou unilatérale. La probabilité petit p qui sera lue
dans la table du Chi-2 correspond à celle d’un test bilatéral.
Cependant, il est quand même possible de conclure grâce au test du Chi-2 si le test est unilatéral.
Il existe deux méthodes donnant les mêmes conclusions :
• Soit diviser la probabilité lue dans la table par 2, puis la comparer au risque α (cf. calcul ci-dessus) ;
• Soit regarder la valeur du Chi-2 seuil dans la table pour 2α, puis la comparer à la valeur test que
nous avons calculé.
Par exemple, ici, α = 0,05. La valeur de Chi-2 seuil pour 2α est de 2,7055. Notre valeur test est de
8,82. Nous remarquons que 8,82 > 2,7055 (petit p > α), donc nous rejetons l’hypothèse nulle d’égalité
des proportions.
E. Conclusion
Le petit p ouvre l’analyse : si le test est significatif, la différence observée n’est pas due au hasard.
L’hypothèse nulle est rejetée, avec un degré de significativité p < 0,01. Nous disposons d’une
estimation ponctuelle de la proportion de sujets rhésus positif, nous pouvons calculer un intervalle de
confiance.
Test du Chi-2.
Donc au risque α, quand notre Chi-2 est supérieur au Chi-2 seuil (c’est-à-dire au Chi2 pour α = 5 %)
nous rejetons H0. Lorsque le Chi-2 est plus petit que le Chi-2 seuil, nous ne pouvons pas rejeter
l’hypothèse nulle.
Il faut penser aux conditions d’application : tous les effectifs attendus sous H0 doivent être
supérieurs à 5 !
Remarque – Les Ei ne sont pas indépendants. Ainsi lorsque (k-1) valeurs sont calculées, la dernière
valeur s’impose car la somme des effectifs attendus est égale à n ! C’est pourquoi il n’y a que (k-1) ddl.
La comparaison d’une proportion observée à une probabilité théorique, vue précédemment,
correspond à la situation où k = 2 (d’où 1 ddl).
Résultats à 5 ans de 204 personnes ayant eu une fracture du col fémoral selon le traitement.
Ici, nous allons comparer la proportion de décès lors de deux traitements (TTT), l’hypothèse
testée est alors un test bilatéral :
𝐻0 : 𝜋𝑐ℎ𝑖𝑟 = 𝜋𝑜𝑟𝑡ℎ𝑜
𝐻1 : 𝜋𝑐ℎ𝑖𝑟 ≠ 𝜋𝑜𝑟𝑡ℎ𝑜 à 𝛼 = 0,05
Remarque – L’hypothèse nulle et l’hypothèse alternative concernent la population.
Test d’hypothèse :
Nous ne connaissons pas la vérité, mais la probabilité d’observer ce que l’on observe sous une
certaine hypothèse. Ainsi, pour montrer une différence d’efficacité entre deux thérapeutiques, il
faudra calculer la probabilité d’un résultat au moins aussi éloigné de l’hypothèse nulle que le résultat
observé, cette probabilité étant calculée sous l’hypothèse nulle d’absence de différence d’efficacité.
Si cette probabilité est très faible, l’hypothèse nulle est peu vraisemblable, elle est alors rejetée : la
différence observée est significative.
Ici, les effectifs des deux traitements sont différents d’où le dénominateur.
Ici, la probabilité de décéder si les deux traitements n’avaient pas de différence d’effets est :
𝑁𝑜𝑚𝑏𝑟𝑒 𝑑𝑒 𝑑é𝑐è𝑠 67
𝑝0 = = = 0,33
𝑛 204
D’où :
𝐹𝐴 − 𝐹𝐵 0,26 − 0,48
𝑍= = = −3,1
1 1
√𝜋0 × (1 − 𝜋0 ) × ( + ) √0,33 × (1 − 0,33) × ( 1 + 1 )
𝑛𝐴 𝑛𝐵 139 65
Conditions d’applications :
▪ nAp0 ≥ 5 ;
▪ nA(1-p0) ≥ 5 ;
▪ nBp0 ≥ 5 ;
▪ nB(1-p0) ≥ 5.
C. Test du Chi-2
(𝑂𝑖𝑗 − 𝐸𝑖𝑗 )2 2
∑ ~𝜒1𝑑𝑑𝑙
𝐸𝑖𝑗
𝑖,𝑗
L’hypothèse nulle est celle de l’indépendance entre les probabilités de traitement chirurgical ou
orthopédique et le pronostic vital. Le calcul des effectifs attendus sous l’hypothèse nulle en découle.
Par exemple pour le traitement chirurgical : nous avons vu précédemment que la probabilité de
décès sous l’hypothèse nulle est de 0,33 ; d’où la probabilité de décéder sous H0 dans le groupe
traitement chirurgical est ntraitement chirurgical × 0,33 = 139 × 45,7.
À partir de ce moment, comme nous avons un tableau avec des marges fixées, il suffit de faire
des soustractions pour avoir les autres effectifs attendus.
On comprend donc mieux pourquoi le test est à 1 ddl. Lorsque nous trouvons un effectif, nous
pouvons en déduire les trois autres.
Calculs :
Ainsi (ou bien utiliser la table de la loi normale, avec √(9,5) ≈ 3,1) :
D. Conclusion
Le petit p ouvre l’analyse : si le test est significatif, la différence observée n’est pas due au hasard.
Nous calculons alors une estimation ponctuelle de la différence d’efficacité et son intervalle de
confiance. Sous les conditions de normalité pour les variables aléatoires fA et fB :
𝑓𝐴 (1 − 𝑓𝐴 ) 𝑓𝐵 (1 − 𝑓𝐵 )
(𝑓𝐴 − 𝑓𝐵 ) ± 𝑧1−𝛼/2 √ +
𝑛𝐴 𝑛𝐵
Avec, par exemple, un Chi-2 à 3 modalités, il faut parfois ajouter 3 différences, celles des 3 effectifs
observés par rapport aux effectifs attendus correspondant. C’est donc une comparaison d’une
distribution observée à 3 modalités à une distribution théorique.
Cependant il est aussi possible de réaliser une comparaison de 3 proportions de succès observés,
il faut alors calculer les effectifs attendus sous H0 (on a alors les succès et les échecs complémentaires
dans le tableau). Dans ce cas-là on aura 6 différences ajoutées afin de trouver la valeur du Chi-2.
Ces 2 cas sont traités dans l’exercice en exemple à la fin du cours et sont très importants à
comprendre, ces types de comparaison sont tombées au concours de décembre 2018 et aux CC de 2021.
VI. Risques et
Nous sommes confrontés aux deux risques d’erreur :
▪ Le risque de première espèce () : probabilité de rejeter l’hypothèse nulle (H0) alors
qu’elle est vraie. Il est fixé avant l’essai ;
▪ Le risque de seconde espèce () : probabilité de ne pas rejeter H0 alors qu’elle est
fausse.
Remarque – Puissance = 1 – .
La puissance.
VII. Conclusion
Nécessité d’inclure suffisamment de patients dans une étude compte tenu de la différence
d’efficacité attendue : études multicentriques nationales, européennes, internationales.
▪ Pour un test unilatéral, nous allons avoir H0 : 𝜇2006 = 84,6 et H1 : 𝜇2006 > 84,6.
Évidemment 85,3 > 84,6 ; mais quelle est la probabilité d’observer, sur un échantillon aléatoire
de 30 individus, issu d’une population dans laquelle μ = 84,6 cm, une moyenne calculée supérieure ou
égale à 85,30 cm ; c’est-à-dire supérieure à 84,6 cm (test unilatéral) et au moins aussi éloignée de 84,6
cm que l’est 85,30 cm ?
Calcul de la probabilité d’une moyenne ≥ à 85,30 en sachant que la moyenne de notre groupe est égale à 84,6 (test
unilatéral).
La grandeur « test » T = 1,917 est supérieure à la valeur seuil 1,645 donc nous rejetons
l’hypothèse nulle d’égalité du tour de taille moyen en 1997 et du tour de taille moyen en 2006. Nous
pouvons conclure de la même façon lorsque nous comparons le petit p calculé (p < 0,0281) et le risque
α (0,05). Petit p est inférieur à α donc la probabilité d’observer cette différence de tour de taille moyen
entre 1997 et 2006 est trop faible. De ce fait, nous rejetons l’hypothèse nulle.
▪ Pour un test bilatéral, nous allons avoir H0 : µ2006 = 84,6 et H1 : µ2006 ≠ 84,6.
Évidemment 85,3 ≠ 84,6, mais quelle est la probabilité d’observer, sur un échantillon aléatoire de
30 individus, issu d’une population dans laquelle µ = 84,6 cm, une moyenne calculée supérieure ou
égale à 85,30 cm, ou inférieure ou égale à 83,9 cm, c’est-à-dire au moins aussi éloignée de 84,6 cm que
l’est 85,30 cm ?
Dans ce test, nous ne pouvons pas rejeter l’hypothèse nulle car le petit p est supérieur au risque
α consenti.
B. Théorie
n ≥ 30 n < 30
𝑀 − 𝜇0 𝑀 − 𝜇0
X normale 𝜎 → 𝑁(0 ; 1) 𝜎 → 𝑁(0 ; 1)
σ connu
√𝑛 √𝑛
𝑀 − 𝜇0
→ 𝑆𝑡𝑢𝑑𝑒𝑛𝑡(𝑛 − 1 𝑑𝑑𝑙) 𝑀 − 𝜇0
X normale 𝑆 → 𝑆𝑡𝑢𝑑𝑒𝑛𝑡(𝑛 − 1 𝑑𝑑𝑙)
𝑆
σ inconnu √𝑛
→ 𝑁(0 ; 1) √𝑛
𝑀 − 𝜇0
X quelconque 𝜎 → 𝑁(0 ; 1)
σ connu
√𝑛
𝑀 − 𝜇0
X quelconque → 𝑁(0 ; 1)
𝑆
σ inconnu
√𝑛
Ce tableau est essentiel et il est donc à connaître parfaitement afin de résoudre tous les
exercices le jour du concours. Les conditions (taille de l’échantillon, loi suivie par X, etc) doivent
être respectées pour utiliser telle ou telle formule.
Nous vous invitons donc à vous entraîner régulièrement pour bien assimiler toutes ces formules et
conditions.
C. Exemples
1. Exemple 1
400 jeunes conscrits sont examinés et nous relevons leur taille. La moyenne de cet échantillon
aléatoire est : 𝑥̅ = 172,2cm. Peut-on admettre que ce groupe de 400 jeunes est un échantillon tiré au
sort d’une population où la variable taille suit une loi normale de moyenne 𝜇 = 171,3 cm et d’écart-
type 𝜎 = 7 cm ?
▪ Si le protocole d’étude avait fixé le risque de première espèce à α = 5 % ;
▪ Si le protocole d’étude avait fixé le risque de première espèce à α = 0,1 %.
𝑀 − 𝜇0
𝜎 → 𝑁(0 ; 1)
√𝑛
172,2 − 171,3
= 2,57
7
√400
= 2 × (1 − 𝜙(2,57))
= 2 × (1 − 0,9949)
= 0,0102
En fonction du risque de première espèce retenu, nous aurons deux cas de figure :
2. Exemple 2
20 rats femelles sont tirés au hasard d’une lignée ; le poids utérin après traitement oestrogénique
est mesuré : 9 18 21 26 14 18 22 27 15 19 22 29 15 19 24 30 16 20 24 32. La moyenne et l’écart-type
de l’échantillon sont :
𝑥̅ = 𝑚 = 21 𝑚𝑔
∑(𝑥𝑖 − 𝑥̅ )2
√ = 5,76 𝑚𝑔
20
Les lignées usuelles ont un poids moyen de 24 mg. Peut-on admettre que notre lignée est une
lignée usuelle ? Nous supposons que la variable X, poids utérin, est gaussienne.
𝑛 𝑛
2
1 1
𝑠 = (∑(𝑥𝑖 − 𝑚)2 ) = (∑ 𝑥𝑖 2 − 𝑛 × 𝑚2 )
𝑛−1 𝑛−1
𝑖=1 𝑖=1
Nous allons alors faire une estimation de l’écart-type de la population, s = 5,91 mg. Formulation
des hypothèses H0 et H1 :
▪ H0 : µ = µ0 = 24 mg ;
▪ H1 : µ ≠ 24 mg (test bilatéral).
→ 2ème cas : X normale, σ inconnu, sous H0, nous prendrons α = 0,05 (bilatéral) :
𝑀 − 𝜇0
𝑛 < 30 : → 𝑆𝑡𝑢𝑑𝑒𝑛𝑡 (19 𝑑𝑑𝑙)
𝑆
√𝑛
Nous calculons la grandeur « test » sous l’hypothèse nulle :
19
21 − 24
𝑡𝑜𝑏𝑠 = = −2,27
5,91
√20
𝑝 = 𝑝(|𝑇 19 | > 2,27)
2,0930 < 2,27 < 2,5395
0,02 < 𝑝 < 0,05
On rejette l’hypothèse nulle : notre lignée ne semble pas usuelle (p < 0,05).
Évidemment 2950 ≠ 3010. Mais quelle est la probabilité d’observer, sur deux échantillons
aléatoires de 49 nouveaux nés de sexe féminin issus d’une même population, une différence de valeurs
moyennes de 3010 – 2950, c’est-à-dire de 60 grammes ou plus ? Ici, nous comparons une différence.
→ 1er cas : n1 ≥ 30 et n2 ≥ 30 :
𝑺𝟏 𝟐
𝑭= → 𝑭(𝒏𝟏 − 𝟏 ; 𝒏𝟐 − 𝟏)
𝑺𝟐 𝟐
Pour comparer des variances observées au risque α, nous faisons le rapport de la plus grande des
deux à la plus petite et nous comparons ce rapport à la valeur de la table de Fisher correspondant au
seuil α pour (n1 – 1) et (n2 – 1) degrés de liberté.
Si notre valeur test est supérieure à notre valeur seuil lue dans la table, nous rejetons l’hypothèse
nulle d’égalité des variances et nous ne pouvons pas continuer le test de comparaison des deux
moyennes.
Si notre valeur test est inférieure à notre valeur seuil, nous concluons que nos variances ne sont
pas significativement différentes et nous pouvons continuer la comparaison des moyennes.
H0 non rejetée.
Rejet de H0.
Il faut travailler sur la distribution des différences pour permettre de pallier la corrélation. Nous
allons tester l’hypothèse 𝑍̅ = 0, nous travaillons sur la moyenne des différences, ce qui revient à
observer une moyenne théorique sur une moyenne observée.
Hypothèse à tester préalablement : les variances sont égales ; quel que soit i, σi2 = σ2.
Notations.
B. Principe de l’ANOVA
Dans l’ANOVA, nous calculons une estimation de la variance commune σ2 dans deux cas :
▪ Sans tenir compte de l’hypothèse H0 ;
▪ En supposant H0 vraie.
Cela représente la variance d’un échantillon donné, c’est la somme des écarts quadratiques à la
moyenne divisée par l’effectif total (N) moins le nombre d’échantillons (k).
Cela correspond à la somme des carrés des écarts totaux, c’est-à-dire par rapport à une moyenne
générale.
𝑺𝒄 𝟐
𝑭= → 𝑭(𝒌 − 𝟏 ; 𝑵 − 𝒌)
𝑺𝟐
Si l’hypothèse nulle est rejetée, nous allons, pour confirmer, comparer des moyennes deux à
deux en contrôlant le risque de première espèce grâce à la correction de Bonferroni entre autres. En
effet, si nous ne corrigeons pas le risque par la multiplication des tests, nous aurons forcément un test
significatif.
Correction de Bonferroni α’ :
𝜶
𝜶′ =
𝑸
Avec α le risque de première espèce et Q le nombre de paires possibles parmi le nombre de
groupes noté k.
Soit :
𝑸 = (𝑘2 ) (que l’on dit « 2 parmi k »).
𝑺𝑪𝑹
𝒔𝟐 = (𝐬𝐚𝐧𝐬 𝐭𝐞𝐧𝐢𝐫 𝐜𝐨𝐦𝐩𝐭𝐞 𝐝𝐞 𝑯𝟎 )
𝑵−𝒌
𝑺𝑪𝑻
𝒔𝑻 𝟐 = (𝐞𝐧 𝐬𝐮𝐩𝐩𝐨𝐬𝐚𝐧𝐭 𝑯𝟎 𝐯𝐫𝐚𝐢𝐞)
𝑵−𝟏
𝑺𝑪𝑪
𝒔𝑪 𝟐 =
𝒌−𝟏
𝟐
𝒔𝒄
𝑭 = 𝟐 → 𝑭(𝒌 − 𝟏 ; 𝑵 − 𝒌)
𝒔
𝑺𝑪𝑻 = 𝑺𝑪𝑪 + 𝑺𝑪𝑹
NDLR – Moyen mnémotechnique pour retenir les degrés de liberté pour trouver la valeur test de Fisher
𝐹(𝑘 − 1; 𝑁 − 𝑘) :
• 𝒔𝑪 𝟐 au numérateur, utilise (k-1) qui va donc se retrouver en premier ddl ;
• 𝒔𝟐 au dénominateur, utilise (N-k) qui va se retrouver en deuxième ddl.
Rappel : la variance la plus importante est toujours au numérateur. Or comme nous divisons par un
plus petit nombre SCC que SCR (𝑘 − 1 < 𝑁 − 𝑘), nous pouvons aussi trouver rapidement la formule en
cas d’hésitation.
C. Exemple
Comparaison des durées moyennes d’hospitalisation des patients admis dans trois services d’un
centre hospitalier pour broncho-pneumopathie chronique. Ci-dessous, la durée moyenne
d’hospitalisation pour broncho-pneumopathie chronique dans 3 services :
nI 15 12 185 212
mI 14 6.25 7.06
Nous posons α = 0,05 : dans la table de Fisher pour 209 et 2 ddl. Au seuil α, nous avons
Fseuil = 2,209 ; notre F observé est de 8,26 et est donc > au Fseuil, nous rejetons l’hypothèse nulle.
Nous allons alors comparer les moyennes deux à deux en contrôlant le risque de première espèce
en appliquant la correction de Bonferroni.
Ici nous avons trois séries, nous allons donc comparer A avec B, A avec C et B avec C, nous allons
faire trois tests dans ce cas (2 parmi 3 est égal à 3). La comparaison des moyennes va alors être
effectuée avec une probabilité non plus de α mais de α/3.
Note – Nous pouvons également multiplier le petit p par le nombre de comparaisons à la place !
Exemple – Nous nous intéressons à la prévalence des infections nosocomiales dans les hôpitaux français
en 1996. Pour ce faire, nous allons faire une étude transversale c’est-à-dire une étude à un jour donné.
Nous disposons d’un échantillon de 46.000 patients hospitalisés dont 3.370 patients avec une infection
nosocomiale.
Nous notons comme prévalence 3370/46000 = 7,3 pour 100. L’intervalle de confiance à 95 %
(approximation gaussienne) est donné par :
𝑃̂ × (1 − 𝑃̂ ) 0,073 × (1 − 0,073)
𝑃̂ ± 1,96√ = 0,073 ± 1,96√
𝑁 46000
B. Incidence
Le taux d’incidence mesure la « vitesse d’apparition » des nouveaux cas, il permet d’estimer la
probabilité pour un individu de développer la maladie par unité de temps. Le taux d’incidence à une
unité : T-1, contrairement à la prévalence. Estimation d’une incidence sur une étude de cohorte :
▪ Dénombrement de la population étudiée ;
▪ Fixer la période d’observation (exemple : un an) ;
▪ Définition précise des cas ;
▪ Utilisation d’un estimateur sans biais = le taux d’incidence observé.
Le taux d’incidence estimé est le rapport du nombre d’évènements divisé par la durée totale
d’observation :
▪ M = nombre total de cas observés (ici 2) ;
▪ T = nombre total d’unités de temps observées en années (ici 18 ans) ;
𝑀
▪ Estimateur : 𝐼̂ = ; 𝑇
2
▪ Estimation : 𝐼̂ = 18 𝑎𝑛−1 .
Exemple – Taux d’incidence de la tuberculose en France en 2005, la durée d’observation totale est de
58.370.786 personnes-années et de 5195 cas de maladie (données InVS).
5195
Estimation du taux d’incidence : Î = 58 370 786 = 0,000089 an−1
0,000089
Intervalle de confiance à 95 % : 0,000089 ± 1,96√58 370 786
Corrélation – Régression
Rédigé à partir du cours de la Pr. MAUCORT-BOULCH
I. Corrélation
A. Introduction
1. Rappels
Commençons par quelques définitions apprises dans le chapitre des variables aléatoires :
▪ Variable aléatoire : une variable aléatoire sur Ω correspond à toute application X : Ω
ℝ telle que ∀ x ∈ ℝ, X-1 ([a, b]) est un évènement. Une variable aléatoire est décrite
par ses paramètres de position (moyenne et médiane) et de dispersion (variance et
écart-type).
▪ Variance : elle est notée var(X) (ou σ2). Elle mesure la dispersion d’une variable
aléatoire X autour de son espérance mathématique (moyenne) E(X) (ou µ). Sa
formule est :
𝜎 2 = 𝐸[(𝑋 − 𝜇)2 ] = 𝐸(𝑋²) − [𝐸(𝑋)]²
C’est donc la moyenne des distances au carré entre une observation x et la moyenne de
l’ensemble des observations faites pour la variable aléatoire X.
2. Définition de la corrélation
Corrélation : elle représente une co-relation, une association de deux variables aléatoires. C’est
une dépendance réciproque de deux phénomènes qui varient conjointement. Elle correspond au degré
de liaison de deux variables aléatoires X et Y.
3. Différentes notions
On a :
▪ La corrélation entre le cancer du poumon et le tabagisme met en jeu deux variables
aléatoires qualitatives. Ici, cette « corrélation » est une association : ce n’est pas une
vraie corrélation mathématique car on ne pourra pas calculer le coefficient de
corrélation que l’on abordera plus tard ;
▪ Celle entre le poids à la naissance et le sexe met en jeu une variable aléatoire
quantitative et une qualitative. Cette corrélation est aussi une association et non une
corrélation mathématique : on ne peut pas calculer le coefficient de corrélation
lorsque l’on étudie une ou plusieurs variables qualitatives ;
▪ Celle entre le poids et la taille à la naissance met en jeu deux variables aléatoires
quantitatives. Cette dernière situation est l’objet de ce cours, nous pouvons calculer
le coefficient de corrélation.
Remarque – La corrélation entre des mesures faites avec deux appareils différents implique une
concordance entre les deux méthodes. En effet, lorsque l’on mesure une même variable avec deux
appareils différents, on s’attend à ce que nos mesures soient corrélées : on n’utilisera alors plus le terme
« corrélation » pour exprimer l’association de nos valeurs mais le terme « concordance ». C’est surtout
une question de vocabulaire.
Exemple – Âge gestationnel et poids à la naissance : on peut voir que, globalement, plus le nombre de
semaines d’aménorrhée augmente, plus le poids à la naissance augmente car le nuage de points
dessine une droite. Cela traduit une relation linéaire qui lie nos deux variables.
Deux variables X et Y non ou faiblement corrélées forment plutôt un nuage de points, comme le
montre la figure ci-dessous de gauche :
À l’inverse à droite, deux variables X et Y fortement corrélées selon une relation linéaire forment
un nuage de points qui suit approximativement une droite de même allure que les fonctions affines
vues au lycée (f(x) = ax + b soit ici y = ax + b).
B. Quantification de la relation
1. Définition de la covariance
Soit un couple de variables aléatoires quantitatives X et Y. Nous notons leur moyenne respective
E(X) = µX et E(Y) = µY et leur variance respective σ2X et σ2Y. Nous pouvons ainsi définir la covariance de
X et Y :
𝑐𝑜𝑣(𝑋, 𝑌) = 𝜎𝑋,𝑌 = 𝐸[(𝑋 − 𝜇𝑋 )(𝑌 − 𝜇𝑌 )]
𝛴𝑖 (𝑥𝑖 − 𝜇𝑋 )(𝑦𝑖 − 𝜇𝑌 )
=
𝑛
= 𝑬(𝑿𝒀) − 𝑬(𝑿)𝑬(𝒀)
Si la covariance est positive, les deux variables aléatoires évoluent dans le même sens : lorsque Y
augmente, X augmente également.
Si la covariance est négative, les deux variables aléatoires évoluent en sens opposé : lorsque Y
augmente, X diminue.
2. Propriétés
On a :
▪ 𝑐𝑜𝑣(𝑋, 𝑌) = 𝑐𝑜𝑣(𝑌, 𝑋) ;
▪ 𝑐𝑜𝑣(𝑐𝑌, 𝑋) = 𝑐 𝑐𝑜𝑣(𝑌, 𝑋) = 𝑐 𝑐𝑜𝑣(𝑋, 𝑌), 𝑐 étant une constante ;
▪ 𝑐𝑜𝑣(𝑋, 𝑋) = 𝜎𝑋,𝑋 = 𝜎 2𝑋 ;
▪ 𝑣𝑎𝑟 (𝑋 + 𝑌) = 𝑣𝑎𝑟(𝑋) + 𝑣𝑎𝑟(𝑌) + 2 𝑐𝑜𝑣(𝑋, 𝑌) ;
▪ X et Y indépendantes impliquent : 𝐸(𝑋𝑌) = 𝐸(𝑋)𝐸(𝑌).
L’inverse n’est pas nécessairement vrai ! On ne peut donc rien conclure sur l’indépendance de
X et Y lorsque l’on trouve que E(XY) = E(X)E(Y). En effet, outre l’indépendance des variables, cela
peut aussi traduire une corrélation de forme particulière.
Variance et covariance :
36 + 37 + 38 + 39 + 40
𝜇𝐴𝐺 = = 38 𝑆𝐴
5
2589 + 2868 + 3133 + 3360 + 3480
𝜇𝑃𝑁 = = 3086 𝑔
5
(36-38)(2589-3086)+(37-38)(2868-3086)+(38-38)(3133-3086)+(39-38)(3360-3086)+(40-38)(3480-3086)
σAG,PN =
5
𝜎𝐴𝐺,𝑃𝑁 = 454,8 (𝑔. 𝑆𝐴)
Donc en moyenne, quand l’âge gestationnel augmente, le poids de naissance augmente. Par
contre, avec la covariance donnée ainsi, sans référentiel, on ne connait pas la force de la corrélation.
C. Coefficient de corrélation
C’est la force avec laquelle les X et Y évoluent ensemble, ramenée à la dispersion propre de
chacune des variables. Ce coefficient nous permet de quantifier la relation de X et Y. Il est compris
entre -1 et 1 et plus il s’éloigne de 0, plus la relation est importante. L’estimateur de ρX,Y est :
𝛴𝑥𝑖 𝑦𝑖 𝛴𝑥𝑖 𝛴𝑦𝑖
𝑛 − 𝑛²
𝑟 = 𝑋,𝑌
2 (𝛴𝑥𝑖 )2 𝛴𝑦 2 𝑖 (𝛴𝑦𝑖 )²
√(𝛴𝑥 𝑖
− ) × ( − )
𝑛 𝑛² 𝑛 𝑛²
𝛴𝑥𝑖 𝛴𝑦𝑖
𝛴𝑥𝑖 𝑦𝑖 −
𝑟𝑋,𝑌 = 𝑛
(𝛴𝑥𝑖 )2 (𝛴𝑦𝑖 )²
√(𝛴𝑥 2 𝑖 − 2
𝑛 ) × (𝛴𝑦 𝑖 − 𝑛 )
Propriétés :
▪ −1 ≤ 𝜌𝑋,𝑌 ≤ 1 ;
▪ 𝜌𝑋,𝑌 = 𝜌𝑌,𝑋 ;
▪ Le signe de 𝜌𝑋,𝑌 est le signe de 𝜎𝑋,𝑌 ;
▪ Ce coefficient n’a pas d’unité ;
▪ Si X et Y indépendantes alors 𝜌𝑋,𝑌 = 0.
Cas particulier – Si X et Y ~ N, alors ρX,Y = 0 : donc cela implique que X et Y soient indépendantes.
𝒓√𝒏−𝟐
𝒕= → 𝒕𝒏−𝟐𝒅𝒅𝒍,𝜶
√𝟏−𝒓²
Localisation des probabilités sur la courbe (à gauche) et lecture de la table de la loi de Student (à droite).
Avec 3 ddl, le seuil de rejet de H0 est égal à 3,18 pour un risque consenti α = 5 %. Or, t = 12,16
et 12,16 > 3,18 ; nous rejetons donc l’hypothèse nulle et nous concluons à une dépendance entre
l’âge gestationnel et le poids à la naissance. Attention aux conditions de validité et à la robustesse
du test !
Quel que soit le signe du 𝒓𝑿,𝒀, lorsqu'on cherche dans la table de Student, on prendra le t
positif.
C’est le même fonctionnement pour Y, avec des rangs si de 1 à n. Les ex-æquo prennent leur rang
moyen. Nous avons ainsi des couples de rangs (ri, si), (i ϵ 1, …, n).
|𝑟𝑆 − 𝜌𝑆 | 1 − 𝑟 2𝑆
𝑡= ∼ 𝑡𝑛−2𝑑𝑑𝑙 avec 𝜎𝑟 estimé par 𝑆𝑟 = √
𝜎𝑟 𝑛−2
II. Régression
A. Introduction
B. Régression linéaire
1. Définition
Régression linéaire simple : on considère deux variables aléatoires X et Y. L’une est à expliquer,
c’est la variable dépendante Y, l’autre est explicative, c’est la variable indépendante X. La droite
décrivant les variations de Y en fonction de X correspond à la droite de régression de Y en X. Le
diagramme de dispersion, ou la courbe empirique de régression, a une forme générale
approximativement linéaire. En effet, la droite de régression linéaire est la droite qui s’ajuste le mieux
aux données.
Historique – Expérience de Francis Galton qui étudiait la taille des enfants à l’âge adulte par rapport à
la taille de leurs parents. Il observe alors que quand les enfants sont très grands, les parents ont
tendance à être un peu plus petits que les enfants, et quand les enfants sont petits, les parents ont
tendance à être grands.
Cela amène la notion de régression vers la moyenne. La tendance fait que de génération en
génération, les enfants ne sont pas de plus en plus grands lorsque les parents sont grands. Il y a un
phénomène de normalisation et de régression vers des valeurs centrales des tailles des enfants par
rapport à des tailles des parents.
2. Équation
Principe :
▪ Y = f(X) + 𝜖 ;
▪ Y = 𝛽0 + 𝛽1 .X + 𝜖 ;
▪ 𝑦𝑖 = 𝑏0 + 𝑏1 .𝑥𝑖 + 𝑒𝑖 → où 𝑏0 estime 𝛽0 et 𝑏1 estime 𝛽1 ;
▪ 𝑒𝑖 ∼ 𝑁 iid ;
▪ 𝑒𝑖 = 𝑦𝑖 – (𝑏0 + 𝑏1 .𝑥𝑖 ).
Cette méthode a pour but de minimiser les écarts de 𝑒𝑖 et d’éviter que les écarts positifs et
négatifs ne se compensent.
Ainsi :
𝑛 𝑛
𝐸= ∑ 𝑒𝑖2 = ∑(𝑦𝑖 − 𝑏0 − 𝑏1 . 𝑥𝑖 )2
𝑖=1 𝑖=1
Résolution
→ (𝑦̂𝑖 − ̅
Y) = 𝑏1 (𝑥𝑖 − ̅
X)
C. Relation Régression-Corrélation
2. Informations
L’information est apportée par X pour expliquer Y. L’objectif d’un modèle est d’expliquer au
maximum les données observées Y à partir de X. Les valeurs de Y représentent une quantité
d’informations que nous cherchons à expliquer à l’aide de X. Deux cas de figure :
▪ Si Y ne dépend pas de X alors b1 = 0, Y = b0 = Y ̅, la droite de régression est horizontale
et X n’explique rien de Y ;
▪ Si Y dépend parfaitement linéairement de X, les points Y s’alignent parfaitement sur
la droite, idéalement tous les ei = 0 ∀i, X explique tout, nous pouvons prédire Y sans
erreur.
Le plus souvent, X exprime en partie l’information contenue dans Y. On quantifie d’ailleurs cette
partie expliquée par X : X explique r² de la variabilité de Y, avec r l’estimation du coefficient de
régression.
3. Quantification de l’information
Nous allons décomposer l’équation. L’information à expliquer est l’écart entre les 𝑦𝑖 observés et
𝑌̅, la valeur moyenne de Y.
▪ Pour une observation i : (𝑦𝑖 − 𝑌̅) = (𝑦𝑖 − 𝑦̂𝑖 )2 + (𝑦̂𝑖 − 𝑌̅)2 ;
▪ Nous pouvons montrer que : (𝑦𝑖 − 𝑌̅)2 = (𝑦𝑖 − 𝑦̂𝑖 )2 + (𝑦̂𝑖 − 𝑌̅)2 ;
▪ Pour tous les yi : ∑𝑖(𝑦𝑖 − 𝑌̅)2 = ∑𝑖(𝑦𝑖 − 𝑦̂𝑖 )2 + ∑𝑖(𝑦̂𝑖 − 𝑌̅)2 ;
▪ Soit 𝑆𝐶𝐸𝑇 = 𝑆𝐶𝐸𝑅 + 𝑆𝐶𝐸𝐸 avec SCE = Somme des Carrés des Écarts et avec les trois
lettres : T = totale / R = résiduelle / E = expliquée.
4. Coefficients de détermination
5. Tests
La relation entre Y et X est-elle significative ?
Soient H0 : ß1 = 0 et H1 : ß1 ≠ 0 :
𝑠𝑦2 2
𝑏1 − 0 √𝑠𝑥2 − 𝑏1
→𝑡= ~𝑡𝑛−2 𝑑𝑑𝑙 où 𝜎𝑏1 est estimé par 𝑆𝑏1 =
𝜎𝑏1 𝑛−2
▪ |𝑡| ≥ 𝑡𝑠𝑒𝑢𝑖𝑙 𝑛−2𝑑𝑑𝑙,𝛼 Nous rejetons H0 ;
▪ |𝑡| < 𝑡𝑠𝑒𝑢𝑖𝑙 𝑛−2𝑑𝑑𝑙,𝛼 Nous ne pouvons rejeter H0 .
Nous prenons en compte la validité de la droite de régression. Si la relation est linéaire, les résidus
𝑒𝑖 ne contiennent plus d’information structurée ⇒ exploration des résidus :
▪ Normalité des résidus : les tests sont relatifs à l’hypothèse ei ∼ Niid : Kolmogorov-
Smirnov, Shapiro-Wilks, etc. Ils sont peu puissants, c’est une procédure empirique qui
utilise les graphiques. La droite de Henry correspond à l’opposition des quantiles
théoriques de la loi normale versus les quantiles de la distribution des résidus estimée
sur les données ;
▪ Homoscédasticité des résidus : c’est la répartition homogène des résidus tout le long
de la courbe, indépendante des valeurs prédites. Les tests sont formels. L’approche
𝑒
est empirique graphique, les résidus sont standardisés (𝑠 𝑖 ) en fonction des 𝑦̂𝑖 ;
𝑒𝑖
Remarque – Dans notre exemple, les valeurs des poids à la naissance sont moins dispersées lorsque les
âges gestationnels sont petits.
À l’inverse, elles sont beaucoup plus dispersées quand les âges gestationnels sont plus grands.
Globalement, on n’est pas dans une situation d’homoscédasticité. En théorie, la régression linéaire
est assez limitée en terme d’utilisation.
Significativité de la relation :
𝑏1 = 174,14 et 𝑠𝑏1 = 4,71
Sous H0 :
174,14
𝑡= = 37,0
4,71
𝑡𝑠𝑒𝑢𝑖𝑙 200 𝑑𝑑𝑙,5 % = 1,97 < 𝑡𝑠𝑒𝑢𝑖𝑙 168 𝑑𝑑𝑙,5 % < 𝑡𝑠𝑒𝑢𝑖𝑙 120 𝑑𝑑𝑙,5 % = 1,98
→ Au risque 5 %, nous rejetons donc H0. Le poids à la naissance dépend de l’âge gestationnel.
6. Analyse de variance
Description du graphique :
On peut avoir des différences de valeurs de baisse de la pression artérielle (PA) à une dose de
médicaments donnée en fonction des individus. Cette dispersion possible à dose de médicaments
donnée permet de constituer globalement une variance intra-groupe. C’est donc de l’ordre de l’erreur
qu’il reste une fois que l’on a résumé la baisse de la PA en fonction de la dose.
Il existe aussi une variance inter-groupe : c’est l’écart entre les différentes valeurs qui existent,
prédites par différents modèles à chaque valeur de X posé.
Analyse de variance.
𝑆𝑀
Test F : 𝐹 = ∼ 𝐹(1,𝑁−2)𝑑𝑑𝑙
𝑆𝑅
III. L’essentiel
À retenir :
▪ Le coefficient de corrélation est une variable aléatoire. Le test du coefficient de
corrélation de Pearson (qui est paramétrique) ou de Spearman (qui est non
paramétrique) ∼ 𝑡𝑛−2𝑑𝑑𝑙 ;
▪ Régression linéaire ≡ ANOVA. Test des paramètres de régression, examen des
résidus ;
𝜎 𝜎
▪ 𝜌𝑋,𝑌 = 𝑋,𝑌 = 𝑏1 𝑋 ;
𝜎𝑋 .𝜎𝑌 𝜎𝑌
𝑟√𝑛−2
▪ 𝑡= ;
√1−𝑟²
▪ 𝑌 = 𝛽0 + 𝛽1 . 𝑋 ;
𝜎 𝜎
▪ 𝛽1 = 𝜎𝑋𝑌² = 𝜌. 𝜎𝑌 ;
𝑋 𝑋
▪ 𝑏0 = 𝑌̅ − 𝑏1 × 𝑋̅.
À comprendre :
▪ La corrélation quantifie la force de la relation entre X et Y : 𝑟𝑋𝑌 . C'est la mesure de la
relation symétrique ;
▪ La régression estime les paramètres de l'équation permettant de décrire la forme
fonctionnelle de la relation entre une variable dépendante (Y) et une variable
explicative (X). C'est une mesure de la relation asymétrique.
C. b0 vaut 0.
D. b1 vaut 0,6.
E. Y explique 64 % de la variabilité de X.
A VRAI
𝜎𝑋,𝑌 1000 1000 100 4
𝜌𝑋,𝑌 = = = = = = 0,8
𝜎𝑋 . 𝜎𝑌 50.25 1250 125 5
B VRAI X et Y suivent une loi Normale donc les conditions sont remplies pour utiliser un test
paramétrique de Pearson :
𝑟√𝑛 − 2
𝑡=
√1 − 𝑟²
0,8√102 − 2 0,8 × 10 8 8 80
𝑡= = = = = = 13,3
√1 − 0,8² √1 − 0,64 √0,36 0,6 6
Soit : valeur test > valeur seuil => nous pouvons rejeter l’hypothèse nulle, le test est significatif.
C VRAI
𝑏0 = 𝑌̅ − 𝑏1 × 𝑋̅
On a donc besoin de calculer b1 :
𝜎𝑋𝑌 𝜎
▪ 𝑏1 = 𝜎𝑋 ²
= 𝜌. 𝜎𝑌
𝑋
▪ soit :
𝜎𝑋𝑌 1000 1000 10 2
𝑏1 = = = = = = 0,4
𝜎𝑋 ² 50² 2500 25 5
Donc 𝑏1 vaut 0,4.
𝜎 25 1
▪ Ou encore : 𝑏1 = 𝜌. 𝜎𝑌 = 0,8. 50 = 0,8. 2 = 0,4
𝑋
Essais cliniques
Rédigé à partir du cours de la Pr. MAUCORT-BOULCH
I. Introduction
A. Historique
▪ Ancien Testament (Daniel I : 12-15) ;
▪ 980-1087 – Avicenne, dans son ouvrage le Canon de la Médecine, décrit les sept
règles d’évaluation de l’effet d’une drogue sur une maladie ;
▪ 1747 – James Lind soumet 6 groupes de marins atteints de scorbut à des traitements
différents ;
▪ 1948 – Sir Bradford Hill (statisticien) travaille sur la streptomycine et la tuberculose
pulmonaire.
B. Définitions
Essai clinique = expérimentation planifiée dessinée pour identifier l’intervention appropriée à de
futurs patients présentant une condition médicale donnée, et dans laquelle les résultats d’un groupe
de patients traités par l’intervention évaluée sont comparés à ceux d’un groupe de patients traités par
une intervention contrôle, les 2 groupes étant inclus, traités et suivis durant la même période de
temps.
Clinique (définition différente en fonction du cadre) : pour un essai clinique, elle correspond à
une expérience qui évalue un traitement sur l’Homme. Par la suite, elle va permettre d’expliquer l’effet
d’un traitement (‘explicatifs’), ou de prendre une décision clinique (‘gestion’). Chez l’Homme, il faut
prendre en compte la grande diversité et les fluctuations inter-individuelles, c’est pourquoi lors de
comparaison de groupes (bras) d’intervention, il faut faire attention à ces différences.
C. Démarche
Lors d’un essai clinique, il y a une démarche précise à respecter. L’objectif de l’essai est de
comparer un effet dans différents groupes d’intervention. Pour cela, il faut un contexte scientifique.
Une question est posée pour dégager une étude avec un schéma adapté à la question. Des tests
d’hypothèses visant à comparer les grandeurs évaluées dans les 2 bras d’étude vont être mis en place.
D. Principaux acteurs
Il y a :
▪ Investigateur : c’est le médecin surveillant la réalisation de l’étude. Le médecin
responsable de l’étude est l’investigateur principal. L’investigateur coordinateur
coordonne la réalisation de l’essai dans les essais multicentriques ;
▪ Promoteur : c’est une personne physique ou morale prenant l’initiative de la
réalisation d’une étude ;
▪ Biostatisticien : il va participer à l’écriture du protocole, réaliser les analyses et aider
à l’interprétation des résultats.
II. Protocole
A. Questions posées
1. Question clinique
La pertinence de la question clinique est déterminée par une revue exhaustive de la littérature
scientifique (rapports de cas, séries de cas, études observationnelles, essais contrôlés randomisés
validés ou non, méta-analyse). La confirmation d’un résultat d’un essai antérieur est possible en
enlevant au maximum les biais possibles ou la réalisation d’un essai innovant est nécessaire si aucune
étude n’a été faite.
Cette question va conditionner le schéma d’étude, le plan expérimental qui est consigné dans un
protocole.
2. Critères de jugement
Il faut un unique critère de jugement principal, possédant une pertinence clinique. Il est défini
précisément, sans ambiguïté.
Son évaluation doit être facile, fiable (préalablement évaluée). Nous allons devoir former les
cliniciens afin d’assurer un même niveau de compétences. Le critère de jugement porte le résultat du
test et sera à l’origine de la conclusion sur le traitement testé.
Phase Détails
Nous allons déterminer la dose optimale et réaliser une étude des effets
secondaires. L'identification de la population de patients pouvant bénéficier
Phase II
du traitement est réalisée durant cette phase. Les études sont de tailles
modérées, de 100 à 200 participants.
Elle est réalisée après l'obtention de l'AMM (elle est post-AMM). C'est la
Phase IV phase de pharmacovigilance, où nous recherchons les effets secondaires
rares, les complications tardives.
C. Échantillon
On souhaite que le résultat soit imputable à la seule intervention, c’est-à-dire que le résultat ne
soit pas dû aux fluctuations d’échantillonnage.
Seul le traitement doit différencier les deux groupes inclus dans l’essai.
Pour que cela soit possible, il faut une distribution au hasard des caractéristiques (observables ou
non) dans les groupes comparés.
Si l’intervenant choisit de manière volontaire l’allocation du patient à l’un des deux bras de
traitement, cela peut entraîner des biais. C’est pourquoi l’ambivalence des investigateurs et des
patients est nécessaire.
Des tests d’hypothèses avec H0 d’absence de différence entre les groupes sont utilisés.
Le hasard peut introduire des déséquilibres, en particulier lorsque n n’est pas très grand. Ceci
pose problème si le déséquilibre touche un facteur de confusion. Pour rétablir une comparaison, il faut
un équilibre entre les bras au sein de chaque catégorie d’un facteur de confusion.
2. Principes de la randomisation
Nous pouvons utiliser une table de nombres au hasard (voir exemple ci-dessous). La liste est
établie avant le début de l’essai. L’équilibre des effectifs entre les groupes est nécessaire. L’allocation
du bras se réalise après vérification de la possible inclusion du patient.
Une procédure centralisée est préférable. Les investigateurs contactent le centre en charge de la
randomisation pour chaque nouveau patient à inclure (téléphone, fax, internet).
La séquence est donc ici BABBBBABABABBAAABAAA. L’équilibre est, en moyenne, respecté entre
les deux bras.
C’est-à-dire que le premier patient sera attribué au bras B, le second au bras A, le troisième au
bras B et ainsi de suite.
3. L’insu
L’insu correspond à l’aveugle. L’évaluation du critère de jugement principal en aveugle permet
d’éviter les biais d’information.
L’insu évite les comportements différents des patients et des médecins. En effet l’insu correspond
à la non-connaissance par le patient ou le médecin du traitement reçu, ils ne savent si c’est le bras A
ou le bras B qui reçoit le traitement ou le placebo :
▪ Double aveugle : patients et médecins ignorent le traitement reçu ;
▪ Simple aveugle : seuls les patients ignorent le traitement reçu.
Ainsi, nous allons pouvoir conserver la comparabilité des groupes jusqu’au bout de l’essai.
Une attention particulière doit être apportée aux traitements (forme galénique, goût…), il ne faut
pas que le placebo soit reconnaissable.
Ce n’est pas toujours possible et justifié d’avoir un essai avec insu, lors de traitements
chirurgicaux, de traitements avec des effets secondaires caractéristiques, des essais en cancérologie
(nous ne pouvons pas mettre un placebo en cancérologie par exemple).
Si l’insu est impossible, on maintient la comparabilité des groupes par réajustement des
traitements selon des procédures standardisées.
Remarque – Dans le plan factoriel, le patient reçoit une combinaison des 2 traitements, on peut tester
s’il y a une synergie ou un antagonisme entre les deux molécules.
Il faut choisir soit un placebo (substance inerte sur le plan pharmacologique), soit un traitement
de référence. Nous utilisons généralement un placebo en l’absence de traitement de référence
recommandé, il y a bien sûr des exceptions, en cancérologie par exemple, où nous ne donnons pas de
placebo lorsqu’un traitement existe déjà.
La définition précise des interventions pour une standardisation, en particulier dans les essais
multicentriques, est une étape indispensable. Par exemple, pour les traitements, nous allons définir la
molécule, la forme galénique, la durée du traitement, la posologie, les horaires de prise et le mode de
conservation.
Lors du choix du groupe contrôle, nous pouvons utiliser un groupe historique ou un groupe
contemporain. Lors de l’utilisation d’un groupe historique, certains points peuvent fausser les résultats
de l’étude. Les patients d’une époque ne sont pas comparables à ceux d’une autre époque, il y a une
évolution dans le temps des modes de prise en charge d’une maladie, de la maladie elle-même. De
nombreux facteurs autres que le traitement lui-même peuvent venir fausser son évaluation. Le groupe
contemporain évite les biais liés aux différences de recrutement dans le temps.
D. Population de l’étude
Deux notions sont à distinguer lors d'un essai clinique : la population et l'échantillon. Nous
cherchons à améliorer la prise en charge thérapeutique d'une population, c'est la population cible.
Une étude exhaustive est impossible étant donné qu'il est impensable de faire l'essai sur
l'ensemble de la population. C'est pourquoi nous allons réaliser l'essai sur une partie seulement de la
population : c'est l'échantillon. L'échantillon est tiré d'une population source.
L’objectif d’un essai est à l’échelle d’une population. Pour cela, nous allons utiliser l’inférence.
L’inférence permet aux résultats observés d’être vrais pour la population dont est issu l’échantillon
(population source).
L’extrapolation des résultats à la population pour laquelle nous souhaitons au final appliquer le
traitement (population cible) est nécessaire. Il faut que l’échantillon soit représentatif de la population
source.
Il existe des critères d’éligibilité pour inclure ou exclure certains patients de l’essai clinique :
▪ Critères d'inclusion : nous regardons les caractéristiques de la population cible
généralisation des résultats ;
▪ Critères d'exclusion (ou de non-inclusion) : ils limitent l'inclusion en définissant des
caractéristiques qui restreignent l'intérêt du traitement, son efficacité, une balance
bénéfice-risque défavorable. Ils sont fondamentaux pour la sécurité de l'essai.
E. Taille de l’étude
La question clinique doit être traduite en une question statistique. Pour comparer une grandeur
estimée, la réalisation d’un test statistique est nécessaire afin de comparer des fréquences, des
moyennes, des survies…
1. Hypothèse alternative H1
C’est la différence minimale critique : il est nécessaire de définir une hypothèse H1 précise
correspondant à la différence minimale que l’on s’attend à observer. Nous allons utiliser des
informations dans la littérature pour déterminer H1. Il faut par la même occasion une définition d’un
risque ß ou d’une puissance (1 - ß).
2. Risques consentis
Il y a :
▪ α = Pr(∣Z∣ ≥ seuil ∣ H0 vraie) choisi a priori degré de signification p = Pr(∣Z∣ > ∣z0∣) ;
▪ ß = Pr(∣Z∣ < seuil ∣ H0 fausse).
Réalité
H0 vraie H0 fausse
Décision
H0 rejetée α 1–β
Rejet et erreurs.
Si σE = σR = σ et nE = nR = n, alors :
|𝑀𝐸 − 𝑀𝑅 |
𝑍=
2
√2𝜎
𝑛
5. Bilan
Récapitulatif.
Autrement dit, on doit augmenter le nombre de sujets lorsqu’on veut peu de risques de se
tromper (α et β faibles), ou lorsqu’on souhaite mettre en évidence un faible écart entre les deux
groupes (σ important et δ faible).
Il est constitué par un groupe d’experts évaluant la sécurité des patients et l’efficacité du
traitement lors d’analyses intermédiaires. Il peut être amené à recommander l’arrêt de l’essai. Il est
très utile pour des études internationales multicentriques pour lesquelles la surveillance peut s’avérer
complexe.
B. Analyse statistique
1. Données manquantes
Les données manquantes sont à envisager dès le protocole.
Nous observons des perdus de vue il manque le critère de jugement principal pour certains
participants :
▪ Des perdus de vue de manière indépendante de l’essai, c’est-à-dire pour des motifs
identiques dans les deux bras biais de sélection non différentiel (perte de
puissance) ;
▪ Des perdus de vue pour une raison liée au traitement biais de sélection différentiel
(sus ou sous-estimation de l’effet du traitement).
Il existe des méthodes statistiques pour prendre en compte les données manquantes.
Par exemple, nous pouvons utiliser la méthode du biais maximum pour les critères de jugement
dichotomiques. Il faut remplacer les critères de jugement manquants par des succès dans un groupe,
des échecs dans l’autre et analyser puis inversement. Si les conclusions sont concordantes, alors nous
pouvons conclure.
Il n’y a aucune exclusion a posteriori. Ceci permet d’assurer le maintien de la comparabilité des
groupes.
Il peut exister un biais d’attrition ce qui entraîne une non-comparabilité des groupes au moment
du recueil du critère de jugement principal. L’exclusion des patients qui n’ont pas commencé le
traitement pour une raison indépendante du bras de randomisation entraîne une analyse en intention
de traiter modifiée. L’exclusion de l’analyse des patients pour lesquels le protocole initial n’est pas
totalement respecté constitue une analyse per-protocole.
3. Analyses statistiques
Les analyses statistiques sont des analyses intermédiaires prévues dès le protocole. Beaucoup
de paramètres sont à prendre en compte : « Flow chart », la description des caractéristiques globales
et par les bras, les données manquantes. Nous allons étudier le risque relatif, la différence de risque,
les taux relatifs (critère de survie) et surtout les intervalles de confiance.
IV. Réglementation
Il existe de nombreuses lois concernant l’expérimentation humaine en se basant sur les principes
de la Déclaration Universelle des Droits de l’Homme (ONU 1978) : liberté, sécurité, égalité, dignité
humaine.
Il existe un Comité de Protection des Personnes (CPP) pour surveiller l’intérêt des patients inclus
dans les essais cliniques. Il est nécessaire d’avoir une autorisation de l’Agence française de sécurité
sanitaire des produits de santé (Afssaps) ou du Ministre chargé de la santé pour lancer un essai.
La Base européenne EudraCT des essais cliniques permet de voir tous les essais cliniques réalisés
en Europe.
V. L’essentiel
À retenir :
▪ Quatre principes :
- Comparatif ;
- Contrôlé ;
- Randomisé ;
- En aveugle ;
▪ L’hypothèse H1 du calcul du nombre de sujets n’est pas l’hypothèse alternative du
test réalisé, elle n’est pas l’hypothèse en faveur de laquelle se fait la conclusion ;
À comprendre :
▪ Il y a une interaction forte entre les différents acteurs (investigateurs et
biostatisticiens) ;
▪ Tout est consigné dans un protocole ;
▪ Le protocole et le déroulement conditionnent les conclusions.
I. Introduction
L’épidémiologie est une étude de type observationnelle. Il existe deux schémas d’étude :
▪ L'épidémiologie descriptive ;
▪ L'épidémiologie analytique.
L’épidémiologie descriptive a pour objectif de décrire la fréquence des maladies dans différentes
populations et au cours du temps. Il s’agit par exemple de décrire l’hétérogénéité de la fréquence des
cancers selon la zone géographique ou l’évolution de la fréquence avec le temps. Ces études
permettent de soulever des hypothèses sur les facteurs associés au risque de cancer.
Les études d’épidémiologie analytique ont pour objectif de quantifier l’association entre des
facteurs d’exposition et le risque de développer une maladie donnée. Il s’agit par exemple de quantifier
le lien entre l’exposition à l’amiante et le risque de cancer du poumon.
Contrairement aux études expérimentales dont l’exemple le plus classique est l’essai clinique
randomisé, dans les études observationnelles il n’y a pas d’intervention.
Nous observons par exemple des sujets qui sont exposés ou non à un facteur que nous pensons
être associé à une augmentation du risque de développer une maladie. L’investigateur ne contrôle pas
l’exposition au facteur de risque.
Si nous nous plaçons sur une échelle de temps, une étude transversale consiste à faire une coupe
à un moment donné et à mesurer la fréquence de la maladie sur cette coupe. Il s’agit d’une
photographie de la population à un moment donné. Dans une étude transversale, il n’y a pas de suivi
des sujets. Nous les observons à un moment donné et ils ont ou ils n’ont pas la maladie.
Principe de l’estimation d’une prévalence : lors d’une étude transversale, nous réalisons
l’estimation d’une prévalence.
De plus, un estimateur est à utiliser : on va prendre la proportion observée sur l’échantillon, que
l’on le note 𝑃̂.
Un estimateur correspond à une fonction utilisée pour calculer, dans notre cas, la prévalence.
Le chapeau sur le P permet d’indiquer que la valeur calculée sur l’échantillon est une estimation de la
prévalence dans la population.
La prévalence est une valeur liée à la population totale et non à l’échantillon, c’est pour cela que
l’on passe par un estimateur de la prévalence.
Exemple – Estimation de la prévalence des infections nosocomiales dans les hôpitaux français en 1996 :
On réalise une étude transversale à un jour donné. L’étude se réalise au sein d’un échantillon de
46 000 patients hospitalisés, on note 3370 patients avec une infection nosocomiale.
On suppose que l’échantillon constitué un jour donné est représentatif de la population des
patients hospitalisés au cours de l’année 1996. On se sert de la valeur calculée sur l’échantillon de
l’étude pour parler de la prévalence des infections nosocomiales dans les hôpitaux français en 1996. Il
s’agit d’un exemple d’inférence statistique.
3370
𝑃̂ = = 7,3 %
46000
On utilise une approximation de la distribution de la prévalence par une distribution normale.
0,073 × (1 − 0,073)
𝑁(0,073; √ )
46 000
0,073 × (1 − 0,073)
𝐼𝐶95 % = [0,073 ± 1,96√ ]
46 000
Remarque – L’intervalle de confiance à 95 % est [7,1 % ; 7,5 %]. Avec une précision de l’estimation à
0,2 %. C’est-à-dire que la prévalence des infections nosocomiales dans les hôpitaux français en 1996 a
95 % de chances d’être comprise entre 7,1 % et 7,5 %.
On utilise l’intervalle de confiance pour déduire l’intervalle dans lequel il est le plus probable de
trouver la prévalence d’après son estimation.
Il ne faut pas oublier de vérifier les conditions d’approximation par la distribution normale !
C’est la première chose à faire, ça peut vous éviter de faire des calculs si jamais on est hors
conditions. Conditions a priori :
𝑛 = 46000 ≥ 30
Conditions a posteriori :
46000 × 0,071 ≥ 5
46000 × (1– 0,071) ≥ 5
46000 × 0,073 ≥ 5
46000 × (1– 0,073) ≥ 5
Il s’agit formellement du rapport d’une probabilité conditionnelle (la probabilité que l’évènement
survienne dans l’intervalle de temps 𝒅𝒕 sachant qu’il ne s’est pas produit avant 𝒕) sur la longueur de
l’unité de temps.
Elle est de 0,11 pour une année. Nous disons que le taux d’incidence est estimé à 0,11
personne-année. Il mesure bien la vitesse d’apparition de la maladie.
Nous pouvons estimer le taux d’incidence en se basant sur l’observation d’un groupe d’individus.
Sous ces hypothèses, les individus et les unités de temps sont interchangeables. Ainsi, le suivi de
10 personnes pendant 1 demi-année est équivalent à suivre 5 personnes pendant 2 demi-années, soit
un an.
Dans l'exemple précédent, le nombre d'années est 18. Donc 2 / 18 = 0,11 par personne-année.
L’estimation du taux d’incidence de la maladie est de 11 nouveaux cas pour 100 personnes-années.
Nous pouvons aussi utiliser la formule suivante pour estimer le taux d’incidence :
𝑛𝑜𝑚𝑏𝑟𝑒 𝑑′é𝑣é𝑛𝑒𝑚𝑒𝑛𝑡𝑠
𝑛𝑜𝑚𝑏𝑟𝑒 𝑑′ 𝑢𝑛𝑖𝑡é𝑠 𝑑𝑒 𝑡𝑒𝑚𝑝𝑠
𝜆̂ =
𝑙𝑜𝑛𝑔𝑢𝑒𝑢𝑟 𝑑′ 𝑢𝑛𝑖𝑡é 𝑑𝑒 𝑡𝑒𝑚𝑝𝑠
𝜆̂
𝑣𝑎𝑟(𝜆) =
𝑛𝑜𝑚𝑏𝑟𝑒 𝑑𝑒 𝑝𝑒𝑟𝑠𝑜𝑛𝑛𝑒𝑠 − 𝑎𝑛𝑛é𝑒𝑠
C. Risque de la maladie
1. Généralités
Le risque de la maladie correspond à l’incidence cumulée de la maladie jusqu’à un temps t :
𝑹(𝒕) = 𝒑(𝑻 ≤ 𝒕)
Le risque correspond à une probabilité. Il s’agit de la probabilité d’avoir développé la maladie au
temps t.
𝑀
𝑅̂ (𝑡) =
𝑁
Avec M le nombre de nouveaux cas sur la période de suivi et N le nombre de sujets à risque au
début de la période.
2. Exemple n°1
Exemple – Estimation du risque de récidive d’une maladie :
On se place dans une cohorte de 368 femmes opérées d’un cancer du sein et suivies pendant 5
ans. On peut estimer le risque de récidive à 5 ans. Tous les sujets ont eu la maladie.
130
𝑟̂5 𝑎𝑛𝑠 = ≈ 35 %
368
La durée du suivi est variable d’un individu à l’autre. Le taux d’incidence est constant sur la période
considérée.
La probabilité de développer la maladie avant le temps t = 1 – la probabilité de ne pas l’avoir
développée :
𝑅(𝑡) = 1 − 𝑒 −𝜆𝑡 (que si λ constant)
Avec :
• 𝑒 −𝜆𝑡 = Probabilité de ne pas avoir développé la maladie au temps t ;
• 𝜆𝑡 = Taux cumulé.
3. Exemple n°2
Exemple – Estimation du risque de maladie sur
une période de 3 ans :
̂
𝑅̂ (𝑡) = 1 − 𝑒 −𝜆𝑡
La cohorte peut être reconstituée dans le passé : cohortes historiques. L’identification d’un
facteur de risque de survenue de la maladie est possible ainsi que des facteurs pronostiques.
L’identification d’un facteur de risque de survenue de la maladie est dans ce type d’étude possible
aussi.
Les avantages des études cas-témoins par rapport aux études de cohorte :
▪ Plus rapides étant donné qu’il n’y a pas de suivi ;
▪ Moins de sujets à inclure ;
▪ Moins lourdes à mettre en place.
Les inconvénients des études cas-témoins par rapport aux études de cohorte :
▪ Risque de biais plus important (biais de sélection des cas et des témoins, biais de
mesure du facteur étudié car l’exposition n’est pas mesurée en temps réel, biais de
confusion) ;
▪ Incidence de la maladie non mesurée directement.
Le facteur d’exposition est le facteur étudié, par exemple nous pouvons étudier la consommation
de tabac, d’alcool, l’exposition à l’amiante, etc.
La maladie est le critère de résultat, par exemple le cancer du poumon, de l’œsophage, les
maladies cardio-vasculaires, etc.
Les critères permettant d’identifier un facteur de risque d’une maladie sont multiples :
▪ L’exposition au facteur de risque doit précéder la survenue de la maladie ;
▪ Mise en évidence un surrisque chez les exposés par rapport aux non-exposés ;
▪ Une cohérence et une force d’association doivent s’observer ;
▪ La plausibilité clinique et biologique est importante ;
▪ La mise en évidence d’un effet dose doit s’observer.
B. Tableau de contingence
Pour les deux types d’études, il faut réaliser un tableau de contingence.
NDLR – Il faut savoir refaire ce type de tableau pour la résolution des exercices.
Dans une étude de cohorte, les calculs n’ont de sens que sur les lignes du tableau.
Dans une étude cas-témoins, les calculs n’ont de sens que sur les colonnes du tableau. Il faut
bien comprendre pourquoi ! Cela déterminera ce que vous pourrez calculer à partir de vos données.
Tout vient de la manière de sélectionner votre échantillon. Par exemple ça n’a pas de sens de regarder
une proportion d’exposés / non exposés dans une étude de cohorte puisque c’est vous (l’investigateur
de l’étude) qui décidez de combien vous en prenez en exposés ou non.
Ce test ne mesure pas la force de l’association, il mesure le degré de confiance que nous
pouvons avoir lorsque nous concluons qu’il existe une différence réelle entre les populations
comparées.
Pour mesurer l’ampleur du lien entre le facteur de risque et la maladie, nous utilisons l’odds ratio et
le risque relatif.
On a :
▪ H0 : il y a indépendance entre le facteur d’exposition étudié et la maladie ;
▪ H1 : il existe une association entre le facteur d’exposition étudié et la maladie.
(𝑶𝒊 − 𝑬𝒊 )𝟐
∑ ~𝝌𝟐𝟏 𝒅𝒅𝒍
𝑬𝒊
Nous allons utiliser les valeurs du tableau de contingence. Oi représente les effectifs observés
(valeurs a, b, c et d) et Ei les effectifs attendus. Calculs des effectifs attendus :
(𝑛0 × 𝑚0 )
Exposés 𝐸= a + b = m0
𝑛
Non exposés c + d = m1
Total a + c = n0 b + d = n1 a+b+c+d=n
Deux possibilités :
▪ 𝛘2 < 3,84, nous ne rejetons pas H0 au risque α = 5 % :
- l’association n’est pas statistiquement significative au risque de 5 % ;
▪ 𝛘 > 3,84, nous rejetons H0 :
2
Risque relatif :
𝑹𝒊𝒔𝒒𝒖𝒆 𝒄𝒉𝒆𝒛 𝒍𝒆𝒔 𝒆𝒙𝒑𝒐𝒔é𝒔 𝒅′ 𝒂𝒗𝒐𝒊𝒓 𝒍𝒂 𝒎𝒂𝒍𝒂𝒅𝒊𝒆
𝑹𝑹 =
𝑹𝒊𝒔𝒒𝒖𝒆 𝒄𝒉𝒆𝒛 𝒍𝒆𝒔 𝒏𝒐𝒏 − 𝒆𝒙𝒑𝒐𝒔é𝒔 𝒅′ 𝒂𝒗𝒐𝒊𝒓 𝒍𝒂 𝒎𝒂𝒍𝒂𝒅𝒊𝒆
Soit :
𝑅1 (𝑡)
𝑅𝑅 =
𝑅0 (𝑡)
𝑎
𝑚
̂ = 0
𝑅𝑅 𝑐
𝑚1
Si le RR = 3,2 : les exposés de l’échantillon ont 3,2 fois plus de risques de développer la maladie
que les non exposés.
Taux relatif :
λ1 (t)
TR(t) =
λ0 (t)
Remarque – Si le taux relatif est constant au cours de la période de suivi et que l’évènement est rare
ou la durée d’observation courte, nous avons TR ≈ RR.
On a :
▪ Si RR ou TR ou odds ratio > 1, le facteur est associé à une augmentation du risque
d’être malade ;
▪ Si RR ou TR ou odds ratio < 1, le facteur est associé à une diminution du risque d’être
malade.
Il n’y a pas de suivi des patients. Par conséquent, nous ne pouvons calculer ni le RR ni le TR
(Cf. A. pour bien comprendre pourquoi) !
2. Odds ratio
L’odds ratio ne se calcule pas de la même manière si nous nous plaçons dans une étude de
cohorte ou dans une étude cas-témoins.
Lorsque l’évènement d’intérêt est rare dans la population étudiée, l’odds ratio est proche du risque
relatif et il peut s’interpréter comme un risque relatif.
E. Exemples
Type cytologique 3 :
96
𝑟̂𝑇𝑦𝑝𝑒 3 = ≈ 48 %
201
Type cytologique 1 ou 2 :
34
𝑟̂𝑇𝑦𝑝𝑒 1 𝑜𝑢 2 = ≈ 20 %
167
L’hypothèse à tester dans cette étude est que le risque de récidive des femmes qui avaient une
tumeur de type cytologique 3 est différent du risque de récidive des femmes qui avaient une tumeur
de type 1 ou 2, soit un test bilatéral.
Pour répondre, il faut utiliser un test du Chi-2. On calcule les effectifs attendus, ils sont entre
parenthèses dans le tableau.
Pour réaliser les calculs, nous avons calculé le nombre de personnes-années de suivi :
▪ 5 personnes-années pour les femmes qui n’ont pas récidivé dans les 5 ans ;
▪ Délai en années entre l’intervention et la récidive pour celles qui ont récidivé dans
les 5 ans.
Nous réalisons une approximation, en considérant que les femmes qui ont récidivé ont été suivies
2,5 ans :
0,125
𝑇𝑅 = ≈ 2,8
0,045
Le taux relatif de récidive est estimé à 2,8 alors que le risque relatif de récidive à 5 ans est
estimé à 2,4.
Nous calculons :
Le risque de la maladie ;
Le risque relatif ;
L’échantillon de témoins est constitué de 775 hommes tirés au sort dans la liste électorale d’Ille
et Vilaine. L’objectif est d’obtenir un échantillon de témoins représentatif de la population générale
en termes d’exposition au facteur étudié c’est-à-dire la consommation d’alcool. Pour mesurer
l’exposition dans le passé, on réalise un interrogatoire. Le seuil d’exposition est fixé à 80 g par jour. Si
le sujet a une consommation supérieure ou égale à 80 g par jour, il est dans le groupe exposé. En
revanche si sa consommation est inférieure à 80 g par jour, il est dans le groupe non exposé. On réalise
un tableau de contingence.
770
0 - 79 g 104 666
Il n’est pas possible d’estimer l’incidence de la maladie, les effectifs des cas et des témoins étant
déterminés par l’investigateur. Il n’est donc pas possible d’estimer l’ampleur de l’association entre le
facteur étudié et le critère de résultat par un risque relatif ou un taux relatif.
Nous réalisons un test du Chi-2. Nous calculons les effectifs attendus, ils sont entre parenthèses
dans le tableau.
Étant donné que (χ1)2 >>> 3,84, la probabilité que la différence observée soit due au hasard est
très inférieure à 5 %. Le degré de signification est p < 0,0001. La différence est statistiquement
significative. La probabilité d’être exposé est plus élevée chez les cas que chez les témoins.
Quelle est la force de l’association entre la consommation d’alcool à dose élevée et le risque de
cancer de l’œsophage ?
Les hommes qui ont été exposés à une consommation d’alcool ≥ 80g par jour ont un risque de
cancer de l’œsophage environ 5,6 fois plus élevé que les hommes ayant été exposés à une
consommation inférieure. L’intervalle de confiance à 95 % est compris entre 4 et 7,8.
La mise en évidence d’un effet dose est possible. Nous étudions le lien entre la consommation
d’alcool (répartie sur plusieurs niveaux : nulle, faible, régulière et exagérée).
120 g ou plus 45 22
80 – 119 51 87
40 – 79 75 280
0 – 39 29 386
Le calcul de l’odds ratio pour chaque niveau de consommation par rapport au niveau de base est
calculé.
45
𝑂𝑅120𝑔 𝑜𝑢+/ 0−39𝑔 = 29 = 27,2
̂
22
386
51
̂ 80𝑔−119/ 0−39𝑔
𝑂𝑅 = 29 = 7,8
87
386
75
̂ 40−79𝑔/ 0−39𝑔
𝑂𝑅 = 29 = 3,6
280
386
La force de l’association augmente avec la quantité d’alcool.
A. Biais de sélection
Le biais de sélection correspond à la sélection d’un échantillon qui n’est pas représentatif de la
population cible.
Exemple – Une étude cas-témoins est réalisée pour quantifier le lien entre la consommation d’alcool et
le risque de cancer de l’œsophage. Les sujets inclus dans le groupe des témoins sont des patients
hospitalisés dans un service de gastro-entérologie et qui n’ont pas de cancer de l’œsophage. Les
témoins inclus peuvent avoir des pathologies pour lesquelles la consommation est un facteur de risque.
Ils ont une probabilité plus importante d’être exposés à l’alcool que la population générale. Cela va
entraîner une sous-estimation du lien entre la consommation d’alcool et le risque de cancer de
l’œsophage.
B. Biais de confusion
Le biais de confusion est dû à des facteurs liés à la fois au facteur étudié et au critère de résultat.
Ce sont des facteurs de confusion.
Exemple – Le tabac est un facteur de risque pour le cancer du poumon. Les sujets qui consomment de
l’alcool sont également le plus souvent fumeurs. Le lien mis en évidence entre consommation d’alcool
et risque de cancer du poumon peut être au moins en partie expliqué par la consommation de tabac.
La consommation de tabac est un facteur de confusion potentiel. Il peut entraîner un biais de confusion
dans la quantification du lien entre consommation d’alcool et risque de cancer du poumon. Le biais de
confusion ira dans le sens d’une surestimation.
Exemple – Dans les études cas-témoins, un biais de mesure classique du facteur étudié est le biais de
mémoire. On interroge les cas et les témoins sur leur exposition à un facteur dans le passé. Les cas vont
en général mieux se souvenir de leur exposition au facteur étudié que les témoins. Cela entraîne une
surestimation du lien entre le facteur étudié et le critère de résultat.
Analyse de la survie
Rédigé en collaboration avec le Pr. ROY
NDLR – Hors-programme depuis 2020, ce cours réapparaît en 2022-2023 (d’après nos informations).
I. Introduction
Remarque – Dans ce cours, “log” est le logarithme népérien.
L’analyse de la survie s’inscrit dans un contexte médical : nous allons quantifier la probabilité de
décès, de rechute ou de survie, évaluer des facteurs pronostiques et comparer des traitements.
Le risque (ou probabilité) de décès d’un individu est de toute façon égal à 1 ! Ainsi, la probabilité
de décéder estimée sur une cohorte n’a de sens qu’à délai fixé. La variable d’intérêt est la variable
aléatoire T, que constitue la durée qui sépare le diagnostic de la mort (ou de la rechute). C’est de cette
variable que nous étudions la distribution.
Nous allons nous intéresser au temps entre une origine et un évènement, par exemple :
B. Censure
L’observation est censurée (à droite) si nous savons seulement que T > t, date à laquelle
l’observation s’est achevée :
▪ L’évènement est le décès (= mortalité globale, donc toute cause) et le sujet est en vie
à la fin de l’étude ;
▪ L’évènement est le décès par cancer (donc mortalité spécifique) et l’observation
s’achève par un accident (cause de mortalité différente, nous ne pouvons donc pas
conclure sur le délai de mort par cancer).
Voilà des données fictives si tous les sujets tombaient malade au même moment :
Cas théorique : tout le monde tombe malade au même moment puis certains décèdent après.
Remarque – Légende :
• (B) : Date de point, nous ne disposons pas de la durée de survie pour II et VIII, les données sont
censurées à droite, ils sont toujours vivants à la date de point. II et VIII constituent des exclus
vivants ;
• (A) : Date de point, nous connaissons tous les temps de survie du groupe.
Le IX est perdu de vue, il biaise l’information, il manque une information : nous ne connaissons
pas son statut à la date de point, nous ne savons pas s'il est mort ou vivant. Ce type de biais est à éviter
absolument.
Pour pouvoir plus facilement analyser, nous allons ramener tous les sujets à la même date
d’origine, nous allons changer l’échelle. L’abscisse représente alors le temps de participation à l’étude.
La date de début de maladie est ramenée en abscisse, seules les durées des maladies sont prises en compte, pas les dates.
En résumé, certains sujets ne sont pas suivis jusqu’à ce que l’évènement se produise, pour eux
nous savons seulement que T > ti. L’observation correspondante est une observation censurée. Les
données de survie sont donc constituées de deux informations, la durée du suivi T, et l’indicateur
d’évènement δ : δ = 1 si l ’observation se termine par un décès, δ = 0 si le sujet est vivant à la fin.
1. Définitions
Il y a :
▪ Risque de décès : probabilité d’être décédé à la date t = fonction de répartition de la
variable T = R(t) = Pr(T ≤ t) : probabilité que le décès survienne avant ou à l’instant t ;
▪ Survie : probabilité d’être en vie à la date t = S(t) = Pr(T > t) = 1 – R(t) (pour une
distribution continue).
Nous pouvons alors faire une fonction de répartition empirique (qui aura une forme
caractéristique des variables aléatoires discrètes) :
La survie est une courbe empirique, c’est-à-dire construite à partir de valeurs. La survie est le
complément à 1 du risque (ces courbes sont valables en absence de censure).
La loi normale décrit mal la survie, nous ne pouvons donc pas donc pas faire d’approximation
par celle-ci !
4. Données incomplètes
Nous avons des données incomplètes lorsque certains sujets ne sont pas suivis jusqu’à ce que
l’évènement se produise :
▪ Pour eux, nous savons seulement que T > ti ;
▪ ti est une observation censurée (exclu vivant).
𝑺(𝒕𝒊 ) = (𝟏 − 𝒊⁄𝒏𝟎 )
𝟏 𝟏 𝟏
𝑺(𝒕𝒊 ) = (𝟏 − 𝒏 ) × (𝟏 − 𝒏 ) × … × (𝟏 − 𝒏 )
𝟎 𝟎 −𝟏 𝟎 −𝒊+𝟏
𝜹 𝜹𝟐 𝜹𝒊
𝑺(𝒕𝒊 ) = (𝟏 − 𝒏𝟏 ) × (𝟏 − 𝒏 ) × … × (𝟏 − 𝒏 )
𝟎 𝟎 −𝟏 𝟎 −𝒊+𝟏
Lorsque nous avons une égalité entre ev et mort, le décès passe avant la censure dans la méthode
de Kaplan-Meier. De plus il faut prendre en compte, s’il y en a un, le décès (ou les décès) affiché(s) au
niveau de l’année pour laquelle la survie est demandée car ce dernier aura eu lieu au cours de l’année,
et on cherche à calculer la probabilité de survie à la fin de cette année.
Nous pouvons voir entre Sj3 et Sj4 que la censure ne modifie pas l’estimation de la survie à un
même temps.
La 3ème option est banale, comme dans les derniers cours nous pouvons utiliser le test classique.
𝑆1𝑖 − 𝑆2𝑖
𝜒=
√𝑉𝑎𝑟(𝑆̂1𝑖 ) + 𝑉𝑎𝑟(𝑆̂2𝑖 )
Mais cette troisième option ne compare la situation dans deux groupes qu’à un délai donné.
Or, nous souhaitons comparer les distributions de durées de survie, la spécificité des données de
survie suggère alors l’utilisation de méthodes non paramétriques.
C. Test du Log-Rank
Généralisation des tests de rang aux données censurées : les rangs des observations triées
globalement se distribuent-ils au hasard entre les deux groupes ?
▪ Le test du “Log-Rank” est le test efficace contre l’alternative de taux proportionnels
dans les deux groupes ;
▪ C’est formellement le principe du test de Mantel-Haenszel-Cochran.
Il faut noter que ce test du Log-Rank ne prend en compte que les rangs d’apparition des décès,
non la date.
Sous l’hypothèse nulle H0, les d+i décès se distribuent proportionnellement aux effectifs, le
nombre attendu dans le groupe 2 est donc :
𝑛2𝑖
𝑒2𝑖 = 𝑑+𝑖 ×
𝑛+𝑖
d+i étant fixé, la variance de 𝛥i = d2i - e2i est :
𝑛1𝑖 𝑛2𝑖 𝑑+𝑖 (𝑛+𝑖 − 𝑑+𝑖 )
𝑉𝑎𝑟(∆𝑖 ) = 2
𝑛+𝑖 (𝑛+𝑖 − 1)
(𝛴𝑖 ∆𝑖 )2
𝑡𝑒𝑠𝑡 =
𝛴𝑖 𝑉𝑎𝑟(∆𝑖 )
𝑘 𝑘
𝑛2𝑖
𝑈 = ∑ 𝑤𝑖 (𝑑2𝑖 − 𝑒2𝑖 ) = ∑ 𝑤𝑖 (𝑑2𝑖 − 𝑑+𝑖 )
𝑛+𝑖
𝑖=1 𝑖=1
Remarque – wi est le poids, il permet de donner plus d’importance aux différences de survie précoces
qu’aux différences de survie tardives.
Si k est grand ou si les marges de chaque tableau sont grandes, U suit une loi
asymptomatiquement normale.
𝑛 2
[∑𝑘𝑖=1 𝑤𝑖 (𝑑2𝑖 − 𝑑+𝑖 𝑛 2𝑖 )]
+𝑖
𝜒2 = avec 𝜒 2 à 1 ddl
(𝑛 − 𝑑+𝑖 ) 𝑛1𝑖 𝑛2𝑖
∑𝑘𝑖=1 𝑤𝑖 𝑑+𝑖 +𝑖 2
(𝑛+𝑖 − 1) 𝑛+𝑖
𝑂2 = ∑ 𝑑2𝑖 𝑒𝑡 𝐸2 = ∑ 𝑒2𝑖
𝑖=1 𝑖=1
(𝑂2 − 𝐸2 )2
𝜒2 =
∑𝑘𝑖=1 𝜈𝑖
La formule approchée du Log-Rank ci-dessous est conservative (c’est-à-dire qu’elle est plus petite
que le Log-Rank, donc si nous rejetons la formule approchée, nous rejetons forcément la formule du
Log-Rank).
(𝑂2 − 𝐸2 )2 (𝑂1 − 𝐸1 )2
𝜒𝑎2 = +
𝐸2 𝐸1
Remarque – Exemple d’un Log-Rank :
Log-Rank test.
Conclusion : nous disposons de nombreux outils pour estimer la distribution de durée de survie
éventuellement censurée. Il existe également des tests de comparaison de distributions, mais nous
aimerions avoir des modèles de régression pour gérer simultanément plusieurs co-variables.
Le taux de décès n’est pas une probabilité en particulier, il est éventuellement > 1. λ est le taux
instantané de mortalité.
Relation entre R, S, λ.
Lorsque λ(t) est constant (= λ) la survie est dite exponentielle : 𝑺(𝒕) = 𝑒 −𝜆𝑡 . C’est le modèle le
plus simple, le modèle de survie paramétrique.
Dans le premier cas, λ ne varie pas au cours du temps (c’est une constante), nous allons regarder
l’aire sous la courbe, l’intégrale, le taux cumulé. C’est le modèle de survie exponentielle.
Ici, λ est constant par intervalle de temps, c’est un modèle acceptable, nous avons alors un
modèle de survie exponentielle par intervalle.
Exemple : temps de survie en années. 100 données complètes, c’est-à-dire sans censure.
Les données sont ici parfaitement décrites par une distribution exponentielle ayant la même
moyenne que les données ci-dessus. La distribution exponentielle de moyenne 1/λ est le plus simple
des modèles de survie paramétrique avec :
𝑺(𝒕) = 𝒆−𝝀𝒕
𝑹(𝒕) = 𝟏 − 𝒆−𝝀𝒕
Le paramètre λ est le taux de mortalité, ou nombre de décès par unité de temps, estimé par
n0 / (Σti) (= 1/moyenne détail pratique !). Les données étant complètes, nous avons en effet observé
n0 décès pour une durée totale d’observation de ces sujets égale à (Σti). Cette quantité s’exprime en
personnes-années d’observation : années d’observation accumulées par l’ensemble des personnes
étudiées.
La fonction de répartition exponentielle qui s’ajuste le mieux aux données est la fonction :
1
(− ×𝑡)
1−𝒆 2,994
A. Modèle paramétrique
Nous allons définir λ(t) à l’aide d’une fonction connue aux paramètres près :
Nous comptons le nombre de personnes ni-1 exposées au risque de décès en ti-1 pour chaque i.
Nous comptons le nombre de décès di et de sortis vivants ci dans l’intervalle [ti-1 ; ti]. Nous
estimons :
▪ Le taux de décès λi dans chaque intervalle ;
▪ La probabilité conditionnelle si = exp[-λi(ti – ti-1)] de survivre en ti si on était vivant
en ti-1.
La survie en ti peut ainsi être calculée comme le produit de la survie dans des intervalles
successifs :
𝑆(𝑡) = 𝑠1 × 𝑠2 × . . .× 𝑠𝑖
Remarque – Exemple : estimation de λ :
λ est constant dans l’intervalle, nous avons quatre sujets décédés et deux censures. Ici nous avons
une estimation car nous avons des données incomplètes à cause des censures ! Il faut bien diviser par
le temps de participation de tous les participants même les censures !!!
A. Sans censure
Si ci = 0, la probabilité de décéder dans l’intervalle et le taux de décès dans ce même intervalle
sont estimés par :
𝒅𝒊
𝒓̂𝒊 = 𝒏𝒊−𝟏
𝒅𝒊
𝝀̂𝒊 = 𝒅
𝒏𝒊−𝟏 × ∆𝒕𝒊 − 𝒊 × ∆𝒕𝒊
𝟐
Remarque – Nous remarquons que nous retirons la moitié aux décès, nous faisons l’hypothèse que les
décès se sont produits à la moitié du temps (= moyenne). ri = probabilité de décéder en “première
intention”.
B. Avec censure
Si ci ≠ 0, c’est-à-dire en cas de censure :
𝒅𝒊
𝒓̂𝒊 = 𝒄
𝒏𝒊−𝟏 − 𝒊
𝟐
𝒅𝒊
𝝀̂𝒊 = 𝒄 𝒅
(𝒏𝒊−𝟏 − 𝒊 ) × ∆𝒕𝒊 − 𝒊 × ∆𝒕𝒊
𝟐 𝟐
𝒔̂𝒊 = 𝟏 − 𝒓̂𝒊
Nous supposons ici également que les décès et les censures interviennent au milieu de l’intervalle.
Le modèle de Cox est un modèle à taux proportionnels dans lequel la forme analytique du taux
n’est pas spécifiée. λ0(t) est estimé à partir de données mais pas de paramètres.
Le modèle s ’écrit λ(t, z) = λ(t, 0) × exp(ßz), la fonction λ(t, 0) est le taux de base (inconnu), z un
vecteur de covariable (mesurée), ß un vecteur de paramètre (à estimer) = influence du traitement
(ttt) sur la survie et le décès : nouveau paramètre que nous allons estimer.
B. Survie ajustée
0,80 = bras placebo, 0,2742 =
taux relatif de la puissance de survie :
▪ 0,800,2742 = 0,94 =
bras chimio ;
▪ 0,400,2742 = 0,78 ;
▪ 0,200,2742 = 0,64.
Ci-dessous sont résumées les formules utiles lorsqu’on compare deux groupes (1 et 0) dans un
modèle à taux proportionnels :
𝜆1 (𝑡) = 𝛼 × 𝜆0 (𝑡)
𝑆1 (𝑡) = 𝑆0 (𝑡)𝛼
NDLR – Ce cours est une introduction à la notion d’intelligence artificielle. Il est hors-programme pour
cette année 2022-2023 (d’après nos informations), mais, dans le doute, il a été laissé dans le polycopié.
Le professeur a décidé de mettre l’accent sur les modèles d’apprentissage et notamment les points
communs et les différences qu’il existe entre les modèles d’apprentissage classiques et ceux basés sur
l’utilisation des réseaux neuronaux.
En effet, les algorithmes d’apprentissage sont des modèles.
S’il s’avère que ce cours est de nouveau au programme pour l’année 2023-2023, il est conseillé de s’y
rendre.
I. Variabilité
La notion de variabilité est primordiale. En effet, un patient n’est jamais parfaitement identique
à un autre : sa maladie, sa réponse au traitement, son pronostic, etc. Tout est susceptible de varier.
Cette variabilité pose alors une question fondamentale dans le soin : comment analyser,
comprendre, décider dans un monde où la variabilité est la règle ? Il faut bien comprendre que cette
notion de variabilité ne concerne pas que la biostatistique mais tout le domaine du soin.
« Si les patients étaient identiques entre eux, il n’y aurait pas besoin de
biostatistiques, mais il n’y aurait pas de médecine non plus. »
Valleron AJ Préface.
II. Modèles
NDLR – Les équations des modèles ne sont pas à retenir dans le cadre de la première année.
A. Modèle diagnostique
𝛽 +Σ𝛽𝑗 𝑋𝑗
𝑒 0 1
Le modèle logistique : 𝑃(𝑌 = 1|𝑋) = 𝛽 +Σ𝛽𝑗 𝑋𝑗 = −(𝛽0 +Σ𝛽𝑗 𝑋𝑗 ) est un exemple de modèle
1+𝑒 0 1+𝑒
diagnostique. (Ce modèle est donné à titre d’exemple, il n’est pas au programme de PASS).
Cela permet de donner une probabilité que le sujet soit atteint de la maladie, en fonction de
covariables.
Il reste une partie qui n’est pas expliquée par les covariables et qui est donc source d’erreur. Les
modèles diagnostiques prennent en compte l’effet de variables sur la probabilité de la maladie.
Remarque – Exemple concret : un modèle étudiant la tension artérielle pour estimer la probabilité que
le patient souffre d’une hypertension artérielle est un modèle diagnostique.
B. Modèle pronostique
Le modèle de survie de Cox 𝜆(𝑡, 𝑋) = 𝜆(𝑡, 0)exp (Σ𝛽𝑗 𝑋𝑗 ) est un exemple de modèle pronostique.
(Ce modèle est donné à titre d’exemple, il n’est pas au programme de PASS).
Remarque – Exemple concret : le stade du cancer est une variable associée à son pronostic, la taille de
la tumeur est un critère pronostic du cancer.
Le but est de repérer les patients qui ne répondront pas favorablement au traitement pour leur
éviter un traitement lourd et inutile.
Remarque – Exemple concret : certains polymorphismes peuvent être associés à la variabilité dans la
réponse aux traitements.
III. Estimation
Dans cette partie, nous allons chercher à comprendre comment nous pouvons estimer les
paramètres d’un modèle, c’est-à-dire les coefficients β associés aux variables explicatives X. (cf. le
cours Corrélation-Régression).
Il faut alors travailler sur les résidus notés ei qui, pour l’ensemble des valeurs de la variable X, sont
les écarts entre la valeur observée sur les données (notée yi) et la valeur qui serait prédite par le
modèle (notée µi), située sur la droite de régression créée.
L’objectif est de minimiser la somme des écarts quadratiques (au carré) entre les valeurs
observées yi et les valeurs prédites µi (autrement dit des écarts ei) sur l’ensemble des n valeurs de
l’échantillon. Cela fournit des estimations de l’ordonnée à l’origine (𝜷̂𝟎 ) et de la pente (𝜷
̂𝟏 ) de la
droite de régression.
̂𝟎 𝐞𝐭 𝜷
Les valeurs 𝜷 ̂𝟏 qui rendent minimale cette somme des
carrés des écarts sont les estimations des paramètres.
La méthode des moindres carrés ordinaires est un estimateur qui fournit des estimations de ces
paramètres.
Il faut donc bien choisir la droite minimisant la somme des carrés des écarts ei et choisir les valeurs
des paramètres 𝛽 ̂0 et 𝛽
̂1 de sorte que ∑𝑛𝑖=1 𝑒𝑖2 = ∑𝑛𝑖=1(𝑦𝑖 − 𝜇𝑖 )2 = ∑𝑛𝑖=1[𝑦𝑖 − (𝛽0 + 𝛽1 𝑥𝑖 )]2 soit le
plus petit possible.
Modèle linéaire.
Ici, chaque point de la droite est caractérisé par un couple (xi ; yi) qui sont des valeurs théoriques.
Or, les valeurs observées, estimées dans l’échantillon, ne sont pas strictement identiques : pour un x
fixé, le y observé est différent du y théorique, prédit par le modèle linéaire. C’est cet écart que nous
cherchons à minimiser par la méthode de la somme des écarts quadratiques.
̂0 et 𝛽
Ainsi, les valeurs estimées de 𝛽 ̂1 minimisant la somme des écarts quadratiques sont celles
obtenues en annulant les dérivées partielles de cette somme par rapport à ces deux paramètres : nous
avons donc une solution unique pour les valeurs de 𝛽 ̂0 et 𝛽
̂1 .
Exemple – Ici, nous avons un modèle de régression linéaire multiple où le poids à la naissance (variable
expliquée Y) sur l’axe des ordonnées est expliquée par deux variables : l’âge gestationnel (en SA) et le
sexe du nouveau-né. On remarque que la droite de régression linéaire des garçons est décalée vers le
haut par rapport à celles des filles. En moyenne, leur poids à la naissance est plus élevé. Néanmoins, il
existe une forte dispersion des valeurs des poids à la naissance observée autour des valeurs prédites.
La part de la variabilité du poids à la naissance expliquée soit par l’âge gestationnel soit par le sexe est
donc faible. Le modèle prédit assez peu la variabilité.
C. La vraisemblance
La vraisemblance est une autre méthode d’estimation des paramètres, plus générale, qui pourra
donc être utilisée pour les modèles logistiques ou les modèles de survie. La vraisemblance de la valeur
d’un paramètre est la probabilité des données si le paramètre a cette valeur. C’est-à-dire que c’est
une quantité qui mesure l’accord des données avec la valeur de ce paramètre.
Remarque – La vraisemblance étant une autre méthode d’estimation des paramètres, cela en fait
estimateur.
Cependant, dans le cas d’un modèle non linéaire, on ne peut pas utiliser la méthode des moindres
carrés ordinaires. Dans ce cas-là, pour obtenir les estimations des paramètres, vous devrez utiliser la
méthode du maximum de vraisemblance.
Rôle de la variance.
On voit sur ce graphique que la variance totale, caractérisée par la dispersion des valeurs du poids
à la naissance, n’est que partiellement expliquée par le modèle. Donc la durée de la grossesse en
semaine d’aménorrhée et le poids à la naissance n’expliquent qu’une partie de la variance totale.
Une grande partie de la variance totale est donc représentée par la variance résiduelle, c’est-à-
dire la dispersion des valeurs observées autour des valeurs prédites par les deux droites de régression.
Les capacités de prédictions d’un réseau de neurones sera donc limité par la part de la variabilité
expliquée : il y a forcément une part que le réseau ne peut pas prédire puisque cette part n’est pas
expliquée par les covariables.
V. Intelligence artificielle
A. Définition
Au sens commun, l’intelligence peut être définie comme la faculté à s’adapter à
l’environnement.
Cela sous-entend déjà que pour ce concept, la notion d’apprentissage est essentielle.
L’intelligence artificielle, elle, est la capacité à résoudre des problématiques simples ou complexes à
l’aide de modèles simples et de réseaux de neurones.
Un test intéressant dans le cadre du développement de l’IA est le test de Turing, qui consiste à
mettre en relation un individu avec un ordinateur. Le test est réussi lorsque l’individu qui communique
avec l’ordinateur ne peut indiquer s’il communique avec un homme ou une machine.
L’apprentissage nécessite un gros volume de données et une puissance de calcul importante (qui
est disponible aujourd’hui, grâce notamment aux cartes graphiques). Mais quelle est l’information
réellement contenue dans ces données, et cette information permet-elle vraiment de faire des
prédictions chez de nouveaux individus ?
A. L’apprentissage supervisé
Ce type d’apprentissage n’est pas exclusif à l’IA, car les modèles de régression l’emploient
également. Il s’agit pour un individu d’apprendre à prédire la valeur la plus probable d’une variable Y
en fonction des valeurs prises par ses covariables X.
L’objectif quand on met au point une IA est de pouvoir l’entraîner au lieu de la programmer
entièrement. Pour les réseaux neuronaux, l’apprentissage supervisé se fait en les entraînant à
reconnaître des images, des objets, des visages, etc.
En revanche, lorsqu’il se trompe, l’ajustement de ses paramètres est important. Ainsi, lorsque
l’algorithme se trouvera confronté à nouveau à cet objet, il y aura une forte probabilité qu’il le
reconnaisse. Ainsi, les paramètres sont progressivement corrigés pour fournir une prédiction optimale.
Pour pouvoir entraîner un réseau neuronal, des dizaines de milliers d’images seront nécessaires.
On recherche ensuite la propriété de généralisation, c’est-à-dire la capacité du réseau à reconnaître
des images qu’il n’a jamais vues.
Remarque – Il n’y a pas de frontière entre le réseau de neurones et le modèle : on a en quelque sorte
« entraîné » notre modèle en lui fournissant des moyennes et écarts-types, eux-mêmes issus
d’estimations.
Les performances obtenues grâce à cette méthode d’apprentissage dépasseront les capacités
humaines.
Les neurones vont ainsi constituer des unités de calcul que l’on va pouvoir traiter soit par des
traitements simples (comme par exemple en sommant les différents signaux entrants), soit par des
traitements plus complexes.
B. Perceptron monocouche
Remarque – C’est le réseau le plus simple qu’il existe historiquement.
Perceptron monocouche.
Dans ce schéma, le grand cercle représente le neurone de sortie. Un neurone de sortie va être
relié à I (lisez « grand I ») neurones d’entrée. Le neurone de sortie va donc recevoir I signaux notée Xi,
avec i allant de 1 à I, provenant de ces neurones. Le neurone de sortie va pondérer chacun de ces
signaux par des poids wi. Il faut voir ce poids comme un équivalent du paramètre β associé à une
variable dans les modèles vus précédemment.
Ce neurone de sortie va également être associé à un biais noté b, et une fonction d’activation.
Ces trois éléments (les poids, le biais et la fonction d’activation) sont propres à 1 neurone de sortie.
NDLR – Une somme pondérée est une somme où les éléments de l’addition ont plus ou moins
d’importance selon leur poids.
On peut faire l’analogie avec les points totaux du Baccalauréat où les points de chaque matière
(les éléments de l’addition) sont pondérés par les coefficients des matières en question (leur poids).
Le signal reçu par le neurone en sortie va donc être composé de la somme des I signaux allant de
X1 à XI pondérés par leurs poids respectifs, notés wi et allant également de w1 à wI. Il y a autant de
séries de Xi poids qu’il y a de neurones en sortie. Le signal comprend également le biais du perceptron,
noté b. On a ainsi la somme des wiXi, à laquelle s’additionne le biais b.
Pour rendre cette somme de X + 1 termes plus lisible, on peut la remplacer par la formule
∑𝐼𝑖=0 𝑤𝑖 𝑋𝑖
avec w0 = b et X0 = 1.
La forme linéaire de ce signal va passer par une fonction d’activation. Dans le schéma du
perceptron monocouche, la fonction d’activation la plus utilisée est celle d’O. Heaviside. Dans celle-ci,
on va comparer la valeur obtenue par la forme linéaire du signal avec un seuil θ. La fonction
d’activation d’Heaviside va ainsi renvoyer un signal Boléen, c’est-à-dire un signal pouvant prendre deux
valeurs :
▪ Si la forme linéaire est supérieure ou égale à 𝜃, le signal renvoyé prend la valeur 1 ;
▪ Si la forme linéaire est inférieure stricte à 𝜃, le signal renvoyé prend la valeur 0.
Comparer la forme linéaire à 𝜃 revient à comparer une valeur z qu’on pose à 0. Cette valeur z est
définie par la formule 𝑧 = (∑𝐼0 𝑤𝑖 𝑋𝑖 ) − 𝜃. On a ainsi deux possibilités comme précédemment :
▪ Si z ≥ 0, alors le signal renvoyé prend la valeur 1 ;
▪ Si z < 0, alors le signal renvoyé prend la valeur 0.
On note ainsi H(z) la fonction d’activation d’Heaviside qui ne peut prendre que deux
valeurs : 0 ou 1.
Remarque – C’est en réalité une fonction discontinue, il ne devrait pas y avoir de trait vertical.
Exemple – Prenons le cas d’un perceptron monocouche avec simplement deux neurones en entrée et
un neurone en sortie, utilisant une fonction d’activation d’Heaviside (fonction en marche). L’utilisation
de ce perceptron va permettre de classer des points en deux groupes de points : groupe à majorité bleu
ou groupe à majorité vert. Le perceptron sépare le plan en deux demis plans, avec d’un côté les valeurs
pour lesquels z = 0 et de l’autre, celles pour lesquelles z=1. Ceci revient à estimer les valeurs des points
et du seuil 𝜃 qui définissent une droite séparant le plan X1X2 en deux demi-plans. Cette droite est
obtenue pour z = 0, soit ( ∑𝐼0 𝑤𝑖 𝑋𝑖 ) – 𝜃 = 0. Puisque l’on a deux neurones, après estimation des
paramètres w1, w2 et 𝜃, l’équation 𝑤0 + 𝑤1 𝑋1 + 𝑤2 𝑋2 − 𝜃 = 0 est celle d’une droite d’ordonnée à
𝜃−𝑤0 −𝑤1
l’origine 𝑤2
et de pente 𝑤2
.
La fonction ReLU.
La fonction sigmoïde.
4. La fonction Softmax
C’est une extension de la fonction sigmoïde. C’est une fonction continuellement dérivable qui
peut donc être utilisée pour l’entraînement des réseaux. En effet, la continuité d’une fonction est un
élément important pour l’estimation et la correction des poids. La discontinuité de la fonction
d’Heaviside, à l’inverse, peut poser problème pour corriger des poids.
Remarque – Le professeur a choisi d’illustrer le même exemple que précédemment, avec un simulateur
de perceptron monocouche. La fonction d’activation utilisée ici est une fonction continue : la fonction
sigmoïde. Le perceptron monocouche doit donc tracer une droite qui sépare le plan en deux demi-plans,
en discriminant parfaitement les points rouges des points verts. Il existe en réalité une infinité de droites
qui remplissent ces conditions, ainsi, celle que l’on voudrait utiliser n’est pas forcément celle que le
perceptron trouvera. Pour trouver cette droite, le perceptron corrige « à tâtons » les valeurs qu’il avait
précédemment donné aux poids w0, w1 et w2.
Ce qui relie les valeurs des poids à la droite est un calcul (qu’il ne faut pas savoir faire) qui donne
𝜃−𝑤0 −𝑤1
la valeur de l’ordonnée à l’origine 𝑏0 = 𝑤2
et de pente 𝑏1 = 𝑤2
.
Ainsi, lorsque l’on modifie les poids, nous modifions également l’allure de la droite, nous pouvons
dire que les paramètres de la droite dépendent des poids. A force de tester des poids, et en se rappelant
de ses erreurs, nous pouvons voir que le perceptron monocouche réussit à trouver des poids qui
permettent de discriminer correctement les points Puisqu’il existe une infinité de droites possibles, et
une infinité de poids possibles pour chaque droite, il est logique que le perceptron ne trouve pas les
poids que nous avions choisi nous-même.
NDLR – Les simulations du professeur étaient très illustratives, il peut être intéressant de refaire ça
vous-même avec ce lien : https://lucleray.github.io/perceptron.
Les réseaux récurrents, plus complexes, ont la possibilité d’avoir des boucles d’activation. Dans
cette architecture, le neurone de la couche J peut transmettre également des informations à d’autres
neurones de sa propre couche J et à J-1 en plus de transmettre des informations aux neurones de la
couche J+1. (On peut transmettre non seulement à J+1 mais également à J et J-1.)
E. L’apprentissage supervisé
Le réseau de neurones apprend à partir des données qu’on lui donne. Les paramètres de ce
réseau correspondent aux poids. L’ajustement de ces poids se fait par apprentissage : on donne des
valeurs initiales aléatoires au réseau puis les poids sont ajustés, mis à jour en continu, afin de
maximiser la vraisemblance des données de l’échantillon d’apprentissage.
Pour les réseaux neuronaux à propagation avant, les corrections des poids se font par des
méthodes de rétropropagation du gradient ou par d’autres méthodes assimilées. On corrige d’abord
les poids de la dernière couche, puis ceux des couches intermédiaires, pour finir par corriger ceux de
la première couche. Pour les réseaux récurrents, les corrections des poids se font par des méthodes
de rétropropagation à travers le temps.
(Les notions de sensibilité, de spécificité, d’AUC, ainsi que de valeurs prédictives sont détaillées
dans Tests Diagnostiques et il est important de comprendre leur sens et de pouvoir les calculer).
Parlons à présent des chiffres que représentent les omics, c’est-à-dire les données du domaine
de la biologie moléculaire. La biologie moléculaire concerne la génomique, la transcriptomique et la
protéomique.
Concernant la génomique, le génome humain comprend 3.109 paires de base (3 milliards) tandis
que l’exome (les exons) comprend environ 3.107 paires de bases, ce qui représente à peu près 1 % du
génome entier. Il existe aussi de nombreuses recherches sur les polymorphismes qui étudient environ
entre 0,5.106 et 2.106 de SNP (Single Nucleotide Polymorphisme).
Dans le domaine des omics, nous sommes parfois confrontés à des données comprenant un très
grand nombre de variables.
Ainsi, pour estimer les nombreux paramètres (notées ßj) d’un modèle du domaine de la omic,
nous utilisons des modèles logistiques ou de Cox (Cf. II Modèles).
On peut ainsi mettre en place des études d’identification, pour mettre en évidence parmi les
différentes variables possibles lesquelles sont des biomarqueurs mais également pour estimer leurs
effets.
Cependant ces études présentent, en absence de correction, des risques de biais, notamment le
biais d’optimisme qui a pour conséquence de surestimer l’effet de ces marqueurs biologiques.
Exemple – Sont présentés ci-dessous les résultats d’une étude de simulation, dont l’effet du
biomarqueur est estimé par un paramètre ß = 0,2. En gris, nous avons la distribution de toutes les
estimations de ce paramètre ß qui fluctuent autour de la valeur 0,2 (il n’y a pas de biais). En hachuré,
nous avons la distribution des estimations du paramètre ß issues uniquement des biomarqueurs
présentant des résultats significatifs.
En moyenne, cette distribution associée aux résultats significatifs fournit des estimations
présentant un biais (valeurs décalées sur la droite).
Cependant, on remarque que plus l’étude d’identification est de grande taille, plus la fluctuation
autour de la valeur vraie est réduite (c’est le principe de fluctuation d’échantillonnage), et plus le biais
est faible.
Distribution des estimations du paramètre β (en gris) et des estimations issues uniquement des biomarqueurs présentant
des résultats significatifs (en hachuré).
Le biais d’optimisme est lié au mécanisme de sélection statistique et est retrouvé dans les
études d’identification de biomarqueurs. Pour contrer ce biais, il faut, entre autres,
augmenter l’effectif de l’étude. L’utilisation des fonctions de pénalisation limite également.
Pour réduire le biais d’optimisme, différentes méthodes, dites pénalisées, ont été développées.
On peut citer par exemple la méthode LASSO, la méthode RIDGE, etc. Celles-ci vont rétrécir les
estimations de ces paramètres ßj, contrairement aux analyses non-corrigées qui, elles, vont avoir
tendance à surestimer l’effet des biomarqueurs. On a ainsi une compensation qui permet de fournir
des estimations de ces paramètres les plus proches possibles des vraies valeurs.
IX. Conclusion
L’utilisation de modèles statistiques classiques ou de réseaux neuronaux d’apprentissage
profonds vise à fournir des modèles prédictifs, soit de valeur, soit d’état. Ces modèles et réseaux
neuronaux nous permettent également de dire que l’analyse des propriétés des réseaux neuronaux
est intimement liée à celle des propriétés des modèles de régression classiquement utilisés.
L’Intelligence artificielle ne doit pas être une boite noire dans le domaine de la santé, c’est-à-dire
que les praticiens de ce secteur doivent en avoir une connaissance minimale afin de comprendre
quelles sont les suggestions potentielles de ces approches et leurs limites.
X. Le mot du tutorat
Vous avez certainement du mal à cerner ce qu’il faut bien comprendre de ce cours étant donné
qu’il est très différent des autres cours de biostatistiques, c’est pourquoi le tutorat vous propose de
revenir sur quelques notions essentielles à retirer du cours !
Le professeur veut bien vous faire comprendre que ce ne sont que l’application de modèles
mathématiques plus ou moins compliqués, pour prédire des données.
Exemples de modèles :
▪ Diagnostique ;
▪ Pronostic ;
▪ Théranostique.
Le but d’un modèle est de prédire des données en fonction de covariables. Il faut donc bien
comprendre que les réseaux neuronaux ne peuvent pas faire mieux qu’un modèle: ce sont des
applications automatisées du modèle, ce qui permet juste qu’il n’y ait pas un mathématicien en train
de poser les opérations sur un tableau mais en réalité, le mathématicien avec ses modèles fait aussi
bien ! Le but d’une IA est donc de donner des estimations de paramètres qui nous intéressent.
Pour corriger ces paramètres au fur et à mesure que le réseau répète les opérations, il existe des
méthodes de rétropropagation du gradient (pour les réseaux neuronaux à propagation avant) et des
méthodes de rétropropagation à travers le temps (pour les réseaux récurrents). Cela permet d’ajuster
les paramètres pour que l’IA puisse donner une meilleure estimation (= une plus proche de la réalité).
Finalement, l’intelligence artificielle prend souvent la forme de « neurones » : soit un perceptron
monocouche (modèle le plus simple) soit un réseau neuronal multicouche (opérations + compliquées).
Ces neurones mettent les modèles mathématiques en application par l’utilisation des fonctions
d’activation : Heaviside : {0 ; 1}, ReLU : [0 ; +∞[, Tangente hyperbolique [-1 ; 1], Sigmoïde [0 ; 1] et
Softmax.
Polycopié UE3
Remerciements
Un grand merci aux personnes qui ont donné de leur temps à la rédaction du contenu :
- Ariane MARCHAL
- Nassira LAKSIOIR
Il s'agit des premières années d’existence des polys PASS du Tutorat, bâties sur les six ans
d’édition des polys PACES. Ce polycopié sera bien-sûr amélioré dans son contenu et dans sa forme au
cours des années à venir.
Pour toutes suggestions, remarques et corrections, vous pouvez vous rendre sur le forum dédié
aux polycopiés dans le module Sides NG du Tutorat.
Le Tutorat est fier d’annoncer que ses polycopiés sont imprimés à partir de papier 100 % recyclé !