Vous êtes sur la page 1sur 11

VOIE GÉNÉRALE Tle Enseignement scientifique

Informer et accompagner
les professionnels de l’éducation

VOIE GÉNÉRALE

2DE 1RE TLE

Enseignement scientifique
ENSEIGNEMENT
COMMUN

THÈME 3
SOUS-THÈME 3-5 : L’INFÉRENCE BAYÉSIENNE

Mots-clés
Probabilités des causes, diagnostic, faux positifs, vrais négatifs, formule de Bayes,
détection de spams.
Références au programme
Savoirs
L’inférence bayésienne est une méthode de calcul des probabilités des causes à partir des
probabilités de leurs effets. Elle est utilisée en apprentissage automatique pour modéliser
des relations au sein de systèmes complexes, notamment en vue de prononcer un diagnostic
(médical, industriel, détection de spam…). Cela permet de détecter une anomalie à partir d’un test
imparfait.
Savoir-faire
À partir de données, par exemple issues d’un diagnostic médical fondé sur un test, produire
un tableau de contingence afin de calculer des fréquences de faux positifs, faux négatifs, vrais
positifs, vrais négatifs. En déduire le nombre de personnes malades suivant leur résultat au test.

Notions mathématiques travaillées


• Proportions, pourcentages,fréquences
• Probabilité a priori, probabilité aposteriori
• Tableau de contingence
• Probabilités conditionnelles, formule de Bayes

Histoire, enjeux, débats


L’inférence bayésienne fait référence au révérend Thomas Bayes, mathématicien et pasteur
britannique né à Londres aux environs de l’année 1702 et mort en 1761. Ses découvertes en
probabilités ont été résumées dans son Essay Towards Solving a Problem in the Doctrine of
Chances (Essai sur la manière de résoudre un problème dans la théorie des risques) publié
à titre posthume en 1763 par un de ses amis, Richard Price, dans les comptes rendus de
l’académie royale de Londres. On lui doit notamment le théorème de Bayes, très utilisé dans
tout ce qui relève du classement automatique (diagnostic médical, filtrage de spams).
Retrouvez éduscol sur

eduscol.education.fr/ - Ministère de l’Éducation nationale et de la Jeunesse - Janvier 2020 1


VOIE GÉNÉRALE Tle Enseignement scientifique

Inférence bayésienne et diagnostic médical


La probabilité 𝑃(𝑀) d’être atteint d’une maladie peut être interprétée le pourcentage
de chances d’être malade Catégorie
avant de ressource
de prendre en compte des observations (par exemple
le résultat d’un test de dépistage). On l’appelle la prévalence. C’est une probabilité a priori.

LaInférence
probabilité 𝑃𝑇bayésienne
+ (𝑀) d’être maladeet sachant
diagnostic médical
qu’on réagit positivement au test et la probabilité
𝑃𝑇 − (𝑀̅)de ne pas être malade sachant qu’on réagit négativement au test de dépistage
La probabilité 𝑃𝑃(𝑀𝑀) d’être atteint d’une maladie peut être interprétée comme le degré de confiance que l’on
peuvent être interprétées comme le pourcentage de chances d’être malade après la prise
accorde à l’hypothèse « être malade » avant de prendre en compte des observations (par exemple le résultat d’u
en compte du résultat du test. On les appelle les probabilités a posteriori.
test de dépistage). On l’appelle la prévalence. C’est une probabilité a priori.
Ces probabilités a posteriori sont déduites d’études cliniques menées au préalable sur
La probabilité 𝑃𝑃 𝑇𝑇 + (𝑀𝑀) d’être malade sachant qu’on réagit positivement au test et la probabilité ̅ ) de ne
𝑃𝑃 − (𝑀𝑀
des personnes dont on sait si elles sont atteintes de la maladie ou non. On note 𝑃M (T+) 𝑇𝑇
pas être malade sachant qu’on réagit négativement au test de dépistage peuvent être interprétées comme le degr
la probabilité que le test soit positif lorsque la personne est malade, et 𝑃𝑀̅ (T+)celle qu’il
de confiance que l’on accorde à l’hypothèse « être malade » après la prise en compte du résultat du test. On les
soit positif lorsque la personne n’est pas malade. Ce sont les probabilités de l’effet
appelle les probabilités a posteriori.
conditionnellement aux causes.
𝑀𝑀 𝑃𝑃 (𝑇𝑇 + )×𝑃𝑃(𝑀𝑀)
LaLa formulede
formule deBayes
Bayes 𝑃𝑃 𝑇𝑇 + (𝑀𝑀) = (𝑇𝑇 + )×𝑃𝑃(𝑀𝑀)+𝑃𝑃
𝑃𝑃𝑀𝑀 + relie les probabilités des effets (les résultats au test)
̅ ) permet de calculer la probabilité
̅̅̅ (𝑇𝑇 )×𝑃𝑃(𝑀𝑀
𝑀𝑀
a posteriori de la des
aux probabilités cause (être
causes malade)
(être à partir
ou ne pas des probabilités
être malade). Elle permetdedel’effet observé
réviser le degré de confiance a priori en
(les chances de test positif
fonction des observations. lorsqu’on est malade et lorsqu’on ne l’est pas), en prenant
en compte la probabilité a priori de la cause. En d’autres termes, elle permet de réviser
le La
pourcentage de chances
formule de Bayes pourra aêtre
priori d’être malade
démontrée ou admise enselon
fonction des observations.
la connaissance par les élèves des probabilités
conditionnelles.
La formule de Bayes pourra être démontrée ou admise selon la connaissance
parUnlesexemple
élèves desintroductif
probabilités conditionnelles.
(d’après un article de Science étonnante)
Un exemple
Une introductif
personne vient de passer un(d’après un article
test de dépistage de Science
d’une maladie étonnante)
rare. On sait qu’elle ne touche que 0,1 % de la
population. Le médecin lui annonce que le résultat du test est positif. La personne demande au médecin si le tes
Une
estpersonne vient deest
fiable. Sa réponse passer un test
sans appel : de dépistage d’une maladie rare. On sait qu’elle ne
touche que 0,1 % de la population. Le médecin lui annonce que le résultat du test est positif.
La«personne demande
Si vous êtes autest
malade, le médecin si le
est positif test
dans 90est fiable.
% des cas Sa
et siréponse est pas
vous n’êtes sans appelil: est négatif dans 97 %
malade,
des cas ».
« Si vous êtes malade, le test est positif dans 90 % des cas et si vous n’êtes pas malade,
il est négatif
Problème dans
posé 97 %est
: quelle des
la cas ».
probabilité que cette personne soit effectivement malade ?

Problème posé : on
Pour simplifier, quelle
part est la population
d’une probabilitédeque cette personne
référence soit effectivement
de 10 000 personnes ayant passémalade
le test. ?

Pour simplifier,
On peut on part
représenter d’une population
la situation par un arbrede référence de 10 000 personnes ayant passé
le test. On peut représenter la situation par un arbre

Retrouvez éduscol sur

eduscol.education.fr/ - Ministère de l’Éducation nationale et de la Jeunesse - Janvier 2020 2


VOIE GÉNÉRALE Tle Enseignement scientifique

Catégorie de ressource

ou par ou
un par un tableau
tableau (appelé
(appelé tableau
tableau de de contingence)
contingence)

Test positif Test négatif Total


Test positif Test négatif Total
Malades 9 1 10
Malades 9 1 10

Non malades 300 9690 9990


Non malades 300 9 690 9 990
Total 309 9691 10000
Total 309 9 691 10 000

Puisque la maladie
Puisque touche
la maladie 0,1%0,1%
touche de ladepopulation, il yilay10
la population, malades
a 10 maladesparmi
parmi ces 10 000 personnes. Comme p
ces 10 ces
000malades,
personnes. Comme parmi ces malades, 90 % réagissent positivement
90 % réagissent positivement au test, il y en a 9 qui réagissent au test,
positivement au test. On consi
il y en amaintenant
9 qui réagissent positivement au test. On considère maintenant les personnes
les personnes saines : ils sont 9990. Puisque dans 97 % des cas le test donne un résultat négatif
saines une
: ilspersonne
sont 9990. Puisque
saine, dans(valeur
il y a 9690 97 % des casarrondie)
entière le test donne un résultat
tests négatifs, négatif
et donc chez
300 tests positifs chez ces
une personne saine, ilsaines.
9990 personnes y a 9690 (valeur
Le bilan entière
de cette arrondie)
analyse tests négatifs,
est représenté et donc
sur le schéma 300 tests
ci-contre.
positifs chez ces 9 990 personnes saines. Le bilan de cette analyse est représenté
sur le schéma ci-contre.

Sur lesSur
309les 309 personnes
personnes qui sont
qui sont testées
testées positivement, 99 seulement
positivement, seulement sont réellement
sont malades
réellement (ce sont les vrais
malades
positifs, notés VP) et 300 sont saines (ce sont les faux négatifs, notés FN).
(ce sont les vrais positifs, notés VP) et 300 sont saines (ce sont les faux négatifs, notés FN).
9
La personne considérée,
La personne dontdont
considérée, le test estest
le test positif
positifa adonc
donc ≈ 2,9% de risqued’être
derisque d’êtreréellement malade, et
309
réellement malade, et 97,1 % de chance d’être un faux positif,
97,1 % de chance d’être un faux positif, et donc d’être sain. et donc d’être sain.

Pourquoi ce résultat
Pourquoi est-ilest-il
ce résultat contre-intuitif ? ?
contre-intuitif

Face à Face
une telle
à unesituation, on est
telle situation, on interpelé parpar
est interpelé leslesdonnées
données (90
(90 %
% des maladesréagissent
des malades réagissent
positivement au te
positivement au test, 97 % des non malades réagissent négativement au test).
97 % des non malades réagissent négativement au test). Cela laisse penser que le test est très performant. D
Une réaction positive
une réaction au test
positive pourrait
au test laisse lancer penser
penser qu’il y a qu’il y a un
un risque risque important
important d’être malade. Or no
d’être effectivement
effectivement malade, ce qui est démenti par le calcul précédent.
allons démontrer que la probabilité d’être malade pour un individu réagissant positivement au test dépend
Nous allons démontrer
du caractère plus ouque la probabilité
moins d’être malade pour un individu réagissant
rare de la maladie.
positivement au test dépend aussi du caractère plus ou moins rare de la maladie.
Pour pouvoir utiliser un test, on a besoin de déterminer ses caractéristiques. Cette détermination se fait lor
phase de calibrage sur échantillon : le test est appliqué sur un échantillon de 𝑛𝑛 des personnes dont on sait q
contient 𝑎𝑎 personnes malades et 𝑏𝑏 = 𝑛𝑛 − 𝑎𝑎 personnes saines. Il faut que l’échantillon de calibrage soit
représentatif de la population totale pour que les valeurs caractéristiques du test, calculées à partir de
l’échantillon, puissent servir à calculer des probabilités portant sur la population totale. Ainsi, la probabili
𝑎𝑎
𝑃𝑃(𝑀𝑀) pour qu’une personne de la population totale soit malade est estimée par la proportion de personn
Retrouvez éduscol sur 𝑛𝑛
malades dans l’échantillon de calibrage.

eduscol.education.fr/ - Ministère de l’Éducation nationale et de la Jeunesse - Janvier 2020 3


9
dont le test est positif a donc ≈ 2,9% de risque d’être réellement malade, et
VOIE GÉNÉRALE Tle
309 Enseignement scientifique
un faux positif, et donc d’être sain.

il contre-intuitif ?

n, on est interpelé par les données (90 % des malades réagissent positivement au test,
éagissent négativement au test). Cela laisse penser que le test est très performant. De fait,
test laisse penser qu’il y a un risque important d’être effectivement malade. Or nous
Caractéristiques d’un test
probabilité d’être malade pour un individu réagissant positivement au test dépend aussi
ins rare de la maladie. Pour pouvoir utiliser un test, on a besoin de déterminer ses caractéristiques.
Cette détermination se fait lors d’une phase de calibrage sur échantillon : le test est appliqué
test, on a besoin de déterminer ses caractéristiques.
sur un échantillonCettede détermination
𝑛 des personnes se fait dont
lors d’une
on sait qu’il contient 𝑎 personnes malades
chantillon : le test est appliqué sur unetéchantillon de 𝑛𝑛 des personnes
𝑏 = 𝑛 − 𝑎 personnes saines.dont on sait
Il faut quequ’il
l’échantillon de calibrage soit représentatif de
lades et 𝑏𝑏 = 𝑛𝑛 − 𝑎𝑎 personnes saines.la Il faut que l’échantillon
population totale pourdeque calibrage soit caractéristiques du test, calculées à partir de
les valeurs
ation totale pour que les valeurs caractéristiques
l’échantillon,dupuissent
test, calculées
servirà àpartir de des probabilités portant sur la population totale.
calculer
ervir à calculer des probabilités portant sur la
Ainsi, la probabilité
population totale. Ainsi,pour
𝑝 = 𝑃(𝑀) la probabilité
qu’une personne
𝑝𝑝 = de la population totale soit malade
𝑎𝑎
onne de la population totale soit maladeest est
estimée
estiméepar
parlalaproportion
proportion de depersonnes
personnes malades
Catégorie dedans l’échantillon de calibrage.
ressource
𝑛𝑛 Catégorie de ressource
on de calibrage.
On observe les réactions au test de ces différentes personnes que l’on classe en fonction
de leur état de santé (𝑀 =On
malades,
observe𝑀 ̅ non
les malades)
réactions au testet de
deces
leur résultat au
différentes test étudié
personnes que l’on classe en foncti
(𝑇+s’ils réagissent positivement Onau observe
test, ̅𝑇les
− réactions au test de ces différentes personnes que
s’ils réagissent négativement au test). l’on classe en f
(𝑀𝑀 = malades, 𝑀𝑀 = non malades) et de leur résultat au test étudié (𝑇𝑇 + s’ils+réagissent
̅
(𝑀𝑀 = malades, 𝑀𝑀 = non malades) et de leur résultat au test étudié (𝑇𝑇 s’ils réagi
𝑇𝑇 − s’ils−réagissent négativement au test).
Les vrais positifs (dont le nombre 𝑇𝑇 s’ils
est réagissent
noté 𝑣𝑝) sontnégativement
les sujets au de
test).
l’échantillon qui sont
malades et qui réagissentLes positivement
vrais positifsau testle(𝑀
(dont ∩ 𝑇 3).est noté 𝑣𝑣𝑣𝑣) sont les sujets de l’échantillon qui sont
nombre
+

Les vrais positifs (dont+le nombre est noté 𝑣𝑣𝑣𝑣) sont les sujets de l’échantillon qu
positivement au test (𝑀𝑀 ∩ 𝑇𝑇 ). +
Les faux positifs (dont le nombre positivement
est noté 𝑓𝑝) au test
sont(𝑀𝑀les
∩ 𝑇𝑇sujets
). de l’échantillon qui ne sont
pas malades et qui réagissentpositivementautest(𝑀 ̅ ∩𝑇 ).
+
Les faux positifs (dont le nombre est noté 𝑓𝑓𝑓𝑓) sont les sujets de l’échantillon qui ne so
Les faux positifs (dont le nombre ̅ ∩ 𝑇𝑇 +est noté 𝑓𝑓𝑓𝑓) sont les sujets de l’échantillon qu
réagissent positivement au test (𝑀𝑀 ). +
Les vrais négatifs (dont le nombre réagissent
est noté positivement
𝑣𝑛) sont au lestest
sujets̅ ∩de
(𝑀𝑀 𝑇𝑇 l’échantillon
). qui ne sont
pas malades et qui ne régissent pas au test (𝑀 ̅ ∩𝑇 −).
Les vrais négatifs (dont le nombre est noté 𝑣𝑣𝑣𝑣) sont les sujets de l’échantillon qui ne s
Les vrais négatifs̅ (dont− le nombre est noté 𝑣𝑣𝑣𝑣) sont les sujets de l’échantillon qu
régissent pas au test (𝑀𝑀 ∩ 𝑇𝑇 ). −
Les faux négatifs (dont le nombre est noté
régissent pas au
𝑓𝑛) sont
test ̅ les
(𝑀𝑀 ∩ 𝑇𝑇sujets
). de l’échantillon qui sont
malades et qui ne régissentLespasfauxau test (𝑀
négatifs ∩ 𝑇 le).nombre est noté 𝑓𝑓𝑓𝑓) sont les sujets de l’échantillon qui sont
(dont

Les faux négatifs − (dont le nombre est noté 𝑓𝑓𝑓𝑓) sont les sujets de l’échantillon qu
pas au test (𝑀𝑀 ∩ 𝑇𝑇 ). −
Le tableau à deux entrées qui rassemble
pas au test (𝑀𝑀 ces∩ données
𝑇𝑇 ). est appelé tableau de contingence
relatif au test de calibrage.
Le tableau à deux entrées qui rassemble ces données est appelé tableau de contingenc
Le tableau à deux entrées qui rassemble ces données est appelé tableau de contin
calibrage.
calibrage.
Test positif (𝑻+) Test négatif (𝑻−) Total
Test positif (𝑻𝑻+ )) + Test négatif (𝑻𝑻− ) −Tota
Test positif (𝑻𝑻 )) Test négatif (𝑻𝑻 )
Malades (𝑴) 𝑣𝑝 𝑓𝑛 𝑣𝑝 + 𝑓𝑛 = 𝑎
Malades (𝑴𝑴) 𝑣𝑣𝑣𝑣 𝑓𝑓𝑓𝑓 𝑣𝑣
Malades (𝑴𝑴) 𝑣𝑣𝑣𝑣 𝑓𝑓𝑓𝑓
Nonmalades 𝑀̅ 𝑓𝑝 𝑣𝑛 𝑓𝑝 + 𝑣𝑛 = 𝑏
Non malades (𝑴𝑴 ̅) 𝑓𝑓𝑓𝑓 𝑣𝑣𝑣𝑣 𝑓𝑓
Non malades (𝑴𝑴 ̅) 𝑓𝑓𝑓𝑓 𝑣𝑣𝑣𝑣
Total 𝑣𝑝 + 𝑓𝑝 𝑓𝑛 + 𝑣𝑛 𝑛
Total 𝑣𝑣𝑣𝑣 + 𝑓𝑓𝑓𝑓 𝑓𝑓𝑓𝑓 + 𝑣𝑣𝑣𝑣
Total 𝑣𝑣𝑣𝑣 + 𝑓𝑓𝑓𝑓 𝑓𝑓𝑓𝑓 + 𝑣𝑣𝑣𝑣
Les résultats ainsi obtenus permettent de déterminer deux caractéristiques du test :
sa sensibilité et sa spécificité.
Les résultats ainsi obtenus permettent de déterminer deux caractéristiques du test : sa
Les résultats ainsi obtenus permettent de déterminer deux caractéristiques du tes
La sensibilité du test, notée e , est la probabilité
La 𝑆sensibilité du test, notée ) qu’une
𝑒𝑒 , est
𝑃 𝑆𝑆(𝑇 +
personne
la probabilité 𝑃𝑃𝑀𝑀 (𝑇𝑇malade
+
) qu’une réagisse
personne malade réa
La sensibilité du test, Mnotée , est la probabilité
𝑆𝑆𝑒𝑒𝑣𝑣𝑣𝑣 𝑃𝑃𝑀𝑀 (𝑇𝑇 + ) qu’une personne malad
positivement au test. Elle Elle
est estimée
est estiméeparparlalaproportion
proportion de
de vraispositifs
𝑣𝑣𝑣𝑣vrais positifs parmi
parmi les les sujets
sujets malades de l
Elle est estimée par la proportion 𝑣𝑣𝑣𝑣+𝑓𝑓𝑓𝑓 de vrais positifs parmi les sujets malade
malades de l’échantillon de calibrage. 𝑣𝑣𝑣𝑣+𝑓𝑓𝑓𝑓

La spécificité du test, notée 𝑆𝑆𝑝𝑝 , −est la probabilité 𝑃𝑃𝑀𝑀̅ (𝑇𝑇 − ) qu’une personne non malad
La spécificité du test, notée 𝑆𝑝,Laestspécificité du test,
la probabilité 𝑃𝑀notée 𝑆𝑆𝑝𝑝 , est 𝑣𝑣𝑣𝑣
̅ (𝑇 ) qu’une
lapersonne
probabiliténon 𝑃𝑃𝑀𝑀̅ (𝑇𝑇 −
malade) qu’une personne non m
test. Elle est estimée par la proportion de𝑣𝑣𝑣𝑣vrais négatifs parmi les sujets non ma
réagissené gativement au test.test.ElleElle
est est estiméepar
estimée parlalaproportion
proportion
𝑓𝑓𝑓𝑓+𝑣𝑣𝑣𝑣
𝑓𝑓𝑓𝑓+𝑣𝑣𝑣𝑣
de
devrais
vraisnégatifs
négatifsparmi les sujets no
calibrage.
parmi les sujets non malades de l’échantillon de calibrage.
calibrage.
Lade
La qualité des estimations qualité des
𝑆𝑝 àestimations de 𝑆𝑆𝑒𝑒 et 𝑆𝑆𝑝𝑝du
à partir de
descalibrage
résultats du test de calibrage dépend
e et
𝑆La qualitépartir des résultats
des estimations de 𝑆𝑆𝑒𝑒 et test
𝑆𝑆𝑝𝑝 à partir des résultats du test de calibrage d
l’échantillon.
dépend de la représentativité de l’échantillon.
Retrouvez éduscol sur l’échantillon.
Valeurs prédictives d’un test
Valeurs prédictives d’un test
La valeur prédictive positive du test dans une population donnée (qui n’est plus l’éc
de la La valeur prédictive
2020 positive du test dans une population donnée (qui n’est plu
eduscol.education.fr/ - Ministère de l’Éducation nationale etnotée VPP, est- Janvier
Jeunesse la probabilité qu’un individu de cette population qui réagit4positiveme
notée VPP, est la probabilité qu’un individu de cette population qui réagit positi
malade.
malade.
VOIE GÉNÉRALE Tle Enseignement scientifique

Valeurs prédictives d’un test


La valeur prédictive positive du test dans une population donnée (qui n’est plus l’échantillon
de calibrage), notée VPP, est la probabilité qu’un individu de cette population qui réagit
positivement au test soit effectivement malade.

Cette probabilité pourrait théoriquement être estimée par la proportion de malades parmi tous
les individus de la population qui réagissent positivement au test. Mais, comme on ne peut
pas effectuer le test sur la totalité de la population, on n’a pas un accès direct à cette valeur.

La formule de Bayes permet de calculer la valeur prédictive positive à partir


des caractéristiques du test et de la prévalence de la maladie.
Catégorie de ressource
Catégorie de ressource
Démonstration de la
Catégorie deformule
ressource de Bayes
Catégorie de ressource
La formule de Bayes pourra être démontrée à partir de résultats sur les probabilités
La formule de Bayes pourra être démontrée à partir de résultats sur les probabilités conditionnelles ou justifiée à
La formule de Bayes pourra
conditionnelles ou justifiée être démontrée
à partir d’un à partir de résultats sur
raisonnement surlesles probabilités
proportions conditionnelles
: ou justifiée à
partir
La formule d’un raisonnement
de Bayes
Laraisonnement
formule depourra
Bayes sur démontrée
être
pourra les être
proportions
démontrée à partir : àdepartir résultats sur les probabilités
de résultats sur les probabilités conditionnelles
conditionnellesou justifiée à
ou justifié
partir d’un sur les proportions :
partir d’un raisonnement sur les proportions :
Pourpartir d’un raisonnement
des élèves ayant étudié surles les probabilités
proportions : conditionnelles en spécialité mathématique
Pour des élèves ayant étudié les probabilités conditionnelles en spécialité mathématique de première
Pour dedes élèves ayant étudié les probabilités conditionnelles en spécialité mathématique de première
première
Pour des Pourélèvesdes ayant
élèvesétudié ayant les probabilités
étudié les probabilités conditionnelles
conditionnelles en spécialité en mathématique
spécialité mathématique de première de première
La
Lavaleur
valeur prédictive
prédictive positive
positive estestinterprétée
interprétée comme comme une probabilité
une probabilité conditionnelle
conditionnelle : :
La valeur prédictive positive est interprétée comme une probabilité conditionnelle :
La valeur Laprédictive
valeur prédictive positivepositive est interprétéeest interprétée comme comme une probabilité
une probabilitéconditionnelle conditionnelle : :
+
+𝑃𝑃(𝑇𝑇 ∩ 𝑀𝑀)
𝑉𝑉𝑉𝑉𝑉𝑉 +=(𝑀𝑀) 𝑃𝑃 𝑇𝑇 + (𝑀𝑀)𝑃𝑃(𝑇𝑇= +∩ 𝑀𝑀) +
𝑉𝑉𝑉𝑉𝑉𝑉 = 𝑃𝑃 𝑇𝑇 = 𝑃𝑃(𝑇𝑇 +∩𝑃𝑃(𝑇𝑇 𝑀𝑀) +)
𝑉𝑉𝑉𝑉𝑉𝑉 = 𝑉𝑉𝑉𝑉𝑉𝑉 𝑃𝑃 𝑇𝑇 + (𝑀𝑀) 𝑃𝑃(𝑇𝑇 +)𝑃𝑃(𝑇𝑇 ∩ 𝑀𝑀)
= 𝑃𝑃= 𝑇𝑇 + (𝑀𝑀) = )
𝑃𝑃(𝑇𝑇
𝑃𝑃(𝑇𝑇 +∩𝑀𝑀)
𝑃𝑃(𝑇𝑇 + )
De
Delelemême
même manière,manière, 𝑃𝑃
+𝑃 (𝑇𝑇
(𝑇 +
+
)
𝑃𝑃(𝑇𝑇=+ ∩𝑀𝑀)
.
De le même manière, 𝑃𝑃M (𝑇𝑇 +)M= 𝑃𝑃(𝑇𝑇 +∩𝑀𝑀) M . +
𝑃𝑃(M)
De le mêmeDe lemanière,
même manière, 𝑃𝑃M (𝑇𝑇 )𝑃𝑃=(𝑇𝑇𝑃𝑃(M) +)
= . ∩𝑀𝑀) .
𝑃𝑃(𝑇𝑇
M 𝑃𝑃(M)
Cela donne + pour le calcul du numérateur
D’où 𝑃𝑃(𝑇𝑇 ∩ 𝑀𝑀) = 𝑃𝑃(𝑀𝑀) × 𝑃𝑃 (𝑇𝑇 ) + 𝑃𝑃(M) : 𝑃(𝑇 ∩ 𝑀) = 𝑃(𝑀) × 𝑃𝑀 (𝑇 )
+ +

D’où 𝑃𝑃(𝑇𝑇 ++∩ 𝑀𝑀) = 𝑃𝑃(𝑀𝑀) × 𝑃𝑃𝑀𝑀 (𝑇𝑇 +𝑀𝑀 )+


D’où 𝑃𝑃(𝑇𝑇 ∩𝑃𝑃(𝑇𝑇
𝑀𝑀) +=∩𝑃𝑃(𝑀𝑀) 𝑀𝑀) = ×𝑃𝑃(𝑀𝑀) 𝑃𝑃𝑀𝑀 (𝑇𝑇×)𝑃𝑃 (𝑇𝑇 + )
SousD’oùréserve de représentativité du test, on suppose que la probabilité
𝑀𝑀
(𝑇𝑇 + )𝑃qu’une (𝑇+) qu’une
Sous réserve de représentativité du test, on suppose que la probabilité 𝑃𝑃 𝑀 personne malade réagisse
Souspersonne
réserve demalade représentativité réagisse dupositivement
test, on suppose au que
test laest
probabilité
la même
+
(𝑇𝑇 +)la
𝑃𝑃𝑀𝑀dans 𝑀𝑀 qu’une
populationpersonne malade réagisse
totale
Souspositivement
réserve
Sous réserve au test
de représentativitéde est la même
représentativité du test, dans onla
du test,population
suppose on que la
suppose totaleque etladans
probabilité l’échantillon.
𝑃𝑃
probabilité (𝑇𝑇 )𝑃𝑃 qu’une
(𝑇𝑇 ) personne
+C’est
qu’une malade𝑆𝑆malade
la sensibilité
personne réagisse
𝑒𝑒 du test.réagi
positivement au test
et dans l’échantillon. est la même
C’est la dans la population
sensibilité totale
𝑆e dutotale et dans l’échantillon.
𝑀𝑀 C’est
test.et dans l’échantillon. C’est la sensibilité𝑆𝑆𝑆𝑆
𝑀𝑀 la sensibilité 𝑒𝑒 du test.
positivement au
positivement test est
au la
testmême est la dans
même la population
dans la population totale et dans l’échantillon. C’est la du
sensibilité
𝑒𝑒 test.
𝑆𝑆 du test.
+ 𝑒𝑒
Ainsi+𝑃𝑃(𝑇𝑇 ∩ 𝑀𝑀) = 𝑝𝑝 × 𝑆𝑆𝑒𝑒 .
Ainsi 𝑃𝑃(𝑇𝑇
Ainsi 𝑃(𝑇 ∩ 𝑀𝑀)
+ ∩ 𝑀) = 𝑝 ×
+ = 𝑝𝑝 × 𝑆𝑆 .
𝑒𝑒 𝑆e.
Ainsi 𝑃𝑃(𝑇𝑇
Ainsi∩𝑃𝑃(𝑇𝑇𝑀𝑀) +=∩𝑝𝑝𝑀𝑀) × 𝑆𝑆= 𝑒𝑒 . 𝑝𝑝 × 𝑆𝑆 .
𝑒𝑒 ̅ ) = 𝑃𝑃(𝑀𝑀 ̅ ) × 𝑃𝑃+𝑀𝑀̅ (𝑇𝑇 + ) = (1 − 𝑝𝑝) × (1 − 𝑆𝑆𝑝𝑝 ),
Un calcul similaire permet de montrer que+𝑃𝑃(𝑇𝑇̅+)∩ 𝑀𝑀 ̅) ×
Un calcul
Pour le similaire
dénominateur permet de𝑃(𝑇 montrer
+ un que calcul 𝑃𝑃(𝑇𝑇similaire∩ 𝑀𝑀 =permet 𝑃𝑃(𝑀𝑀 𝑃𝑃 (𝑇𝑇 +) =montrer (1 − 𝑝𝑝) × (1 − 𝑆𝑆𝑝𝑝 ),
Un calcul similaire permet permet de montrer
)
que 𝑃𝑃(𝑇𝑇 ∩ 𝑀𝑀 + ̅ ) = 𝑃𝑃(𝑀𝑀 ̅ ̅ ) × 𝑃𝑃𝑀𝑀̅𝑀𝑀̅̅(𝑇𝑇de
d’abord
)𝑃𝑃=(𝑇𝑇(1+ )−=𝑝𝑝)(1 ×− (1𝑝𝑝) −× 𝑆𝑆𝑝𝑝(1
), − 𝑆𝑆 ),
Un calcul similaire + montrer que 𝑃𝑃(𝑇𝑇 + ∩ 𝑀𝑀
de ) = 𝑃𝑃(𝑀𝑀 ) ×
que 𝑃(𝑇 ∩ 𝑀 + ̅
̅ )) = ̅
= 𝑃( 𝑀 )×𝑃𝑀̅ (𝑇 ) = (1−𝑝)×(1−𝑆 + ) 𝑝 ), −) ̅
𝑀𝑀 𝑝𝑝
puisque 𝑃𝑃(𝑀𝑀 1 − 𝑃𝑃(𝑀𝑀)
̅ ) = 1 − 𝑃𝑃(𝑀𝑀) = 1 − 𝑝𝑝 et 𝑃𝑃𝑀𝑀̅ (𝑇𝑇 𝑀𝑀 = 1 − 𝑝𝑝 et 𝑃𝑃
+ ̅ (𝑇𝑇 = 1 − 𝑃𝑃
− ̅ (𝑇𝑇 = 1 − 𝑆𝑆 .
puisque 𝑃𝑃(𝑀𝑀 ) = 1 − 𝑃𝑃𝑀𝑀̅ (𝑇𝑇 𝑀𝑀 ) = 1 − 𝑆𝑆𝑝𝑝 . 𝑝𝑝
puisquepuisque
𝑃𝑃(𝑀𝑀 ̅ ) = 1 ̅− 𝑃𝑃(𝑀𝑀) = 1 − 𝑝𝑝 et 𝑃𝑃𝑀𝑀̅ (𝑇𝑇 )+ = 1 +− 𝑃𝑃𝑀𝑀̅ (𝑇𝑇 − ) = 1 −− 𝑆𝑆𝑝𝑝 .
+ −
puisque 𝑃( 𝑀 𝑃𝑃(𝑀𝑀̅ ) =)1−𝑃(𝑀)
= 1 − 𝑃𝑃(𝑀𝑀) = 1−𝑝 = 1et−𝑃𝑝𝑝̅ (𝑇 et 𝑃𝑃)𝑀𝑀̅= (𝑇𝑇1−𝑃 ) = ̅ 1(𝑇− )𝑃𝑃= ̅ (𝑇𝑇
𝑀𝑀 1−𝑆)𝑝 .= 1 − 𝑆𝑆𝑝𝑝+.
Les événements (𝑇𝑇 + ∩ 𝑀𝑀) +et (𝑇𝑇̅ +
∩ 𝑀𝑀̅𝑀) étant incompatibles
𝑀
et de réunion 𝑇𝑇 ,
Les événements (𝑇𝑇 +∩ 𝑀𝑀) et (𝑇𝑇 +∩ 𝑀𝑀) étant incompatibles et de réunion 𝑇𝑇 ++,
+
Les événements (𝑇𝑇 ∩ 𝑀𝑀) et (𝑇𝑇 ∩ ̅ )+étant̅incompatibles et de réunion 𝑇𝑇 , + +
𝑀𝑀
Les événements (𝑇𝑇
Les événements(𝑇 + +
∩ 𝑀)et ∩ 𝑀𝑀) (𝑇et∩(𝑇𝑇
+
𝑀̅ ) étant ∩ 𝑀𝑀) étant incompatibles
incompatibles ̅ ) et de
et de réunion
réunion 𝑇 𝑇𝑇, ,
𝑃𝑃(𝑇𝑇 + ) = 𝑃𝑃(𝑇𝑇 + ∩ 𝑀𝑀) + 𝑃𝑃(𝑇𝑇̅ +
)∩=𝑀𝑀𝑝𝑝 ×=𝑆𝑆𝑝𝑝 × 𝑆𝑆𝑒𝑒 + (1 − 𝑝𝑝) × (1 − 𝑆𝑆𝑝𝑝 ).
𝑃𝑃(𝑇𝑇 ++) = 𝑃𝑃(𝑇𝑇 ++∩ 𝑀𝑀) + 𝑃𝑃(𝑇𝑇 ++∩ 𝑀𝑀 𝑒𝑒 + (1 − 𝑝𝑝) × (1 − 𝑆𝑆𝑝𝑝 ).
𝑃𝑃(𝑇𝑇 ) =+ 𝑃𝑃(𝑇𝑇 ∩𝑃𝑃(𝑇𝑇
𝑀𝑀)++∩𝑃𝑃(𝑇𝑇 ̅ )+ = 𝑝𝑝̅× 𝑆𝑆𝑒𝑒 + (1 − 𝑝𝑝) × (1 − 𝑆𝑆𝑝𝑝 ).
𝑃(𝑇 +) = 𝑃(𝑇 + ∩ 𝑀)+𝑃(𝑇𝑃𝑃(𝑇𝑇 ∩𝑀 + ̅)
)= =
𝑝𝑝×𝑆𝑆𝑝×𝑆 𝑒+(1−𝑝) 𝑀𝑀) +×∩𝑃𝑃(𝑇𝑇 𝑀𝑀
(1−𝑆 𝑝∩). 𝑀𝑀) = 𝑝𝑝 × 𝑆𝑆𝑒𝑒 + (1 − 𝑝𝑝) × (1 − 𝑆𝑆𝑝𝑝 ).
𝑒𝑒 .
D’où 𝑉𝑉𝑉𝑉𝑉𝑉 +=(𝑀𝑀) 𝑃𝑃 𝑇𝑇 + (𝑀𝑀) = 𝑝𝑝×𝑆𝑆𝑒𝑒 .
D’où 𝑉𝑉𝑉𝑉𝑉𝑉 = 𝑃𝑃 𝑇𝑇 = 𝑝𝑝×𝑆𝑆𝑒𝑒 +(1−𝑝𝑝)×(1−𝑆𝑆
𝑝𝑝×𝑆𝑆 𝑒𝑒 . 𝑝𝑝 )
D’où 𝑉𝑉𝑉𝑉𝑉𝑉
D’où V𝑃𝑃
D’où 𝑃𝑃 𝑇𝑇𝑃+ (𝑀𝑀)
= 𝑉𝑉𝑉𝑉𝑉𝑉
= (𝑀) = = 𝑝𝑝×𝑆𝑆 𝑒𝑒 +(1−𝑝𝑝)×(1−𝑆𝑆𝑝𝑝×𝑆𝑆 𝑝𝑝 ) 𝑒𝑒 .
T = 𝑃𝑃 𝑇𝑇 + (𝑀𝑀) =
𝑝𝑝×𝑆𝑆𝑒𝑒 +(1−𝑝𝑝)×(1−𝑆𝑆 𝑝𝑝 )
𝑝𝑝×𝑆𝑆𝑒𝑒 +(1−𝑝𝑝)×(1−𝑆𝑆𝑝𝑝 )
De manière analogue, on définit la valeur prédictive négative du test dans une population donnée, notée VPN,
De manière analogue, on définit la valeur prédictive
la valeur négativenégative du test dans une population donnée, notée VPN,
DeDe manière
comme
manière
De la
manière
analogue,
probabilité
analogue, analogue,
on définit
qu’un
on définit on individu
la valeur
définit la cetteprédictive
deprédictive
valeur négative
population
prédictive du test dans
réagissant
négative
du
du
test
testune
négativement dans
danspopulation
une
une population
donnée,
aupopulation
test soit sain. notée VPN,
comme la probabilité
donnée, notée VPN, qu’un commeindividulade cette population
probabilité qu’unréagissant
individu négativement
de cette population au test soit sain. donnée, notée VP
réagissant
comme la probabilité qu’un individu de cette
comme la probabilité qu’un individu de cette population réagissant négativement population réagissant négativement au test soit sain.
au test soit sain.
négativement
Des calculs similaires au test permettentsoit sain. de montrer que : 𝑉𝑉𝑉𝑉𝑉𝑉 = 𝑃𝑃 _ (𝑀𝑀 ̅ (1−𝑝𝑝)×𝑆𝑆𝑝𝑝
Des calculs similaires permettent de montrer que : 𝑉𝑉𝑉𝑉𝑉𝑉 = 𝑃𝑃𝑇𝑇 _ (𝑀𝑀 ̅ )𝑇𝑇 = ) = (1−𝑝𝑝)×𝑆𝑆 𝑝𝑝×(1−𝑆𝑆
(1−𝑝𝑝)×𝑆𝑆
𝑝𝑝
)+(1−𝑝𝑝)×𝑆𝑆
𝑒𝑒 𝑝𝑝 𝑝𝑝
Des calculs similaires permettent de montrer que : 𝑉𝑉𝑉𝑉𝑉𝑉 = 𝑃𝑃𝑇𝑇 _ (𝑀𝑀 ̅ ) = 𝑝𝑝×(1−𝑆𝑆 )+(1−𝑝𝑝)×𝑆𝑆
̅ )̅ =𝑒𝑒 𝑒𝑒 )+(1−𝑝𝑝)×𝑆𝑆(1−𝑝𝑝)×𝑆𝑆
𝑝𝑝 𝑝𝑝
Des Des
calculscalculs similaires
similaires permettent
permettent de de montrer
montrer que
que: :𝑉𝑉𝑉𝑉𝑉𝑉
V𝑃𝑃 = 𝑃𝑃 𝑃𝑇𝑇𝑇−_ (𝑀𝑀
(𝑝𝑝×(1−𝑆𝑆
𝑀 𝑝𝑝
𝑝𝑝×(1−𝑆𝑆𝑒𝑒 )+(1−𝑝𝑝)×𝑆𝑆𝑝𝑝
Pour des élèves n’ayant pas une connaissance préalable des probabilités conditionnelles
Pour des élèves n’ayant pas une connaissance préalable des probabilités conditionnelles
Pour des Pourélèvesdesn’ayant élèves n’ayant pas unepas connaissance
une connaissance préalable des probabilités
préalable des probabilités conditionnellesconditionnelles
L’égalité
Retrouvez éduscol sur L’égalité
L’égalité L’égalité
𝑃𝑃(𝑇𝑇 + ∩ 𝑀𝑀) = 𝑃𝑃(𝑀𝑀) × 𝑃𝑃 (𝑇𝑇 + )
𝑃𝑃(𝑇𝑇 ++∩ 𝑀𝑀) = 𝑃𝑃(𝑀𝑀) × 𝑃𝑃𝑀𝑀 (𝑇𝑇 +𝑀𝑀 )
+
𝑃𝑃(𝑇𝑇 ∩𝑃𝑃(𝑇𝑇 𝑀𝑀) +=∩𝑃𝑃(𝑀𝑀) 𝑀𝑀) = ×𝑃𝑃(𝑀𝑀) 𝑃𝑃𝑀𝑀 (𝑇𝑇× )𝑃𝑃 (𝑇𝑇 + )
𝑀𝑀
peut être interprétée comme une proportion de proportion : la proportion, dans la population totale, de personnes
peut- être
eduscol.education.fr/ interprétée
Ministère de l’Éducation comme nationale uneetproportion
de la Jeunesse de- proportion
Janvier 2020 : la proportion, dans la population totale, de personnes 5malades
peutàêtre interprétée
lapeut
fois malades
être comme
et réagissant une proportion
positivement de proportion est :égale
au testproportion la proportion,
au: la
produit dans
de lalaproportion
population totale,
de de
personnes personnes
à la fois malades etinterprétée
réagissantcomme positivement une proportion au test estdeégale au produit proportion,
de la proportion dans la
depopulation
personnes malades totale, de person
à la fois
dans malades
la fois
population et réagissant
totale positivement
(la prévalence) aupartest la est égale
proportion auégale
produit
de personnes de laréagissant
proportion de personnes
positivement aumalades
test parmi la
dans la population totale (la prévalence) par la proportion de personnes réagissant positivement au test parmi lamalades
à la malades et réagissant positivement au test est au produit de la proportion de personnes
𝑃𝑃(𝑇𝑇 ) = 𝑃𝑃(𝑇𝑇 ∩ 𝑀𝑀) + 𝑃𝑃(𝑇𝑇 ∩ 𝑀𝑀) = 𝑝𝑝 × 𝑆𝑆𝑒𝑒 + (1 − 𝑝𝑝) × (1 − 𝑆𝑆𝑝𝑝 ).

𝑝𝑝×𝑆𝑆𝑒𝑒 .
VOIE GÉNÉRALE TD’où
le 𝑉𝑉𝑉𝑉𝑉𝑉 = 𝑃𝑃 𝑇𝑇 + (𝑀𝑀) =
Enseignement scientifique
𝑝𝑝×𝑆𝑆𝑒𝑒 +(1−𝑝𝑝)×(1−𝑆𝑆𝑝𝑝 )

De manière analogue, on définit la valeur prédictive négative du test dans une population donnée, notée VPN,
comme la probabilité qu’un individu de cette population réagissant négativement au test soit sain.

(1−𝑝𝑝)×𝑆𝑆𝑝𝑝
̅) =
Des calculs similaires permettent de montrer que : 𝑉𝑉𝑉𝑉𝑉𝑉 = 𝑃𝑃𝑇𝑇 _ (𝑀𝑀
𝑝𝑝×(1−𝑆𝑆𝑒𝑒 )+(1−𝑝𝑝)×𝑆𝑆𝑝𝑝

Pour des élèves n’ayant pas une connaissance préalable des probabilités conditionnelles
PourL’égalité
des élèves n’ayant pas une connaissance préalable des probabilités conditionnelles
L’égalité
𝑃(𝑇+∩ 𝑀) = 𝑃(𝑀) × 𝑃𝑀 (𝑇+)
𝑃𝑃(𝑇𝑇 + ∩ 𝑀𝑀) = 𝑃𝑃(𝑀𝑀) × 𝑃𝑃𝑀𝑀 (𝑇𝑇 + )
peut être interprétée comme une proportion de proportion : la proportion, dans la population
peut totale, de personnes
être interprétée commeàune la fois malades
proportion et réagissant
de proportion positivement
: la proportion, dansau
la test est égale
population aude personnes
totale,
produit de la proportion de personnes malades dans la population totale (la prévalence)
à la fois malades et réagissant positivement au test est égale au produit de la proportion de personnes malades
danspar la proportion
la population totalede
(lapersonnes
prévalence)réagissant positivement
par la proportion au test
de personnes parmi positivement
réagissant la sous-population
au test parmi la
des personnes malades.
sous-population des personnes malades.
On justifie de même l’égalité 𝑃(𝑇+∩ 𝑀) = 𝑃(𝑇+) × 𝑃T+(M), qui permet d’écrire
On justifie de même l’égalité 𝑃𝑃(𝑇𝑇 + ∩ 𝑀𝑀) = 𝑃𝑃(𝑇𝑇 + ) × 𝑃𝑃 𝑇𝑇 + (M), qui permet d’écrire

𝑃𝑃(𝑇𝑇 +∩𝑀𝑀) 𝑃𝑃(𝑀𝑀)×𝑃𝑃𝑀𝑀 (𝑇𝑇 +)


VPP = =
𝑃𝑃(𝑇𝑇 +) 𝑃𝑃(𝑇𝑇 +)

Il reste à calculer
Il reste 𝑃𝑃(𝑇𝑇 + ),𝑃(𝑇
à calculer approchée
+ par la proportion
), approchée de personnes
par la proportion réagissant positivement
de personnes au test dans la
réagissant positivement
population totale.
au test dans la population totale.

Parmi les personnes


Parmi réagissant
les personnes positivement
réagissant au test, il yau
positivement a des personnes
test, malades
il y a des et desmalades
personnes personnes saines. La
proportion
et desde personnes saines.
personnes réagissant
Lapositivement
proportion deau test est la somme
personnes de la proportion
réagissant de personnes
positivement au test réagissant
Catégorie de ressource
est la somme de la proportion de personnes réagissant positivement au test en étant
malades et de la proportion de personnes réagissant positivement au test en étant
non malades.
positivement au test en étant malades et de la proportion de personnes réagissant positivement au test en étant
non malades.
La proportion de personnes à la fois malades et réagissant positivement au test vient d’être
exprimée de
La proportion comme uneàproportion
personnes de proportion
la fois malades et réagissantetpositivement
on fait de même
au testpour
vientcalculer la proportion
d’être exprimée comme une
de personnes à la fois non malades et réagissant positivement au test. On raisonne de mêmeet
proportion de proportion et on fait de même pour calculer la proportion de personnes à la fois non malades
pour la VPN.
réagissant positivement au test. On raisonne de même pour la VPN.

On peut
On peut doncdonc ainsi justifier
ainsi justifier les égalités
les égalités : :

𝑝𝑝×𝑆𝑆𝑒𝑒 . (1−𝑝𝑝)×𝑆𝑆𝑝𝑝
𝑉𝑉𝑉𝑉𝑉𝑉 = 𝑃𝑃 𝑇𝑇 + (𝑀𝑀) = ̅) =
𝑉𝑉𝑉𝑉𝑉𝑉 = 𝑃𝑃𝑇𝑇 _ (𝑀𝑀
𝑝𝑝×𝑆𝑆𝑒𝑒 +(1−𝑝𝑝)×(1−𝑆𝑆𝑝𝑝 ) 𝑝𝑝×(1−𝑆𝑆𝑒𝑒 )+(1−𝑝𝑝)×𝑆𝑆𝑝𝑝

L’appliquette GeoGebra
L’appliquette « Probabilités
GeoGebra conditionnelles
« Probabilités : une visualisation
conditionnelles » permet de permet
: une visualisation» représenter
de des
probabilités conditionnelles à l’aide d’un arbre et de les interpréter en termes d’aires.
représenter des probabilités conditionnelles à l’aide d’un arbre et de les interpréter en termes
d’aires.
L’appliquette GeoGebra « inférence bayésienne et dépistage avec un arbre » permet d’illustrer l’influence de la
sensibilité, de la spécificité
L’appliquette GeoGebra et de la prévalence
« inférence sur les VPP
bayésienne et et VPN.
dépistage avec un arbre» permet d’illustrer
l’influence de la sensibilité, de la spécificité et de la prévalence sur les VPP et VPN.
Évolution des valeurs prédictives positives et négatives en fonction de la prévalence
L’ensemble des probabilités mentionnées ci-dessus peuvent être récapitulées en réécrivant le tableau précédent
L’ensemble
L’ensemble
L’ensemble
L’ensemble
L’ensemble
L’ensemble des
desdes
des
L’ensemble des probabilités
probabilités
probabilités
des
probabilités
probabilités
des mentionnées
mentionnées
mentionnées
probabilités mentionnées
mentionnées
probabilités ci-dessus
ci-dessus
ci-dessus
ci-dessus
mentionnées
mentionnées peuvent
peuvent
peuventêtre
être
peuvent
ci-dessus
ci-dessus être
être
peuvent récapitulées
récapitulées
récapitulées
récapitulées
peuvent
ci-dessus être
être en réécrivant
enenréécrivant
réécrivant
réécrivant
récapitulées
récapitulées le tableau
leletableau
le tableau
tableau
enen précédent
précédent
précédent
précédent
réécrivant
réécrivantleletableau
tableauprécédent
précédent
L’ensemble
non plus
LeL’ensemble
tableau en des des
termes
suivant probabilités
de
donne, nombre
pour mentionnées
de personnes
les un test de au sein d’un peuvent
ci-dessus
échantillon
caractéristiques être
derécapitulées
peuvent être enmais
réécrivant
récapitulées enleréécrivant
tableau précédent
netde quelques valeurs
probabilités mentionnées ci-dessus peuvent 𝑆𝑆échantillon
être = 0,99n individus,
𝑒𝑒récapitulées 𝑆𝑆en = 0,98
réécrivant de
le proportions
tableau aude
précédent VPP
sein et
non
non
non non
non
plus
plusnon
plus plus
plus
enen
en enen
plus
termes termes
termes
termes
en
termes de
termes
dede dede
de
nombre nombre
nombre
nombre
nombre de
nombre
dede dede
de personnes
personnes
personnes au
personnes
personnes
personnes auau au
ausein
au
sein
sein sein
sein d’un
d’un
sein
d’un
d’un d’un
d’unéchantillon
échantillon
échantillon
échantillon
échantillon de de
de
dende n𝑝𝑝 individus,
nnindividus,
nindividus,
individus,
individus,
individus, mais
individus,
mais
mais
mais
maisdede
mais
de
deproportions
proportions
proportions
proportions
de proportions au
de proportions
proportions
auau
ausein
au sein
sein
sein
sein
sein sein
le
de
non
de VPN la non
tableau plus
population
plus
en en en
termes
fonction termes
précédent
totale.
de de
nombre
la nombre
non plus
de de
enpersonnes
termes
personnes au seinau
de sein
nombre
d’un
prévalence exprimée en pourcentage. d’un échantillon
de
échantillon personnes
de n de
individus, n au sein
mais mais
d’un
de de
échantillon
proportions au seinau
de
delalapopulation
population totale.
totale.
dede
delala population
de
lapopulation
population
de totale.
la lapopulation
population
totale. totale.
totale.
totale.
dedela 𝑛 individus,
population mais
totale. de proportions au sein de la population totale.
Prévalence Test Test
positif (𝑇𝑇 + )+(𝑇𝑇 + )++ VPP
positif Test négatif
Test négatif (𝑇𝑇(𝑇𝑇−
)−− )− − VPN Total
Total
Test Test
Test
positif positif
positif+ + )(𝑇𝑇
(𝑇𝑇 (𝑇𝑇+ )) TestTest
Test négatif
négatif négatif − (𝑇𝑇
(𝑇𝑇 − )(𝑇𝑇 ) −) TotalTotal
Total
Test
Testpositif
positif
Test (𝑇𝑇 (𝑇𝑇
positif
+ ) )(𝑇𝑇 ) TestTest négatif
négatif
Test (𝑇𝑇 − ) )(𝑇𝑇 )
(𝑇𝑇
négatif Total
TotalTotal
Test positif (𝑇𝑇 ) Test positif (𝑇 ) + Test négatif− −
(𝑇𝑇
Test ) négatif (𝑇 -
) −−
Total Total
Malades (𝑀𝑀) (𝑀𝑀) 𝑃𝑃(𝑇𝑇 +𝑃𝑃(𝑇𝑇 + ++ = 𝑃𝑃(𝑀𝑀) × 𝑃𝑃𝑀𝑀 (𝑇𝑇 + ) + ++
∩𝑃𝑃(𝑇𝑇
𝑀𝑀) ∩∩ 𝑀𝑀) = 𝑃𝑃(𝑀𝑀)
=𝑃𝑃(𝑀𝑀) × 𝑃𝑃 (𝑇𝑇 +(𝑇𝑇) ) 𝑃𝑃(𝑇𝑇
𝑃𝑃(𝑇𝑇 ∩ 𝑀𝑀)∩−− 𝑀𝑀) = == 𝑃𝑃(𝑀𝑀)𝑃𝑃(𝑀𝑀) ××𝑃𝑃× 𝑃𝑃 (𝑇𝑇 (𝑇𝑇 )−)− ) − 𝑃𝑃(𝑀𝑀) = 𝑝𝑝
∩𝑀𝑀) 𝑀𝑀) 𝑃𝑃(𝑀𝑀) × 𝑃𝑃𝑃𝑃 −𝑃𝑃(𝑇𝑇 ∩ 𝑀𝑀) 𝑃𝑃(𝑀𝑀) 𝑃𝑃× (𝑇𝑇
− 𝑀𝑀
0,1Malades
% Malades
Malades Malades
Malades
(𝑀𝑀) 𝑃𝑃(𝑇𝑇
(𝑀𝑀)𝑃𝑃(𝑇𝑇
(𝑀𝑀)
+
𝑃𝑃(𝑇𝑇
∩ 𝑀𝑀) = =
< 5 𝑃𝑃(𝑀𝑀)
% × 𝑃𝑃 × (𝑇𝑇
𝑀𝑀 𝑀𝑀 )(𝑇𝑇 ) 𝑃𝑃(𝑇𝑇 𝑃𝑃(𝑇𝑇
− ∩ 𝑀𝑀) ∩ 𝑀𝑀)= =
𝑃𝑃(𝑀𝑀)
99,99 𝑃𝑃(𝑀𝑀)× %𝑃𝑃 𝑀𝑀 𝑀𝑀(𝑇𝑇− 𝑃𝑃 − ) (𝑇𝑇 ) 𝑃𝑃(𝑀𝑀)
𝑃𝑃(𝑀𝑀)
𝑃𝑃(𝑀𝑀) ==𝑝𝑝𝑝𝑝𝑝𝑝 = 𝑝𝑝
𝑃𝑃(𝑀𝑀)
==
++ + + 𝑃𝑃(𝑇𝑇
𝑃𝑃(𝑇𝑇 ∩ 𝑀𝑀) − =𝑀𝑀) 𝑃𝑃(𝑀𝑀) ×(1 𝑃𝑃−𝑀𝑀𝑃𝑃 −
Malades (𝑀𝑀)
(𝑀𝑀)
Malades 𝑃𝑃(𝑇𝑇 ∩ ∩
𝑃𝑃(𝑇𝑇 + ∩𝑃𝑃(𝑇𝑇
𝑀𝑀)
𝑀𝑀) ∩=
+
𝑀𝑀) = =𝑀𝑀) == 𝑃𝑃(𝑀𝑀)
𝑃𝑃(𝑀𝑀)
= ×××
= 𝑝𝑝×𝑃𝑃(𝑀𝑀)
𝑃𝑃𝑆𝑆𝑀𝑀𝑃𝑃(𝑇𝑇
𝑀𝑀
𝑀𝑀× (𝑇𝑇
+𝑃𝑃 )) 𝑀𝑀 +
)𝑆𝑆𝑒𝑒𝑀𝑀 (𝑇𝑇 ) 𝑃𝑃(𝑇𝑇 − ∩ 𝑀𝑀) =

𝑃𝑃(𝑇𝑇 𝑀𝑀)∩= =
= 𝑝𝑝
𝑃𝑃(𝑀𝑀)
=𝑝𝑝 ×𝑝𝑝× 𝑃𝑃(𝑀𝑀)
(1 × 𝑆𝑆(𝑇𝑇
𝑀𝑀 ×(𝑇𝑇)𝑒𝑒𝑆𝑆𝑃𝑃 )𝑀𝑀)(𝑇𝑇 ) 𝑃𝑃(𝑀𝑀)
𝑀𝑀
𝑃𝑃(𝑀𝑀) =𝑝𝑝 𝑝𝑝 = 𝑝𝑝
(𝑀𝑀) (𝑀𝑀) 𝑒𝑒𝑆𝑆− 𝑃𝑃(𝑀𝑀)
=𝑃𝑃(𝑀𝑀) − 𝑀𝑀 ))−
Malades = 𝑃𝑃(𝑀𝑀)
= 𝑝𝑝𝑃𝑃𝑝𝑝
×𝑀𝑀𝑒𝑒×(𝑇𝑇
𝑝𝑝
𝑝𝑝
𝑆𝑆 𝑆𝑆
×× 𝑒𝑒 𝑆𝑆 = =𝑝𝑝 ×× ×(1 𝑃𝑃
𝑝𝑝−(1
× (𝑇𝑇
− −(1 𝑆𝑆 𝑒𝑒)) 𝑆𝑆 ) 𝑃𝑃(𝑀𝑀) = 𝑝𝑝
Malades (M ) == = 𝑝𝑝 𝑝𝑝×× 𝑆𝑆𝑒𝑒𝑆𝑆𝑝𝑝𝑒𝑒 × 𝑆𝑆𝑒𝑒
𝑒𝑒 𝑒𝑒 = = 𝑝𝑝
= ×
𝑝𝑝 ×(1 (1
𝑝𝑝
𝑀𝑀
× − 𝑆𝑆 (1
𝑒𝑒 )
𝑆𝑆 𝑒𝑒
𝑒𝑒 −) 𝑆𝑆𝑒𝑒 )
= 𝑝𝑝 × 𝑆𝑆𝑒𝑒 = 𝑝𝑝 × (1 − 𝑆𝑆𝑒𝑒 ) 𝑒𝑒
1 %Non malades +
𝑃𝑃(𝑇𝑇 𝑃𝑃(𝑇𝑇 ̅
𝑀𝑀)+
∩𝑃𝑃(𝑇𝑇
+
∩+ ̅
𝑀𝑀=)̅ ̅ )=𝑃𝑃(𝑀𝑀 =33𝑃𝑃(𝑀𝑀
̅ )̅% ̅
× )𝑃𝑃̅̅𝑀𝑀
×)(𝑇𝑇 +
𝑃𝑃 𝑃𝑃(𝑇𝑇 )+(𝑇𝑇) +) 𝑃𝑃(𝑇𝑇
+ + −
𝑃𝑃(𝑇𝑇 ∩ 𝑀𝑀
− ̅

∩∩ )−̅̅
𝑀𝑀𝑀𝑀 )̅= )̅== 𝑃𝑃(𝑀𝑀 99,98
̅
𝑃𝑃(𝑀𝑀 ̅
)̅× )̅ × )𝑃𝑃̅%
𝑃𝑃𝑀𝑀 (𝑇𝑇 −
(𝑇𝑇(𝑇𝑇 )−) ) − 𝑃𝑃(𝑀𝑀
− − ̅̅)̅)=
NonNon
Non
Nonmalades
malades
malades
malades
malades 𝑃𝑃(𝑇𝑇 +
𝑃𝑃(𝑇𝑇
∩̅𝑀𝑀 ̅ ∩∩=𝑀𝑀
̅ ))∩
𝑀𝑀
=)) =
̅= = 𝑃𝑃(𝑀𝑀 𝑃𝑃(𝑀𝑀
𝑃𝑃(𝑀𝑀
)) × 𝑃𝑃)𝑀𝑀××𝑀𝑀 +𝑃𝑃+
(𝑇𝑇 𝑀𝑀
𝑀𝑀) (𝑇𝑇+ ) 𝑃𝑃(𝑇𝑇 𝑃𝑃(𝑇𝑇𝑃𝑃(𝑇𝑇

𝑃𝑃(𝑇𝑇
∩ ̅𝑀𝑀)−̅ ))∩
∩=𝑀𝑀 ̅= ) 𝑃𝑃(𝑀𝑀 =̅𝑃𝑃(𝑀𝑀
𝑃𝑃(𝑀𝑀 𝑃𝑃(𝑀𝑀
)) × ×
𝑀𝑀 𝑃𝑃𝑀𝑀
𝑃𝑃))×
𝑃𝑃 ×(𝑇𝑇 −𝑃𝑃− 𝑀𝑀) (𝑇𝑇− ) 𝑃𝑃(𝑀𝑀𝑃𝑃(𝑀𝑀
̅ )̅
)==1̅
11−
− 𝑝𝑝𝑝𝑝𝑝𝑝
)−
̅𝑝𝑝)
)̅ ̅𝑀𝑀 )̅(1 ̅𝑀𝑀 𝑃𝑃(𝑀𝑀 )) =
𝑃𝑃(𝑀𝑀
=1̅1 =
− 1 − 𝑝𝑝
𝑝𝑝 𝑝𝑝
++ )+ −−
Non
Non malades
Non malades 𝑃𝑃(𝑇𝑇̅ + ∩
𝑃𝑃(𝑇𝑇 𝑀𝑀

𝑃𝑃(𝑇𝑇 𝑀𝑀 =𝑀𝑀 (1𝑃𝑃(𝑀𝑀
==−𝑃𝑃(𝑀𝑀 × ×𝑃𝑃(1
𝑃𝑃(𝑀𝑀
×𝑝𝑝) 𝑃𝑃)(𝑇𝑇
−×(𝑇𝑇
× +𝑆𝑆𝑃𝑃)𝑝𝑝𝑀𝑀
))−𝑆𝑆(𝑇𝑇 𝑆𝑆)𝑝𝑝)) 𝑃𝑃(𝑇𝑇 − ∩
𝑃𝑃(𝑇𝑇 ∩ 𝑀𝑀
𝑃𝑃(𝑇𝑇 𝑀𝑀 =𝑀𝑀 = = 𝑃𝑃(𝑀𝑀
=)𝑃𝑃(𝑀𝑀 =
(1 − ×
𝑃𝑃(𝑀𝑀
𝑝𝑝) ×𝑃𝑃 × (𝑇𝑇
𝑀𝑀×
𝑆𝑆×(𝑇𝑇
𝑆𝑆𝑝𝑝𝑃𝑃 𝑆𝑆)𝑀𝑀)(𝑇𝑇 )𝑃𝑃(𝑀𝑀
𝑃𝑃(𝑀𝑀̅𝑃𝑃(𝑀𝑀
= −
1 − 𝑝𝑝1
̅
NonNon
(𝑀𝑀 )
̅ malades
̅
(𝑀𝑀 ) ̅
(𝑀𝑀
malades
̅) ) (𝑀
𝑃𝑃(𝑇𝑇 ) ∩ ̅
𝑀𝑀 ) = = 𝑃𝑃(𝑀𝑀
=−−
(1
(1
̅ ) −
(1
×
(1
𝑝𝑝)
−𝑃𝑃
−×
×(𝑇𝑇
𝑝𝑝)
𝑀𝑀𝑝𝑝)(1
𝑀𝑀(1
×− )−
(1
(1 𝑆𝑆 −𝑝𝑝
)) 𝑆𝑆𝑝𝑝 ) ∩ 𝑀𝑀̅ ) = = ̅
=(1
(1
) ×−

−𝑝𝑝)
𝑃𝑃
(1
𝑝𝑝)
𝑀𝑀 −
𝑝𝑝)
𝑀𝑀
(𝑇𝑇×

𝑝𝑝
𝑝𝑝)
𝑆𝑆 ) ̅
× 𝑆𝑆𝑝𝑝 𝑃𝑃(𝑀𝑀) = 1 − 𝑝𝑝
𝑝𝑝 ) = − 𝑝𝑝
Retrouvez éduscol sur ̅(𝑀𝑀
(𝑀𝑀 ̅ ) (𝑀𝑀
̅
) ) (𝑀𝑀)
(𝑀𝑀 = = (1 (1
= −𝑝𝑝)(1 ×
𝑝𝑝) −× (1𝑝𝑝)(1 − ×−𝑆𝑆 (1 )
𝑆𝑆 𝑝𝑝− 𝑆𝑆 ) = = (1
= (1 − −𝑝𝑝) 𝑝𝑝)
(1 × − × 𝑆𝑆 𝑆𝑆
𝑝𝑝) 𝑝𝑝× 𝑆𝑆
5% ̅
(𝑀𝑀) = (1 − 72 𝑝𝑝) %× (1 − 𝑆𝑆 𝑝𝑝
𝑝𝑝) 𝑝𝑝 𝑝𝑝 = (1 99,95 − 𝑝𝑝) %
× 𝑆𝑆 𝑝𝑝
𝑝𝑝 𝑝𝑝 𝑝𝑝
+ ) + ) = 𝑝𝑝 × 𝑆𝑆 + (1 − 𝑝𝑝) × (1 − 𝑆𝑆 )
Total Total Total
Total 𝑃𝑃(𝑇𝑇
+𝑃𝑃(𝑇𝑇
)+= 𝑃𝑃(𝑇𝑇
𝑝𝑝+=× 𝑆𝑆𝑝𝑝𝑒𝑒×+𝑆𝑆(1 𝑒𝑒 + 𝑒𝑒−(1𝑝𝑝)−×𝑝𝑝)(1×− (1𝑆𝑆− 𝑝𝑝 )𝑆𝑆𝑝𝑝 )𝑝𝑝 𝑃𝑃(𝑇𝑇 )−−=)−=
−𝑃𝑃(𝑇𝑇
𝑃𝑃(𝑇𝑇 )𝑝𝑝−=× 𝑝𝑝 ×𝑝𝑝
(1×(1 −(1 𝑆𝑆𝑒𝑒−𝑆𝑆)𝑒𝑒𝑆𝑆+
− )𝑒𝑒+)(1+(1− (1−𝑝𝑝) −𝑝𝑝)× 𝑝𝑝)×𝑆𝑆×𝑝𝑝𝑆𝑆𝑝𝑝𝑆𝑆𝑝𝑝 111
Total Total 𝑃𝑃(𝑇𝑇 )) =
𝑃𝑃(𝑇𝑇 )𝑝𝑝 =
× 𝑝𝑝+
𝑆𝑆 ×+ 𝑆𝑆(1 +− (1
𝑝𝑝) −× 𝑝𝑝)
(1 ×− (1𝑆𝑆 −
)) 𝑆𝑆𝑝𝑝𝑃𝑃(𝑇𝑇
)𝑃𝑃(𝑇𝑇 𝑃𝑃(𝑇𝑇=𝑝𝑝− ))𝑝𝑝
)) = =×
×(1(1 𝑝𝑝−×− (1 −
𝑆𝑆)𝑒𝑒+ )) + 𝑆𝑆 (1 ) +− (1𝑝𝑝) −× 𝑝𝑝)𝑆𝑆𝑝𝑝× 𝑆𝑆𝑝𝑝 1
Total
Total
10Total
% Total 𝑃𝑃(𝑇𝑇
𝑃𝑃(𝑇𝑇
𝑃𝑃(𝑇𝑇 +)
+ )+
=
𝑃𝑃(𝑇𝑇
=
= +)
𝑝𝑝
𝑝𝑝 ×
×
𝑝𝑝 ×
=𝑆𝑆
𝑆𝑆
𝑆𝑆
𝑝𝑝
𝑒𝑒 +
𝑒𝑒 ×+(1𝑆𝑆
𝑒𝑒 (1 𝑒𝑒 (1
𝑒𝑒

− +
84 %−𝑝𝑝)
𝑝𝑝) (1 ×
𝑝𝑝)
× − ×
(1
(1 (1
𝑝𝑝)−
− × −
𝑆𝑆
𝑆𝑆 (1 )
𝑆𝑆
𝑝𝑝) 𝑝𝑝
𝑝𝑝 − 𝑆𝑆 )
𝑃𝑃(𝑇𝑇
𝑝𝑝
− )−
𝑃𝑃(𝑇𝑇 =
− ) 𝑃𝑃(𝑇𝑇
= 𝑝𝑝 ×
×=
𝑝𝑝
(1
(1
𝑝𝑝− ×−𝑆𝑆(1
𝑆𝑆 𝑒𝑒𝑆𝑆
) −
99,89 %
𝑒𝑒+ +(1
(1 )−+−
𝑆𝑆𝑒𝑒𝑒𝑒(1

𝑝𝑝)
𝑝𝑝) (1𝑝𝑝)×−
×
×
𝑆𝑆
𝑆𝑆𝑝𝑝)
𝑝𝑝𝑆𝑆𝑝𝑝× 𝑆𝑆𝑝𝑝 111 1
𝑒𝑒 𝑝𝑝 𝑒𝑒 𝑝𝑝 1

eduscol.education.fr/30-%
Ministère de l’Éducation nationale et de la Jeunesse - Janvier 2020
95 % 99,56 % 6
VOIE GÉNÉRALE Tle Enseignement scientifique

Évolution des valeurs prédictives positives et négatives en fonction de la prévalence


Le tableau suivant donne, pour un test de caractéristiques 𝑆𝑒 = 0,99 et 𝑆𝑝 = 0,98 quelques
valeurs de VPP et de VPN en fonction de la prévalence exprimée en pourcentage.

Prévalence VPP VPN

0,1 % <5% 99,99 %

1% 33 % 99,98 %

5% 72 % 99,95 %

10 % 84 % 99,89 %

30 % 95 % 99,56 %

Comme on le voit sur le tableau, quand la prévalence augmente, la VPP augmente et la VPN
diminue. Si la prévalence de la maladie M est de 0,1 % dans la population générale, de 1 %
dans la clientèle d’un généraliste et 5 % dans celle d’un spécialiste de la maladie, le tableau
indique que l’utilisation systématique du test a une bonne valeur diagnostique pour le
spécialiste (VPP = 72 %), que cette valeur est déjà moindre pour le généraliste (VPP = 33 %)
et qu’elle est trop basse pour être utilisable pour un dépistage de masse (VPP < 5%).

Les courbes ci-dessous, pour les valeurs 𝑆𝑒 = 0,99 et 𝑆𝑝 = 0,95, représentent


l’évolution de la VPN et la VPP, exprimées en pourcentage, en fonction de la prévalence,
elle aussi exprimée en pourcentage.

Retrouvez éduscol sur

eduscol.education.fr/ - Ministère de l’Éducation nationale et de la Jeunesse - Janvier 2020 7


VOIE GÉNÉRALE Tle Enseignement scientifique

On constate qu’en cas de maladie rare (faibles valeurs de 𝑝), la VPN est élevée alors
que la VPP est faible. Cela signifie qu’un patient ayant réagi positivement au test a cependant
une probabilité faible d’être atteint par la maladie. Des examens complémentaires doivent
être envisagés. En revanche, il y a de fortes chances qu’un patient ayant réagi négativement
au test ne soit pas malade. Il est à noter que, même en cas d’épidémie, la prévalence
(proportion d’individus malades dans une population) atteint rarement des valeurs
supérieures à 40 %.

L’appliquette GeoGebra « Valeur prédictive en fonction de la prévalence» permet de visualiser


différentes courbes de valeurs prédictives en fonction des caractéristiques du test.

Inférence bayésienne et détection de spams


Un des premiers programmes de filtrage bayésien du courrier électronique était le programme
iFile de Jason Rennie, publié en 1996.

Le principe, analogue à celui du diagnostic médical, repose sur le fait que les mots
du dictionnaire ont des probabilités différentes d’apparaître dans les spams et dans
les courriers légitimes.

Le filtre de détection des spams ne connaît pas à l’avance les probabilités d’apparition de
ces mots, c’est pourquoi il lui faut une phase d’apprentissage pour les évaluer. Cette phase
d’apprentissage est analogue à la phase de calibrage du test médical étudié ci-dessus.

L’apprentissage se fait à partir de l’observation du comportement des utilisateurs, qui doivent


indiquer manuellement si un message est un spam ou non. Pour chaque mot de chaque
message « appris », le filtre ajustera les probabilités de rencontrer ce mot dans un spam
ou dans un courrier légitime et le stockera dans sa base de données.

On note 𝑃𝑆(𝑀) la probabilité qu’un spam contienne le mot 𝑀 et 𝑃S̅ (𝑀) la probabilité
qu’un courrier légitime contienne le mot 𝑀. Ces deux probabilités sont estimées au cours
de la phase d’apprentissage, tout comme la probabilité 𝑃(𝑆) qu’un message quelconque
soit un spam (analogue à la prévalence 𝑃(𝑀) dans le test médical).

Une fois ces valeurs déterminées, la formule de Bayes permet de calculer la probabilité
Catégorie de ressource
qu’un message donné soit un spam sachant qu’il contient le mot M selon la formule.

𝑃𝑃(𝑀𝑀 ∩ 𝑆𝑆) 𝑃𝑃𝑆𝑆 (𝑀𝑀) × 𝑃𝑃(𝑆𝑆)


𝑃𝑃𝑀𝑀 (𝑆𝑆) = =
𝑃𝑃(𝑀𝑀) 𝑃𝑃𝑆𝑆 (𝑀𝑀) × 𝑃𝑃(𝑆𝑆) + 𝑃𝑃𝑆𝑆̅ (𝑀𝑀) × (1 − 𝑃𝑃(𝑆𝑆))

Cette probabilité est comparée à un seuil ; si elle est supérieure au seuil, le filtre classera ce message dans les
Cette probabilité est comparée à un seuil ; si elle est supérieure au seuil,
spams.
le filtre classera ce message dans les spams.
DansDansla réalité, on travaille
la réalité, non pasnon
on travaille sur pas
un seul
surmot M, mais
un seul motsur𝑀,un stock
mais deun
sur mots, en faisant
stock l’hypothèse
de mots, naïve
en faisant
que les mots présents dans un message sont indépendants les uns des autres.
l’hypothèse naïve que les mots présents dans un message sont indépendants les uns Cela est faux dans les langages
naturels, où par exemple
des autres. Cela estlafaux
probabilité de trouver
dans les langages un adjectif
naturels,estoù
influencée
par exemplepar celle de trouver un
la probabilité denom. De plus,
cettetrouver
techniqueun adjectif est influencée par celle de trouver un nom. De plus, cette technique des mots,
de filtrage, connue sous le nom de filtrage bayésien naïf, ne tient pas compte du sens
alorsdequ’il a une incidencesous
filtrage, connue sur laleprésence
nom desimultanée de certains
filtrage bayésien mots
naïf, ne àtient
l’intérieur du message.
pas compte Par exemple, la
du sens
présence du mot « anniversaire » n’est pas indépendante de celle du mot « joyeux
des mots, alors qu’il a une incidence sur la présence simultanée de certains mots à l’intérieur».
du message. Par exemple, la présence du mot « anniversaire » n’est pas indépendante
Retrouvez éduscol sur de celle du mot « joyeux ».

Propositions d’activités
Activité
eduscol.education.fr/ 1de l’Éducation nationale et de la Jeunesse - Janvier 2020
- Ministère 8
Parmi les femmes de 40 ans ayant effectué une mammographie, 1 % a un cancer du sein.
VOIE GÉNÉRALE Tle Enseignement scientifique

Propositions d’activités

Activité 1
Parmi les femmes de 40 ans ayant effectué une mammographie, 1 % a un cancer du sein.
À la suite de mammographies sur échantillon, on a établi que :
• pour 82 % des femmes ayant un cancer du sein, la mammographie détecte une anomalie;
• pour 9 % des femmes n’ayant pas de cancer du sein, la mammographie détecte
une anomalie.

On suppose que 10 000 de 40 ans ont effectué une mammographie.

1. Préciser les caractéristiques (sensibilité, spécificité) d’unemammographie.


2. Compléter le tableau ci-dessous :

Anomalie Pas d’anomalie Total


détectée détectée

Malades

Non malades

Total 10 000

3. Une femme de 40 ans a subi une mammographie qui a détecté une anomalie.
Quelle est la probabilité qu’elle soit atteinte d’un cancer du sein?
4. Calculer les valeurs prédictives positive et négative d’une mammographie chez les
femmes de 40 ans.

L’appliquette GeoGebra « Sensibilité, spécificité, valeurs prédictives » permet de s’exercer


sur d’autres activités de ce type.

Activité 2
Montrer que si 𝑆𝑒+𝑆𝑝=1, alors le test est inutile, dans le sens où 𝑃 + (𝑀)=𝑃(𝑀)
𝑇
et 𝑃𝑇 − (𝑀̅ )=𝑃(𝑀̅ ). Les probabilités a posteriori sont égales aux probabilités a priori
et le test est inutile.

Retrouvez éduscol sur

eduscol.education.fr/ - Ministère de l’Éducation nationale et de la Jeunesse - Janvier 2020 9


VOIE GÉNÉRALE Tle Enseignement scientifique

Activité 3 : dépistage du VIH


L’infection par le virus de l’immunodéficience humaine reste un problème de santé publique
à l’échelle mondiale.

1. Aujourd’hui, il existe des tests rapides pour l’infection à VIH appelés « Test Rapide
d’Orientation Diagnostique » ou TROD. Ces tests ont l’avantage de pouvoir être réalisés
à partir d’un échantillon de salive ou à partir d’une goutte de sang prélevée au bout
du doigt. Pour comparer les caractéristiques de ces deux tests (salivaire et sanguin),
on a réalisé les tests TROD sur 10 000 personnes dont on sait qu’elles sont infectées
par le VIH et sur 100 000 personnes noninfectées.
Les caractéristiques des tests salivaire et sanguin sont les suivantes :

Personnes infectées Personnes non infectées


par le VIH par le VIH

Test salivaire positif 9803 260

Test sanguin positif 9968 90

Calculer la spécificité et la sensibilité de chacun de ces tests.

2. Influence de la prévalence sur les valeurs prédictives destests.


a. E
 n 2017, la population mondiale exposée était estimée
à 6 milliards et parmi elle, le nombre de personnes infectées par le VIH à 37millions.
Calculer la valeur prédictive positive de chacun des deux tests pour la population
mondiale exposée.
b. E
 n 2017, la population française exposée était estimée à 50 millions et le nombre
de personnes infectées par le VIH à 150000.
Calculer la valeur prédictive positive de chacun des deux tests pour la population
française exposée.
c. E
 n 2017, la population sud-africaine exposée était estimée à 35 millions et le nombre
de personnes infectées par le VIH à 7millions.
Calculer la valeur prédictive positive de chacun des deux tests pour la population
sud-africaine exposée.

Retrouvez éduscol sur

eduscol.education.fr/ - Ministère de l’Éducation nationale et de la Jeunesse - Janvier 2020 10


VOIE GÉNÉRALE Tle Enseignement scientifique

Activité 4 : aide au diagnostic


Trois maladies virales peuvent être transmises par les moustiques : dengue, chikungunya
et zika. Elles provoquent des symptômes qui peuvent être assez proches. Il peut être difficile
de les différencier directement. Ici on s’intéresse à la mise en place d’une aide statistique
au diagnostic. Pour cela, on va s’appuyer sur des données obtenues chez des personnes dont
le diagnostic a pu être certifié par des examens biologiques. Pour simplifier, on supposera
que ces caractères apparaissent indépendamment chez les personnes infectées.

Symptômes Dengue Chikungunya Zika

Fièvre 95 % 75 % 75 %

Courbatures 75 % 95 % 50 %

Douleur oculaire 50 % 25 % 50 %

Déficit globules blancs 50 % 50 % 25 %

Hémorragie 25 % 5% 5%

À partir de ces données, on veut déterminer les probabilités de chaque maladie


selon les symptômes présentés et dans des conditions différentes.

1. On suppose qu’une personne malade revient d’un pays dans lequel aucune de ces
maladies n’est épidémique. On considère donc a priori que les trois maladies sont
équiprobables. Quelles sont les probabilités de chaque maladie si cette personne
présente à la fois de la fièvre, pas de courbatures et des douleurs oculaires ?
Quel est le diagnostic le plus probable dans ce cas?
2. On suppose qu’une personne malade revient d’un pays dans lequel sévit une épidémie
de Zika. A priori, y a 80 % de chances qu’elle ait été infectée par Zika et 10 % par chacune
des deux autres maladies. Quelles sont les probabilités a posteriori de chaque maladie
si cette personne présente à la fois de la fièvre, pas de courbatures et des douleurs
oculaires ? Quel est le diagnostic le plus probable dans ce cas ?

Retrouvez éduscol sur

eduscol.education.fr/ - Ministère de l’Éducation nationale et de la Jeunesse - Janvier 2020 11

Vous aimerez peut-être aussi