Rousseau
I. Notion de probabilité
Concept lié à la répétition d’une expérience aléatoire : expérience dont on ne connaît pas le
résultat avant l’expérience.
La seule information dont on dispose pour chaque valeur est la probabilité de trouver « un
individu » (un résultat) qui ait cette valeur
Exemple du lancé d’une pièce de monnaie, on ne peut pas prédire avec certitude le résultat
de l’expérience avant sa réalisation : 1 chance sur 2 d’obtenir côté pile ou côté face.
Evènements équiprobables.
Une expérience aléatoire (épreuve) peut présenter un certain nombre de résultats. Chacun
de ces résultats est un événement élémentaire Ei ( événement non décomposable )
Cette notion d’évènement peut-être étendue à un ensemble de plusieurs résultats
(évènements non élémentaires)
o Si Ω est un ensemble fini d’évènements équiprobables et A une partie de Ω
Exemple en épidémiologie :
Dans une population de 60 million d’habitants, 500 000 personnes meurent chaque année.
500000
Si équiprobabilité ; probabilité de décès : =0.0083
60000000
Cependant, chaque individu n’a pas la même probabilité de décéder dans l’année. Le calcul de
probabilité basé sur l’équiprobabilité atteint rapidement ses limites.
1
Probabilités A. Rousseau
Si on considère 3 événements :
p ( A ∪ B ∪C )= p ( A )+ p ( B ) + p ( C ) −p ( A ∩ B )− p ( A ∩C )− p ( B ∩C ) + p ( A ∩B ∩C )
alors p ( A i ∩ A j ∩… ∩ A k )= p ( Ai ) + p ( A j ) +…+ p( A k )
2
Probabilités A. Rousseau
Exemple : Calcul de la probabilité d’obtenir un as ou un pique lorsqu’on tire au hasard une carte dans
un jeu
4
p ( As )=
52
13
p ( Pique )=
52
1
p ( As ∩ Pique )=
52
4 13 1 4
P ( A ∪ B)= + − =
52 52 52 13
La probabilité que A soit réalisé sachant B est réalisé est appelée probabilité conditionnelle de A
sachant B et s’écrit p( A / B)
p(A∩B)
p ( A / B )=
p ( B)
1. Généralisation
3
Probabilités A. Rousseau
p ( H ∩ A ) p ( H ) × P ( A / H ) 0.03
p ( H / A )= = = =0.05
p ( A) p(A) 0.6
Il y a donc 5% de chance pour que, si un sujet pris au hasard est consommateur d’alcool, il
soit malade du foie.
Ici on s’intéresse à la probabilité d’un évènement (maladie) sachant que la cause est réalisée
(consommation d’alcool).
Diagramme récapitulatif :
A Á
F 0,04 × 0,75=0,03 0,04−0,03=0,01 0,04
F́ 0,6−0,03=0,57 1−0,6 ¿−(0,04−0,03)
0,96
0,60 0,40 1
2. Evènements indépendants
Ces deux évènements sont a priori indépendants, et sont compatibles (il existe bien des
personnes diabétiques aux yeux bleus.
On sait, par des enquêtes médicales, qu’un individu appartenant à une population
donnée a la probabilité 1/100 d’être atteint par une affection A et la probabilité 1/20
d’être atteint d’une autre affection B.
Sous l’hypothèse d’indépendance de ces 2 affections, calculons :
a) le nombre de sujets (environ) atteint de l’une au moins de ces 2 affections parmi
10.000 sujets pris dans la population
b) le nombre de sujets atteints de B sur 500 sujets atteints de A.
a. Si A et B indépendants, p ( A ∩ B )= p ( A ) × p (B)
4
Probabilités A. Rousseau
1
b. Sur 500 sujets atteints de A, on doit trouver ×500=25 sujets atteints de B
20
Si on trouve nettement plus que 25 sujets atteints, on ne peut plus admettre
l’indépendance. On dit alors qu’il y a entre elles une association, une relation
statistique.
3. Arbre probabiliste
Outil adapté au résumé des données d’un problème mettant en jeu les probabilités conditionnelles.
Principe :
o A partir de la racine de l’arborescence partent autant de branches que d’évènements dans la
population générale
o Ces branches sont pondérées par les probabilités a priori des évènements qu’elles
représentent
o Ensuite ces branches mères se divisent et à chaque nœud, s’introduit la probabilité
conditionnelle liée à la réalisation de la branche parente
o En bout de branche on calcule la probabilité de l’intersection des différents évènements
rencontrés par simple produit des probabilités parcourues le long du chemin qui va de la
racine à l’extrémité
Cas de 2 causes :
P ( C1 ∩ E ) =P ( C1 ) × P ( E /C 1 )=P ( E ) × P(C 1 / E)
5
Probabilités A. Rousseau
P ( C1 ) × P ( E /C 1 )
P ( C1 / E )= avec
P(E)
P ( C1 ) probabilité à priori et P ( C 1 / E ) probabilité a posteriori .
d’où ( P ( C 1) × P ( E / C 1 ) )
P ( C 1 / E )=
¿¿
Généralisation : Soit un événement E qui peut dépendre de N causes C i différentes et incompatibles 2 à 2, calculons
P(C i / E)
¿ i=1 ¿ N E ∩C i car l’ensemble des C i constituent un système complet (ou système exhaustif)
Remarque : Le symbole U désigne une union. l’union est disjointe → P(E) va être calculée à partir de la somme des
probabilités des intersections E ∩C i
Exemple :
Etapes préliminaires :
P (F 3) × P (S / F 3)
P (F 3 / S)= =0,138
P ( F 3 ) × P ( S / F 3 )+ P ( F 2 ) × P ( S / F 2 ) + P ( F 1 ) × P ( S / F 1 )
La probabilité qu’un patient présente la forme F3 de la maladie est plus grande s’il présente
le symptôme S que si l’on ne sait rien.
6
Probabilités A. Rousseau
Exemple :
7
Probabilités A. Rousseau
Sensibilité : Capacité du test à diagnostiquer la maladie, proportion des tests positifs parmi
les malades.
VP
Se=P ( + / M )=
VP+ FN
Plus le test est sensible, moins les faux négatifs sont nombreux
VN
Sp=P (−/ Ḿ )=
VN + FP
La valeur diagnostique d‘un test est d’autant meilleure que le test est à la fois sensible et
spécifique.
La valeur globale du test : proportion de résultats exacts :
VP+VN
E=
VP + FP+VN + FN
(0 ≤ E ≤1)
E=1 : test idéal
Tirage au sort correspond à E=0,5
Propriétés :
8
Probabilités A. Rousseau
Distribution du paramètre étudié chez les sujets présentant l’événement et chez les
sujets ne présentant pas l’événement.
Choix du seuil :
Un test sensible (donc un seuil bas) doit être préféré quand la maladie est
grave et curable (on souhaite minimiser FN).
Un test spécifique (donc un seuil élevé qui diminue FP) doit être préféré :
Lorsque les tests faussement positifs sont psychologiquement
traumatisants ou coûteux
Quand on veut confirmer un diagnostic suggéré par d’autres tests
(test de confirmation).
Un test diagnostic de bonne sensibilité conduit à un résultat positif chez (presque) tous les
malades : utilisable pour un dépistage.
Si le test possède une bonne spécificité, il conduit à un résultat négatif chez presque tous
les non-malades, utilisables pour confirmer un diagnostic.
b. Caractéristique extrinsèque
9
Probabilités A. Rousseau
10
Probabilités A. Rousseau
Un laboratoire a mis au point un alcootest. On sait que 2% des personnes contrôlées par la
police sont réellement en état d’ébriété (P(E)=0,02]. Les premiers résultats ont conduit aux
résultats :
11
Probabilités A. Rousseau
Calcul de la probabilité pour qu’une personne soit réellement en état d’ébriété lorsque
l’alcootest est positif (VPP : P ¿
Formules de Bayes : P ¿
Personne ne soit pas en été d’ébriété lorsqu’ l’alcootest est négatif (VPN : P ¿
P¿
Les VPP et VPN dépendent fortement de la probabilité a priori (ex : proba d’ébriété, proba
d’être malade), ce qui explique qu’elles sont moins utilisées que les caractéristiques de test
Se et Sp
Remarque : Cet exemple pourrait aussi être traité en s’aidant d’un arbre probabiliste.
Reprenons à nouveau l’exemple et considérons que l’on réalise 2 fois le test par sujet, de
façon indépendante.
Quelle est la probabilité que la personne soit réellement en état d’ébriété si le résultat du test
a été 2 fois positif P ¿.
Ainsi, P ¿
Exemple 2 :
VPP=P ¿
Cet exemple montre que le résultat d’un test (évaluation d’un symptôme) dépend de
2 notions différentes
Les caractéristiques intrinsèques du test.
12
Probabilités A. Rousseau
13