Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 189

UNIVERSITE DE LUBUMBASHI

ECOLE DE SANTE PUBLIQUE


PREMIERE LICENCE
DESCRIPTIF DU COURS DE
BIOSTATISTIQUE DESCRIPTIVE
ANNEE ACADEMIQUE 2021-2022

Titulaire:
Pr Dr Ben Bondo MONGA
Etablissement :Université de Lubumbashi,
Ecole de Santé Publique
Niveau : BAC1 SANTE PUBLIQUE
UE: EPIDEMIOLOGIE, BIOSTATISTIQUE ET
INFORMATIQUE (CODE: EBI1111)
ECUE: STATISTIQUE DESCRIPTIVE
Volume horaire : 75 heures (45 heures
CMI, 15 heures TP, 15 heures TD)
Pré-requis : Cours de Mathématiques de
niveau secondaire.
Objectifs
Objectif général
Initier les participants aux notions de base
de la Biostatistique afin qu’ils puissent
être en mesure d’organiser, d’analyser, de
résumer et de présenter les données
concernant une population obtenues à
partir d’un échantillon.
Les participants devront aussi être
capables d’interpréter des résultats
statistiques d’une étude et d’en tirer les
conclusions adéquates.
Objectifs spécifiques
A l’issue de ce cours, l’apprenant sera capable de :
• Connaitre les différents problèmes abordés par la
Biostatistique
• Définir les termes : statistique, statistiques, unité
statistique, variable, population statistique, échantillon,
série statistique, distribution
• Déterminer les types de variables et les classifier
• Représenter les valeurs d’une variable quantitative et
d’une variable qualitative sous forme de tableau et de
graphique
• Déterminer les paramètres de position et de
dispersion
Objectifs spécifiques
•Représenter une distribution statistique
•Décrire les différentes méthodes d’échantillonnage
•Connaître les éléments de base du calcul des
probabilités et les lois élémentaires (binomiale,
Poisson, normale, Student, Khi2)
•Connaître les propriétés d’un test diagnostic
Compétences
•L’apprenant qui aura suivi ce cours devra développer
les compétences suivantes :

•Recueillir, organiser, analyser, résumer et présenter les


données concernant une population obtenues à partir
d’un échantillon
•Analyser les données et interpréter les résultats d’une
étude scientifique
•Evaluer si les méthodes d'analyse et les conclusions
des publications scientifiques sont correctes
Contenu du cours
I. Objectifs du cours
II. Introduction
II.1. Importance de la
Biostatistique dans le domaine
de la Santé
II.2. Définition de la Biostatistique
et des concepts
Contenu du cours

III. Biostatistique descriptive


Contenu du cours
III.1. Classification des variables
• Variables quantitatives
o Continues
o Discrètes
o Temporelles
• Variables qualitatives
o Ordinales
o Nominales
• Variables binaires
Contenu du cours
III.2. Organisation des données
• Effectifs, fréquences relatives et
fréquences cumulées
• Distribution
• Regroupement en classes

III.3. Description des données


• Tableaux
• Graphiques
Contenu du cours

III.4. Représentation d’une distribution

• Variable discrète
• Variable continue
• Variable qualitative binaire
Contenu du cours

III.5. Paramètres statistiques


Contenu du cours

III.5.1. Paramètres de position

• Moyenne
• Médiane
• Mode
• Quantiles
Contenu du cours

III.5.2. Paramètres de dispersion

• Variance
• Ecart-type
• Etendue
• Ecart interquartile
• Percentiles
Contenu du cours
III.6. Méthodes d’échantillonnage
• Echantillonnage non probabiliste
• Echantillonnage probabiliste
• Aléatoire simple
• Systématique
• Stratifié
• En grappes
• A plusieurs degrés
• A plusieurs phases
Contenu du cours

III.7. Introduction au calcul de probabilité

• Généralités
• Principe et propriétés de la probabilité
• Tests diagnostics
Contenu du cours

III.8. Quelques lois de distribution

• Les lois discrètes


o Loi de Bernouilli
o Loi binomiale
o Loi de Poisson
Contenu du cours

III.8. Quelques lois de distribution

• Les lois continues


o Loi normale de Gauss
o Loi de Student
o Loi de Chi2
METHODES D’ENSEIGNEMENT

• Cours interactifs
• Travaux pratiques individuels et en
groupes
• Travaux dirigés
MATERIELS D’APPRENTISSAGE
• Syllabus
• Vidéoprojecteur
• Ordinateur
• Logiciels : Windows, Microsoft office
( excel)
LIEU DES TRAVAUX PRATIQUES

Laboratoire d’Informatique Médicale


Département de Santé Publique
Unité d’Epidémiologie, Biostatistique
et Informatique Médicale
Faculté de Médecine
EVALUATION
• Travaux pratiques : 25%
• Interrogations : 25%
• Examen pratique : 50%

Pendant l’évaluation, l’utilisation des notes,


livres et ordinateur sera autorisée
CONTACT
Prof. Dr. Ben Bondo MONGA
e-mail : mongaben@yahoo.fr
Consultant International en Epidémiologie,
Biostatistique et Informatique Médicale
Responsable de l’unité d’Epidémiologie, Biostatistique
et Informatique Médicale
Faculté de Médecine
Université de Lubumbashi
INTRODUCTION

Biostatistique - Pr Ben MONGA


Intérêts des Statistiques
et de la Statistique en Santé.

Biostatistique - Pr Ben MONGA


Statistique avec ou sans S

s
• Statistique (latin « status » état)
– Ensemble cohérent de données numériques
relatives à un groupe d'individus.
– Statistiques démographiques
– Statistiques du chômage
– Statistiques de santé
» Etat de santé de la population
» Activité : Statistiques d’activité hospitalière
–…
Statistique avec ou sans S

• Statistique
– Ensemble des méthodes qui permettent de
rassembler et d'analyser les données numériques.
• Méthodes de mesures, d’échantillonnage, de
présentation des résultats, de modélisation, théorie des
probabilités….
– Paramètre tel que moyenne... calculé à partir d'un
ensemble de données.
A quoi ça sert en en Santé ?

• Description des moyens et l'état de santé d'une population


– Causes de décès, morbidité, surveillance sanitaire….
• Évaluation d'un test ou d'un signe
– Sémiologie quantitative : spécificité, sensibilité, valeurs prédictives
• Évaluation d’un traitement
– Essai thérapeutique
• Recherche de facteurs étiologiques
• Économie de la santé
• Évaluation de la qualité et contrôle de production
• Prévision (Nbre de malades attendus,...)
• ….
Exemple : Décrire, dénombrer

Fiche de synthèse

1 - Activité Hospitalière

Hospitalisation Anesthésie ou File active Autres Autres


Hospitalisation Complète partielle Séances Chirurgie en traitements et Prises
(hors cures
chimiothérapie) ambulatoire hospitali. ambulatoires en charge
Nbre.
Lits Entrées Nbre. de C.O. de Nbre. de Nbre. de Nbre. de Nbre. de Nbre. de Nombre de Nbre. de
installés totales journées (%) places venues séances places venues Patients Séances journées
Médecine 920 38 938 264 475 80,1 117 25 789 21 684 0 4 328
Chirurgie 532 28 526 149 046 78,2 22 3 094
Obstétrique 0 0 0 0,0 2 686 0 0
Total s. courte durée 1 452 67 464 413 521 79,4 119 26 475 21 684 22 3 094 4 328
Psychiatrie générale 45 575 11 927 72,6 0 0 2 474 16 155 2 789
Psychiatrie infanto-juv. 0
Soins de suite et
60 714 18 036 74,5 0 0 0
réadaptation
dont réa. Fonctionnelle 16 454 2 566 43,9 0 0 0
Soins longue durée 164 55 52 726 94,6
Autres disciplines 0 0
Total sect. hôpit. 1 721 68 808 496 210 80,4 119 26 475 21 684 22 3 094 20 483
Total hébergement
Autres Disc soc. & méd
soc.
Taux de mortalité infantile
La consommation d’alcool favorise-t-
elle le cancer du poumon ?
• On a compté le Cancer + Cancer - Total
nombre de
Ethylisme+ 73 927 1 000
personnes
consommant de Ethylisme - 37 963 1 000
l’alcool ayant un
Total 110 1 890 2 000
cancer et vis versa.
La fréquence du cancer du poumon chez les
buveurs est de 73/1000 et de seulement
37/1000 chez les non buveurs
DEFINITIONS
ENQUÊTE

Ensemble des opérations qui ont pour but de collecter de


façon organisée des informations relatives à un groupe
d'individus ou d'éléments observés dans leur milieu ou
leur cadre habituel.
DEFINITIONS
POPULATION

Groupe d'individus ou d'éléments auquel nous nous


intéressons, ensemble de " référence " sur lequel portent les
observations.

Définir la population d'étude est un point fondamental, dans la


mesure où tout ce que nous pouvons observer, dire ou
calculer est relatif à cette population. Bien souvent cette
population est définie à travers la ou les valeurs spécifiques
d'une variable.

Exemple: Population de toutes les femmes âgées de 20-35


ans en 2020 dans la zone de santé ABC.
DEFINITIONS
POPULATION CIBLE ET POPULATION ETUDIEE

• J’ai étudié tous les séjours de l’Hôpital de Référence X en 2010.


C’est un recensement. C’est la population étudiée.
• A partir de cette étude, je voudrais extrapoler les résultats à
l’ensemble des hôpitaux de la RDC.
– Les séjours de l’hôpital X forment un échantillon (non
représentatif) des séjours de tous les Hôpitaux de la RDC. C’est
la « population étudiée ».
– La population cible, c’est l’ensemble des séjours des hôpitaux
de la RDC.
DEFINITIONS
RECENSEMENT

Si La population est connue (finie) ET tous les individus sont


recrutés, il s’agit d’un recensement :

– Une seule chose à faire :


• présenter les données,
• les résumer par certaines caractéristiques.
– Il n’y a pas de problème d’inférence.

Exemple : moyenne d’âge des étudiants de première année obtenue à


partir des dossiers d’inscription.
DEFINITIONS
ECHANTILLON

Il est difficile d’étudier tous les éléments d’une population


donnée. Il est tentant alors d’essayer d’examiner un sous-
groupe de cette population d’étude et d’essayer de déduire
(d’inférer), à partir des observations effectuées sur ce sous-
groupe, le comportement de la population générale. La
difficulté réside dans le choix du ou des "échantillon(s)" qui
doit(vent) être « représentatif(s) » de la population. Que
nous travaillions sur la population entière ou sur un
échantillon, nous allons effectuer des mesures, observer des
valeurs prises par des grandeurs ou des caractères etc. , Bref
nous allons définir des variables.
DEFINITIONS
UNITE STATISTIQUE

L’unité statistique ou unité de base est un élément de la


population ou du groupe étudié. L’ensemble des unités
statistique constitue la population. Les unités statistiques
peuvent être des humains, des animaux ou des objets.

Nous pouvons volontiers remplacer le terme " unité " par les
termes " individu" , " sujet ".
DEFINITIONS

UNITE STATISTIQUE OU UNITE DE BASE 1/1/2020 31/12/2020


50 ans
• Problème complexe souvent mal formalisé : 60 ans
15 ans
– Dans un hôpital, on veut connaître la
moyenne de l’âge en 2020
• Unité de base :
– Est-ce le séjour hospitalier ? Le premier patient a 50
» Ceci a un intérêt pour les équipes soignantes. ans et a été hospitalisé 3
– Est-ce le patient ? fois dans l’année
» Ceci a un intérêt pour l’épidémiologie.
• Population étudiée :
– Ensemble des séjours ou ensemble des patients. Nombre de patients = 3
– C’est un recensement. Moyenne d’âge des
• En santé, l’unité est-elle : patients = 41,7 ans
– Le patient
– Le séjour, la consulation… Nombre de séjours = 6
– La maladie Moyenne d’âge des
séjours = 40 ans
DEFINITIONS
VARIABLE STATISTIQUE

Une unité statistique peut être décrite selon une ou plusieurs


composantes qu’on appelle caractères ou variables
statistiques.
Exemple: äge, poids, taille, indice de masse corporelle,
glycémie, cholestérol, etc,,,

Les modalités (ou les niveaux) sont les différentes situations


disjonctives et exhaustives d’une variable, ce qui signifie que
chaque individu présente une modalité et une seule de cette
variable.
Ex: poids : tout nombre d’un intervalle des nombres réels dont
les limites sont compatibles avec le poids d’un individu.
Groupe sanguin: A, B, AB, O.
DEFINITIONS
SERIE STATISTIQUE

Une série statistique est l’ensemble des valeurs observées pour une
ou plusieurs variables sur les n sujets ou éléments de la population.

Une série simple est l’ensemble des n valeurs observées pour une
variable.

Une série statistique est représentée par (x1, x2,......, xi,..... xn), xi
étant la valeur de X pour le ième élément observé, i = 1, ....., n.

Une série simple peut être ordonnée ou non ordonnée. Les valeurs
brutes observées sur les sujets d’un échantillon sont au départ non
ordonnées.
DEFINITIONS
SERIE STATISTIQUE

Une première opération consiste souvent à ranger par ordre


croissant les valeurs composant la série. Une fois rangée, la série
est alors représentée par : (x(1), x(2) , ......, x(i), ....., x(n)) avec x(1) ≤ x(2)
≤ ...... ≤ x(i) ≤ ..... ≤ x(n).

Par exemple, la série statistique Poids en Kg (x1, x2, x3, x4, x5, x6.,
x7, x8, x9, x10) = (20, 18, 45, 20, 110, 65, 90, 85, 25,45) devient : (x(1),
x(2), x(3), x(4), x(5), x(6)., x(7), x(8), x(9)) = (18, 20, 20, 25, 45, 45, 65, 85,
90, 110) après cette opération.

Une série double est l’ensemble des valeurs observées pour deux
variables : il s’agit alors d’une série de n couples de valeurs.
DEFINITIONS
DISTRIBUTION STATISTIQUE

Il s’agit de l’ensemble des couples (xi, ni), où xi est une modalité de


la variable x, et ni le nombre de fois où cette modalité est observée
(effectif ou fréquence absolue). Elle peut aussi être l’ensemble des
couples (xi, fi), où fi est la fréquence relative (ou proportion) de la
modalité xi :
fi = ni /n (n étant l’effectif total des observations).

Par exemple, pour la série statistique Poids en Kg = (18, 20, 20, 25,
45, 45, 65, 85, 90, 110).

sa distribution statistique est représentée par:


Poids en Kg {(18,1), (20,2), (25,1), (45,2), (65,1), (85,1), (90,1),
(110,1)} ou encore par
{(18, 0,1), (20, 0,2), (25, 0,1), (45, 0,2), (65, 0,1), (85, 0,1), (90, 0,1),
(110, 0,1)}
Classification des variables
– Quantitatives (compte ou mesure) : elles expriment une quantité.
• Discrètes ou discontinues: peuvent prendre certaines valeurs numériques et
correspondent à un dénombrement. Ces valeurs sont des nombres entiers (sans
décimal). Exemples: nombre d’enfants, nombre de jours d’hospitalisation.
• Continues: peuvent prendre en théorie n’importe quelle valeur sur un continuum
ou échelle, mais en pratique, les valeurs possibles sont limitées par l’instrument de
mesure. Ces variables peuvent comporter des nombres décimaux. Exemple poids,
taille.
– Qualitatives (présence ou absence d’une caractéristique) : elles expriment une qualité.
• Qualitatives à deux classes ou dichotomiques ou binaires: échelle 0 et 1. Elles
peuvent prendre deux valeurs distinctes: oui ou non, présent ou absent. Exemple:
sexe masculin ou féminin, la présence ou l’absence de la fièvre.
• Qualitatives à plusieurs classes ou multichotomiques comme par exemple les
classes d’âge 0-15 ans, 16-25 ans et >25 ans. Ces variables peuvent être ordonnées,
c’est-à-dire avoir une importance croissante dans un ordre déterminé comme par
exemple l’intensité de la douleur (absente, faible, modérée, forte, intense). Elles
peuvent aussi être non ordonnées ou nominales comme le groupe sanguin (A, B,
AB, O), état civil, type de profession.
Classification des variables
et richesse en information
Grande richesse en information
Données quantitatives

Données ordinales

Données qualitatives

Faible richesse en information


Biostatistique descriptive
Buts
• Ensembles de méthodes dont le but est de
présenter les données pour que l'on puisse en
prendre connaissance facilement.
• Cela peut concerner :
– une variable à la fois : statistique à une dimension,
– deux variables à la fois : statistique à deux dimensions,
– plus de deux variables à la fois : statistique
multidimensionnelle.
Statistique descriptive
• Ces méthodes comportent :
– Les tableaux : distributions de fréquences.
– Les diagrammes : graphiques.
– Les paramètres statistiques :
• Réduction des données à quelques valeurs
numériques caractéristiques.
Rappel
• 2 Types de données :
– Qualitatives (présence ou absence d’une
caractéristique)
• Binaires,
• Ordinales,
• Nominales.

– Quantitatives (compte ou mesure)


• Discontinues,
• Continues.
Distributions de fréquences
• Concernent les 2 types de données avec des points
communs et des points spécifiques à chacun des types.
• Séries statistiques (tout type de données) :
– Enumération des résultats :
• Exemples :
– Couleurs des cheveux : blond, brun, blond, noir….
– Nombre d’enfants dans les familles : 1, 2, 1, 4, 0 ….
– Séries statistiques ordonnées :
• Ne concernent que les données quantitatives
et ordinales
• Enumération du plus petit au plus grand
– Exemple : Nombre d’enfants : 0, 1, 1, 2, 4 ….
• Le nombre total d’observations est l’effectif. Il est noté n
(certain le note N).
Tableau de distribution des fréquences
Distributions groupées

• Données Effectif Fréquence


xi (ni) relative(fi)
– qualitatives,
– quantitatives x1 n1 f1
x2 n2 f2
… … …
xp np fp
S1p n 1
Tableau de distribution des fréquences
Distributions groupées

xi ni fi fi =
ni
n
Chaque ligne correspond à
une valeur observée
différente. Il y a p valeurs
x1 n1 f1 différentes observées.

ni correspond au nombre
d’observations (effectif) ayant
x2 n2 f2 comme valeur xi

fi correspond à la fréquence
… … … (pourcentage) d’observations
ayant comme valeur xi : f = n
i
ni

xp np fp
S1 p n 1
Distributions groupées
• Données ordinales et xi ni fi Ni Fi
quantitatives.
• x1 est la plus petite x1 n 1 f 1 N1 F 1
valeur, xp la plus grande
des valeurs observées. x2 n 2 f 2 N2 F 2
• Effectifs cumulés Ni
– N2 = n2+n1
… … … …. …
• Fréquences cumulées.
– F2 = f2+f1 xp n p f p Np F p
S1p n 1
Distributions groupées
Ni est l’effectif cumulé c’est dire le
xi ni fi Ni Fi nombre d’observations ayant des
valeurs inférieures ou égales à xi :
i

x1 n 1 f 1 N1 F 1 Ni =  n j
j=1

x2 n 2 f 2 N2 F 2 Fi est la fréquence cumulée c’est à


dire la fréquence des
observations ayant des valeurs
… … … …. … inférieures ou égales à xi :
i
Fi =  f j
xp n p f p Np F p j=1

S1p n 1
Distributions groupées en
classes
• Les valeurs sont mises en classes.
• Toutes les distributions relatives à des
variables continues doivent être considérées
comme des distributions groupées, puisque
l'infinité de valeurs admissibles est
condensée en un nombre fini de mesures en
fonction de la précision de la méthode de
mesure utilisée.
A propos des classes
• Leurs valeurs extrêmes sont appelées bornes des
classes.
• Les classes sont mutuellement exclusives.
• L'amplitude de la classe ou intervalle ou module de
classe :
D= borne supérieure - la borne inférieure.
• Le point central ou encore point médian est situé à mi
chemin entre les bornes.
– Ci = Binfi +Di/2
• Dans certains cas la limite inférieure de la première
classe ou supérieure de la dernière classe n'est pas
précisée. On parle de classes ouvertes. A éviter !...
A propos des classes
• L'intervalle de classe est généralement
constant, toutefois, on utilise parfois une
amplitude variable notamment pour les
classes des valeurs extrêmes.
• En cas de classes d'amplitudes différentes, la
densité de fréquence ni/ Di permet de
comparer les effectifs ou les fréquences d'une
classe à l'autre.
• la densité de fréquence est utilisée pour
tracer l’histogramme.
Données quantitatives
continues
• Remarques :
– Si l’on mesure le poids d’un nouveau né avec une
précision de 1g, l’enfant qui pèse 3500g a en fait
un poids compris entre [3499,5g et 3500,5g[.
3500g représente le centre de la classe.
– Si l’on mesure l’âge en années pleines des
individus, une personne de 20 ans a un âge
compris entre [20 ans (inclus) et 21 ans[ (exclu).
20 ans représente la borne inférieure de la classe.
Distribution groupée en
classes
• On remplace la colonne xi par une colonne qui
comprend soit les bornes de classes, soit le
centre de classe ou la borne inférieure de la
classe (données temporelles comme l’âge en
années pleines).
Exemple: la taille
Classe Ci ni fi Ni Fi
[140-160[ 150,0 10 0,05 10 0,05
[160-165[ 162,5 20 0,10 30 0,15 Pour les calculs, le
[165-170[ 167,5 30 0,15 60 0,30 centre de classe Ci est
utilisé en remplacement
[170-175[ 172,5 45 0,23 105 0,53 de xi .

[175-180[ 177,5 40 0,20 145 0,73


[180-185[ 182,5 35 0,18 180 0,90
[185-190[ 187,5 15 0,08 195 0,98
[190-200[ 195,0 5 0,03 200 1,00
Formules
ni
fi =
n
n = i =1 n i
p
p = nombre de valeurs différentes observées


p
f =1
i =1 i

Total des valeurs = i =1 x i = i =1 n i x i


n p

Total des carrés des valeurs = i =1 x = i =1 n i x i2


n 2 p
i
En pratique
• Pour les calculs des paramètres statistiques
usuels des données quantitatives et
uniquement de ce type de données.
• On complète la distribution par :
– Une colonne ni * xi pour calculer le total,
– Une colonne ni * xi2 pour calculer le total des carrés.
Les graphiques représentent
les distributions
• Distributions non cumulées
– Distributions non groupées
• Données qualitatives :
– Diagramme sectoriel
▪ Angle au centre proportionnel à ni (ou fi).
• Données quantitatives discrètes
– Diagramme en bâtons
▪ On trace parallèlement à l'axe des ordonnées, en regard des xi
qui sont portés en abscisse, un segment de longueur
proportionnel à ni
– Polygone des fréquences
▪ Ligne brisée joignant les bâtons.
▪ Fréquences absolues / fréquences relatives.
Exemple : Données qualitatives
• Diagramme sectoriel
Répartition des groupes sanguins
Groupes
sanguins ni fi
A 35 35%
B 9 9%
16 A
35 B
O 40 40%
O
AB 16 16%
40 9 AB
100 100%
Exemple : Donnée quantitative
discontinue
25
nombre nombre de
d'enfants familles (ni) 20

(xi)
0 10 15

1 20
2 15 10

3 5
4 3 5

>4 0
0
0 1 2 3 4 >4

Polygone des fréquences


Les graphiques représentent
les distributions
• Distributions non cumulées
– Distributions groupées
• Données quantitatives
– Histogramme :
▪ Composé de rectangles ayant comme base
l'intervalle de classe et comme hauteur la
densité de fréquence (ni/Di).
▪ La surface est proportionnelle à ni.
Les graphiques représentent
les distributions
• Distributions cumulées
– Uniquement pour des données
quantitatives
• Polygone des fréquences :
– Distributions non groupées = escalier.
– Distributions groupées = ligne brisée.
• Histogrammes.
Exemple : Histogramme
90
Densité 80
Classe ni (*10) 70
[140-160[ 10 5 60
[160-165[ 20 40 50
40
[165-170[ 30 60 30
[170-175[ 45 90 20
[175-180[ 40 80 10
[180-185[ 35 70 0
140 160 170 180 190 200
[185-190[ 15 30
[190-200[ 5 5
Aspects de la distribution
• Distribution non cumulée :
60
– en forme de : Cloche, J, U ; 50

– À une seule bosse, à plusieurs bosses ; 40

– …….
30

20

• Symétrie – Aplatissement. 10

0
1 2 3 4 5 6 7 8 9 10
Remarques
• Autres représentations :
– Diagramme de Pareto et courbe ABC ;
– Boite à moustache (Box-plot).
• Attention :
– Les tableurs comme Excel ou Calc ne permettent
pas facilement de faire des histogrammes.
Les paramètres statistiques
• Paramètres de position Paramètres de l’échantillon
– Valeurs centrales
• Moyenne arithmétique E n
• Les autres moyennes s o
– géométrique
– harmonique
t i
– quadratique i t
• Médiane Le + souvent m a
• Mode
• Médiale a m
– Les fractiles t i
• Quartiles i t
• Percentiles
o s
• Paramètres de dispersion n E
– Amplitude ou étendue
– Ecart interquartiles
– Variance, Ecart type Paramètres de la population
– Coefficient de variation
• Paramètre d'aplatissement et de symétrie
Moyenne Arithmétique
Population m (mean) Echantillon x (average)

• Appelée moyenne notée x


– Paramètre central qui concerne bien évidemment
uniquement des variables quantitatives.
– Dans l’unité de la variable.
– Calculable quelque soit la loi qui régit la distribution.
– Somme des valeurs (T) divisée par le nombre de mesures (n).
– Suivant la forme de présentation des observations, différentes
formules de calcul peuvent être employées.
Moyenne arithmétique
p ni p
• On note : n =  ni fi =  fi = 1
n : Nombre total de
mesures.
i =1 n i =1
p : Nombre de valeurs n p p
différentes
observées. T =  xi =  ni xi = n  fi xi
ni : Nombre i =1 i =1 i =1
d’occurrences de la
valeur observée i. n
fi : Fréquence
(pourcentage) de la

T i =1
xi p
valeur observée i.
x= = =  fi xi
n n i =1
Moyenne arithmétique
• Propriétés :
– Centre de gravité de la distribution.
– La somme des écarts à la moyenne est nulle.
– Affectée par les changements de variable.
• Si y = ax + b; on a : y = ax + b
– La moyenne contrairement à la médiane est très sensible
aux valeurs extrêmes.
– La moyenne d'un groupe résultant de la fusion d'autres
groupes n'est égale à la moyenne des moyennes que si
tous les groupes ont le même effectif.
– Dans une distribution en cloche, unimodale et symétrique,
moyenne, mode et médiane sont confondus.
Distribution des moyennes de
plusieurs échantillons
• La moyenne de l'échantillon est le meilleur
estimateur de la moyenne de la population.
• La distribution des moyennes de petits
échantillons (n<30) indépendants tirés de la
même population suit une loi normale si la
distribution de la variable est normale.
• Au-delà de 30, la distribution des moyennes suit
une loi normale sans condition sur la distribution
de la variable.
Exemple
• Soit la série correspondant aux tailles en cm
de 6 étudiants : 160,170,180,180, 190, 200.

n = 6; T = 160+170+180+180+190+200 = 1080

1080
x= = 180 cm
6
Exemple
Le nombre de familles enquêtées
nombre nombre de
est de 53.
d'enfants familles Le nombre total d’enfants est
(xi) (ni) ni*xi de 77.
0 10 0
La moyenne du nombre d’enfants
1 20 20 par famille est de 77/53 = 1,45.
2 15 30
3 5 15 Attention aux arrondis ici si on
arrondit à une décimale la
4 3 12 moyenne est de 1,5 enfants par
Total 53 77 famille.
Exemple
• Les étudiants de première année de G1 santé sont répartis
dans 3 amphithéâtres avec les données ci-dessous. Quelle est
la moyenne de l’âge en G1 santé ?

Moyenne Les effectifs étant différents dans les 3


de l'âge groupes, la moyenne recherchée n’est pas la
Effectifs en années moyenne des moyennes.
Amphi 1 1000 18,1
• On calcule le total de l’âge des 3 groupes
Amphi 2 500 19,5
réunis : T = 18,1*1000+ 500*19,5+
Amphi 3 1000 18,3 18,3*1000 =46 150.
• L’effectif total est de 2 500.
• La moyenne recherchée est 46150/2500
=18,5 ans
Les autres moyennes
• Moyenne géométrique d'une série de valeurs
positives est la racine nième du produit des n
valeurs. Elle est toujours inférieure ou égale à la
moyenne arithmétique.
• Moyenne harmonique d'une série de valeurs
positives est égale à l'inverse de la moyenne des
inverses.
• Moyenne quadratique est la racine carré de la
moyenne arithmétique des carrés.
La médiane

• La médiane notée x (tilde) est telle que la moitié des
observations lui sont inférieure (ou égale) et la
moitié supérieure (ou égale) : xi tel que Fi = 0,5.
– Sur les distributions symétriques unimodales en cloche
(normales par exemple) la médiane est égale à la moyenne
et au mode.
– Paramètre peu sensible aux valeurs extrêmes.
– Peut être utilisée pour des données ordinales.
La médiane : calcul
• Sur une distribution non groupée :
– Si n impair, la médiane est l'observation de rang (N+1)/2
– Si n est pair, tout nombre entre xN/2 et xN/2+1
convient. On prend la moyenne (pondérée en cas d'ex-aequo)
entre ces deux valeurs.
• Sur une distribution groupée, la classe médiane
est celle qui contient la médiane.
– Détermination graphique.
– En admettant que les observations soient réparties
uniformément dans cette classe, on réalise une approximation
linéaire.
Exemple
Classe ni Ni Fi • La classe qui contient la
[140-160[ 10 10 0,05 médiane est [170-[175.
• On pose les 2 équations :
[160-165[ 20 30 0,15
0,53 = a*175 +b
[165-170[ 30 60 0,30 0,30 = a*170+b
[170-175[ 45 105 0,53 • =>
[175-180[ 40 145 0,73 0,23 = a*(175-170)
[180-185[ 35 180 0,90 a = 0,046 et b= -7,52
• => y = 0,046x – 7,52
[185-190[ 15 195 0,98
[190-200[ 5 200 1,00 • Cherchons x tel que y = 0,5
Total 200 Médiane = 174,35
Mode
• Mode encore appelé valeur dominante :
– Correspond à la valeur la plus fréquente. xi
correspondant au ni (ou fi)maximum.
– Il peut y avoir un ou plusieurs modes.

• Rappel :
– Dans les distributions en cloche, unimodales
symétriques, mode, médiane et moyenne sont
confondus.
Fractiles
• Quartiles
– Q1: xi tel que Fi = 0,25 => 1/4 des valeurs lui sont
inférieures, 3/4 lui sont supérieures.
– Q2 = Médiane.
– Q3 : xi tel que Fi = 0,75 => 3/4 des valeurs lui sont
inférieures, 1/4 lui sont supérieures.
• Détermination graphique.
• Interpolation linéaire (cf médiane).
• Percentiles
– 10ième percentile : xi tel que Fi = 0,10
Remarques
• On a :
– 50% des individus qui ont des valeurs en dehors de
l’intervalle Q1-Q3 et 50% à l’intérieur.

– 25% des individus qui ont des valeurs comprises entre


Q1 et médiane.
– 25% des individus qui ont des valeurs comprises entre
médiane et Q3.
– 25% des individus qui ont des valeurs inférieure à Q1
– 25% des individus qui ont des valeurs supérieures à
Q3

– Ceci permet rapidement de se rendre compte si la


distribution est symétrique ou non.
Paramètres de dispersion
• Amplitude ou étendue.
• Ecart interquartiles.
• Variance et écart type.
• Coefficient de variation.
Amplitude ou étendue
• Ecart entre la valeur de l'observation maximale et celle de
l'observation minimale.
• Non définie pour les distributions groupées (tolérance pour
les variables quantitatives continues de la précision de la
mesure).
• On montre que l'écart type est toujours inférieur ou égal à la
moitié de l'amplitude.
• Dans les distributions unimodales en cloche l'écart type est
égal :
– au tiers de l'amplitude pour n de l'ordre de 10,
– au quart de l'amplitude pour n entre 15 et 50,
– au cinquième pour des effectifs de 50 à 200,
– au sixième pour des effectifs de 200 à 1000.
Ecart interquartiles (EIQ)
• EIQ = Q3 -Q1.
• Englobe 50% des observations.
• On utilise parfois l'écart semi-interquartile
(Q3-Q1)/2.
Variance et écart type
• La variance (variance) d'une série ou d'une
distribution de fréquences est la moyenne
arithmétique des carrés des écarts à la moyenne
n
 (xi − x)2
S2 = i=1
n -1
• C'est par rapport à la moyenne que la somme des
carrés des écarts est la plus faible.
• La variance de l'échantillon est souvent notée S2.
Variance et écart type
• Le numérateur de la variance est appelé somme des
carrés des écarts et noté SCE.
• L'écart type est la racine carré de la variance. On
l'appelle également déviation standard (standard
deviation). Il est dans l'unité de la variable.
• Variance et écart type sont indépendants des
translations (changement d ’origine) mais pas des
multiplications (changement d'unité).
– Si y = a * x + b, on a Sy = |a| * Sx
• Pour les distributions en cloche, la variance calculée
à partir des classes est surestimée, certain réalise la
correction de Sheppard.
Formules
p p
n
n =  ni fi = i f i =1
i =1 n i =1
n p p
T= x
i =1
i = n x
i =1
i i = n fi
i =1
n p
U = x
i =1
2
i = n xi =1
i
2
i

p
T
x=
n
= f x
i =1
i i

N
T2
SCE =  (x i − x) = U − 2

i =1 n
T2
U−
S2 = n
n −1
SCE
S=
n -1
Formules
p ni p
n =  ni fi =  fi = 1
i =1 n i =1
p
 ni xi
x= i =1
p
 ni
i =1
p
p ( ni xi )2
 i i −
n x 2 i =1

S2 = i =1 n
p
 ni − 1
i =1

S= S2
Représentation en Box Plot
• Résume la distribution en terme de
paramètres de position et de dispersion.
Coefficient de variation
• CV est le rapport écart type divisé par la
moyenne.
• CV est un nombre pur, sans unités.
• CV est totalement indépendant des unités.
• Le CV permet de comparer la variabilité de
distributions de variables qui ne sont pas dans
les mêmes unités.
Echantillonnage

Biostatistique - Pr Ben MONGA


Comment dénombrer ?
• Question : combien y a-t-il de personnes atteintes de troubles
de la vue parmi les conducteurs automobiles en RDC ?
• Réponse : 10% ? 40 % ? 75 % ?

• Il est impossible de les compter toutes en examinant toute la


population des conducteurs congolais
• Il va être nécessaire d’utiliser une procédure particulière
(l’échantillonnage) et des méthodes statistiques pour estimer
la précision du résultat (incertitude)
Un peu de terminologie
• Population : Toutes les personnes à qui les résultats
doivent s’appliquer

• Echantillon : Dans la plupart des cas, la taille de la


population est trop importante pour que l’on puisse
étudier tous les individus qui la compose. On étudie
un sous-groupe appelé échantillon.

• Unités : il peut s’agir d’unité individuelle (sujet) ou


collective (foyer, hôpitaux)
Un peu de terminologie
• Phénomène d’intérêt : c’est la caractéristique de
santé qui fait l’objet de l’étude

• Sondage : toute forme d’échantillonnage qui permet


de constituer un échantillon à partir de la population

• Estimateur : résultat estimé à partir des données


observées dans l’échantillon qui représente la valeur
vraie du phénomène dans la population, avec un
certain degré d’incertitude
Différentes méthodes

• Sondage empirique
• Sondage aléatoire simple
• Sondage stratifié
• Sondage en grappe
• Sondage pseudo-aléatoire
Sondage empirique
• Constituer un échantillon de telle façon qu’un
nombre fixe de personnes à enquêter soit atteint.
• On utilisera volontiers la méthode des quotas,
indiquant à l’enquêteur de s’arrêter lorsqu’il a atteint
le quota voulu dans chaque catégorie:
– X hommes, Y femmes
– Z1 [18– 25 ans[, Z2 [25 – 60 ans[, Z3 [60 ans et +]
– etc…
Sondages probabilistes
• Ensemble de méthodes appelées sondages
probabilistes, parce que chaque unité échantillonnée
a une probabilité connue à l’avance de figurer dans
l’échantillon

• Ceci permet
– de généraliser l’estimation du phénomène à la population
dont est issu l’échantillon
– d’apprécier la marge d’erreur, le degré d’incertitude de
l’estimateur
Sondage aléatoire simple
• Chaque sujet de la population a la même probabilité
d’être inclus dans l’échantillon
• Maximise la possibilité de conclure pour toute la
population
• Base de sondage : liste pré-établie des sujets
– Liste des conducteurs
– Liste des foyers
– Liste des abonnés au téléphone
– …
Sondage aléatoire simple
• Procéder à un tirage au sort des sujets dans la base :
– Programme informatique
– Tables de nombre au hasard

TAS
Échantillon
Population Biostatistique - Pr Ben MONGA
Sondage aléatoire simple
• Le sondage permet de limiter la taille de
l’investigation
• Avantages :
– Réduction des coûts d’investigation
– Meilleure qualité de l’observation chez chaque sujet
(enquête, questionnaire, investigation clinique)
– Délai d’obtention des résultats plus rapide
• Limite :
– il est nécessaire d’avoir une base de sondage fiable
Sondage stratifié
• Dans certains cas, on peut craindre d’obtenir trop peu de
sujets d’un sous-groupe particulier (p.ex. le sexe), alors qu’on
peut supposer une fréquence particulière du phénomène
dans ce sous-groupe.

• On risque que l’échantillon de ce sous-groupe de la


population ne permette pas de calculer un estimateur
suffisamment précis

• Par le simple fait du hasard, on peut sous-estimer ou sur-


estimer la fréquence du phénomène dans ce sous-groupe
Sondage stratifié
• La méthode consiste à identifier les niveaux / catégories de la
variable qui caractérise cet aspect de la population

• exemple 1 : sexe M et F

• Chaque catégorie définit une strate de la population


Sondage stratifié
• La méthode consiste à identifier les niveaux / catégories de la
variable qui caractérise cet aspect de la population

• exemple 2 : on peut supposer que les personnes d’un même


groupe partagent des caractéristiques qui déterminent plus
particulièrement le phénomène
– Les troubles de la vue peuvent comporter une composante d’origine
génétique : daltonisme, myopie
– Les personnes d’une même famille ont donc une probabilité différente
d’une autre famille

• Chaque famille définit une strate de la population


Sondage stratifié
• L’échantillon est constitué par un sondage
aléatoire simple par strate :
• Tirage au sort des unités dans chaque strate

TAS Échantillon
Population
Sondage stratifié
• Ainsi, connaissant le poids (la proportion) de chaque
strate dans la population, on peut en tenir compte au
moment du calcul des estimateurs

• Avantage : cette méthode permet d’améliorer la


précision du sondage

• Inconvénient : le calcul de l’estimateur est plus


complexe
Sondage en grappe
• Dans certains cas, il est difficile d’obtenir un
échantillon d’individus indépendants les uns
des autres. Il peut être plus facile d’enquêter
dans un lieu où ils sont rassemblés
• Exemple : les sujets d’un même foyer
(résidence)
• Le sous-groupe de la population définit une
grappe
Sondage en grappe
• Ce sont les grappes qui sont tirées au sort dans la
population
• L’ensemble des sujets d’une grappe tirée au sort
sera enquêté

TAS Échantillon
Population Biostatistique - Pr Ben MONGA
Sondage en grappe
• Avantages :
– il n’est pas nécessaire de disposer d’une base de
sondage des individus, une liste des grappes suffit
• Inconvénients :
– le sondage est moins précis que le sondage
aléatoire simple
– L’analyse doit prendre en compte l’effet grappe, ce
qui est plus complexe
Sondage pseudo-aléatoire
L’échantillonnage systématique
1. Numéroter de 1 à N les unités incluses dans votre base de
sondage (N=taille de la population)
2. Déterminer l’intervalle d’échantillonnage (k) en divisant N
par la taille de l’échantillon n. k=N/n
3. Sélectionner au hasard un nombre entre 1 et k. Ce nombre
s’appelle l’origine choisie au hasard et serait le premier
nombre inclus dans votre échantillon.
4. Sélectionnez chaque kème unité après ce premier nombre
jusqu’à atteindre la taille n de votre échantillon
PROBABILITES

Biostatistique - Pr Ben MONGA


Expérience aléatoire, événement
aléatoire
• Une expérience est dite aléatoire (random
experiment-random trial) lorsqu'on ne peut pas
en prévoir exactement les résultats du fait que
tous les facteurs qui déterminent ce résultat ne
sont pas maîtrisés ou contrôlés.
• Un événement aléatoire est un événement qui
peut ou ne pas se réaliser au cours d'une
expérience aléatoire.
• Exemple : expérience aléatoire "traverser la
route" - événement aléatoire "se faire écraser".
Définition classique
• Si m résultats peuvent se produire avec des
chances égales et si k résultats correspondent
à la réalisation de l'événement, la probabilité
de l'événement est le rapport k/m : nombre
de cas favorables sur nombre de cas possibles.
• Par exemple, dans un jeu de 52 cartes, on a 13 coeurs,
si toutes les cartes ont des chances égales d'être tirées,
la probabilité d'extraire un cœur est 13/52 = 0,25
Définition fréquentielle
• Si une expérience a été répétée un grand nombre
de fois dans des conditions uniformes, on
constate généralement que la fréquence relative
(% de réalisation) d'un événement (fi) se stabilise.
• Ce phénomène est connu sous le nom de
régularité statistique.
• Ce nombre fixe est par définition la probabilité
mathématique de l'événement considéré.
Définition fréquentielle
• La probabilité ainsi définie est une forme
idéalisée de la fréquence relative.
• Une estimation pragmatique de la probabilité
d’un événement est fournie par la fréquence
relative, la précision de cette estimation peut être
fournie par son intervalle de confiance pour un
risque donné.
• Dans de nombreux cas, la probabilité peut être
modélisée par une loi.
Expérience, événement,
propositions, logique…
• Evénement : toute proposition logique
associée aux résultats de l’expérience.
• Représentation ensembliste :
– Diagramme de Venn

S ensemble des événements possibles


A sous-ensemble de S
B sous-ensemble de S
….
Evénements exclusifs
• Les événements A et B ne peuvent se produire
simultanément. Pour tous couples (A,B)
l'ensemble A* B est vide.
– Exemple : extraire un cœur ou un carreau.
• Si 2 événements sont exhaustifs et
mutuellement exclusifs (mort-vivant)
– La non-réalisation de l’un implique la réalisation
de l’autre.
Evénements non exclusifs
• Les événements peuvent se produire
simultanément .
• L’intersection n’est pas vide.
• Exemple :
• Extraire une dame et un carreau
• Avoir un paludisme et un cancer.
• Avoir un diabète et une angine.
• Ne pas confondre événements exclusifs et
événements indépendants.
Opérateurs logiques
• On note Vrai 1, Faux 0.
A ou B; A et B; Non(A) Non(A)
A B A U B; AB; Non(A) Non(B) Non(AouB) Non(AetB) et ou
A+B A*B Non(B) Non(B)

1 1 1 1 0 0 0 0 0 0
1 0 1 0 0 1 0 1 0 1
0 1 1 0 1 0 0 1 0 1
0 0 0 0 1 1 1 1 1 1
Rappel de logique
A et B A ou B

A B

Non(A) Non(B)

Non(A et B) Non(A ou B)
Rappels de logique
• Théorèmes de De Morgan
– Non(A et B) = Non(A) ou Non(B)
– Non(A ou B) = Non(A) et Non(B)
• La plupart des problèmes de probabilités n’ont
comme difficulté que l’interprétation logique
de l’énoncé.
Axiomes élémentaires
• 0 < P(A) < 1 : Une probabilité est toujours comprise entre 0 et 1.
• P(A) = 1 : L’événement est toujours réalisé.
• P(A) = 0 : L’événement est impossible.
• Si 2 événements sont exclusifs :
– P(A ou B) = P(A + B) = P(A U B) = P(A) + P(B)
• Exemple : Probabilité d'extraire un cœur ou un carreau = P(Cœur ou Carreau) =
0,25 + 0,25 = 0,5.
– Généralisation P(A+B+C) = P(A)+P(B)+P(C).
– Si 2 événements sont mutuellement exclusifs (mort-vivant) et
constituent l’ensemble des possibles :
• on a P(A)+P(B) = 1 => P(A) = 1-P(B).
– La probabilité de survie à un moment donné est égale à 1 moins la probabilité de
décéder à ce moment.
Evénements non exclusifs
• Les événements peuvent se produire simultanément. Exemples :
« avoir un infarctus du myocarde », « être diabétique ».
• P(A ou B) = P(B ou A)
= P(A) + P(B) - P(A et B)
• Ceci se déduit des relations :
– P(A ou B) = P(A sans B) + P(B sans A) + P(A et B)
– P(A sans B) = P(A) - P(A et B)
– P(B sans A) = P(B) - P(A et B)
• En conclusion :
– P(A ou B) < P(A) + P(B)
– P(A ou B ou C) = P(A) + P(B) + P(C) - P(A et B) - P(B et C) - P(A et C) +
P(A et B et C)
Probabilités conditionnelles
et indépendance
• En médecine, l’utilisation des probabilités
conditionnelles est fréquente et apparaît
naturelle.
– On dira que « un individu a 5 fois plus de chances de
développer une maladie coronarienne s’il fume un
paquet de tabac par jour que si il ne fume pas »…
• La connaissance n’est pas figée : avant la
réalisation d’un test, la probabilité d’une maladie
est p. Que devient-elle si on sait que le test est
positif ?
Probabilité conditionnelle
• Soit deux événements non exclusifs A et B :
– On regarde la probabilité que l’un se réalise alors que
l’autre est déjà réalisé.
• On note P(A/B) la probabilité de A si B est réalisé,
l’inversement du conditionnement P(B/A) est la
probabilité de B si A est réalisé.
• Quelle est la probabilité d’avoir une douleur de la fosse
illiaque droite alors que l’on a une appendicite ?
• Quelle est la probabilité d’avoir une appendicite alors que
j’observe une douleur dans la fosse iliaque droite ?
Probabilité conditionnelle
• Eléments de base :
P( A  B)
P( A / B) =
P( B)
P( A  B) = P( B  A) = P( A / B) * P( B) = P( B / A) * P( A)

• Indépendance :
– Deux événements sont indépendants si la réalisation
de l’un n’influence pas la réalisation de l’autre.
• Exemple : Pluie, rouler avec des pneus lisses : a priori
indépendant; pluie, avoir un accident a priori non
indépendant.
Indépendance
• P(A/B) = P(AB)/P(B) = P(A)
=> P(AB) = P(A)*P(B)

• Si et seulement si deux événements sont


indépendants alors P(A et B) = P(A) * P(B)
Inversion du conditionnement
• Intérêt : évaluation des examens complémentaires.
• Théorème de Bayes :
P( A  B) A
P( A / B) = = P( A  B) = P( A / B) * P( B) P(A/B)
P( B)
B Non A
P( A  B) P( A / B) * P( B) P(B)
P( B / A) = =
P( A) P( A)
P( Non B) = 1 − P( B) A
P(A)/nonB)
Non B
P( A / Non B) = 1 − P( Non A / Non B) Non A
P( A) = P( A / B) * P( B) + P( A / Non B) * P( Non B)
P( A) = P( A / B) * P( B) + [1 − P( Non A / Non B)] *[1 − P( B)]
THEOREME DE BAYES
En général:
Evénement Ai : i = 1 à n
Et événement B

P( B / Ai) * P( Ai)
P( Ai / B) =
P( B / A1) * P( A1) + P( B / A2) * P( A2) + ... + P( B / An) * P( An)
Le tableau à 4 cases
• En médecine, 2 tableaux
Maladie + Maladie - Total
à 4 cases sont très Test + A (VP) B (FP) T+=A+B=VP+FP
Test - C (FN) D (VN) T-=C+D=FN+VN
utilisés et renvoient au Total M+ = A+C = VP+FN M-=B+D=FP+VN n

conditionnement. P(T+/M+); P(T-/M-); P(M+/T+); P(M-/T-)

– Evaluation des signes et


examens Maladie + Maladie - Total

complémentaires. Exposés
Non exposés
A
C
B
D
E+=A+B
E-=C+D

– Recherche de facteurs de M+ = A+C M- = B+D A+B+C+D

risque. P(M+/E+); P(M+/E-); P(E+/M+);P(E-/M-)


Les arbres de décision
• Un homme se présente aux
urgences avec une douleur
dans la région cardiaque.
Quelle est la probabilité qu’il
ait une sténose
coronarienne ?

( Coro+) = P (EE+  Coro+) + P (EE-  Coro+)


= 0,8*0,6 + 0,4*0,3
= 0,48 + 0,12
= 0,60
Exemple 2
Un jeune enfant a absorbé l’un ou l’autre de deux
médicaments A et B qui se trouvaient dans un tiroir à
sa portée. Il y’avait deux boîtes de A et une boîte de B.
L’absorption de A, comme celle de B, provoque une
chute de tension, pour A dans 80% des cas, pour B
dans 50% des cas.
1. Quelle est la probabilité que l’enfant présente une
chute de tension?
2. On observe une chute de tension. Quelle est la
probabilité que l’enfant ait absorbé le médicament A?
Solution question1
Soit M+ l’événement « présence d’une chute de tension », A l’événement
« absorption du médicament A » et B l’événement « absorption du
médicament B » M+
P(M+/A)
A M-
P( A) = 2 / 3 = 0,67etP( B) = 1 / 3 = 0,33 P(A)
P( M + / A) = 0,80etP( M + / B) = 0,50
P( M +) = P( M + / A) * P( A) + P( M + / B) * P( B) P(B) P(M+)/B)M+
B
P( M +) = 0,80 * 0,67 + 0,50 * 0,33 = 0,7 M-
Solution question2
Soit M+ l’événement « présence d’une chute de tension », A l’événement
« absorption du médicament A » et B l’événement « absorption du
médicament B ». La probabilité recherchée est P(A/M+). M+
P(M+/A)
P( M + / A) * P( A) A
P( A / M +) = P(A)
M-
P( M + / A) * P( A) + P( M + / B) * P( B)
P( M + / A) * P( A)
P( A / M +) = P(B) P(M+)/B)M+
P( M +) B
P( A / M +) = 0,80 * 0,67 / 0,70 = 0,77 M-
P( A / M +)  P( A)
Evaluation des examens
complémentaires
• Il n’existe pas de signe ou Maladie + Maladie - Total
d’examen parfait qui serait
Test + A (VP) B (FP) T+=A+B=VP+FP
toujours présent en cas de
présence de la maladie et Test - C (FN) D (VN) T-=C+D=FN+VN
absent en cas d’absence de M+ = A+C = M-
la maladie. Total VP+FN =B+D=FP+VN N=A+B+C+D

Fréquence de la maladie = Prévalence=P(M+)


= (VP+FN)/N
Sensibilité = P(T+/M+) = VP/(VP+FN)
Spécificité = P(T-/M-)= VN/(VN+FP)
VPP = P(M+/T+) = VP/(VP+FP)
VPN = P(M-/T-) = VN/(VN+FN)
Evaluation des examens
complémentaires
• La prévalence de la maladie dépend de différents
facteurs notamment :
– Zone géographique : le paludisme est beaucoup plus
fréquent en Afrique qu’en France.
– De la sélection réalisée par le premier niveau de soins
(la prévalence dans le groupe sélectionné est égale à
la VPP du test qui a servi à la sélection).
– ….
• La prévalence est la probabilité d’avoir la maladie
avant d’avoir fait le test : probabilité pré-test.
Evaluation des examens
complémentaires
• Sensibilité (probabilités des tests positifs chez les
malades) et spécificité (probabilités des tests
négatifs chez les non malades) sont des
caractéristiques intrinsèques du test.
• Elles supposent le problème résolu puisqu’ un
test de référence (gold standard) a permis de
déterminer si la personne était malade ou non.
• Elles sont influencées notamment par le stade
évolutif de la maladie.
Evaluation des examens
complémentaires
• La valeur prédictive positive (VPP = probabilité d’avoir la
maladie si le test est positif) et la valeur prédictive négative
(VPN = probabilité de ne pas avoir la maladie si le test est
négatif) sont les éléments qui servent à la décision médicale.
• La VPP est la probabilité post-test. Dans le groupe des sujets
ayant un test positif, elle représente la probabilité d’avoir la
maladie.
• Si le généraliste utilise la positivité du test pour adresser les
sujets au spécialiste, la fréquence de la maladie (prévalence)
dans le groupe adressé au spécialiste sera la VPP.
Valeurs prédictives
• Les valeurs prédictives dépendent de :
– La sensibilité du test,
– La spécificité du test,
– La prévalence du test.
• En conséquence, le même test (même
sensibilité et spécificité) aura des VPP et VPN
très différentes en fonction de la prévalence
de la maladie.
Valeurs prédictives
Test Positif
Sensibilité
• VPP et VPN correspondent à Malade
l’inversion du
Prévalence 1 - Sensibilité Test Négatif
conditionnement de la
sensibilité et de la spécificité.
Test Positif
• L’arbre des probabilités 1 - Prévalence 1 - Spécificité
permet facilement cette Non Malade
opération. Spécificité
Test Négatif
prévalence * sensibilité
VPP =
( prévalence * sensibilté ) + (1 − prévalence) * (1 − spécificité )

(1 − prévalence) * ( spécificité )
VPN =
(1 − prévalence) * ( spécificité ) + ( prévalence) * (1 − sensibilté )
VPP et VPN
en fonction de la prévalence
• Pour une sensibilité et
1,00

0,90

une spécificité donnée : 0,80

– Une augmentation de la
0,70

0,60

prévalence entraîne une 0,50


VPP
VPN
augmentation de la VPP. 0,40

– Une augmentation de la 0,30

0,20
prévalence entraîne une 0,10

diminution de la VPN. 0,00


0,00 0,10 0,20 0,30 0,40 0,50 0,60 0,70 0,80 0,90 1,00
Prévalence
Exemple
• Le paludisme a une prévalence de 90% en 0,9 * 0,95
Afrique et de 0,001 en France. Un test VPPAfrique = = 0,983
biologique est utilisé pour le diagnostic
0,9 * 0,95 + (1 − 0,9) * (1 − 0,85)
avec une sensibilité de 95% et une
spécificité de 85%. Quelles seront les
0,001* 0,95
probabilités pour des patients Africains et
VPPFrance = = 0,006
Français d’avoir le paludisme quand le test 0,001* 0,95 + (1 − 0,001) * (1 − 0,85)
est positif et inversement de ne par avoir la
maladie quand le test est négatif ?
• Conclusion : si le test est positif en Afrique, (1 − 0,9) * 0,85
on est quasiment certain que le patient a le VPN Afrique = = 0,654
paludisme alors qu’en France on ne peut (1 − 0,9) * 0,85 + (0,9 * (1 − 0,95))
rien conclure. Par contre si le test est
négatif, on est quasiment certain qu’en
France le patient n’a pas de palu alors qu’en (1 − 0,001) * 0,85
Afrique, on ne peut rien dire. VPNFrance = = 0,9999
(1 − 0,001) * 0,85 + (0,001* (1 − 0,95))
• => Attention au transfert d’expérience.
Rapports de vraisemblance
Se
• RV+ : L =
1 - Sp
– Un sujet a L fois plus de chance d'avoir le test positif s'il est atteint de la
maladie que dans le cas contraire.
1 − Se
• RV- :  =
Sp
• L'apport diagnostique d'un résultat positif du test est
d'autant plus grand que le RV+ (L) est plus élevé.
L'apport diagnostique d'un résultat négatif d'autant
plus grand que le RV- est plus petit et proche de zéro.
• B.Grenier
Dépistage,
Confirmation diagnostique
• Dépistage : Maladie + Maladie - Total
– S’adresse à des sujets ne se plaignant de
rien à priori sains. Test + A (VP) B (FP) T+=A+B=VP+FP
– Prendre un test à sensibilité élevée (peu de
FN, VPN très grande) . Test - C (FN) D (VN) T-=C+D=FN+VN
– Éventuellement suivi d’un test de M+ = A+C = M-
confirmation. Total VP+FN =B+D=FP+VN N=A+B+C+D
– Ne pas oublier les autres éléments :
• Acceptabilité, Risque, Coût
• Confirmation d’une maladie suspectée :
– Prendre un test avec une spécificité élevée
(peu de FP, VPP très grande) d’autant plus
que le coût du faux positif est élevé.
Valeurs diagnostiques d’un test
• Si un test a une spécificité élevée, un résultat positif
confirme l’hypothèse diagnostic.
• Si un test a une sensibilité élevée, un résultat négatif
élimine le diagnostic .
(Règles de Sacket)
• Gain diagnostic positif :
– C’est la différence entre la probabilité pré-test (prévalence)
de la maladie et la probabilité post-test (valeur prédictive
positive).
– Gain positif = VPP – prévalence.
Et si le test consiste à comparer une
valeur quantitative à une limite ?
• Si le résultat du test biologique ou du signe
clinique est une variable quantitative (glycémie -
diabète; tension artérielle systolique -
hypertension ...), la sensibilité et la spécificité
vont dépendre du seuil que l'on choisit pour dire
que le test est positif ou négatif.
• Pour chaque valeur de la limite, on aura une
valeur de la sensibilité et une valeur de la
spécificité.
• Ceci conduit à la courbe de ROC.
Importance de l’indépendance
• Indépendance est opposé à liaison.
– Deux phénomènes sont indépendants si la réalisation
de l’un n’influence pas la réalisation de l’autre.
– Deux phénomènes sont liés si la réalisation de l’un
influence la réalisation de l’autre.
• Attention : Liaison ne veut pas dire causalité.
• Indépendance = hypothèse nulle du test du Khi2
sous laquelle sont calculés les effectifs
théoriques.
Application à la reproductibilité
• Problème fréquent en
santé : Médecin A
– Deux médecins donnent Oui Non Total
un avis sur l’opportunité
de réaliser une Oui 10 20 30
Médecin B
intervention chirurgicale. Non 5 45 50
– Si la reproductibilité était
parfaite les deux Total 15 65 80
médecins seraient La concordance observée est : (10+45)/80 = 0,69
toujours d’accord. Mais…
Reproductibilité
Médecin A
• Si les deux jugements étaient indépendants, Oui Non Total
quels auraient été les résultats ?
Oui 10 20 30
Médecin B
P(Oui / A) =
15 Non 5 45 50
80 Total 15 65 80
30
P(Oui / B) = Les probabilités peuvent être approchées par les
80 fréquences. Sous l’hypothèse d’indépendance, on
Sous l ' hypothèse d ' indépendance obtient le tableau :
Médecin A
15 30
P[(Oui / A)]  P[(Oui / B)] = * Oui Non Total
80 80
En termes d ' effectifs attendus : Oui 5,6 24,4 30
Médecin B
15 30 15 * 30 Non 9,4 40,6 50
E == * * 80 = = 5,6 Total 15 65 80
80 80 80
Reproductibilité
Médecin A
Oui Non Total
Concordance observée
Oui 10 20 30
Cobs=(10+45)/80 = 0,69 Médecin B
Non 5 45 50
Concordance sous hypothèse Total 15 65 80
d’indépendance
Cthéo =(5,6+40,6)/80 = 0,58 Médecin A
Oui Non Total
Coefficient de Kappa Oui 5,6 24,4 30
C obs - C théo 0,69 - 0,58 Médecin B
Kappa = = = 0,26 Non 9,4 40,6 50
1 - C théo 1 - 0,58 Total 15 65 80

Si Kappa > 0,6 : bonne concordance


Application à la survie
• Soit les événements Morts-Vivants
– P(Vivant) = 1 - P(Mort)
– La probabilité d'être vivant au jour J et au jour J+1 est égale au produit des
probabilités d'être vivant au jour J et J+1.

Jour Exposés DCD PDV P(DCD) P(Viv.) Pcum(Viv)


0 100 0 0 0 1 1
1 100 3 0 0,03 0,97 1*0,97
6 97 2 0 2/97=0,0206 0,9794 0,97*0,9794
= 0,95002
7 95 0 3 0 1 0,95002
10 92 … … … … …
LOIS DE PROBABILITES

I. Lois de distribution discrètes

II. Lois de distribution continues

Biostatistique - Pr Ben MONGA


LOIS DE DISTRIBUTION DISCRETES
Loi Binomiale
Epreuve, variable et Loi de Bernouilli :
X : variable de Bernouilli, associée à une épreuve possèdant l’alternative :
un événement E est réalisé (probabilité ) ou non réalisé (probabilité 1-).
E /

épreuve

non E / (1-)

Loi de probabilité :
X prend la valeur 1 à la réalisation de E, et X=0 à la non réalisation de E

P(X=1)=

P(X=0)=1-

Moyenne de la loi :  ; Variance : (1−)


La loi binomiale est ainsi la résultante de N variables de Bernouilli indépendantes
Biostatistique - Pr Ben MONGA
Loi Binomiale
Loi Binomiale p(X=k)

X, V. A. discrète, "nombre de réalisations d'un 0,25

n=15, P =0,8
certain événement E lors des n répétitions d'une
0,20
même épreuve"
0,15

X B (n, P) 0,10

p(X=k) = Ckn Πk(1−Π)(n−k) 0,05

n!
p(X = k) = Π k (1 − Π)(n −k) 0,00
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 k
k!(n - k)!
Espérance (moyenne théorique) : n P
(valeur pas toujours prise par la variable!)
variance : n P (1− P)
Cependant cette loi est peu pratique à utiliser lorsque n est grand (calculs fastidieux!)
 Tables de la loi binomiale…
 Approche par d'autres lois lorsque c'est Biostatistique
possible… - Pr Ben MONGA
Loi Binomiale : exercices
Dans une population donnée, la prévalence de la tuberculose est 5%.
On constitue un échantillon aléatoire de 10 personnes tirées de cette
population.
1. Quelle est la probabilité d’avoir exactement 2 personnes
tuberculeuses parmi les 10?
2. Quelle la probabilité d’avoir tout au plus 2 personnes
tuberculeuses parmi les 10?
3. Quelle la probabilité d’avoir au moins 2 personnes
tuberculeuses parmi les 10?
4. Calculez l’espérance et l’écart-type

Biostatistique - Pr Ben MONGA


Loi Binomiale : exercices

Dans une population donnée, la prévalence de la tuberculose est 5%.


On constitue un échantillon aléatoire de 10 personnes tirées de cette
population.
1. Quelle est la probabilité d’avoir exactement 2 personnes
tuberculeuses parmi les 10?
Réponse: 10!
p(X = 2) = 0,052 (1 − 0,05)(10- 2)
2!(10 - 2)!

Dans EXCEL: =LOI.BINOMIALE(2;10;0,05;FAUX) = 0,0746348


LOI.BINOMIALE(nombre_succès;tirages;probabilité_succès;cumulativ
e)

Biostatistique - Pr Ben MONGA


Loi Binomiale : exercices
Dans une population donnée, la prévalence de la tuberculose est 5%.
On constitue un échantillon aléatoire de 10 personnes tirées de cette
population.
2. Quelle la probabilité d’avoir tout au plus 2 personnes tuberculeuses
parmi les 10?
Réponse:
p(X = 2) = p(X = 0) + p(X = 1) + p(X = 2)
Dans EXCEL: =LOI.BINOMIALE(2;10;0,05;VRAI) = 0,98849644

Biostatistique - Pr Ben MONGA


Loi Binomiale : exercices

Dans une population donnée, la prévalence de la tuberculose est 5%.


On constitue un échantillon aléatoire de 10 personnes tirées de cette
population.
3. Quelle la probabilité d’avoir au moins 2 personnes tuberculeuses
parmi les 10?
Réponse:

p(X = 2) = p(X = 2) + p(X = 3) + ... + p(X = 10)

p(X = 2) = 1 − p(X = 2) = 0,0115

Dans EXCEL: =1- LOI.BINOMIALE(2;10;0,05;VRAI) =


0,01150356

Biostatistique - Pr Ben MONGA


Loi Binomiale : exercices

Dans une population donnée, la prévalence de la tuberculose est 5%.


On constitue un échantillon aléatoire de 10 personnes tirées de cette
population.
4. Calculez l’espérance, la variance et l’écart-type

Réponse:

Espérance (moyenne théorique) : n P


Espérance=10x0,05=0,5
variance : n P (1− P) = 10x0,05x0,95=0,475
Ecart-type : = 10x0,05x0,95 = 0,475 = 0,689

Biostatistique - Pr Ben MONGA


Lois de distribution discrètes
Loi de Poisson
(Siméon Denis Poisson 1781-1840)

Lorsque le nombre d'épreuves n est grand et P très petit (proche de 0),

la loi Binomiale B (n, P) tend vers une loi de Poisson P () de seul paramètre 
(espérance et variance de la loi binomiale approchée par la loi de Poisson).

La loi de Poisson est une distribution discrète.

P(X=k) = e- k / k!
Espérance =; variance=  Ecart-type= 
Côté pratique
On vérifiera d'abord que les calculs ne peuvent être approchés par une
distribution normale, plus pratique à utiliser

Biostatistique - Pr Ben MONGA


Lois de distribution discrètes
Loi de Poisson
Réels domaines d’utilisation d’une loi de Poisson
• Nombre d’évènements par unité de volume, de surface, de temps
• Nombre de poissons par mètres cube d’eau
• Concentration de bactéries (hématimètre) dans un lac (homogénéité)
• Nombre d’insectes d’une certaine espèce capturés sur un filet en une nuit
en forêt amazonienne
• Nombre de désintégration d’un radio-isotope par minute
• Nombre d’appels enregistrés par un standard téléphonique dans une courte
période de temps
• Nombre d’accidents d’avion
• Nombre de malformations congénitales
• Etc…

Biostatistique - Pr Ben MONGA


Lois de distribution discrètes
Loi de Poisson : exercices
Exercice « accident de circulation »
Un agent de la PCR étudie le passage des automobiles à un croisement des routes
dans la ville de Lubumbashi. A l’issue d’un travail long (plusieurs semaines) et rigoureux,
il observe en moyenne 4 accidents par jour.
a/ Quelle est la probabilité qu’il observe précisément 3 accidents en l’espace de 12 h ?
b/ Quelle est la probabilité qu’il observe entre 1 et 3 accidents en 6 heures ?

a/  = 4 accidents / j
uniformité sur une courte période de temps :  = 2 accidents / 12 h
calcul de P(X=3) avec X suit une loi de Poisson de paramètre =2
P(X=3) =0.18
EXCEL: LOI.POISSON(x;espérance;cumulative) =LOI.POISSON(3;2;FAUX)=
0,18044704

Biostatistique - Pr Ben MONGA


Lois de distribution discrètes
Loi de Poisson : exercices
Exercice « accident de circulation »
Un agent de la PCR étudie le passage des automobiles à un croisement des routes
dans la ville de Lubumbashi. A l’issue d’un travail long (plusieurs semaines) et rigoureux,
il observe en moyenne 4 accidents par jour.
b/ Quelle est la probabilité qu’il observe entre 1 et 3 accidents en 6 heures ?

b/ calcul de P(1 Y  3) avec Y suit une loi de Poisson de paramètre =1


Loi discrète donc P(1 Y  3) = P(Y=1)+P(Y=2)+P(Y=3)
P(1  Y  3) = 0.3679+0.1839+0.0613 = 0.6131
Dans EXCEL:
=LOI.POISSON(1;1;FAUX)+ LOI.POISSON(2;1;FAUX) )+ LOI.POISSON(2;1;FAUX)
= 0,36787944 + 0,18393972 + 0,06131324 = 0,6131324

Biostatistique - Pr Ben MONGA


LOIS DE PROBABILITES
LOIS DE DISTRIBUTION CONTINUES
 transformation de l'échelle verticale des graphes

Densité de fréquence relative (Pour toute variable X ordonnée classée)


Fréquence relative
Densité de fréquence relative =
Amplitude de classe

Taux d’une hormone en mg/ml

Avec la densité de fréquence relative on


a facilement accès aux probabilités,
associées aux surfaces du diagramme.

AIRE TOTALE = 1
Taux d’une hormone en mg/ml

Biostatistique - Pr Ben MONGA


LOIS DE PROBABILITES
LOIS DE DISTRIBUTION CONTINUES

Lois continues
Taux d’une hormone en mg/ml
L’augmentation de la taille de l’échantillon
permet des classes de plus en plus fines et fait
tendre la densité de fréquence relative vers
une courbe appelée densité de probabilité.

Densité de probabilité
Les lois de distributions continues (loi
normale, Chi-deux, Student, etc…) sont
entièrement caractérisées par l’équation de
leur fonction de densité de probabilité f(x).

Biostatistique - Pr Ben MONGA


LOIS DE PROBABILITES
LOIS DE DISTRIBUTION CONTINUES

En employant la fonction de densité de probabilité on a une visualisation de la


notion de probabilité : La probabilité P(1<X<) est l’aire délimitée d’une part
f(x) par l’intervalle [1] et d’autre part par la courbe de densité de probabilité f(x).

Variable aléatoire X quantitative continue

Distribution continue

X
1 
ε1 +
P(ε1  X  ε 2 ) =  ε2
f(x)dx ; avec  − f(x)dx = 1
Biostatistique - Pr Ben MONGA
LOIS DE PROBABILITES
LOIS DE DISTRIBUTION CONTINUES

Remarques

Fonction de partition : primitive de la fonction de densité de probabilité


ε
F(ε) = P(X  ε) =
 −
f(x)dx

P( ε1  X  ε2 ) = F(ε 2) − F(ε 2)
+
Moyenne : μx =
 −
x f(x)dx

+
σx =
 (x − μ x )2 f(x)dx
2
Variance :
−

Biostatistique - Pr Ben MONGA


LOI NORMALE

De nombreuses variables aléatoires ont pour fonction de densité une courbe en


forme de cloche, appelée courbe Normale ou courbe de Laplace-Gauss
(Pierre Simon de Laplace 1749-1827 ;Karl Friederich Gauss 1777-1855)

 la loi statistique la plus répandue et la plus utile

 de nombreuses lois de probabilités peuvent souvent être approchées


par la loi Normale

 dérivée : loi Log-Normale

Biostatistique - Pr Ben MONGA


LOI NORMALE

Loi de Laplace–Gauss quand est-elle rencontrée ?

Lorsqu'une grandeur subit l'influence d'un grand nombre de facteurs (ou paramètres ;
non tous identifiés, voire identifiables!) tous indépendants, qui, pris isolément, ne
contribuent que très faiblement à faire varier la grandeur étudiée, les valeurs prises par
la variable aléatoire (continue) associée à la grandeur se distribuent selon la loi de
Laplace-Gauss (appelée Loi Normale). Cette loi revêt un caractère de généralité. On y
fait très souvent appel en Biologie

 distribution continue et symétrique


 caractérisée par sa moyenne m et son écart-type s
 associée à une variable aléatoire X quantitative continue

X N (m  s)

Biostatistique - Pr Ben MONGA


LOI NORMALE

X N ( m  s) POPULATION
2
1  x-μ 
-2  σ 
f(x) =
1
e  
σ 2 π • courbe symétrique par rapport à x = m

• P( X < m ) = P(X  m) = 0.5


1
• P( m − s < X < m + s ) = 0.68
σ 2 π
• P( m − 1s < X < m + 1s ) = 0.95

• P(X > m + 3s ) < 0.0015

X
m−s m m+s
Biostatistique - Pr Ben MONGA
LOI NORMALE

Loi Normale Centrée - Réduite


1 2
1 -2z
f(z) =

e Z N (  1)
• La variable centrée réduite Z=(X-m)/s
1 a pour moyenne 0 et 1 pour écart-type

• courbe symétrique par rapport à Z =0

• P( Z  0 ) = P( Z > 0 ) = 0.5

• P( -1  Z  1 ) = 0.68

• P( -1.96  Z  1.96 ) = 0.95

• P( Z > 3 ) < 0.0015

Z
-1,96 −1  1
Biostatistique - Pr Ben MONGA
1,96
LOI NORMALE
X 2 −μ

 
X2
σ

f(X) dX = g(Z) dZ
X 1 −μ
X1
σ

X Changement de variable Z=(X-m)/s


N (m  s) Conservation des aires N (  1 )
1 2
1 - z
2
g(z) =

e 2

1  x-μ 
-2 
f(x) =
1
e  σ  1
σ 2 π

1
s 2

a
a

m X1 X2 Biostatistique
X - Pr Ben MONGA
0 Z11 Z2
Z
LOI NORMALE

Principe de la table de la loi Normale Centrée Réduite


N ( 0,1)  a = P(Z > t) , t  0
1 2
1 -2z
f(z) = e (Echantillon de calculs d'intégrales)

1
2π  Grâce au changement de variable Z = (X - m)/s,
on utilise la table de la loi Normale centrée
réduite pour calculer les probabilités (aires)
d'une loi Normale quelconque.

a
Z
0 t
Biostatistique - Pr Ben MONGA
LOI NORMALE

Table de la loi Normale Centrée Réduite


N (0,1)  a = P(Z > t) , t  0
(Echantillon de calculs d'intégrales)

0 t
Z

Exemple : P( Z > 2.43 ) = 0.0075494

• Utilise la symétrie de la loi N (0,1)


• permet de trouver a , connaissant t
• permet de trouver t , connaissant a
• Il existe également la "table de l'écart réduit"
(on s'en servira dans les tests d'hypothèse)
Biostatistique - Pr Ben MONGA
TABLE DE LA LOI NORMALE REDUITE

Biostatistique - Pr Ben MONGA


La loi normale
Distribution Normale Centrée Réduite
0,4
_( x − m ) 2
1
f(x) = 2s 2
0,35
e
0,3 s 2
0,25

0,2

0,15

0,1

0,05

0
-3 -2 -1 0 1 2 3
LOI NORMALE
_( x − m ) 2
1
f(x) = e 2s 2
s 2
0,45

0,4 s=1

0,35

0,3
s = 1,5
0,25

0,2 s=2
0,15

0,1

0,05

0
5 6 7 8 9 10 11 12 13 14 15 16
Utilisation de la loi normale
X suit une loi normale P (X  b ) ?
de moyenne m
et d’écart-type s Fonction loi.normale
d’Excel

m b
Utilisation de la loi normale
X suit une loi normale
de moyenne m
et d’écart-type s

Si on suppose
que
p = P(X ≤ b )
est connue et
que l’on
cherche b

m
Il faut utiliser la fonction
loi.normale.inverse d’Excel b
Utilisation de la loi normale
X suit une loi normale P (a  X  b ) ?
de moyenne m
et d’écart-type s

a m b
Cas particulier très utile
xxxx
xxxxxxx
xxxxxxxx
xxxxxxxxx 95 % des x
xxxxxxxxxx
xxxxxxxxxxx
xxxxxxxxxxx
xxxxxxxxxxx
xxxxxxxxxxx
xxxxxxxxxxxxx
xxxxxxxxxxxxxx
xxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxx

m − 1 s
m m + 1 s
Théorème central-limite
• La loi Normale est une « loi limite » pour toutes les lois.

• Soient X1,X2,...,Xn, n variables aléatoires indépendantes


et de même type de loi.

Si n est assez grand, la somme Y = X1+...+Xn suit


approximativement une loi normale de paramètres

• moyenne = somme des moyennes des Xi

• variance = somme des variances des Xi


LOI NORMALE

Du Côté d’EXCEL :

(loi normale quelconque)

- loi.normale renvoie la valeur de P(X<z) pour z donné

- loi.normale.inverse renvoie z à partir de P(X<z)

Biostatistique - Pr Ben MONGA


LOI NORMALE: exercices

Exercice1 : « Distribution d’hémoglobine»

La distribution d’hémoglobine (%) est une distribution normale de moyenne 95 et de


déviation standard 10.
1. Déterminez les percentiles 2 et 98 de la distribution.
2. Quelle est la proportion de sujets ayant une hémoglobine supérieure à 110?

Exercice2 : « Distribution de la glycémie»

Supposons que parmi les diagnostiques, la glycémie est normalement distribuée avec
µ=105mg/100 ml et σ=9mg/100ml.

1. Quelle est la proportion des diabétiques qui possèdent des taux compris entre 90 et
125mg/100ml ?

2. Quel taux limite en bas 10% des diabétiques?

3. Quels taux englobent 95% des diabétiques?

Biostatistique - Pr Ben MONGA


LOI NORMALE: résolution de l’exercice 1

1. Déterminez les percentiles 2 et 98 de la distribution.


• La variable centrée réduite Z=(X-m)/s

m=; s=1
P( -Z  X  Z ) = 1-α = 0.96
α=0.04 => Z1=2.054 et Z2=-2.054
Z1=(X1-95)/10=2.054
X1-95=2.054x10=20.54
X1=20.54+95=115.54
Z2=(X2-95)/10=-2.054
X2=-20.54+95=74.46
PERCENTILE 2 =74.46
PERCENTILE 98 = 115.54

Biostatistique - Pr Ben MONGA


LOI NORMALE: résolution de l’exercice 1

2. Quelle est la proportion de sujets ayant une hémoglobine


supérieure à 110?

• La variable centrée réduite Z=(X-m)/s

m=; s=1; X=110


Z=(110-95)/10=1.5
P(Z>1.5)=0.0668

Proportion de sujets ayant une hémoglobine > 110 = 6.68%

 Faire l’exercice 2!

Biostatistique - Pr Ben MONGA

Vous aimerez peut-être aussi