Cours Biostat Bac1sp Desc

UNIVERSITE DE LUBUMBASHI
ECOLE DE SANTE PUBLIQUE

PREMIERE LICENCE
DESCRIPTIF DU COURS DE
BIOSTATISTIQUE DESCRIPTIVE
ANNEE ACADEMIQUE 2021-2022
Titulaire:
Pr Dr Ben Bondo MONGA
Etablissement :Université de Lubumbashi,
Ecole de Santé Publique
Niveau : BAC1 SANTE PUBLIQUE
UE: EPIDEMIOLOGIE, BIOSTATISTIQUE ET
INFORMATIQUE (CODE: EBI1111)
ECUE: STATISTIQUE DESCRIPTIVE
Volume horaire : 75 heures (45 heures
CMI, 15 heures TP, 15 heures TD)
Pré-requis : Cours de Mathématiques de
niveau secondaire.
Objectifs
Objectif général
Initier les participants aux notions de base
de la Biostatistique afin qu’ils puissent
être en mesure d’organiser, d’analyser, de
résumer et de présenter les données
concernant une population obtenues à
partir d’un échantillon.
Les participants devront aussi être
capables d’interpréter des résultats
statistiques d’une étude et d’en tirer les
conclusions adéquates.
Objectifs spécifiques
A l’issue de ce cours, l’apprenant sera capable de :
• Connaitre les différents problèmes abordés par la
Biostatistique
• Définir les termes : statistique, statistiques, unité
statistique, variable, population statistique, échantillon,
série statistique, distribution
• Déterminer les types de variables et les classifier
• Représenter les valeurs d’une variable quantitative et
d’une variable qualitative sous forme de tableau et de
graphique
• Déterminer les paramètres de position et de
dispersion
Objectifs spécifiques
•Représenter une distribution statistique
•Décrire les différentes méthodes d’échantillonnage
•Connaître les éléments de base du calcul des
probabilités et les lois élémentaires (binomiale,
Poisson, normale, Student, Khi2)
•Connaître les propriétés d’un test diagnostic
Compétences
•L’apprenant qui aura suivi ce cours devra développer
les compétences suivantes :
•Recueillir, organiser, analyser, résumer et présenter les

données concernant une population obtenues à partir
d’un échantillon
•Analyser les données et interpréter les résultats d’une
étude scientifique
•Evaluer si les méthodes d'analyse et les conclusions
des publications scientifiques sont correctes
Contenu du cours
I. Objectifs du cours
II. Introduction
II.1. Importance de la
Biostatistique dans le domaine
de la Santé
II.2. Définition de la Biostatistique
et des concepts
Contenu du cours
III. Biostatistique descriptive

Contenu du cours
III.1. Classification des variables
• Variables quantitatives
o Continues
o Discrètes
o Temporelles
• Variables qualitatives
o Ordinales
o Nominales
• Variables binaires
Contenu du cours
III.2. Organisation des données
• Effectifs, fréquences relatives et
fréquences cumulées
• Distribution
• Regroupement en classes
III.3. Description des données

• Tableaux
• Graphiques
Contenu du cours
III.4. Représentation d’une distribution
• Variable discrète
• Variable continue
• Variable qualitative binaire
Contenu du cours
III.5. Paramètres statistiques

Contenu du cours
III.5.1. Paramètres de position
• Moyenne
• Médiane
• Mode
• Quantiles
Contenu du cours
III.5.2. Paramètres de dispersion
• Variance
• Ecart-type
• Etendue
• Ecart interquartile
• Percentiles
Contenu du cours
III.6. Méthodes d’échantillonnage
• Echantillonnage non probabiliste
• Echantillonnage probabiliste
• Aléatoire simple
• Systématique
• Stratifié
• En grappes
• A plusieurs degrés
• A plusieurs phases
Contenu du cours
III.7. Introduction au calcul de probabilité
• Généralités
• Principe et propriétés de la probabilité
• Tests diagnostics
Contenu du cours
III.8. Quelques lois de distribution
• Les lois discrètes

o Loi de Bernouilli
o Loi binomiale
o Loi de Poisson
Contenu du cours
III.8. Quelques lois de distribution
• Les lois continues

o Loi normale de Gauss
o Loi de Student
o Loi de Chi2
METHODES D’ENSEIGNEMENT
• Cours interactifs
• Travaux pratiques individuels et en
groupes
• Travaux dirigés
MATERIELS D’APPRENTISSAGE
• Syllabus
• Vidéoprojecteur
• Ordinateur
• Logiciels : Windows, Microsoft office
( excel)
LIEU DES TRAVAUX PRATIQUES
Laboratoire d’Informatique Médicale

Département de Santé Publique
Unité d’Epidémiologie, Biostatistique
et Informatique Médicale
Faculté de Médecine
EVALUATION
• Travaux pratiques : 25%
• Interrogations : 25%
• Examen pratique : 50%
Pendant l’évaluation, l’utilisation des notes,

livres et ordinateur sera autorisée
CONTACT
Prof. Dr. Ben Bondo MONGA
e-mail : mongaben@yahoo.fr
Consultant International en Epidémiologie,
Biostatistique et Informatique Médicale
Responsable de l’unité d’Epidémiologie, Biostatistique
et Informatique Médicale
Faculté de Médecine
Université de Lubumbashi
INTRODUCTION
Biostatistique - Pr Ben MONGA

Intérêts des Statistiques
et de la Statistique en Santé.

Statistique avec ou sans S
s
• Statistique (latin « status » état)
– Ensemble cohérent de données numériques
relatives à un groupe d'individus.
– Statistiques démographiques
– Statistiques du chômage
– Statistiques de santé
» Etat de santé de la population
» Activité : Statistiques d’activité hospitalière
–…
Statistique avec ou sans S
• Statistique
– Ensemble des méthodes qui permettent de
rassembler et d'analyser les données numériques.
• Méthodes de mesures, d’échantillonnage, de
présentation des résultats, de modélisation, théorie des
probabilités….
– Paramètre tel que moyenne... calculé à partir d'un
ensemble de données.
A quoi ça sert en en Santé ?
• Description des moyens et l'état de santé d'une population

– Causes de décès, morbidité, surveillance sanitaire….
• Évaluation d'un test ou d'un signe
– Sémiologie quantitative : spécificité, sensibilité, valeurs prédictives
• Évaluation d’un traitement
– Essai thérapeutique
• Recherche de facteurs étiologiques
• Économie de la santé
• Évaluation de la qualité et contrôle de production
• Prévision (Nbre de malades attendus,...)
• ….
Exemple : Décrire, dénombrer
Fiche de synthèse
1 - Activité Hospitalière
Hospitalisation Anesthésie ou File active Autres Autres

Hospitalisation Complète partielle Séances Chirurgie en traitements et Prises
(hors cures
chimiothérapie) ambulatoire hospitali. ambulatoires en charge
Nbre.
Lits Entrées Nbre. de C.O. de Nbre. de Nbre. de Nbre. de Nbre. de Nbre. de Nombre de Nbre. de
installés totales journées (%) places venues séances places venues Patients Séances journées
Médecine 920 38 938 264 475 80,1 117 25 789 21 684 0 4 328
Chirurgie 532 28 526 149 046 78,2 22 3 094
Obstétrique 0 0 0 0,0 2 686 0 0
Total s. courte durée 1 452 67 464 413 521 79,4 119 26 475 21 684 22 3 094 4 328
Psychiatrie générale 45 575 11 927 72,6 0 0 2 474 16 155 2 789
Psychiatrie infanto-juv. 0
Soins de suite et
60 714 18 036 74,5 0 0 0
réadaptation
dont réa. Fonctionnelle 16 454 2 566 43,9 0 0 0
Soins longue durée 164 55 52 726 94,6
Autres disciplines 0 0
Total sect. hôpit. 1 721 68 808 496 210 80,4 119 26 475 21 684 22 3 094 20 483
Total hébergement
Autres Disc soc. & méd
soc.
Taux de mortalité infantile
La consommation d’alcool favorise-t-
elle le cancer du poumon ?
• On a compté le Cancer + Cancer - Total
nombre de
Ethylisme+ 73 927 1 000
personnes
consommant de Ethylisme - 37 963 1 000
l’alcool ayant un
Total 110 1 890 2 000
cancer et vis versa.
La fréquence du cancer du poumon chez les
buveurs est de 73/1000 et de seulement
37/1000 chez les non buveurs
DEFINITIONS
ENQUÊTE
Ensemble des opérations qui ont pour but de collecter de

façon organisée des informations relatives à un groupe
d'individus ou d'éléments observés dans leur milieu ou
leur cadre habituel.
DEFINITIONS
POPULATION
Groupe d'individus ou d'éléments auquel nous nous

intéressons, ensemble de " référence " sur lequel portent les
observations.
Définir la population d'étude est un point fondamental, dans la

mesure où tout ce que nous pouvons observer, dire ou
calculer est relatif à cette population. Bien souvent cette
population est définie à travers la ou les valeurs spécifiques
d'une variable.
Exemple: Population de toutes les femmes âgées de 20-35

ans en 2020 dans la zone de santé ABC.
DEFINITIONS
POPULATION CIBLE ET POPULATION ETUDIEE
• J’ai étudié tous les séjours de l’Hôpital de Référence X en 2010.

C’est un recensement. C’est la population étudiée.
• A partir de cette étude, je voudrais extrapoler les résultats à
l’ensemble des hôpitaux de la RDC.
– Les séjours de l’hôpital X forment un échantillon (non
représentatif) des séjours de tous les Hôpitaux de la RDC. C’est
la « population étudiée ».
– La population cible, c’est l’ensemble des séjours des hôpitaux
de la RDC.
DEFINITIONS
RECENSEMENT
Si La population est connue (finie) ET tous les individus sont

recrutés, il s’agit d’un recensement :
– Une seule chose à faire :

• présenter les données,
• les résumer par certaines caractéristiques.
– Il n’y a pas de problème d’inférence.
Exemple : moyenne d’âge des étudiants de première année obtenue à

partir des dossiers d’inscription.
DEFINITIONS
ECHANTILLON
Il est difficile d’étudier tous les éléments d’une population

donnée. Il est tentant alors d’essayer d’examiner un sous-
groupe de cette population d’étude et d’essayer de déduire
(d’inférer), à partir des observations effectuées sur ce sous-
groupe, le comportement de la population générale. La
difficulté réside dans le choix du ou des "échantillon(s)" qui
doit(vent) être « représentatif(s) » de la population. Que
nous travaillions sur la population entière ou sur un
échantillon, nous allons effectuer des mesures, observer des
valeurs prises par des grandeurs ou des caractères etc. , Bref
nous allons définir des variables.
DEFINITIONS
UNITE STATISTIQUE
L’unité statistique ou unité de base est un élément de la

population ou du groupe étudié. L’ensemble des unités
statistique constitue la population. Les unités statistiques
peuvent être des humains, des animaux ou des objets.
Nous pouvons volontiers remplacer le terme " unité " par les
termes " individu" , " sujet ".
DEFINITIONS
UNITE STATISTIQUE OU UNITE DE BASE 1/1/2020 31/12/2020

50 ans
• Problème complexe souvent mal formalisé : 60 ans
15 ans
– Dans un hôpital, on veut connaître la
moyenne de l’âge en 2020
• Unité de base :
– Est-ce le séjour hospitalier ? Le premier patient a 50
» Ceci a un intérêt pour les équipes soignantes. ans et a été hospitalisé 3
– Est-ce le patient ? fois dans l’année
» Ceci a un intérêt pour l’épidémiologie.
• Population étudiée :
– Ensemble des séjours ou ensemble des patients. Nombre de patients = 3
– C’est un recensement. Moyenne d’âge des
• En santé, l’unité est-elle : patients = 41,7 ans
– Le patient
– Le séjour, la consulation… Nombre de séjours = 6
– La maladie Moyenne d’âge des
séjours = 40 ans
DEFINITIONS
VARIABLE STATISTIQUE
Une unité statistique peut être décrite selon une ou plusieurs

composantes qu’on appelle caractères ou variables
statistiques.
Exemple: äge, poids, taille, indice de masse corporelle,
glycémie, cholestérol, etc,,,
Les modalités (ou les niveaux) sont les différentes situations

disjonctives et exhaustives d’une variable, ce qui signifie que
chaque individu présente une modalité et une seule de cette
variable.
Ex: poids : tout nombre d’un intervalle des nombres réels dont
les limites sont compatibles avec le poids d’un individu.
Groupe sanguin: A, B, AB, O.
DEFINITIONS
SERIE STATISTIQUE
Une série statistique est l’ensemble des valeurs observées pour une
ou plusieurs variables sur les n sujets ou éléments de la population.
Une série simple est l’ensemble des n valeurs observées pour une
variable.
Une série statistique est représentée par (x1, x2,......, xi,..... xn), xi
étant la valeur de X pour le ième élément observé, i = 1, ....., n.
Une série simple peut être ordonnée ou non ordonnée. Les valeurs
brutes observées sur les sujets d’un échantillon sont au départ non
ordonnées.
DEFINITIONS
SERIE STATISTIQUE
Une première opération consiste souvent à ranger par ordre

croissant les valeurs composant la série. Une fois rangée, la série
est alors représentée par : (x(1), x(2) , ......, x(i), ....., x(n)) avec x(1) ≤ x(2)
≤ ...... ≤ x(i) ≤ ..... ≤ x(n).
Par exemple, la série statistique Poids en Kg (x1, x2, x3, x4, x5, x6.,
x7, x8, x9, x10) = (20, 18, 45, 20, 110, 65, 90, 85, 25,45) devient : (x(1),
x(2), x(3), x(4), x(5), x(6)., x(7), x(8), x(9)) = (18, 20, 20, 25, 45, 45, 65, 85,
90, 110) après cette opération.
Une série double est l’ensemble des valeurs observées pour deux
variables : il s’agit alors d’une série de n couples de valeurs.
DEFINITIONS
DISTRIBUTION STATISTIQUE
Il s’agit de l’ensemble des couples (xi, ni), où xi est une modalité de

la variable x, et ni le nombre de fois où cette modalité est observée
(effectif ou fréquence absolue). Elle peut aussi être l’ensemble des
couples (xi, fi), où fi est la fréquence relative (ou proportion) de la
modalité xi :
fi = ni /n (n étant l’effectif total des observations).
Par exemple, pour la série statistique Poids en Kg = (18, 20, 20, 25,
45, 45, 65, 85, 90, 110).
sa distribution statistique est représentée par:

Poids en Kg {(18,1), (20,2), (25,1), (45,2), (65,1), (85,1), (90,1),
(110,1)} ou encore par
{(18, 0,1), (20, 0,2), (25, 0,1), (45, 0,2), (65, 0,1), (85, 0,1), (90, 0,1),
(110, 0,1)}
Classification des variables
– Quantitatives (compte ou mesure) : elles expriment une quantité.
• Discrètes ou discontinues: peuvent prendre certaines valeurs numériques et
correspondent à un dénombrement. Ces valeurs sont des nombres entiers (sans
décimal). Exemples: nombre d’enfants, nombre de jours d’hospitalisation.
• Continues: peuvent prendre en théorie n’importe quelle valeur sur un continuum
ou échelle, mais en pratique, les valeurs possibles sont limitées par l’instrument de
mesure. Ces variables peuvent comporter des nombres décimaux. Exemple poids,
taille.
– Qualitatives (présence ou absence d’une caractéristique) : elles expriment une qualité.
• Qualitatives à deux classes ou dichotomiques ou binaires: échelle 0 et 1. Elles
peuvent prendre deux valeurs distinctes: oui ou non, présent ou absent. Exemple:
sexe masculin ou féminin, la présence ou l’absence de la fièvre.
• Qualitatives à plusieurs classes ou multichotomiques comme par exemple les
classes d’âge 0-15 ans, 16-25 ans et >25 ans. Ces variables peuvent être ordonnées,
c’est-à-dire avoir une importance croissante dans un ordre déterminé comme par
exemple l’intensité de la douleur (absente, faible, modérée, forte, intense). Elles
peuvent aussi être non ordonnées ou nominales comme le groupe sanguin (A, B,
AB, O), état civil, type de profession.
Classification des variables
et richesse en information
Grande richesse en information
Données quantitatives
Données ordinales
Données qualitatives
Faible richesse en information

Biostatistique descriptive
Buts
• Ensembles de méthodes dont le but est de
présenter les données pour que l'on puisse en
prendre connaissance facilement.
• Cela peut concerner :
– une variable à la fois : statistique à une dimension,
– deux variables à la fois : statistique à deux dimensions,
– plus de deux variables à la fois : statistique
multidimensionnelle.
Statistique descriptive
• Ces méthodes comportent :
– Les tableaux : distributions de fréquences.
– Les diagrammes : graphiques.
– Les paramètres statistiques :
• Réduction des données à quelques valeurs
numériques caractéristiques.
Rappel
• 2 Types de données :
– Qualitatives (présence ou absence d’une
caractéristique)
• Binaires,
• Ordinales,
• Nominales.
– Quantitatives (compte ou mesure)

• Discontinues,
• Continues.
Distributions de fréquences
• Concernent les 2 types de données avec des points
communs et des points spécifiques à chacun des types.
• Séries statistiques (tout type de données) :
– Enumération des résultats :
• Exemples :
– Couleurs des cheveux : blond, brun, blond, noir….
– Nombre d’enfants dans les familles : 1, 2, 1, 4, 0 ….
– Séries statistiques ordonnées :
• Ne concernent que les données quantitatives
et ordinales
• Enumération du plus petit au plus grand
– Exemple : Nombre d’enfants : 0, 1, 1, 2, 4 ….
• Le nombre total d’observations est l’effectif. Il est noté n
(certain le note N).
Tableau de distribution des fréquences
Distributions groupées
• Données Effectif Fréquence

xi (ni) relative(fi)
– qualitatives,
– quantitatives x1 n1 f1
x2 n2 f2
… … …
xp np fp
S1p n 1
Tableau de distribution des fréquences
xi ni fi fi =
ni
n
Chaque ligne correspond à
une valeur observée
différente. Il y a p valeurs
x1 n1 f1 différentes observées.
ni correspond au nombre
d’observations (effectif) ayant
x2 n2 f2 comme valeur xi
fi correspond à la fréquence
… … … (pourcentage) d’observations
ayant comme valeur xi : f = n
i
ni
xp np fp
S1 p n 1
• Données ordinales et xi ni fi Ni Fi
quantitatives.
• x1 est la plus petite x1 n 1 f 1 N1 F 1
valeur, xp la plus grande
des valeurs observées. x2 n 2 f 2 N2 F 2
• Effectifs cumulés Ni
– N2 = n2+n1
… … … …. …
• Fréquences cumulées.
– F2 = f2+f1 xp n p f p Np F p
S1p n 1
Ni est l’effectif cumulé c’est dire le
xi ni fi Ni Fi nombre d’observations ayant des
valeurs inférieures ou égales à xi :
i
x1 n 1 f 1 N1 F 1 Ni =  n j
j=1
x2 n 2 f 2 N2 F 2 Fi est la fréquence cumulée c’est à

dire la fréquence des
observations ayant des valeurs
… … … …. … inférieures ou égales à xi :
i
Fi =  f j
xp n p f p Np F p j=1
S1p n 1
Distributions groupées en
classes
• Les valeurs sont mises en classes.
• Toutes les distributions relatives à des
variables continues doivent être considérées
comme des distributions groupées, puisque
l'infinité de valeurs admissibles est
condensée en un nombre fini de mesures en
fonction de la précision de la méthode de
mesure utilisée.
A propos des classes
• Leurs valeurs extrêmes sont appelées bornes des
classes.
• Les classes sont mutuellement exclusives.
• L'amplitude de la classe ou intervalle ou module de
classe :
D= borne supérieure - la borne inférieure.
• Le point central ou encore point médian est situé à mi
chemin entre les bornes.
– Ci = Binfi +Di/2
• Dans certains cas la limite inférieure de la première
classe ou supérieure de la dernière classe n'est pas
précisée. On parle de classes ouvertes. A éviter !...
A propos des classes
• L'intervalle de classe est généralement
constant, toutefois, on utilise parfois une
amplitude variable notamment pour les
classes des valeurs extrêmes.
• En cas de classes d'amplitudes différentes, la
densité de fréquence ni/ Di permet de
comparer les effectifs ou les fréquences d'une
classe à l'autre.
• la densité de fréquence est utilisée pour
tracer l’histogramme.
Données quantitatives
continues
• Remarques :
– Si l’on mesure le poids d’un nouveau né avec une
précision de 1g, l’enfant qui pèse 3500g a en fait
un poids compris entre [3499,5g et 3500,5g[.
3500g représente le centre de la classe.
– Si l’on mesure l’âge en années pleines des
individus, une personne de 20 ans a un âge
compris entre [20 ans (inclus) et 21 ans[ (exclu).
20 ans représente la borne inférieure de la classe.
Distribution groupée en
classes
• On remplace la colonne xi par une colonne qui
comprend soit les bornes de classes, soit le
centre de classe ou la borne inférieure de la
classe (données temporelles comme l’âge en
années pleines).
Exemple: la taille
Classe Ci ni fi Ni Fi
[140-160[ 150,0 10 0,05 10 0,05
[160-165[ 162,5 20 0,10 30 0,15 Pour les calculs, le
[165-170[ 167,5 30 0,15 60 0,30 centre de classe Ci est
utilisé en remplacement
[170-175[ 172,5 45 0,23 105 0,53 de xi .
[175-180[ 177,5 40 0,20 145 0,73

[180-185[ 182,5 35 0,18 180 0,90
[185-190[ 187,5 15 0,08 195 0,98
[190-200[ 195,0 5 0,03 200 1,00
Formules
ni
fi =
n
n = i =1 n i
p
p = nombre de valeurs différentes observées

p
f =1
i =1 i
Total des valeurs = i =1 x i = i =1 n i x i

n p
Total des carrés des valeurs = i =1 x = i =1 n i x i2

n 2 p
i
En pratique
• Pour les calculs des paramètres statistiques
usuels des données quantitatives et
uniquement de ce type de données.
• On complète la distribution par :
– Une colonne ni * xi pour calculer le total,
– Une colonne ni * xi2 pour calculer le total des carrés.
Les graphiques représentent
les distributions
• Distributions non cumulées
– Distributions non groupées
• Données qualitatives :
– Diagramme sectoriel
▪ Angle au centre proportionnel à ni (ou fi).
• Données quantitatives discrètes
– Diagramme en bâtons
▪ On trace parallèlement à l'axe des ordonnées, en regard des xi
qui sont portés en abscisse, un segment de longueur
proportionnel à ni
– Polygone des fréquences
▪ Ligne brisée joignant les bâtons.
▪ Fréquences absolues / fréquences relatives.
Exemple : Données qualitatives
• Diagramme sectoriel
Répartition des groupes sanguins
Groupes
sanguins ni fi
A 35 35%
B 9 9%
16 A
35 B
O 40 40%
O
AB 16 16%
40 9 AB
100 100%
Exemple : Donnée quantitative
discontinue
25
nombre nombre de
d'enfants familles (ni) 20
(xi)
0 10 15
1 20
2 15 10
3 5
4 3 5
>4 0
0
0 1 2 3 4 >4
Polygone des fréquences

les distributions
• Distributions non cumulées
– Distributions groupées
• Données quantitatives
– Histogramme :
▪ Composé de rectangles ayant comme base
l'intervalle de classe et comme hauteur la
densité de fréquence (ni/Di).
▪ La surface est proportionnelle à ni.
les distributions
• Distributions cumulées
– Uniquement pour des données
quantitatives
• Polygone des fréquences :
– Distributions non groupées = escalier.
– Distributions groupées = ligne brisée.
• Histogrammes.
Exemple : Histogramme
90
Densité 80
Classe ni (*10) 70
[140-160[ 10 5 60
[160-165[ 20 40 50
40
[165-170[ 30 60 30
[170-175[ 45 90 20
[175-180[ 40 80 10
[180-185[ 35 70 0
140 160 170 180 190 200
[185-190[ 15 30
[190-200[ 5 5
Aspects de la distribution
• Distribution non cumulée :
60
– en forme de : Cloche, J, U ; 50
– À une seule bosse, à plusieurs bosses ; 40
– …….
30
20
• Symétrie – Aplatissement. 10
0
1 2 3 4 5 6 7 8 9 10
Remarques
• Autres représentations :
– Diagramme de Pareto et courbe ABC ;
– Boite à moustache (Box-plot).
• Attention :
– Les tableurs comme Excel ou Calc ne permettent
pas facilement de faire des histogrammes.
Les paramètres statistiques
• Paramètres de position Paramètres de l’échantillon
– Valeurs centrales
• Moyenne arithmétique E n
• Les autres moyennes s o
– géométrique
– harmonique
t i
– quadratique i t
• Médiane Le + souvent m a
• Mode
• Médiale a m
– Les fractiles t i
• Quartiles i t
• Percentiles
o s
• Paramètres de dispersion n E
– Amplitude ou étendue
– Ecart interquartiles
– Variance, Ecart type Paramètres de la population
– Coefficient de variation
• Paramètre d'aplatissement et de symétrie
Moyenne Arithmétique
Population m (mean) Echantillon x (average)
• Appelée moyenne notée x

– Paramètre central qui concerne bien évidemment
uniquement des variables quantitatives.
– Dans l’unité de la variable.
– Calculable quelque soit la loi qui régit la distribution.
– Somme des valeurs (T) divisée par le nombre de mesures (n).
– Suivant la forme de présentation des observations, différentes
formules de calcul peuvent être employées.
Moyenne arithmétique
p ni p
• On note : n =  ni fi =  fi = 1
n : Nombre total de
mesures.
i =1 n i =1
p : Nombre de valeurs n p p
différentes
observées. T =  xi =  ni xi = n  fi xi
ni : Nombre i =1 i =1 i =1
d’occurrences de la
valeur observée i. n
fi : Fréquence
(pourcentage) de la

T i =1
xi p
valeur observée i.
x= = =  fi xi
n n i =1
Moyenne arithmétique
• Propriétés :
– Centre de gravité de la distribution.
– La somme des écarts à la moyenne est nulle.
– Affectée par les changements de variable.
• Si y = ax + b; on a : y = ax + b
– La moyenne contrairement à la médiane est très sensible
aux valeurs extrêmes.
– La moyenne d'un groupe résultant de la fusion d'autres
groupes n'est égale à la moyenne des moyennes que si
tous les groupes ont le même effectif.
– Dans une distribution en cloche, unimodale et symétrique,
moyenne, mode et médiane sont confondus.
Distribution des moyennes de
plusieurs échantillons
• La moyenne de l'échantillon est le meilleur
estimateur de la moyenne de la population.
• La distribution des moyennes de petits
échantillons (n<30) indépendants tirés de la
même population suit une loi normale si la
distribution de la variable est normale.
• Au-delà de 30, la distribution des moyennes suit
une loi normale sans condition sur la distribution
de la variable.
Exemple
• Soit la série correspondant aux tailles en cm
de 6 étudiants : 160,170,180,180, 190, 200.
n = 6; T = 160+170+180+180+190+200 = 1080
1080
x= = 180 cm
6
Exemple
Le nombre de familles enquêtées
nombre nombre de
est de 53.
d'enfants familles Le nombre total d’enfants est
(xi) (ni) ni*xi de 77.
0 10 0
La moyenne du nombre d’enfants
1 20 20 par famille est de 77/53 = 1,45.
2 15 30
3 5 15 Attention aux arrondis ici si on
arrondit à une décimale la
4 3 12 moyenne est de 1,5 enfants par
Total 53 77 famille.
Exemple
• Les étudiants de première année de G1 santé sont répartis
dans 3 amphithéâtres avec les données ci-dessous. Quelle est
la moyenne de l’âge en G1 santé ?
Moyenne Les effectifs étant différents dans les 3

de l'âge groupes, la moyenne recherchée n’est pas la
Effectifs en années moyenne des moyennes.
Amphi 1 1000 18,1
• On calcule le total de l’âge des 3 groupes
Amphi 2 500 19,5
réunis : T = 18,1*1000+ 500*19,5+
Amphi 3 1000 18,3 18,3*1000 =46 150.
• L’effectif total est de 2 500.
• La moyenne recherchée est 46150/2500
=18,5 ans
Les autres moyennes
• Moyenne géométrique d'une série de valeurs
positives est la racine nième du produit des n
valeurs. Elle est toujours inférieure ou égale à la
moyenne arithmétique.
• Moyenne harmonique d'une série de valeurs
positives est égale à l'inverse de la moyenne des
inverses.
• Moyenne quadratique est la racine carré de la
moyenne arithmétique des carrés.
La médiane

• La médiane notée x (tilde) est telle que la moitié des
observations lui sont inférieure (ou égale) et la
moitié supérieure (ou égale) : xi tel que Fi = 0,5.
– Sur les distributions symétriques unimodales en cloche
(normales par exemple) la médiane est égale à la moyenne
et au mode.
– Paramètre peu sensible aux valeurs extrêmes.
– Peut être utilisée pour des données ordinales.
La médiane : calcul
• Sur une distribution non groupée :
– Si n impair, la médiane est l'observation de rang (N+1)/2
– Si n est pair, tout nombre entre xN/2 et xN/2+1
convient. On prend la moyenne (pondérée en cas d'ex-aequo)
entre ces deux valeurs.
• Sur une distribution groupée, la classe médiane
est celle qui contient la médiane.
– Détermination graphique.
– En admettant que les observations soient réparties
uniformément dans cette classe, on réalise une approximation
linéaire.
Exemple
Classe ni Ni Fi • La classe qui contient la
[140-160[ 10 10 0,05 médiane est [170-[175.
• On pose les 2 équations :
[160-165[ 20 30 0,15
0,53 = a*175 +b
[165-170[ 30 60 0,30 0,30 = a*170+b
[170-175[ 45 105 0,53 • =>
[175-180[ 40 145 0,73 0,23 = a*(175-170)
[180-185[ 35 180 0,90 a = 0,046 et b= -7,52
• => y = 0,046x – 7,52
[185-190[ 15 195 0,98
[190-200[ 5 200 1,00 • Cherchons x tel que y = 0,5
Total 200 Médiane = 174,35
Mode
• Mode encore appelé valeur dominante :
– Correspond à la valeur la plus fréquente. xi
correspondant au ni (ou fi)maximum.
– Il peut y avoir un ou plusieurs modes.
• Rappel :
– Dans les distributions en cloche, unimodales
symétriques, mode, médiane et moyenne sont
confondus.
Fractiles
• Quartiles
– Q1: xi tel que Fi = 0,25 => 1/4 des valeurs lui sont
inférieures, 3/4 lui sont supérieures.
– Q2 = Médiane.
– Q3 : xi tel que Fi = 0,75 => 3/4 des valeurs lui sont
inférieures, 1/4 lui sont supérieures.
• Détermination graphique.
• Interpolation linéaire (cf médiane).
• Percentiles
– 10ième percentile : xi tel que Fi = 0,10
Remarques
• On a :
– 50% des individus qui ont des valeurs en dehors de
l’intervalle Q1-Q3 et 50% à l’intérieur.
– 25% des individus qui ont des valeurs comprises entre

Q1 et médiane.
– 25% des individus qui ont des valeurs comprises entre
médiane et Q3.
– 25% des individus qui ont des valeurs inférieure à Q1
– 25% des individus qui ont des valeurs supérieures à
Q3
– Ceci permet rapidement de se rendre compte si la

distribution est symétrique ou non.
Paramètres de dispersion
• Amplitude ou étendue.
• Ecart interquartiles.
• Variance et écart type.
• Coefficient de variation.
Amplitude ou étendue
• Ecart entre la valeur de l'observation maximale et celle de
l'observation minimale.
• Non définie pour les distributions groupées (tolérance pour
les variables quantitatives continues de la précision de la
mesure).
• On montre que l'écart type est toujours inférieur ou égal à la
moitié de l'amplitude.
• Dans les distributions unimodales en cloche l'écart type est
égal :
– au tiers de l'amplitude pour n de l'ordre de 10,
– au quart de l'amplitude pour n entre 15 et 50,
– au cinquième pour des effectifs de 50 à 200,
– au sixième pour des effectifs de 200 à 1000.
Ecart interquartiles (EIQ)
• EIQ = Q3 -Q1.
• Englobe 50% des observations.
• On utilise parfois l'écart semi-interquartile
(Q3-Q1)/2.
Variance et écart type
• La variance (variance) d'une série ou d'une
distribution de fréquences est la moyenne
arithmétique des carrés des écarts à la moyenne
n
 (xi − x)2
S2 = i=1
n -1
• C'est par rapport à la moyenne que la somme des
carrés des écarts est la plus faible.
• La variance de l'échantillon est souvent notée S2.
Variance et écart type
• Le numérateur de la variance est appelé somme des
carrés des écarts et noté SCE.
• L'écart type est la racine carré de la variance. On
l'appelle également déviation standard (standard
deviation). Il est dans l'unité de la variable.
• Variance et écart type sont indépendants des
translations (changement d ’origine) mais pas des
multiplications (changement d'unité).
– Si y = a * x + b, on a Sy = |a| * Sx
• Pour les distributions en cloche, la variance calculée
à partir des classes est surestimée, certain réalise la
correction de Sheppard.
Formules
p p
n
n =  ni fi = i f i =1
i =1 n i =1
n p p
T= x
i =1
i = n x
i =1
i i = n fi
i =1
n p
U = x
i =1
2
i = n xi =1
i
2
i
p
T
x=
n
= f x
i =1
i i
N
T2
SCE =  (x i − x) = U − 2
i =1 n
T2
U−
S2 = n
n −1
SCE
S=
n -1
Formules
p ni p
n =  ni fi =  fi = 1
i =1 n i =1
p
 ni xi
x= i =1
p
 ni
i =1
p
p ( ni xi )2
 i i −
n x 2 i =1
S2 = i =1 n
p
 ni − 1
i =1
S= S2
Représentation en Box Plot
• Résume la distribution en terme de
paramètres de position et de dispersion.
Coefficient de variation
• CV est le rapport écart type divisé par la
moyenne.
• CV est un nombre pur, sans unités.
• CV est totalement indépendant des unités.
• Le CV permet de comparer la variabilité de
distributions de variables qui ne sont pas dans
les mêmes unités.
Echantillonnage

Comment dénombrer ?
• Question : combien y a-t-il de personnes atteintes de troubles
de la vue parmi les conducteurs automobiles en RDC ?
• Réponse : 10% ? 40 % ? 75 % ?
• Il est impossible de les compter toutes en examinant toute la

population des conducteurs congolais
• Il va être nécessaire d’utiliser une procédure particulière
(l’échantillonnage) et des méthodes statistiques pour estimer
la précision du résultat (incertitude)
Un peu de terminologie
• Population : Toutes les personnes à qui les résultats
doivent s’appliquer
• Echantillon : Dans la plupart des cas, la taille de la

population est trop importante pour que l’on puisse
étudier tous les individus qui la compose. On étudie
un sous-groupe appelé échantillon.
• Unités : il peut s’agir d’unité individuelle (sujet) ou

collective (foyer, hôpitaux)
Un peu de terminologie
• Phénomène d’intérêt : c’est la caractéristique de
santé qui fait l’objet de l’étude
• Sondage : toute forme d’échantillonnage qui permet

de constituer un échantillon à partir de la population
• Estimateur : résultat estimé à partir des données

observées dans l’échantillon qui représente la valeur
vraie du phénomène dans la population, avec un
certain degré d’incertitude
Différentes méthodes
• Sondage empirique
• Sondage aléatoire simple
• Sondage stratifié
• Sondage en grappe
• Sondage pseudo-aléatoire
Sondage empirique
• Constituer un échantillon de telle façon qu’un
nombre fixe de personnes à enquêter soit atteint.
• On utilisera volontiers la méthode des quotas,
indiquant à l’enquêteur de s’arrêter lorsqu’il a atteint
le quota voulu dans chaque catégorie:
– X hommes, Y femmes
– Z1 [18– 25 ans[, Z2 [25 – 60 ans[, Z3 [60 ans et +]
– etc…
Sondages probabilistes
• Ensemble de méthodes appelées sondages
probabilistes, parce que chaque unité échantillonnée
a une probabilité connue à l’avance de figurer dans
l’échantillon
• Ceci permet
– de généraliser l’estimation du phénomène à la population
dont est issu l’échantillon
– d’apprécier la marge d’erreur, le degré d’incertitude de
l’estimateur
Sondage aléatoire simple
• Chaque sujet de la population a la même probabilité
d’être inclus dans l’échantillon
• Maximise la possibilité de conclure pour toute la
population
• Base de sondage : liste pré-établie des sujets
– Liste des conducteurs
– Liste des foyers
– Liste des abonnés au téléphone
– …
• Procéder à un tirage au sort des sujets dans la base :
– Programme informatique
– Tables de nombre au hasard
TAS
Échantillon
Population Biostatistique - Pr Ben MONGA
• Le sondage permet de limiter la taille de
l’investigation
• Avantages :
– Réduction des coûts d’investigation
– Meilleure qualité de l’observation chez chaque sujet
(enquête, questionnaire, investigation clinique)
– Délai d’obtention des résultats plus rapide
• Limite :
– il est nécessaire d’avoir une base de sondage fiable
Sondage stratifié
• Dans certains cas, on peut craindre d’obtenir trop peu de
sujets d’un sous-groupe particulier (p.ex. le sexe), alors qu’on
peut supposer une fréquence particulière du phénomène
dans ce sous-groupe.
• On risque que l’échantillon de ce sous-groupe de la

population ne permette pas de calculer un estimateur
suffisamment précis
• Par le simple fait du hasard, on peut sous-estimer ou sur-

estimer la fréquence du phénomène dans ce sous-groupe
Sondage stratifié
• La méthode consiste à identifier les niveaux / catégories de la
variable qui caractérise cet aspect de la population
• exemple 1 : sexe M et F
• Chaque catégorie définit une strate de la population

Sondage stratifié
• La méthode consiste à identifier les niveaux / catégories de la
variable qui caractérise cet aspect de la population
• exemple 2 : on peut supposer que les personnes d’un même

groupe partagent des caractéristiques qui déterminent plus
particulièrement le phénomène
– Les troubles de la vue peuvent comporter une composante d’origine
génétique : daltonisme, myopie
– Les personnes d’une même famille ont donc une probabilité différente
d’une autre famille
• Chaque famille définit une strate de la population

Sondage stratifié
• L’échantillon est constitué par un sondage
aléatoire simple par strate :
• Tirage au sort des unités dans chaque strate
TAS Échantillon
Population
Sondage stratifié
• Ainsi, connaissant le poids (la proportion) de chaque
strate dans la population, on peut en tenir compte au
moment du calcul des estimateurs
• Avantage : cette méthode permet d’améliorer la

précision du sondage
• Inconvénient : le calcul de l’estimateur est plus

complexe
Sondage en grappe
• Dans certains cas, il est difficile d’obtenir un
échantillon d’individus indépendants les uns
des autres. Il peut être plus facile d’enquêter
dans un lieu où ils sont rassemblés
• Exemple : les sujets d’un même foyer
(résidence)
• Le sous-groupe de la population définit une
grappe
Sondage en grappe
• Ce sont les grappes qui sont tirées au sort dans la
population
• L’ensemble des sujets d’une grappe tirée au sort
sera enquêté
TAS Échantillon
Population Biostatistique - Pr Ben MONGA
Sondage en grappe
• Avantages :
– il n’est pas nécessaire de disposer d’une base de
sondage des individus, une liste des grappes suffit
• Inconvénients :
– le sondage est moins précis que le sondage
aléatoire simple
– L’analyse doit prendre en compte l’effet grappe, ce
qui est plus complexe
Sondage pseudo-aléatoire
L’échantillonnage systématique
1. Numéroter de 1 à N les unités incluses dans votre base de
sondage (N=taille de la population)
2. Déterminer l’intervalle d’échantillonnage (k) en divisant N
par la taille de l’échantillon n. k=N/n
3. Sélectionner au hasard un nombre entre 1 et k. Ce nombre
s’appelle l’origine choisie au hasard et serait le premier
nombre inclus dans votre échantillon.
4. Sélectionnez chaque kème unité après ce premier nombre
jusqu’à atteindre la taille n de votre échantillon
PROBABILITES

Expérience aléatoire, événement
aléatoire
• Une expérience est dite aléatoire (random
experiment-random trial) lorsqu'on ne peut pas
en prévoir exactement les résultats du fait que
tous les facteurs qui déterminent ce résultat ne
sont pas maîtrisés ou contrôlés.
• Un événement aléatoire est un événement qui
peut ou ne pas se réaliser au cours d'une
expérience aléatoire.
• Exemple : expérience aléatoire "traverser la
route" - événement aléatoire "se faire écraser".
Définition classique
• Si m résultats peuvent se produire avec des
chances égales et si k résultats correspondent
à la réalisation de l'événement, la probabilité
de l'événement est le rapport k/m : nombre
de cas favorables sur nombre de cas possibles.
• Par exemple, dans un jeu de 52 cartes, on a 13 coeurs,
si toutes les cartes ont des chances égales d'être tirées,
la probabilité d'extraire un cœur est 13/52 = 0,25
Définition fréquentielle
• Si une expérience a été répétée un grand nombre
de fois dans des conditions uniformes, on
constate généralement que la fréquence relative
(% de réalisation) d'un événement (fi) se stabilise.
• Ce phénomène est connu sous le nom de
régularité statistique.
• Ce nombre fixe est par définition la probabilité
mathématique de l'événement considéré.
Définition fréquentielle
• La probabilité ainsi définie est une forme
idéalisée de la fréquence relative.
• Une estimation pragmatique de la probabilité
d’un événement est fournie par la fréquence
relative, la précision de cette estimation peut être
fournie par son intervalle de confiance pour un
risque donné.
• Dans de nombreux cas, la probabilité peut être
modélisée par une loi.
Expérience, événement,
propositions, logique…
• Evénement : toute proposition logique
associée aux résultats de l’expérience.
• Représentation ensembliste :
– Diagramme de Venn
S ensemble des événements possibles

A sous-ensemble de S
B sous-ensemble de S
….
Evénements exclusifs
• Les événements A et B ne peuvent se produire
simultanément. Pour tous couples (A,B)
l'ensemble A* B est vide.
– Exemple : extraire un cœur ou un carreau.
• Si 2 événements sont exhaustifs et
mutuellement exclusifs (mort-vivant)
– La non-réalisation de l’un implique la réalisation
de l’autre.
Evénements non exclusifs
• Les événements peuvent se produire
simultanément .
• L’intersection n’est pas vide.
• Exemple :
• Extraire une dame et un carreau
• Avoir un paludisme et un cancer.
• Avoir un diabète et une angine.
• Ne pas confondre événements exclusifs et
événements indépendants.
Opérateurs logiques
• On note Vrai 1, Faux 0.
A ou B; A et B; Non(A) Non(A)
A B A U B; AB; Non(A) Non(B) Non(AouB) Non(AetB) et ou
A+B A*B Non(B) Non(B)
1 1 1 1 0 0 0 0 0 0
1 0 1 0 0 1 0 1 0 1
0 1 1 0 1 0 0 1 0 1
0 0 0 0 1 1 1 1 1 1
Rappel de logique
A et B A ou B
A B
Non(A) Non(B)
Non(A et B) Non(A ou B)
Rappels de logique
• Théorèmes de De Morgan
– Non(A et B) = Non(A) ou Non(B)
– Non(A ou B) = Non(A) et Non(B)
• La plupart des problèmes de probabilités n’ont
comme difficulté que l’interprétation logique
de l’énoncé.
Axiomes élémentaires
• 0 < P(A) < 1 : Une probabilité est toujours comprise entre 0 et 1.
• P(A) = 1 : L’événement est toujours réalisé.
• P(A) = 0 : L’événement est impossible.
• Si 2 événements sont exclusifs :
– P(A ou B) = P(A + B) = P(A U B) = P(A) + P(B)
• Exemple : Probabilité d'extraire un cœur ou un carreau = P(Cœur ou Carreau) =
0,25 + 0,25 = 0,5.
– Généralisation P(A+B+C) = P(A)+P(B)+P(C).
– Si 2 événements sont mutuellement exclusifs (mort-vivant) et
constituent l’ensemble des possibles :
• on a P(A)+P(B) = 1 => P(A) = 1-P(B).
– La probabilité de survie à un moment donné est égale à 1 moins la probabilité de
décéder à ce moment.
Evénements non exclusifs
• Les événements peuvent se produire simultanément. Exemples :
« avoir un infarctus du myocarde », « être diabétique ».
• P(A ou B) = P(B ou A)
= P(A) + P(B) - P(A et B)
• Ceci se déduit des relations :
– P(A ou B) = P(A sans B) + P(B sans A) + P(A et B)
– P(A sans B) = P(A) - P(A et B)
– P(B sans A) = P(B) - P(A et B)
• En conclusion :
– P(A ou B) < P(A) + P(B)
– P(A ou B ou C) = P(A) + P(B) + P(C) - P(A et B) - P(B et C) - P(A et C) +
P(A et B et C)
Probabilités conditionnelles
et indépendance
• En médecine, l’utilisation des probabilités
conditionnelles est fréquente et apparaît
naturelle.
– On dira que « un individu a 5 fois plus de chances de
développer une maladie coronarienne s’il fume un
paquet de tabac par jour que si il ne fume pas »…
• La connaissance n’est pas figée : avant la
réalisation d’un test, la probabilité d’une maladie
est p. Que devient-elle si on sait que le test est
positif ?
Probabilité conditionnelle
• Soit deux événements non exclusifs A et B :
– On regarde la probabilité que l’un se réalise alors que
l’autre est déjà réalisé.
• On note P(A/B) la probabilité de A si B est réalisé,
l’inversement du conditionnement P(B/A) est la
probabilité de B si A est réalisé.
• Quelle est la probabilité d’avoir une douleur de la fosse
illiaque droite alors que l’on a une appendicite ?
• Quelle est la probabilité d’avoir une appendicite alors que
j’observe une douleur dans la fosse iliaque droite ?
Probabilité conditionnelle
• Eléments de base :
P( A  B)
P( A / B) =
P( B)
P( A  B) = P( B  A) = P( A / B) * P( B) = P( B / A) * P( A)
• Indépendance :
– Deux événements sont indépendants si la réalisation
de l’un n’influence pas la réalisation de l’autre.
• Exemple : Pluie, rouler avec des pneus lisses : a priori
indépendant; pluie, avoir un accident a priori non
indépendant.
Indépendance
• P(A/B) = P(AB)/P(B) = P(A)
=> P(AB) = P(A)*P(B)
• Si et seulement si deux événements sont

indépendants alors P(A et B) = P(A) * P(B)
Inversion du conditionnement
• Intérêt : évaluation des examens complémentaires.
• Théorème de Bayes :
P( A  B) A
P( A / B) = = P( A  B) = P( A / B) * P( B) P(A/B)
P( B)
B Non A
P( A  B) P( A / B) * P( B) P(B)
P( B / A) = =
P( A) P( A)
P( Non B) = 1 − P( B) A
P(A)/nonB)
Non B
P( A / Non B) = 1 − P( Non A / Non B) Non A
P( A) = P( A / B) * P( B) + P( A / Non B) * P( Non B)
P( A) = P( A / B) * P( B) + [1 − P( Non A / Non B)] *[1 − P( B)]
THEOREME DE BAYES
En général:
Evénement Ai : i = 1 à n
Et événement B
P( B / Ai) * P( Ai)
P( Ai / B) =
P( B / A1) * P( A1) + P( B / A2) * P( A2) + ... + P( B / An) * P( An)
Le tableau à 4 cases
• En médecine, 2 tableaux
Maladie + Maladie - Total
à 4 cases sont très Test + A (VP) B (FP) T+=A+B=VP+FP
Test - C (FN) D (VN) T-=C+D=FN+VN
utilisés et renvoient au Total M+ = A+C = VP+FN M-=B+D=FP+VN n
conditionnement. P(T+/M+); P(T-/M-); P(M+/T+); P(M-/T-)
– Evaluation des signes et

examens Maladie + Maladie - Total
complémentaires. Exposés
Non exposés
A
C
B
D
E+=A+B
E-=C+D
– Recherche de facteurs de M+ = A+C M- = B+D A+B+C+D
risque. P(M+/E+); P(M+/E-); P(E+/M+);P(E-/M-)

Les arbres de décision
• Un homme se présente aux
urgences avec une douleur
dans la région cardiaque.
Quelle est la probabilité qu’il
ait une sténose
coronarienne ?
( Coro+) = P (EE+  Coro+) + P (EE-  Coro+)

= 0,8*0,6 + 0,4*0,3
= 0,48 + 0,12
= 0,60
Exemple 2
Un jeune enfant a absorbé l’un ou l’autre de deux
médicaments A et B qui se trouvaient dans un tiroir à
sa portée. Il y’avait deux boîtes de A et une boîte de B.
L’absorption de A, comme celle de B, provoque une
chute de tension, pour A dans 80% des cas, pour B
dans 50% des cas.
1. Quelle est la probabilité que l’enfant présente une
chute de tension?
2. On observe une chute de tension. Quelle est la
probabilité que l’enfant ait absorbé le médicament A?
Solution question1
Soit M+ l’événement « présence d’une chute de tension », A l’événement
« absorption du médicament A » et B l’événement « absorption du
médicament B » M+
P(M+/A)
A M-
P( A) = 2 / 3 = 0,67etP( B) = 1 / 3 = 0,33 P(A)
P( M + / A) = 0,80etP( M + / B) = 0,50
P( M +) = P( M + / A) * P( A) + P( M + / B) * P( B) P(B) P(M+)/B)M+
B
P( M +) = 0,80 * 0,67 + 0,50 * 0,33 = 0,7 M-
Solution question2
Soit M+ l’événement « présence d’une chute de tension », A l’événement
« absorption du médicament A » et B l’événement « absorption du
médicament B ». La probabilité recherchée est P(A/M+). M+
P(M+/A)
P( M + / A) * P( A) A
P( A / M +) = P(A)
M-
P( M + / A) * P( A) + P( M + / B) * P( B)
P( M + / A) * P( A)
P( A / M +) = P(B) P(M+)/B)M+
P( M +) B
P( A / M +) = 0,80 * 0,67 / 0,70 = 0,77 M-
P( A / M +)  P( A)
Evaluation des examens
complémentaires
• Il n’existe pas de signe ou Maladie + Maladie - Total
d’examen parfait qui serait
Test + A (VP) B (FP) T+=A+B=VP+FP
toujours présent en cas de
présence de la maladie et Test - C (FN) D (VN) T-=C+D=FN+VN
absent en cas d’absence de M+ = A+C = M-
la maladie. Total VP+FN =B+D=FP+VN N=A+B+C+D
Fréquence de la maladie = Prévalence=P(M+)

= (VP+FN)/N
Sensibilité = P(T+/M+) = VP/(VP+FN)
Spécificité = P(T-/M-)= VN/(VN+FP)
VPP = P(M+/T+) = VP/(VP+FP)
VPN = P(M-/T-) = VN/(VN+FN)
complémentaires
• La prévalence de la maladie dépend de différents
facteurs notamment :
– Zone géographique : le paludisme est beaucoup plus
fréquent en Afrique qu’en France.
– De la sélection réalisée par le premier niveau de soins
(la prévalence dans le groupe sélectionné est égale à
la VPP du test qui a servi à la sélection).
– ….
• La prévalence est la probabilité d’avoir la maladie
avant d’avoir fait le test : probabilité pré-test.
complémentaires
• Sensibilité (probabilités des tests positifs chez les
malades) et spécificité (probabilités des tests
négatifs chez les non malades) sont des
caractéristiques intrinsèques du test.
• Elles supposent le problème résolu puisqu’ un
test de référence (gold standard) a permis de
déterminer si la personne était malade ou non.
• Elles sont influencées notamment par le stade
évolutif de la maladie.
complémentaires
• La valeur prédictive positive (VPP = probabilité d’avoir la
maladie si le test est positif) et la valeur prédictive négative
(VPN = probabilité de ne pas avoir la maladie si le test est
négatif) sont les éléments qui servent à la décision médicale.
• La VPP est la probabilité post-test. Dans le groupe des sujets
ayant un test positif, elle représente la probabilité d’avoir la
maladie.
• Si le généraliste utilise la positivité du test pour adresser les
sujets au spécialiste, la fréquence de la maladie (prévalence)
dans le groupe adressé au spécialiste sera la VPP.
Valeurs prédictives
• Les valeurs prédictives dépendent de :
– La sensibilité du test,
– La spécificité du test,
– La prévalence du test.
• En conséquence, le même test (même
sensibilité et spécificité) aura des VPP et VPN
très différentes en fonction de la prévalence
de la maladie.
Valeurs prédictives
Test Positif
Sensibilité
• VPP et VPN correspondent à Malade
l’inversion du
Prévalence 1 - Sensibilité Test Négatif
conditionnement de la
sensibilité et de la spécificité.
Test Positif
• L’arbre des probabilités 1 - Prévalence 1 - Spécificité
permet facilement cette Non Malade
opération. Spécificité
Test Négatif
prévalence * sensibilité
VPP =
( prévalence * sensibilté ) + (1 − prévalence) * (1 − spécificité )
(1 − prévalence) * ( spécificité )
VPN =
(1 − prévalence) * ( spécificité ) + ( prévalence) * (1 − sensibilté )
VPP et VPN
en fonction de la prévalence
• Pour une sensibilité et
1,00
0,90
une spécificité donnée : 0,80
– Une augmentation de la
0,70
0,60
prévalence entraîne une 0,50

VPP
VPN
augmentation de la VPP. 0,40
– Une augmentation de la 0,30
0,20
prévalence entraîne une 0,10
diminution de la VPN. 0,00

0,00 0,10 0,20 0,30 0,40 0,50 0,60 0,70 0,80 0,90 1,00
Prévalence
Exemple
• Le paludisme a une prévalence de 90% en 0,9 * 0,95
Afrique et de 0,001 en France. Un test VPPAfrique = = 0,983
biologique est utilisé pour le diagnostic
0,9 * 0,95 + (1 − 0,9) * (1 − 0,85)
avec une sensibilité de 95% et une
spécificité de 85%. Quelles seront les
0,001* 0,95
probabilités pour des patients Africains et
VPPFrance = = 0,006
Français d’avoir le paludisme quand le test 0,001* 0,95 + (1 − 0,001) * (1 − 0,85)
est positif et inversement de ne par avoir la
maladie quand le test est négatif ?
• Conclusion : si le test est positif en Afrique, (1 − 0,9) * 0,85
on est quasiment certain que le patient a le VPN Afrique = = 0,654
paludisme alors qu’en France on ne peut (1 − 0,9) * 0,85 + (0,9 * (1 − 0,95))
rien conclure. Par contre si le test est
négatif, on est quasiment certain qu’en
France le patient n’a pas de palu alors qu’en (1 − 0,001) * 0,85
Afrique, on ne peut rien dire. VPNFrance = = 0,9999
(1 − 0,001) * 0,85 + (0,001* (1 − 0,95))
• => Attention au transfert d’expérience.
Rapports de vraisemblance
Se
• RV+ : L =
1 - Sp
– Un sujet a L fois plus de chance d'avoir le test positif s'il est atteint de la
maladie que dans le cas contraire.
1 − Se
• RV- :  =
Sp
• L'apport diagnostique d'un résultat positif du test est
d'autant plus grand que le RV+ (L) est plus élevé.
L'apport diagnostique d'un résultat négatif d'autant
plus grand que le RV- est plus petit et proche de zéro.
• B.Grenier
Dépistage,
Confirmation diagnostique
• Dépistage : Maladie + Maladie - Total
– S’adresse à des sujets ne se plaignant de
rien à priori sains. Test + A (VP) B (FP) T+=A+B=VP+FP
– Prendre un test à sensibilité élevée (peu de
FN, VPN très grande) . Test - C (FN) D (VN) T-=C+D=FN+VN
– Éventuellement suivi d’un test de M+ = A+C = M-
confirmation. Total VP+FN =B+D=FP+VN N=A+B+C+D
– Ne pas oublier les autres éléments :
• Acceptabilité, Risque, Coût
• Confirmation d’une maladie suspectée :
– Prendre un test avec une spécificité élevée
(peu de FP, VPP très grande) d’autant plus
que le coût du faux positif est élevé.
Valeurs diagnostiques d’un test
• Si un test a une spécificité élevée, un résultat positif
confirme l’hypothèse diagnostic.
• Si un test a une sensibilité élevée, un résultat négatif
élimine le diagnostic .
(Règles de Sacket)
• Gain diagnostic positif :
– C’est la différence entre la probabilité pré-test (prévalence)
de la maladie et la probabilité post-test (valeur prédictive
positive).
– Gain positif = VPP – prévalence.
Et si le test consiste à comparer une
valeur quantitative à une limite ?
• Si le résultat du test biologique ou du signe
clinique est une variable quantitative (glycémie -
diabète; tension artérielle systolique -
hypertension ...), la sensibilité et la spécificité
vont dépendre du seuil que l'on choisit pour dire
que le test est positif ou négatif.
• Pour chaque valeur de la limite, on aura une
valeur de la sensibilité et une valeur de la
spécificité.
• Ceci conduit à la courbe de ROC.
Importance de l’indépendance
• Indépendance est opposé à liaison.
– Deux phénomènes sont indépendants si la réalisation
de l’un n’influence pas la réalisation de l’autre.
– Deux phénomènes sont liés si la réalisation de l’un
influence la réalisation de l’autre.
• Attention : Liaison ne veut pas dire causalité.
• Indépendance = hypothèse nulle du test du Khi2
sous laquelle sont calculés les effectifs
théoriques.
Application à la reproductibilité
• Problème fréquent en
santé : Médecin A
– Deux médecins donnent Oui Non Total
un avis sur l’opportunité
de réaliser une Oui 10 20 30
Médecin B
intervention chirurgicale. Non 5 45 50
– Si la reproductibilité était
parfaite les deux Total 15 65 80
médecins seraient La concordance observée est : (10+45)/80 = 0,69
toujours d’accord. Mais…
Reproductibilité
Médecin A
• Si les deux jugements étaient indépendants, Oui Non Total
quels auraient été les résultats ?
Oui 10 20 30
Médecin B
P(Oui / A) =
15 Non 5 45 50
80 Total 15 65 80
30
P(Oui / B) = Les probabilités peuvent être approchées par les
80 fréquences. Sous l’hypothèse d’indépendance, on
Sous l ' hypothèse d ' indépendance obtient le tableau :
Médecin A
15 30
P[(Oui / A)]  P[(Oui / B)] = * Oui Non Total
80 80
En termes d ' effectifs attendus : Oui 5,6 24,4 30
Médecin B
15 30 15 * 30 Non 9,4 40,6 50
E == * * 80 = = 5,6 Total 15 65 80
80 80 80
Reproductibilité
Médecin A
Oui Non Total
Concordance observée
Oui 10 20 30
Cobs=(10+45)/80 = 0,69 Médecin B
Non 5 45 50
Concordance sous hypothèse Total 15 65 80
d’indépendance
Cthéo =(5,6+40,6)/80 = 0,58 Médecin A
Oui Non Total
Coefficient de Kappa Oui 5,6 24,4 30
C obs - C théo 0,69 - 0,58 Médecin B
Kappa = = = 0,26 Non 9,4 40,6 50
1 - C théo 1 - 0,58 Total 15 65 80
Si Kappa > 0,6 : bonne concordance

Application à la survie
• Soit les événements Morts-Vivants
– P(Vivant) = 1 - P(Mort)
– La probabilité d'être vivant au jour J et au jour J+1 est égale au produit des
probabilités d'être vivant au jour J et J+1.
Jour Exposés DCD PDV P(DCD) P(Viv.) Pcum(Viv)

0 100 0 0 0 1 1
1 100 3 0 0,03 0,97 1*0,97
6 97 2 0 2/97=0,0206 0,9794 0,97*0,9794
= 0,95002
7 95 0 3 0 1 0,95002
10 92 … … … … …
LOIS DE PROBABILITES
I. Lois de distribution discrètes
II. Lois de distribution continues

LOIS DE DISTRIBUTION DISCRETES
Loi Binomiale
Epreuve, variable et Loi de Bernouilli :
X : variable de Bernouilli, associée à une épreuve possèdant l’alternative :
un événement E est réalisé (probabilité ) ou non réalisé (probabilité 1-).
E /
épreuve
non E / (1-)
Loi de probabilité :
X prend la valeur 1 à la réalisation de E, et X=0 à la non réalisation de E
P(X=1)=
P(X=0)=1-
Moyenne de la loi :  ; Variance : (1−)

La loi binomiale est ainsi la résultante de N variables de Bernouilli indépendantes
Loi Binomiale
Loi Binomiale p(X=k)
X, V. A. discrète, "nombre de réalisations d'un 0,25
n=15, P =0,8
certain événement E lors des n répétitions d'une
0,20
même épreuve"
0,15
X B (n, P) 0,10
p(X=k) = Ckn Πk(1−Π)(n−k) 0,05
n!
p(X = k) = Π k (1 − Π)(n −k) 0,00
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 k
k!(n - k)!
Espérance (moyenne théorique) : n P
(valeur pas toujours prise par la variable!)
variance : n P (1− P)
Cependant cette loi est peu pratique à utiliser lorsque n est grand (calculs fastidieux!)
 Tables de la loi binomiale…
 Approche par d'autres lois lorsque c'est Biostatistique
possible… - Pr Ben MONGA
Loi Binomiale : exercices
Dans une population donnée, la prévalence de la tuberculose est 5%.
On constitue un échantillon aléatoire de 10 personnes tirées de cette
population.
1. Quelle est la probabilité d’avoir exactement 2 personnes
tuberculeuses parmi les 10?
2. Quelle la probabilité d’avoir tout au plus 2 personnes
3. Quelle la probabilité d’avoir au moins 2 personnes
4. Calculez l’espérance et l’écart-type


population.
1. Quelle est la probabilité d’avoir exactement 2 personnes
Réponse: 10!
p(X = 2) = 0,052 (1 − 0,05)(10- 2)
2!(10 - 2)!
Dans EXCEL: =LOI.BINOMIALE(2;10;0,05;FAUX) = 0,0746348

LOI.BINOMIALE(nombre_succès;tirages;probabilité_succès;cumulativ
e)

population.
2. Quelle la probabilité d’avoir tout au plus 2 personnes tuberculeuses
parmi les 10?
Réponse:
p(X = 2) = p(X = 0) + p(X = 1) + p(X = 2)
Dans EXCEL: =LOI.BINOMIALE(2;10;0,05;VRAI) = 0,98849644


population.
3. Quelle la probabilité d’avoir au moins 2 personnes tuberculeuses
parmi les 10?
Réponse:
p(X = 2) = p(X = 2) + p(X = 3) + ... + p(X = 10)
p(X = 2) = 1 − p(X = 2) = 0,0115
Dans EXCEL: =1- LOI.BINOMIALE(2;10;0,05;VRAI) =

0,01150356


population.
4. Calculez l’espérance, la variance et l’écart-type
Réponse:
Espérance (moyenne théorique) : n P

Espérance=10x0,05=0,5
variance : n P (1− P) = 10x0,05x0,95=0,475
Ecart-type : = 10x0,05x0,95 = 0,475 = 0,689

Lois de distribution discrètes
Loi de Poisson
(Siméon Denis Poisson 1781-1840)
Lorsque le nombre d'épreuves n est grand et P très petit (proche de 0),
la loi Binomiale B (n, P) tend vers une loi de Poisson P () de seul paramètre 
(espérance et variance de la loi binomiale approchée par la loi de Poisson).
La loi de Poisson est une distribution discrète.
P(X=k) = e- k / k!
Espérance =; variance=  Ecart-type= 
Côté pratique
On vérifiera d'abord que les calculs ne peuvent être approchés par une
distribution normale, plus pratique à utiliser

Loi de Poisson
Réels domaines d’utilisation d’une loi de Poisson
• Nombre d’évènements par unité de volume, de surface, de temps
• Nombre de poissons par mètres cube d’eau
• Concentration de bactéries (hématimètre) dans un lac (homogénéité)
• Nombre d’insectes d’une certaine espèce capturés sur un filet en une nuit
en forêt amazonienne
• Nombre de désintégration d’un radio-isotope par minute
• Nombre d’appels enregistrés par un standard téléphonique dans une courte
période de temps
• Nombre d’accidents d’avion
• Nombre de malformations congénitales
• Etc…

Loi de Poisson : exercices
Exercice « accident de circulation »
Un agent de la PCR étudie le passage des automobiles à un croisement des routes
dans la ville de Lubumbashi. A l’issue d’un travail long (plusieurs semaines) et rigoureux,
il observe en moyenne 4 accidents par jour.
a/ Quelle est la probabilité qu’il observe précisément 3 accidents en l’espace de 12 h ?
b/ Quelle est la probabilité qu’il observe entre 1 et 3 accidents en 6 heures ?
a/  = 4 accidents / j
uniformité sur une courte période de temps :  = 2 accidents / 12 h
calcul de P(X=3) avec X suit une loi de Poisson de paramètre =2
P(X=3) =0.18
EXCEL: LOI.POISSON(x;espérance;cumulative) =LOI.POISSON(3;2;FAUX)=
0,18044704

Loi de Poisson : exercices
Exercice « accident de circulation »
Un agent de la PCR étudie le passage des automobiles à un croisement des routes
dans la ville de Lubumbashi. A l’issue d’un travail long (plusieurs semaines) et rigoureux,
il observe en moyenne 4 accidents par jour.
b/ Quelle est la probabilité qu’il observe entre 1 et 3 accidents en 6 heures ?
b/ calcul de P(1 Y  3) avec Y suit une loi de Poisson de paramètre =1

Loi discrète donc P(1 Y  3) = P(Y=1)+P(Y=2)+P(Y=3)
P(1  Y  3) = 0.3679+0.1839+0.0613 = 0.6131
Dans EXCEL:
=LOI.POISSON(1;1;FAUX)+ LOI.POISSON(2;1;FAUX) )+ LOI.POISSON(2;1;FAUX)
= 0,36787944 + 0,18393972 + 0,06131324 = 0,6131324

LOIS DE DISTRIBUTION CONTINUES
 transformation de l'échelle verticale des graphes
Densité de fréquence relative (Pour toute variable X ordonnée classée)

Fréquence relative
Densité de fréquence relative =
Amplitude de classe
Taux d’une hormone en mg/ml
Avec la densité de fréquence relative on

a facilement accès aux probabilités,
associées aux surfaces du diagramme.
AIRE TOTALE = 1

Lois continues
L’augmentation de la taille de l’échantillon
permet des classes de plus en plus fines et fait
tendre la densité de fréquence relative vers
une courbe appelée densité de probabilité.
Densité de probabilité
Les lois de distributions continues (loi
normale, Chi-deux, Student, etc…) sont
entièrement caractérisées par l’équation de
leur fonction de densité de probabilité f(x).

En employant la fonction de densité de probabilité on a une visualisation de la

notion de probabilité : La probabilité P(1<X<) est l’aire délimitée d’une part
f(x) par l’intervalle [1] et d’autre part par la courbe de densité de probabilité f(x).
Variable aléatoire X quantitative continue
Distribution continue
X
1 
ε1 +
P(ε1  X  ε 2 ) =  ε2
f(x)dx ; avec  − f(x)dx = 1
Remarques
Fonction de partition : primitive de la fonction de densité de probabilité

ε
F(ε) = P(X  ε) =
 −
f(x)dx
P( ε1  X  ε2 ) = F(ε 2) − F(ε 2)
+
Moyenne : μx =
 −
x f(x)dx
+
σx =
 (x − μ x )2 f(x)dx
2
Variance :
−

LOI NORMALE
De nombreuses variables aléatoires ont pour fonction de densité une courbe en

forme de cloche, appelée courbe Normale ou courbe de Laplace-Gauss
(Pierre Simon de Laplace 1749-1827 ;Karl Friederich Gauss 1777-1855)
 la loi statistique la plus répandue et la plus utile
 de nombreuses lois de probabilités peuvent souvent être approchées

par la loi Normale
 dérivée : loi Log-Normale

LOI NORMALE
Loi de Laplace–Gauss quand est-elle rencontrée ?
Lorsqu'une grandeur subit l'influence d'un grand nombre de facteurs (ou paramètres ;
non tous identifiés, voire identifiables!) tous indépendants, qui, pris isolément, ne
contribuent que très faiblement à faire varier la grandeur étudiée, les valeurs prises par
la variable aléatoire (continue) associée à la grandeur se distribuent selon la loi de
Laplace-Gauss (appelée Loi Normale). Cette loi revêt un caractère de généralité. On y
fait très souvent appel en Biologie
 distribution continue et symétrique

 caractérisée par sa moyenne m et son écart-type s
 associée à une variable aléatoire X quantitative continue
X N (m  s)

LOI NORMALE
X N ( m  s) POPULATION
2
1  x-μ 
-2  σ 
f(x) =
1
e  
σ 2 π • courbe symétrique par rapport à x = m
• P( X < m ) = P(X  m) = 0.5

1
• P( m − s < X < m + s ) = 0.68
σ 2 π
• P( m − 1s < X < m + 1s ) = 0.95
• P(X > m + 3s ) < 0.0015
X
m−s m m+s
LOI NORMALE
Loi Normale Centrée - Réduite

1 2
1 -2z
f(z) =
2π
e Z N (  1)
• La variable centrée réduite Z=(X-m)/s
1 a pour moyenne 0 et 1 pour écart-type
2π
• courbe symétrique par rapport à Z =0
• P( Z  0 ) = P( Z > 0 ) = 0.5
• P( -1  Z  1 ) = 0.68
• P( -1.96  Z  1.96 ) = 0.95
• P( Z > 3 ) < 0.0015
Z
-1,96 −1  1
1,96
LOI NORMALE
X 2 −μ
 
X2
σ
f(X) dX = g(Z) dZ
X 1 −μ
X1
σ
X Changement de variable Z=(X-m)/s

N (m  s) Conservation des aires N (  1 )
1 2
1 - z
2
g(z) =
2π
e 2
1  x-μ 
-2 
f(x) =
1
e  σ  1
σ 2 π
2π
1
s 2
a
a
m X1 X2 Biostatistique
X - Pr Ben MONGA
0 Z11 Z2
Z
LOI NORMALE
Principe de la table de la loi Normale Centrée Réduite

N ( 0,1)  a = P(Z > t) , t  0
1 2
1 -2z
f(z) = e (Echantillon de calculs d'intégrales)
2π
1
2π  Grâce au changement de variable Z = (X - m)/s,
on utilise la table de la loi Normale centrée
réduite pour calculer les probabilités (aires)
d'une loi Normale quelconque.
a
Z
0 t
LOI NORMALE
Table de la loi Normale Centrée Réduite

N (0,1)  a = P(Z > t) , t  0
(Echantillon de calculs d'intégrales)
0 t
Z
Exemple : P( Z > 2.43 ) = 0.0075494
• Utilise la symétrie de la loi N (0,1)

• permet de trouver a , connaissant t
• permet de trouver t , connaissant a
• Il existe également la "table de l'écart réduit"
(on s'en servira dans les tests d'hypothèse)
TABLE DE LA LOI NORMALE REDUITE

La loi normale
Distribution Normale Centrée Réduite
0,4
_( x − m ) 2
1
f(x) = 2s 2
0,35
e
0,3 s 2
0,25
0,2
0,15
0,1
0,05
0
-3 -2 -1 0 1 2 3
LOI NORMALE
_( x − m ) 2
1
f(x) = e 2s 2
s 2
0,45
0,4 s=1
0,35
0,3
s = 1,5
0,25
0,2 s=2
0,15
0,1
0,05
0
5 6 7 8 9 10 11 12 13 14 15 16
Utilisation de la loi normale
X suit une loi normale P (X  b ) ?
de moyenne m
et d’écart-type s Fonction loi.normale
d’Excel
m b
X suit une loi normale
de moyenne m
et d’écart-type s
Si on suppose
que
p = P(X ≤ b )
est connue et
que l’on
cherche b
m
Il faut utiliser la fonction
loi.normale.inverse d’Excel b
X suit une loi normale P (a  X  b ) ?
de moyenne m
et d’écart-type s
a m b
Cas particulier très utile
xxxx
xxxxxxx
xxxxxxxx
xxxxxxxxx 95 % des x
xxxxxxxxxx
xxxxxxxxxxx
xxxxxxxxxxx
xxxxxxxxxxx
xxxxxxxxxxx
xxxxxxxxxxxxx
xxxxxxxxxxxxxx
xxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxx
m − 1 s
m m + 1 s
Théorème central-limite
• La loi Normale est une « loi limite » pour toutes les lois.
• Soient X1,X2,...,Xn, n variables aléatoires indépendantes

et de même type de loi.
Si n est assez grand, la somme Y = X1+...+Xn suit

approximativement une loi normale de paramètres
• moyenne = somme des moyennes des Xi
• variance = somme des variances des Xi

LOI NORMALE
Du Côté d’EXCEL :
(loi normale quelconque)
- loi.normale renvoie la valeur de P(X<z) pour z donné
- loi.normale.inverse renvoie z à partir de P(X<z)

LOI NORMALE: exercices
Exercice1 : « Distribution d’hémoglobine»
La distribution d’hémoglobine (%) est une distribution normale de moyenne 95 et de

déviation standard 10.
1. Déterminez les percentiles 2 et 98 de la distribution.
2. Quelle est la proportion de sujets ayant une hémoglobine supérieure à 110?
Exercice2 : « Distribution de la glycémie»
Supposons que parmi les diagnostiques, la glycémie est normalement distribuée avec
µ=105mg/100 ml et σ=9mg/100ml.
1. Quelle est la proportion des diabétiques qui possèdent des taux compris entre 90 et
125mg/100ml ?
2. Quel taux limite en bas 10% des diabétiques?
3. Quels taux englobent 95% des diabétiques?

LOI NORMALE: résolution de l’exercice 1
1. Déterminez les percentiles 2 et 98 de la distribution.

m=; s=1
P( -Z  X  Z ) = 1-α = 0.96
α=0.04 => Z1=2.054 et Z2=-2.054
Z1=(X1-95)/10=2.054
X1-95=2.054x10=20.54
X1=20.54+95=115.54
Z2=(X2-95)/10=-2.054
X2=-20.54+95=74.46
PERCENTILE 2 =74.46
PERCENTILE 98 = 115.54

LOI NORMALE: résolution de l’exercice 1
2. Quelle est la proportion de sujets ayant une hémoglobine

supérieure à 110?
m=; s=1; X=110

Z=(110-95)/10=1.5
P(Z>1.5)=0.0668
Proportion de sujets ayant une hémoglobine > 110 = 6.68%
 Faire l’exercice 2!

Cours Biostat Bac1sp Desc

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Cours Biostat Bac1sp Desc

Transféré par

Droits d'auteur :

Formats disponibles

UNIVERSITE DE LUBUMBASHI

ECOLE DE SANTE PUBLIQUE

•Recueillir, organiser, analyser, résumer et présenter les

III. Biostatistique descriptive

III.3. Description des données

III.4. Représentation d’une distribution

III.5. Paramètres statistiques

III.5.1. Paramètres de position

III.5.2. Paramètres de dispersion

III.7. Introduction au calcul de probabilité

III.8. Quelques lois de distribution

• Les lois discrètes

III.8. Quelques lois de distribution

• Les lois continues

Laboratoire d’Informatique Médicale

Pendant l’évaluation, l’utilisation des notes,

Biostatistique - Pr Ben MONGA

Biostatistique - Pr Ben MONGA

• Description des moyens et l'état de santé d'une population

Hospitalisation Anesthésie ou File active Autres Autres

Ensemble des opérations qui ont pour but de collecter de

Groupe d'individus ou d'éléments auquel nous nous

Définir la population d'étude est un point fondamental, dans la

Exemple: Population de toutes les femmes âgées de 20-35

• J’ai étudié tous les séjours de l’Hôpital de Référence X en 2010.

Si La population est connue (finie) ET tous les individus sont

– Une seule chose à faire :

Exemple : moyenne d’âge des étudiants de première année obtenue à

Il est difficile d’étudier tous les éléments d’une population

L’unité statistique ou unité de base est un élément de la

UNITE STATISTIQUE OU UNITE DE BASE 1/1/2020 31/12/2020

Une unité statistique peut être décrite selon une ou plusieurs

Les modalités (ou les niveaux) sont les différentes situations

Une première opération consiste souvent à ranger par ordre

Il s’agit de l’ensemble des couples (xi, ni), où xi est une modalité de

sa distribution statistique est représentée par:

Faible richesse en information

– Quantitatives (compte ou mesure)

• Données Effectif Fréquence

x2 n 2 f 2 N2 F 2 Fi est la fréquence cumulée c’est à

[175-180[ 177,5 40 0,20 145 0,73

Total des valeurs = i =1 x i = i =1 n i x i

Total des carrés des valeurs = i =1 x = i =1 n i x i2

Polygone des fréquences

– À une seule bosse, à plusieurs bosses ; 40

• Appelée moyenne notée x

Moyenne Les effectifs étant différents dans les 3

– 25% des individus qui ont des valeurs comprises entre

– Ceci permet rapidement de se rendre compte si la

Biostatistique - Pr Ben MONGA

• Il est impossible de les compter toutes en examinant toute la

• Echantillon : Dans la plupart des cas, la taille de la

• Unités : il peut s’agir d’unité individuelle (sujet) ou

• Sondage : toute forme d’échantillonnage qui permet

• Estimateur : résultat estimé à partir des données

• On risque que l’échantillon de ce sous-groupe de la

• Par le simple fait du hasard, on peut sous-estimer ou sur-

• Chaque catégorie définit une strate de la population

• exemple 2 : on peut supposer que les personnes d’un même

• Chaque famille définit une strate de la population

• Avantage : cette méthode permet d’améliorer la

• Inconvénient : le calcul de l’estimateur est plus

Biostatistique - Pr Ben MONGA

S ensemble des événements possibles