Vous êtes sur la page 1sur 55

Biostatistique

Cours 1
30 septembre 2021
Master 1 Santé Publique

julie.boucquemont@universite-paris-saclay.fr
Fonctionnement de l’UE
• 1 cours par semaine : le jeudi de 14h à 16h (test du co-modal) sauf semaine du 11 novembre
• 1 TD par semaine : le mardi de 14h à 16h
-> 2 groupes en parallèle : un en présentiel, un en distanciel
-> Enseignants : Faroudy Boufassa et Hugues Herrmann
-> A préparer à l’avance
• 3 TD de révisions (attention aux jours et horaires – voir planning)
• Examen sur table de 2h en janvier (tous documents autorisés)
• Ensemble des documents de cours sur eCampus
• Livre de référence : Jean Bouyer. Méthodes statistiques - Médecine-Biologie. 16 juin 2017.
Vuibert.

Biostatistique – M1 SP 2
Plan
• Variabilité dans les sciences de la vie

• Lois de probabilités
• Utilisation des tables statistiques

Biostatistique – M1 SP 3
Variabilité dans les sciences de la vie
• La variabilité est partout

Exemple 1 : répartition
des poids de naissance
de 2673 nouveau-nés

Biostatistique – M1 SP 4
Variabilité dans les sciences de la vie
• La variabilité est partout

Exemple 2 : nombre de malades observés sur 10 000


échantillons de 20 sujets tirés d’une population où le
pourcentage vrai de malades est 30%

Biostatistique – M1 SP 5
Variabilité dans les sciences de la vie
• La variabilité est partout

Exemple 2 : nombre de malades observés sur 10 000


échantillons de 20 sujets tirés d’une population où le
pourcentage vrai de malades est 30%

Fluctuations d’échantillonnage
Les observations varient (au hasard)
d’un échantillon à l’autre

Biostatistique – M1 SP 6
Fluctuations d’échantillonnage
• Conséquence 1 : les conclusions qu’on peut tirer concernant un échantillon sont
sujettes à erreur

Intervalle de fluctuation
Le % de malades dans un échantillon de 20 sujets est compris entre 15% et 50%...
…mais seulement dans 95% des échantillons

Biostatistique – M1 SP 7
Fluctuations d’échantillonnage
• Conséquence 2 : on ne peut pas donner une seule valeur pour une variable telle
que le poids de naissance
-> Il faut des indices pour résumer les observations : moyenne, variance
• A partir d’un échantillon, on ne doit pas donner une estimation unique d’une
moyenne ou d’un pourcentage, mais un intervalle
-> Intervalle de confiance

Biostatistique – M1 SP 8
Fluctuations d’échantillonnage

Intervalle de fluctuation
Valeur théorique
Observations
(ou vraie)

Population Echantillon

Intervalle de confiance

Biostatistique – M1 SP 9
Fluctuations d’échantillonnage
• Conséquence 3 : la comparaison de moyennes ou de pourcentages observés
nécessite des précautions

Tests statistiques

Biostatistique – M1 SP 10
Fluctuations d’échantillonnage

Les méthodes statistiques permettent de prendre en compte la


variabilité individuelle et les fluctuations d’échantillonnage

• Le raisonnement se fait au niveau de groupes de sujets


• La constitution de ces groupes conduit souvent à simplifier la
réalité (regroupement de sujets différents, choix de classes pour
une variables quantitative, …)

Biostatistique – M1 SP 11
Population et échantillons
Observations

Questions Modélisation des Echantillon 1


Hypothèses fluctuations
d’échantillonnage

Population Echantillon 2

Inférence
Conclusion sur les
paramètres de la population
Echantillon k

Biostatistique – M1 SP 12
Variables aléatoires
Observations
Questions
Hypothèses Modélisation des Echantillon 1
fluctuations m1 – p1 – s1
d’échantillonnage
Population Echantillon 2
Inférence m2 – p2 – s2
µ–p–σ
Conclusion sur les
paramètres de la population Echantillon k
mk – pk – sk

Variables aléatoires

Quantitative Dichotomique Qualitative nominale


x1 x2 x3 0 ou 1 A / B / O / AB
Oui ou Non

Biostatistique – M1 SP 13
Différents types de variables

• Variables qualitatives
• Ordinales : niveau d’étude, stade de gravité d’une maladie
• Nominales : malade/non malade, groupe sanguin, sexe, catégorie socio-
professionnel

• Variables quantitatives
• Discrètes : nombre d’enfants d’une famille, âge en années
• Continues : poids, dosage biologique

Biostatistique – M1 SP 14
Représentations graphiques

• Variables qualitatives : diagramme en barres

Groupe sanguin

Biostatistique – M1 SP 15
Représentations graphiques
• Variables quantitatives : histogramme

Distribution des poids de naissance des 2673 enfants nés à la maternité de Haguenau (1984 et 1985)

Biostatistique – M1 SP 16
Représentations graphiques
• Variables quantitatives : histogramme

Distribution des poids de naissance des 2673 enfants nés à la maternité de Haguenau (1984 et 1985)

Biostatistique – M1 SP 17
Indices
• Caractéristiques de position et de dispersion d’une variable
quantitative

Moyenne Variance

𝑁 𝑁
Population 𝑥1 + 𝑥2 + ⋯ + 𝑥𝑁 1 1
𝜇= = ෍ 𝑥𝑖 𝜎 2 = ෍ 𝑥𝑖 − 𝜇 2
𝑁 𝑁 𝑁
𝑖=1 𝑖=1

𝑛 𝑛
𝑥1 + 𝑥2 + ⋯ + 𝑥𝑛 1 1
Echantillon 𝑚= = ෍ 𝑥𝑖 𝑠2 = ෍ 𝑥𝑖 − 𝑚 2
𝑛 𝑛 𝑛−1
𝑖=1 𝑖=1

Biostatistique – M1 SP 18
Indices
• Caractéristiques de position et de dispersion d’une variable
quantitative

Biostatistique – M1 SP 19
Lois de probabilités
Connaitre la loi suivie par une variable aléatoire
permet entre autre le calcul de probabilités

Pourcentage de malades dans la population : 30%

Loi de probabilité suivie par le nombre de malades


observé dans un échantillon = loi binomiale
→ Donne la probabilité d’observer k malades dans un
échantillon de n sujets (connaissant le pourcentage
de malades dans la population)

P X = k = Cnk πk (1 − π)n−k
n!
P X=k = πk (1 − π)n−k
k! n − k !

Nombre de malades par échantillon de 20 sujets

Biostatistique – M1 SP 20
Lois de probabilités
• Loi de probabilité continue

• 𝑓 𝑥 = densité de probabilité

• Fonction de répartition 𝑓(𝑥)


𝑥
𝐹 𝑥 = P 𝑋 ≤ 𝑥 = න 𝑓 𝑡 d𝑡
−∞

𝑏
• P 𝑎 ≤ 𝑋 ≤ 𝑏 = ‫ 𝑡 𝑓 𝑎׬‬d𝑡

• P 𝑋 = 𝑎 = 0 → P 𝑋 ≤ 𝑎 = P 𝑋 < 𝑎 + P 𝑋 = 𝑎 = P(𝑋 < 𝑎)

Biostatistique – M1 SP 21
Lois de probabilités
Connaitre la loi suivie par une variable aléatoire permet entre autre le calcul de probabilités

• Loi normale : caractérise la variabilité de nombreux phénomènes


biologiques
• Glycémie à jeun
• Taille des individus d’une population
• Taux de lymphocytes CD4 dans le sang
• Chlore urinaire

Loi de probabilité essentielle dans la démarche statistique

Biostatistique – M1 SP 22
Lois de probabilités
Connaitre la loi suivie par une variable aléatoire permet entre autre le calcul de probabilités

• Loi normale

1 (𝑥 − 𝜇)²
𝑓 𝑥 = exp −
𝜎 2𝜋 2𝜎²

𝑥
𝐹 𝑥 = P 𝑋 ≤ 𝑥 = න 𝑓 𝑡 d𝑡
−∞

Biostatistique – M1 SP 23
Lois de probabilités
Connaitre la loi suivie par une variable aléatoire permet entre autre le calcul de probabilités

• Loi normale

Dépend de deux paramètres


• µ : la moyenne
• σ : l’écart-type

Biostatistique – M1 SP 24
Lois de probabilités
Connaitre la loi suivie par une variable aléatoire permet entre autre le calcul de probabilités

• Loi normale

Dépend de deux paramètres


• µ : la moyenne
• σ : l’écart-type

Biostatistique – M1 SP 25
Lois de probabilités
Connaitre la loi suivie par une variable aléatoire permet entre autre le calcul de probabilités

• Loi normale

Dépend de deux paramètres


• µ : la moyenne
• σ : l’écart-type

En pratique : infinité de lois


normales en fonction de µ et σ

Biostatistique – M1 SP 26
Lois de probabilités
Connaitre la loi suivie par une variable aléatoire permet entre autre le calcul de probabilités

• Loi normale centrée réduite


• µ=0
• σ=1

• Avantage : calculs de probabilités grâce à la lecture des valeurs dans


une table de la loi 𝑁(0,1)

Biostatistique – M1 SP 27
Table de la loi normale centrée réduite

P(Z>0.643) = ?

Biostatistique – M1 SP 28
Table de la loi normale centrée réduite

P(Z>0.643) = 0.260

Biostatistique – M1 SP 29
Table de la loi normale centrée réduite

P(Z>-1.036) = ?

Biostatistique – M1 SP 30
Table de la loi normale centrée réduite

P(Z>-1.036) = 0.850

Biostatistique – M1 SP 31
Table de la loi normale centrée réduite

P(Z<0.138) = ?

Biostatistique – M1 SP 32
Table de la loi normale centrée réduite

P(Z<0.138)
= 1 - P(Z>0.138)
= 1 - 0.445
= 0.555

Biostatistique – M1 SP 33
Table de la loi normale centrée réduite

P(0.510<Z<0.628)
=?

Biostatistique – M1 SP 34
Table de la loi normale centrée réduite

P(a < Z < b) = P(Z > a) - P(Z > b)

Biostatistique – M1 SP 35
Table de la loi normale centrée réduite

P(0.510<Z<0.628)
= P(Z>0.510)
-P(Z>0.628)
= 0.305 - 0.265
= 0.04

Biostatistique – M1 SP 36
Table de la loi normale centrée réduite

P(Z > a) = 0.47

-> a = ?

Biostatistique – M1 SP 37
Table de la loi normale centrée réduite

P(Z > a) = 0.47

-> a = 0.075

Biostatistique – M1 SP 38
Loi normale quelconque
• X ~ loi normale de moyenne µ et d’écart-type σ

Se ramener à une loi normale centrée réduite

𝑋−𝜇
•𝑈 = ~ loi normale centrée réduite : table
𝜎

𝑎′−𝜇 𝑏′−𝜇
• 𝑃 𝑎′ < 𝑋 < 𝑏′ = 𝑃 <𝑈<
𝜎 𝜎

Biostatistique – M1 SP 39
Loi normale quelconque : exemple
• X = poids de naissance
X ~ loi normale de moyenne µ=3300 g et d’écart-type σ=500 g

P(2950 < X < 3600) = ?

Biostatistique – M1 SP 40
Loi normale quelconque : exemple
• X = poids de naissance
X ~ loi normale de moyenne µ=3300 g et d’écart-type σ2=500g2

P(2950 < X < 3600) = ?


1. On centre et on réduit
𝑋−𝜇
𝑈= ~N(0,1)
𝜎

2. On lit la valeur de la probabilité dans la table

Biostatistique – M1 SP 41
Loi normale quelconque : exemple

𝑃 2950 < 𝑋 < 3600


2950 − 3300 3600 − 3300
=𝑃 <𝑈<
500 500
= 𝑃 −0.7 < 𝑈 < 0.6
= 𝑃 𝑈 > −0.7 − 𝑃 𝑈 > 0.6
= 0.760 − 0.275 = 0.485

Biostatistique – M1 SP 42
Approximation par la loi normale
• Approximation de la loi binomiale : 𝑋~𝐵(𝑛, 𝜋)
→ Si n grand, X suit approximativement une loi normale
- de moyenne nπ
- de variance n π(1- π)
Règle : nπ ≥ 5 et n(1-π) ≥ 5

• Même raisonnement : si P0 le pourcentage de malades (X/n) alors P0 suit


une loi normale
- de moyenne π
- de variance [π(1- π)]/n

Biostatistique – M1 SP 43
Approximation par la loi normale
• Loi des grands nombres : la somme de variables aléatoires suivant
une même loi de probabilité suit une loi normale

• Si X1, X2, …, Xn des variables aléatoires indépendantes de même loi de


moyenne μ et de variance σ

𝑋𝑖 𝜎2
𝑋ത = ෍ ~𝑁 𝜇,
𝑛 𝑛

Règle : n ≥ 30 ou 𝑋𝑖 ~𝑁 quel que soit i

Biostatistique – M1 SP 44
Approximation par la loi normale
• Loi des grands nombres : convergence de la distribution de la
moyenne vers une loi normale

Biostatistique – M1 SP 45
Approximation par la loi normale
• Loi des grands nombres : convergence de la distribution de la
moyenne vers une loi normale

Biostatistique – M1 SP 46
Approximation par la loi normale
• Loi des grands nombres : convergence de la distribution de la
moyenne vers une loi normale

Biostatistique – M1 SP 47
Approximation par la loi normale : exemple
% de malades dans la population = 8%

Cas 1 : échantillon de 200 sujets


Probabilité que le % de malades dans un échantillon soit > 12% ?

Biostatistique – M1 SP 48
Approximation par la loi normale : exemple
% de malades dans la population = 8%

Cas 1 : échantillon de 200 sujets


Probabilité que le % de malades dans un échantillon soit > 12% ?
nπ = 200*0.08 = 16 et n(1-π) = 200*0.92 = 184 : règle respectée
P0 ~ loi normale
- de moyenne μ = 0.08
- de variance (0.08*0.92)/200 = 0.000368

Biostatistique – M1 SP 49
Approximation par la loi normale : exemple
% de malades dans la population = 8%

Cas 1 : échantillon de 200 sujets


Probabilité que le % de malades dans un échantillon soit > 12% ?
0.12 − 0.08
𝑃 𝑃0 > 0.12 = 𝑃 𝑈 > = 0.02
0.000368

→ 2% des échantillons de 200 sujets comprennent plus de 12% de


malades

Biostatistique – M1 SP 50
Approximation par la loi normale : exemple
% de malades dans la population = 8%

Cas 2 : échantillon de 50 sujets


Probabilité que le % de malades dans un échantillon soit > 12% ?
nπ = 50*0.08 = 4 < 5 -> Approximation par la loi normale impossible

Biostatistique – M1 SP 51
Approximation par la loi normale : exemple
X une variable aléatoire representant l’âge des sujets d’une population
moyenne = 35 ans, variance = 300 ans2

Cas 1 : échantillon de 50 sujets


Probabilité que la moyenne dans un échantillon soit > 32 ?
n ≥ 30 : règle respectée

𝑋~loi normale de moyenne μ=35 et de variance 300/50 = 6

Biostatistique – M1 SP 52
Approximation par la loi normale : exemple
X une variable aléatoire representant l’âge des sujets d’une population
moyenne = 35 ans, variance = 300 ans2

Cas 1 : échantillon de 50 sujets


Probabilité que la moyenne dans un échantillon soit > 32 ?
n ≥ 30 : règle respectée

𝑋~loi normale de moyenne μ=35 et de variance 300/50 = 6
32 − 35
𝑃 𝑋ത > 32 = 𝑃 𝑈 > = 0.885
6

Biostatistique – M1 SP 53
Approximation par la loi normale : exemple
X une variable aléatoire representant l’âge des sujets d’une population
moyenne = 35 ans, variance = 300 ans2

Cas 1 : échantillon de 50 sujets


Probabilité que la moyenne dans un échantillon soit > 32 ?

𝑋~loi normale de moyenne μ=35 et de variance 300/50 = 6
32 − 35
𝑃 𝑋ത > 32 = 𝑃 𝑈 > = 0.885
6
→ L’âge moyen est supérieur à 32 ans dans 88.5 % des échantillons de
50 sujets
Biostatistique – M1 SP 54
Points importants du cours

• Variabilité dans les sciences de la vie : fluctuations d’échantillonnage


• Différents types de variables
• Loi suivie par une variable aléatoire : calcul de probabilités
→ Base de la biostatistique
• Loi normale

Biostatistique – M1 SP 55

Vous aimerez peut-être aussi