Académique Documents
Professionnel Documents
Culture Documents
Biostatistiques
STATISTIQUES DESCRIPTIVES
2022-23
2
Cours Galien Lyon Sud – 2022/2023
PASS – Biostatistiques – Statistiques descriptives
Pour ce cours, la prof le divise en 2 parties mais je vous le mets en un seul chapitre ce qui est plus simple pour l’apprendre. Je
vous ai mis son résumé de la fin de la 1ère partie entre les 2 chapitres pour voir la séparation.
Ce qu’il y a en italique, ce sont : soit des exemples / explications des professeurs, soit des explications de compréhension que
je vous ai rajoutées. Ce sont surtout des notions d’illustration et c’est pour aider à l’apprentissage.
Les statistiques descriptives sont basées sur le recueil de données. Les statistiques servent à prédire et expliquer.
On cherche quel traitement est le meilleur, quelle décision est la meilleure. Ce sont les modèles statistiques qui
aident à prendre ces décisions. Elles sont incontournables.
I. Position du problème
3
Cours Galien Lyon Sud – 2022/2023
PASS – Biostatistiques – Statistiques descriptives
Notion de variable aléatoire discrète :
- Ne peuvent prendre que des valeurs isolées. Exemple : VA représentant le genre.
- En nombre fini ou infini mais nombre fini sur un intervalle donné.
- Codage : Cas des variables qualitatives et des variables quantitatives de dénombrement. Par exemple,
on va coder la couleur des yeux (marron = 1, bleu = 2 …).
Si on fait la somme du nombre de variables (du nombre de filles par exemple) on obtient l’effectif. Si on divise cet
effectif par l’effectif total, on obtiendra la fréquence.
Outils utilisés :
o Graphiques (histogramme, box-plot, …)
o Indicateur numérique (moyenne, écart-type, étendue, fréquence, …)
o Tableaux (de contingence, de fréquences, …)
C. Quelques définitions
Partie non traitée, mais ce sont des notions essentielles à saisir pour la suite !
Population : ensemble (généralement très grand constitué d’individus sur lequel on veut étudier une
caractéristique).
Échantillon : sous ensemble d’individus issus de la population, sur lequel on va réaliser l’étude. La taille de
l’échantillon se note « n ».
4
Cours Galien Lyon Sud – 2022/2023
PASS – Biostatistiques – Statistiques descriptives
Variable : caractéristique étudiée sur les individus d’un échantillon :
- On appelle modalités d’une variable les différentes valeurs prises par cette variable.
- On peut résumer les informations sur une variable d’un échantillon par des indicateurs.
A. Indicateurs de position :
n
1
m= ∑ ❑ xi
n i=1
5
Cours Galien Lyon Sud – 2022/2023
PASS – Biostatistiques – Statistiques descriptives
6+12+..+11
Exemple : a⃗
'
l âge :m= =8 , 6
303
2443 , 5
Exemple : m= =8 , 1
303
🡪 Les quartiles : séparent un échantillon ordonné en ordre croissant en 4 groupes de même effectif.
- Pour les variables quantitatives ou qualitatives ordinales.
- S’expriment avec une unité. Ce sont des valeurs prises par la variable, ce ne sont pas des pourcentages.
- Il faut tout d’abord prendre les valeurs et les trier par ordre croissant. Il est alors possible de les
interpréter.
● 25% des valeurs observées sont inférieures au premier quartile Q1
🡪 Les percentiles : séparent l’échantillon ordonné en ordre croissant en 100 groupes de même effectif =
généralisation des quartiles.
● S’expriment avec une unité.
● Exemples : 99% des valeurs observées sont inférieures au 99 ème percentile. 1% des individus ont une valeur inférieure
au 1er percentile.
6
Cours Galien Lyon Sud – 2022/2023
PASS – Biostatistiques – Statistiques descriptives
🡪 Les fractiles p (ou quantile) : une proportion p d’individus ont une valeur inférieure au fractile p.
B. Indicateurs de dispersion :
🡪 Étendue de variation = Range : différence entre la plus grande et la plus petite des valeurs :
Maximum - minimum
IQR = Q3 – Q1
n i=1 n
● Variance estimée dans la population (estimation de σ² la vraie variance théorique dans la population).
Dans la formule ci-dessous, (n – 1) est un degré de liberté :
n
1 SCE
2
s= ∑
n−1 i=1
2
❑ ( xi−m ) =
n−1
● Avec : SCE : Somme du Carré des Écarts des valeurs de l'échantillon à leur moyenne m : (ne pas retenir la
formule)
(∑ )
n
SCE= ❑ x2i −n x m²
i=1
🡪 Ecart-type = Standard Deviation (SD) : c’est la racine carrée positive de la variance :σ =√ variance
● L’unité de l’écart-type est l’unité de la variable.
● Toujours positif
7
Cours Galien Lyon Sud – 2022/2023
PASS – Biostatistiques – Statistiques descriptives
● Estimation de l’écart-type de la population (estimation de σ le vrai écart-type théorique dans la
population) :
√ √
n
1 SCE
SD=s=√ s ²= ∑
n−1 i=1
❑ ( x i−m) ²=
n−1
🡪 Coefficient de variation : permet de comparer la variabilité de deux variables n’ayant pas les mêmes unités.
● Le coefficient de variation est sans unité.
s
cν =
m
🡪 Erreur type de la moyenne = écart-type de la moyenne = Standard error of the mean ( sem) : estimation de
l’écart-type théorique de la variable aléatoire qui permet d’estimer la VRAIE moyenne de la population :
● Caractérise la variabilité de la moyenne.
s
sem=
√n
● Tableau de contingence :
8
Cours Galien Lyon Sud – 2022/2023
PASS – Biostatistiques – Statistiques descriptives
● Diagramme en barres : la hauteur correspond à l’effectif des modalités.
● Calcul de la variance :
s2=f ( 1−f )
Exemple : de la présence de fille.
● Tableau de contingence :
9
Cours Galien Lyon Sud – 2022/2023
PASS – Biostatistiques – Statistiques descriptives
3. Variable d’étude qualitative ordinale :
● Tableau de contingence :
● Q3 est donc la sévérité 1 car c’est le 1 er niveau de la variable auquel au moins 75% des
valeurs sont inférieures à Q3.
Mode : 1,3 m
Centre de la classe
Nombre de classe entre 5 et 20
Effectifs
Mesure du caractère
● Plus la largeur Δ𝑥 des classes est faibles, plus les effectifs ni et les fréquences fi par classe diminuent :
Δ x → 0⇒ ni → 0 ⇒ f i → 0
11
Cours Galien Lyon Sud – 2022/2023
PASS – Biostatistiques – Statistiques descriptives
🡪 Histogramme des densités (di) de fréquences :
Densité
Mesure du caractère
- Utilisable pour les variables définies par classes
- Hauteur du rectangle est la densité de fréquence :
Effectif ( i ) fi
densité ( i )= d i=
n× Largeur ( i ) Δx i
- Plus la largeur de la classe Δxi est faible, plus la fréquence fi de la classe diminue
- La surface de l’histogramme est égale à 1 = la probabilité d’un événement certain.
- La surface du rectangle d’une classe correspond alors à sa fréquence.
n 303
Min 0.40
Q1 1.20
Q2 1.28
Q3 1.40
Max 1.79
12
Cours Galien Lyon Sud – 2022/2023
PASS – Biostatistiques – Statistiques descriptives
m 1.27
s ou SD 0.21
Max-min 1.39
IQR : Q3-Q1 0.20
sem 0.012
X : Taille (m)
13
Cours Galien Lyon Sud – 2022/2023
PASS – Biostatistiques – Statistiques descriptives
Groupe : 1 (consultation) 0 (milieu scolaire)
● Pour comparer les distributions observées de deux variables qualitatives :
Diagramme en bandes
Nuage de points : On étudie le lien entre deux variables quantitatives et on fait apparaître visuellement les variations d’une
variable en fonction de l’autre.
14
Cours Galien Lyon Sud – 2022/2023
PASS – Biostatistiques – Statistiques descriptives
IV. Résumé
Type de données
Qualitatives Quantitatives
Modalités : Noms sans ordre Numériques
Binaires (2 catégories) Résultat d’un comptage
Nominales (> 2 catégories) Résultat d’une mesure
Modalités ordonnées
Ordinales
● Coefficient de variation
1. Distribution observée :
🡪 Densité de probabilité :
- Si on augmente la taille de l’échantillon et qu’on diminue la largeur des classes, la distribution observée
sur l’échantillon se rapproche de la distribution théorique dans la population.
- P ( X=x ) =0
16
Cours Galien Lyon Sud – 2022/2023
PASS – Biostatistiques – Statistiques descriptives
- P ( x< X ≤ x +dx )=f ( x ) dx
- La surface de l'histogramme vaut 1 = somme des probabilités élémentaires f(x)dx
B. Loi normale X → N (μ , σ ) :
X → N (μ , σ ) (Signifie que la variable aléatoire X suit une loi normale de moyenne μ et d’écart type σ ).
Courbe :
- Densité symétrique par rapport à la verticale passant par μ.
- Moyenne théorique = médiane = mode
- Incurvation aux points d’inflexion en :
▪ μ–𝜎
17
Cours Galien Lyon Sud – 2022/2023
PASS – Biostatistiques – Statistiques descriptives
▪ μ+𝜎
- Densité de probabilité normalisée à 1 (courbe de droite) : il est certain d'observer une valeur x de X entre
- l'infini et + l'infini. La probabilité de cet événement vaut 1.
( )
2
−1 x−μ
Formule : 1 2 σ
f ( x , μ ,σ )= e (formule pas à connaître)
σ √2 π
Probabilités :
- Surface totale :
+∞
P (−∞ ≤ X ≤+ ∞ ) =∫ ❑ f ( x ) dx=1
−∞
- Surface de chaque côté de μ :
P ( X ≤ μ )=P ( X ≥ μ )=0 , 5
2. Fonction de répartition
Quand la variable aléatoire est continue, les probabilités sont définies sur des
intervalles car :
P(X = a) = 0
P (X ≤ μ – a) = P(X ≥ μ + a) = p
18
Cours Galien Lyon Sud – 2022/2023
PASS – Biostatistiques – Statistiques descriptives
P (X ≤ μ – a) = 1 – P(X ≤ μ + a)
P (X ≤ μ – a) = 1 – F(μ + a) = p
X → N (μ , σ ) U → N (0 , 1)
( )
2
1 x−μ 1
1 – 2 (u )
2
−
1 2 σ
f ( u , 0 , 1 )= e
f ( x , μ ,σ )= e
σ √2 π √2 π
Passer de X à U :
- Retrancher μ à X (on centre X)
- Puis diviser par σ (on réduit (X – μ))
1 μ
▪ U=σ X−σ
19
Cours Galien Lyon Sud – 2022/2023
PASS – Biostatistiques – Statistiques descriptives
μ
- On change les unités de X, expression en unité d'écart-type puis translation de –
σ
X−μ
- U= → N ( 0 ,1 ). Cette formule est importante à connaître !
σ
Passer de U à X :
- Multiplier U par σ (toujours positif)
- Puis ajouter μ
- X =μ+Uσ → N (μ , σ )
Exemple : pour une loi normale de vraie moyenne (théorique) 100 et de vrai écart-type (théorique) 2.5 : quelle est la valeur de
u correspondant à x=105 ?
X −μ 105−100
u= = =2
σ 2 ,5
Ce calcul est à maîtriser car au concours il y a un QCM sur les stat’ et soit c'est sur ce genre de calcul soit
c'est un calcul de l’aire sous la courbe avec les probabilités. Dans ce cours, VRAI = THEORIQUE pour les
paramètres.
Si x est donné :
- Calcul de u:
x−μ
▪ u=
σ
- Lecture de p au centre de la table de la fonction de répartition de U tabulée, en partant du u trouvé en
marges.
Si p est donné :
- Lecture de u en marges de la table de la fonction de répartition de U tabulée, en partant du p donné au
centre de la table.
- Calcul de x :
▪ x=μ+uσ
P ( U ≤0 )=Φ ( 0 )=0 , 5
P ( U ≥u )=1−P ( U ≤u )=1−Φ (u )= p
P ( U ≤−u )=1−Φ ( u ) =p
Φ (−u )=1−Φ (u)
U → N (0 , 1)
Φ ( u p )=P ( U ≤u p )= p
u p : fractile p de la loi de U
21
Cours Galien Lyon Sud – 2022/2023
PASS – Biostatistiques – Statistiques descriptives
3. Utilisation de la fonction de répartition tabulée :
🡪 Lecture de la table :
P (U ≥ 1.04) = 1 – P (U ≤ 1.04)
= 1 – Φ (1.04)
= 1 – Φ (0.8508)
= 0.1492
P (U ≤ -0.81) = Φ (-0.81)
= 1 – Φ (0.81)
= 1 – 0.7910
= 0.2090
🡪 Exercices :
X → N (μ, σ)
Si la loi de X est complètement définie, loi normale de moyenne théorique et écart-type théorique connus.
Avec l'équation suivante : P(X ≤ a) = p
1. Connaissant a, on peut trouver p
2. Connaissant p, on peut trouver a
En effet :
P ( X ≤ a )=P U ≤( a−u
σ
=p )
a−μ
up= ⇒ a=μ +u p σ
σ
EXERCICE 1 :
Pour une loi normale de moyenne théorique 100 et d’écart-type théorique 2.5 : quelle est la probabilité
d’observer une valeur de X inférieure à 102.5 ?
EXERCICE 2 :
Pour une loi normale de moyenne 100 et d'écart-type 2.5 : quelle est la probabilité d'observer une valeur de X
inférieure à 97.5 ?
22
Cours Galien Lyon Sud – 2022/2023
PASS – Biostatistiques – Statistiques descriptives
EXERCICE 3 :
X suit une loi normale de vraie moyenne (théorique) 150 et de vrai écart-type (théorique) 10.
On a 70.19% de chances d'observer X en-dessous de quelle valeur a ?
1) Trouver a tel que :
P ( X ≤ a )=0 ,7
2) Commencer par trouver u0.7019
Réponses :
(
1) P ( X ≤ a )=P U ≤
a−μ
σ )
=P ( U ≤ u0,7019 ) =0,7019
2) X → N ( 150 , 10 )
P ( U ≤u 0,7019 ) =0,7019
(
P ( X ≤ a )=P U ≤
a−μ
σ )
=0,7019
a−μ
u0,7019 =
σ
Donc a=μ+u0,7019 σ
a=150+0 , 53 x 10
a=155 , 3
EXERCICE 4 :
X suit une loi normale de vraie moyenne 10 et de vrai écart-type 2.
1) Quelle est la probabilité d’observer X entre 7 et 12 ?
2) P (7 ≤ X ≤ 12) ?
Réponses :
X → N ( 10 , 2 )
23
Cours Galien Lyon Sud – 2022/2023
PASS – Biostatistiques – Statistiques descriptives
( 7−µ
P=P ( 7 ≤ X ≤12 )=P
σ
≤
X−µ 12−µ
σ
≤
σ )
P=P (
2 )
7−10 12−10
≤U ≤ =P (−1 ,5 ≤ U ≤1 )
2
P=P ( U ≤ 1 )−P ( U ≤−1 ,5 )=P ( U ≤ 1 )− [ 1−P (U ≤+1 , 5 ) ]
P=P ( U ≤ 1 )+ P ( U ≤+1 , 5 )−1
P=Φ ( 1 )+ Φ ( 1 ,5 )−1
P=0,8413+0,9332−1=0,7745
P ( 7 ≤ X ≤ 12 )=0,7745
La table donne la probabilité 𝛔 pour que l’écart-réduit égale ou dépasse, en valeur absolue, une valeur donnée ε,
c'est-à-dire la probabilité extérieure à l’intervalle (- ε, + ε).
24
Cours Galien Lyon Sud – 2022/2023
PASS – Biostatistiques – Statistiques descriptives
U à 95% de chances d’être observée dans l’intervalle] -1,96 ; 1,96[
5. Loi de Student :
petite sœur de la loi normale centrée réduite :
Caractérisation :
Par des degrés de liberté ddl ou ν :
- La courbe est écrasée si le nombre de ddl est faible.
- La courbe ressemble à une loi normale si le nombre de ddl tend vers l’infini.
25
Cours Galien Lyon Sud – 2022/2023
PASS – Biostatistiques – Statistiques descriptives
Loi de probabilité de la variable de Student notée T.
Calculs de probabilités :
- T a une chance de (1 – α) d’être dans l’intervalle] -t ; t[:
P (−t<T <+t )=1−α
Symétrie :
α
P ( T ≥+t )=P ( T ≤−t )=
2
26
Cours Galien Lyon Sud – 2022/2023
PASS – Biostatistiques – Statistiques descriptives
Cette loi ressemble beaucoup à la loi normale dans les formules, qui sont quasi les mêmes, avec
tout de même quelques variantes. La grande différence est pour les tests d’hypothèses. La loi
normale est utilisée pour les grands échantillons (n ≥ 30). On applique la loi de Student lorsque la loi
normale ne s’applique pas.
La prof détaillera cette table dans le cours 7 sur les petits échantillons.
D. Résumé :
Signifie la variable aléatoire suit une loi normale de moyenne théorique et d’écart
X → N (μ , σ )
type théorique .
X−µ
U= → N (0 , 1)
σ
27
Cours Galien Lyon Sud – 2022/2023
PASS – Biostatistiques – Statistiques descriptives
→ Conservation des probabilité
Exercice 2 :
Le taux de triglycérides des sujets d’une population P peut être représenté par une variable aléatoire X de loi
normale, de moyenne théorique ( μ=1 , 3) et d’écart-type théorique (σ =0 , 5). Les valeurs sont exprimées en g/L.
On donne les valeurs suivantes de la fonction de répartition de la loi normale centrée réduite :
Question 02. Quelle est la probabilité pour un sujet de cette population P de présenter un taux de cholestérol
inférieur ou égal à 1,2g/L ? Parmi les propositions suivantes, vous cocherez la proposition exacte :
A) 0,98
B) 0,02
C) 0,58
D) 0,42
E) Les données ne permettent pas de faire le calcul
Réponses : D
X−μ
D. VRAI Pour passer d’une loi normale à une loi normale centrée réduite, on sait que : U =
σ
On cherche :
P ( X ≤1 , 2 )=P ( X −μ
σ
≤
1 , 2−μ
σ )=P (U ≤
1 , 2−1 , 3
0,5 ) =P (U ≤
−0 , 1
0,5 )=P (U ≤− )=P ( U ≤−0 ,2 ) =1−P ( U ≤0 , 2 )=
1
5
Exercice 5 :
La figure 2 représente les distributions des marqueurs NT-proBNP (à gauche) et ST2 (à droite) chez les patients
avec hypertrophie (ventriculaire gauche) et les patients sans hypertrophie, sous forme de boxplot.
28
Cours Galien Lyon Sud – 2022/2023
PASS – Biostatistiques – Statistiques descriptives
Question 07. Sans considérer la significativité statistique, vous cocherez la (ou les) proposition(s) exacte(s)
parmi les propositions suivantes :
A) L’aire sous la courbe ROC du marqueur NT-proBNP devrait être supérieure à celle du marqueur ST2
B) L’aire sous la courbe ROC du marqueur NT-proBNP devrait être inférieure à celle du marqueur ST2
C) Pour le NT-proBNP, la distribution la moins symétrique est celle des patients avec hypertrophie
D) Pour la ST2, plus de 50% des patients avec hypertrophie ont un ST2 supérieur à 6
E) La taille des moustaches dépend toujours de la hauteur de la boîte
Réponses : ACD
A, B. Plus l’aire sous la courbe ROC d’un test est élevée, plus cela veut dire qu’il est efficace c'est-à-dire qu’il
arrive à distinguer les malades des non-malades. Pour faire une correspondance avec le boxplot, le meilleur test
est celui dont les deux boîtes à moustaches (malades/non malades) sont les plus différentes (les parties
centrales qui correspondent à Q1-Q3 se chevauchent le moins possible). Ainsi, le marqueur NT-proBNP a une
aire sous la courbe supérieure à celle du marqueur ST2.
C. VRAI : Sur un boxplot, pour déterminer la symétrie d’une distribution, on regarde Q2=médiane (trait
horizontal au milieu de la boîte). Plus Q2 est au milieu du rectangle, plus la distribution est symétrique. Sur le
boxplot NT-proBNP (celui de gauche), on voit que la médiane des patients sans hypertrophie est plus au centre
que celui des patients avec hypertrophie donc la distribution est plus symétrique.
D. VRAI : Sur le boxplot de droite, on voit que 6 correspond à Q1 = 1er quartile, ce qui veut dire que 75% des
patients de ce groupe ont un ST2 supérieur à 6. Dans l’énoncé, on parle de « plus de 50% » or 75%>50% donc
l’item est juste.
E. La taille des moustaches dépend des valeurs du groupe/échantillon et non pas de la hauteur de la boîte.
2017-2018
Exercice 3 :
On considère que le score d’un questionnaire d’évaluation de la qualité de vie est normalement distribué dans la
population P, de moyenne théorique 54 et de variance théorique 16.
Dans cette population quelle est la proportion théorique de sujets avec un score final inférieur à 50 ?
On donne les valeurs suivantes de la fonction de répartition de la loi normale centrée réduite :
29
Cours Galien Lyon Sud – 2022/2023
PASS – Biostatistiques – Statistiques descriptives
P(U ≤ u) 0,60 0,69 0,77 0,84 0,89 0,93 0,96 0,98
Question 03. Parmi les propositions suivantes, vous cocherez la proposition exacte :
A) 0,16
B) 0,40
C) 0,60
D) 0,84
E) Aucune des propositions précédentes n’est exacte.
Réponses : A
A. On cherche P ( X <50 ) sachant que X → N (μ=54 ; σ= √ 16=4 )
P ( X <50 ) =P
( X−μ
σ
<
50−54
√16 )=P (U <
4 )
−4
=P ( U ←1 )=1−P (U <1 )=1−0 , 84=0 ,16
Exercice 1 :
Les 4 distributions ci-dessous ont la même étendue. Chaque distribution représentée par un histogramme
correspond à une seule boîte de dispersion (boîte à moustaches" ou boxplot).
QCM 1 : Parmi les propositions suivantes, cochez la (ou les) proposition(s) exacte(s) :
31
Cours Galien Lyon Sud – 2022/2023
PASS – Biostatistiques – Statistiques descriptives