Vous êtes sur la page 1sur 31

CAHIER PASS

Biostatistiques

STATISTIQUES DESCRIPTIVES

2022-23

Cours Galien Lyon Sud – 2022/2023


PASS – Biostatistiques – Statistiques descriptives
Table des matières
I. Position du problème......................................................................................................................................................3
A. Exemple, type de variable et codage :.............................................................................................................................3
1. Type de variable d’étude (point de vue de l’expérimentateur) :.................................................................................3
2. Type de variables aléatoires (VA) (point de vue du statisticien) :................................................................................3
B. Objectifs des statistiques descriptives :...........................................................................................................................4
C. Quelques définitions....................................................................................................................................................... 4
II. Les différents indicateurs................................................................................................................................................5
A. Indicateurs de position :..................................................................................................................................................5
B. Indicateurs de dispersion :.............................................................................................................................................. 7
III. Les représentations unidimensionnelles.........................................................................................................................8
A. Variables d’étude qualitatives/semi-quantitatives :........................................................................................................8
1. Variable d’étude qualitative binaire :..........................................................................................................................8
2. Variable d’étude qualitative nominale :......................................................................................................................9
3. Variable d’étude qualitative ordinale :........................................................................................................................9
B. Variables d’étude quantitatives :...................................................................................................................................10
1. Variable quantitative essentiellement continue ou de dénombrement (avec suffisamment de niveaux, au moins 8
dans ce cours) :.................................................................................................................................................................. 10
C. Les représentations bidimensionnelles :.......................................................................................................................13
1. Variables d’étude qualitatives :.................................................................................................................................13
2. Variables d’études quantitatives :.............................................................................................................................13
IV. Résumé..........................................................................................................................................................................14
V. La loi normale ou Gaussienne........................................................................................................................................15
A. D’une distribution observée à une distribution théorique :..........................................................................................15
1. Distribution observée :..............................................................................................................................................15
2. Distribution théorique ou densité de probabilité :....................................................................................................16
B. Loi normale X → N (μ , σ ) :........................................................................................................................................16
1. Distribution théorique ou Densité de probabilité :...................................................................................................16
2. Fonction de répartition.............................................................................................................................................17
C. Loi normale centrée réduite :........................................................................................................................................18
1. Passage d’une loi normale à la loi centrée réduite :..................................................................................................18
2. Fonction de répartition tabulée Φ à partir de la loi normale U → N (0 , 1):..........................................................20
3. Utilisation de la fonction de répartition tabulée :.....................................................................................................21
4. Table de l’écart réduit :.............................................................................................................................................23
5. Loi de Student : petite sœur de la loi normale centrée réduite :...............................................................................24
D. Résumé :........................................................................................................................................................................26
VI. ANNALES CLASSEES CORRIGEES....................................................................................................................................27

2
Cours Galien Lyon Sud – 2022/2023
PASS – Biostatistiques – Statistiques descriptives
Pour ce cours, la prof le divise en 2 parties mais je vous le mets en un seul chapitre ce qui est plus simple pour l’apprendre. Je
vous ai mis son résumé de la fin de la 1ère partie entre les 2 chapitres pour voir la séparation.
Ce qu’il y a en italique, ce sont : soit des exemples / explications des professeurs, soit des explications de compréhension que
je vous ai rajoutées. Ce sont surtout des notions d’illustration et c’est pour aider à l’apprentissage.

Les statistiques descriptives sont basées sur le recueil de données. Les statistiques servent à prédire et expliquer.
On cherche quel traitement est le meilleur, quelle décision est la meilleure. Ce sont les modèles statistiques qui
aident à prendre ces décisions. Elles sont incontournables.

I. Position du problème

A. Exemple, type de variable et codage :

1. Type de variable d’étude (point de vue de l’expérimentateur) :

🡪 Variable qualitative non ordonnée (catégorielle) : nominales/catégorielles


o Pas de relation d’ordre entre les différentes modalités. Exemples : villes de France, localisation d’une
douleur.
o Variable binaire ou dichotomique : 2 modalités (présence/absence) (oui/non). Exemples :
malade/non malade ; homme/femme ; groupe {1 : consultation, 0 : hors consultation}.
o Variable polytomique/ nominale : Nombre de modalités (niveaux/catégories) > 2. Exemples :
fratrie {EU (enfant unique), A (ainé), M (milieu), C (cadet), couleur des yeux.
o Ordinale (classée avant comme variable semi-quantitative ordonnée) : : nombre de modalités ≤ 7.
Relation d’ordre entre les modalités
Exemples : Sévérité (0 (aucune), 1 (stade 1), 2 (stade 2), 3 (stade 3)), intensité d’une douleur, d’une réaction
inflammatoire (faible, moyenne, forte), taille d’une tumeur (petite, moyenne, volumineuse) …

🡪 Variable quantitative (résultats numériques) :


o Données de comptage : résultat d’un comptage (les valeurs possibles sont des nombres entiers).
Exemples : score du questionnaire entre 26 et 130 (addition des sous scores par items), nombre de décès,
nombre de colonies dans boîte de pétri.
o Continue : résultat d’une mesure (les valeurs possibles sont dans un intervalle réel) .
Exemples : poids, taille, pression artérielle, temps, âge non réduit en classes.

2. Type de variables aléatoires (VA) (point de vue du statisticien) :

Notion de variable aléatoire (variable toujours numérique) :


- Variable associée à une épreuve aléatoire. Exemple : tirer au hasard un sujet dans une population donnée
et regarder quel est son genre ? Avant de tirer au hasard, je ne connaissais pas le sexe de la personne,
c’est donc bien une variable aléatoire.
- Valeur numérique non connue à l’avance. Exemple : le genre non connu à l’avance.
- Certaines valeurs numériques avec une probabilité. Exemple : on a une probabilité p de tirer une femme.
- Ces variables suivent des lois de probabilités.

3
Cours Galien Lyon Sud – 2022/2023
PASS – Biostatistiques – Statistiques descriptives
Notion de variable aléatoire discrète :
- Ne peuvent prendre que des valeurs isolées. Exemple : VA représentant le genre.
- En nombre fini ou infini mais nombre fini sur un intervalle donné.
- Codage : Cas des variables qualitatives et des variables quantitatives de dénombrement. Par exemple,
on va coder la couleur des yeux (marron = 1, bleu = 2 …).

Notion de variable aléatoire continue :


- Peuvent prendre une infinité de valeurs sur un intervalle donné. Exemple : VA représentant le poids d’un sujet
d’une population.
- Codage : Cas des variables quantitatives continues.

Notion de variable aléatoire continue de nature mais discrétisée en classes :


- Réduction de la variable en classe. Exemple : classes d’âge.
- Nombre d’individus (effectif) dans chaque classe d’âge.
- Perte d’information : nous n’avons plus les valeurs individuelles mais seulement les effectifs par classe.

Si on fait la somme du nombre de variables (du nombre de filles par exemple) on obtient l’effectif. Si on divise cet
effectif par l’effectif total, on obtiendra la fréquence.

B. Objectifs des statistiques descriptives :

Objectifs de la statistique descriptive :


o Valider les données
o Résumer l’information

Outils utilisés :
o Graphiques (histogramme, box-plot, …)
o Indicateur numérique (moyenne, écart-type, étendue, fréquence, …)
o Tableaux (de contingence, de fréquences, …)

Le type d’outils dépend :


o Du type de variables (qualitative ou quantitative)
o De la nature de la série (une seule ou plusieurs variables à la fois)

C. Quelques définitions

Partie non traitée, mais ce sont des notions essentielles à saisir pour la suite !

Population : ensemble (généralement très grand constitué d’individus sur lequel on veut étudier une
caractéristique).

Échantillon : sous ensemble d’individus issus de la population, sur lequel on va réaliser l’étude. La taille de
l’échantillon se note « n ».

4
Cours Galien Lyon Sud – 2022/2023
PASS – Biostatistiques – Statistiques descriptives
Variable : caractéristique étudiée sur les individus d’un échantillon :
- On appelle modalités d’une variable les différentes valeurs prises par cette variable.
- On peut résumer les informations sur une variable d’un échantillon par des indicateurs.

Variable contrôlée : variable dont on connaît les valeurs à l’avance.

Point de vue de l’expérimentateur Point de vue du statisticien


● Êtres humains en nombre fini avec des ● Ensemble infini de valeurs numériques
Population
critères d’inclusion et d’exclusion individuelles (distribution théorique)
Données ● Caractère ou caractéristique d’une personne ● Variable aléatoire (VA) par type de
d’intérêt caractère mesuré
● Recrutement d’un certain nombre de sujets ● Composé de n valeurs numériques
(n) de la population selon des critères observées par VA extrait de la
Echantillon
d’inclusion et d’exclusion qui vont définir une population parente infinie
population particulière

II. Les différents indicateurs

A. Indicateurs de position :

🡪 Le mode : Valeur la plus fréquente


- Pour les variables qualitatives ou quantitatives discrétisées en classe.
- Pour une variable continue regroupée en classes : le mode est le centre de la classe qui a le plus grand
effectif.
- Le mode est le seul indicateur pouvant être utilisé pour tous les types de variables.
- Le mode est le seul indicateur ayant un sens pour les variables qualitatives nominales.
- Pour une variable qualitative ou quantitative discrète : c’est la valeur x qui a le plus grand effectif ou la plus grande
fréquence.

🡪 La moyenne : Moyenne algébrique = mean


- Plus sensible aux valeurs extrêmes que la médiane.
- Si la variable est binaire, on parle de fréquence.
- Plus rarement utilisée pour les valeurs quantitatives.
- Estimation de μ la vraie moyenne théorique dans la population : Les formules sont davantage à
comprendre qu’à apprendre. La prof a précisé que vu qu’au concours, il n’y a pas de calculatrice, on ne
vous demandera pas ce genre de calcul.
o Sur une série de n valeurs individuelles, x1, …, xn

n
1
m= ∑ ❑ xi
n i=1

5
Cours Galien Lyon Sud – 2022/2023
PASS – Biostatistiques – Statistiques descriptives
6+12+..+11
Exemple : a⃗
'
l âge :m= =8 , 6
303

o Sur une série discrète de k valeurs ni (sévérité : entiers de 0 à 3) :


k
1
∑ ❑ ni ν i
m=
n i=1
169 ×0+ 82×1+32 × 2+ 20× 3
Exemple : k = 4 : m= =0 , 68
303

o Sur une série de valeurs continues discrétisées en k classes de centre ci :


k
1
m= ∑ ❑ ni ci
n i=1

Age (ans) (0,5] [5,10] (10,15] (15,16] Total


Effectifs ni 35 206 50 12 303
Centre ci 2,5 7,5 12,5 15,5
nici 87,5 1545 625 186 2443,5

2443 , 5
Exemple : m= =8 , 1
303

🡪 La médiane : 50% des données sont inférieures à la médiane.


- Pour les variables qualitatives ordinales ou quantitatives.
- Sépare un échantillon ordonné en ordre croissant en 2 groupes de même effectif.

🡪 Les quartiles : séparent un échantillon ordonné en ordre croissant en 4 groupes de même effectif.
- Pour les variables quantitatives ou qualitatives ordinales.
- S’expriment avec une unité. Ce sont des valeurs prises par la variable, ce ne sont pas des pourcentages.
- Il faut tout d’abord prendre les valeurs et les trier par ordre croissant. Il est alors possible de les
interpréter.
● 25% des valeurs observées sont inférieures au premier quartile Q1

● 50% des valeurs observées sont inférieures au deuxième quartile Q2 = médiane

● 75% des valeurs observées sont inférieures au troisième quartile Q3

🡪 Les percentiles : séparent l’échantillon ordonné en ordre croissant en 100 groupes de même effectif =
généralisation des quartiles.
● S’expriment avec une unité.

● Exemples : 99% des valeurs observées sont inférieures au 99 ème percentile. 1% des individus ont une valeur inférieure
au 1er percentile.

6
Cours Galien Lyon Sud – 2022/2023
PASS – Biostatistiques – Statistiques descriptives
🡪 Les fractiles p (ou quantile) : une proportion p d’individus ont une valeur inférieure au fractile p.

B. Indicateurs de dispersion :

🡪 Étendue de variation = Range : différence entre la plus grande et la plus petite des valeurs :
Maximum - minimum

🡪 Étendue interquartile = InterQuartile Range (IQR) :


● Pour les variables semi-quantitative et quantitative

● L’étendue interquartile contient 50% des valeurs

IQR = Q3 – Q1

🡪 Variance : indique la variabilité des données.


● L’unité de la variance est l’unité au carré de la variable.

● Quand l’échantillon est petit, la variance n’est pas le reflet de la réalité.

● Variance de ou dans l'échantillon :


n
1 SCE
se ²= ∑ ❑ ( xi−m ) =
2

n i=1 n

● Variance estimée dans la population (estimation de σ² la vraie variance théorique dans la population).
Dans la formule ci-dessous, (n – 1) est un degré de liberté :
n
1 SCE
2
s= ∑
n−1 i=1
2
❑ ( xi−m ) =
n−1

● Avec : SCE : Somme du Carré des Écarts des valeurs de l'échantillon à leur moyenne m : (ne pas retenir la
formule)

(∑ )
n
SCE= ❑ x2i −n x m²
i=1

🡪 Ecart-type = Standard Deviation (SD) : c’est la racine carrée positive de la variance :σ =√ variance
● L’unité de l’écart-type est l’unité de la variable.

● Toujours positif

7
Cours Galien Lyon Sud – 2022/2023
PASS – Biostatistiques – Statistiques descriptives
● Estimation de l’écart-type de la population (estimation de σ le vrai écart-type théorique dans la
population) :

√ √
n
1 SCE
SD=s=√ s ²= ∑
n−1 i=1
❑ ( x i−m) ²=
n−1

🡪 Coefficient de variation : permet de comparer la variabilité de deux variables n’ayant pas les mêmes unités.
● Le coefficient de variation est sans unité.

● Souvent exprimé en pourcentage.

● Estimation du coefficient de variation de la population :

s
cν =
m

🡪 Erreur type de la moyenne = écart-type de la moyenne = Standard error of the mean ( sem) : estimation de
l’écart-type théorique de la variable aléatoire qui permet d’estimer la VRAIE moyenne de la population :
● Caractérise la variabilité de la moyenne.

● L’unité de la sem est l’unité de la variable.

s
sem=
√n

III. Les représentations unidimensionnelles

A. Variables d’étude qualitatives/semi-quantitatives :

1. Variable d’étude qualitative binaire :

● Tableau de contingence :

▪ n : effectif total (exemple : 303 dans le tableau ci-contre)

▪ n1 : effectif de la modalité codée par 1 (exemple : 138


dans le tableau ci-contre)

▪ (46) : correspond à la fréquence de fille dans l’échantillon. (Correspond à 138/303)

8
Cours Galien Lyon Sud – 2022/2023
PASS – Biostatistiques – Statistiques descriptives
● Diagramme en barres : la hauteur correspond à l’effectif des modalités.

● Calcul de la fréquence = moyenne de l’échantillon :


n1
f=
n
138
Exemple : de la fréquence de fille : f = =0 , 46
303

● Calcul de la variance :

s2=f ( 1−f )
Exemple : de la présence de fille.

2. Variable d’étude qualitative nominale :

● Tableau de contingence :

▪ n : effectif total (exemple : 303 dans le tableau ci-contre)

▪ n1 : effectif de la modalité (exemple : 37 pour Enfant Unique


dans le tableau ci-contre)(les chiffres entre parenthèses correspondent au pourcentage).
▪ Le nombre entre parenthèses correspond à la
fréquence.

● Diagramme circulaire = camembert : l’angle correspond à la


fréquence des modalités.

● Diagramme en barres : la longueur correspond à la fréquence des


modalités. On voit facilement sur ce diagramme que le mode est 3.

9
Cours Galien Lyon Sud – 2022/2023
PASS – Biostatistiques – Statistiques descriptives
3. Variable d’étude qualitative ordinale :

● Tableau de contingence :

▪ n : effectif total (exemple : 303 dans le tableau ci-contre)

▪ n1 : effectif de la modalité i (exemple : 169 pour la modalité 0).

● Diagramme en barres : la longueur correspond à la fréquence des


modalités.
o Exemple :
● Mode : 0

● Médiane : 0 (car le critère de sévérité 0 contient


au moins 50% des valeurs)
● Q3 : 1 (56% + 27% = 83%)

● Q3 est donc la sévérité 1 car c’est le 1 er niveau de la variable auquel au moins 75% des
valeurs sont inférieures à Q3.

B. Variables d’étude quantitatives :

1. Variable quantitative essentiellement continue ou de dénombrement (avec


suffisamment de niveaux, au moins 8 dans ce cours) :

🡪 Histogramme des effectifs :


Taille échantillon n 303
Minimum min 0.40
Q1 : 1er quartile Q1 1.20
Q2 : médiane Q2 1.28
Q3 : 3ème quartile Q3 1.40
Maximum max 1.79
Moyenne m 1.27
Ecart-type s ou SD 0.21
Etendue max-min 1.39
10
Cours Galien Lyon Sud – 2022/2023
PASS – Biostatistiques – Statistiques descriptives
Intervalle interquartile Q3-Q1 0.20
Ecart-type de la sem 0.012
moyenne

● Exemple : Histogramme de la taille des sujets :

Mode : 1,3 m

Centre de la classe
Nombre de classe entre 5 et 20

Formule de Sturges : nombre de classes = 1 + 3,322 log 10

● Histogramme des effectifs (ni) :

Effectifs

Mesure du caractère

● Utilisable pour les variables définies par classes.

● Hauteur du rectangle est l’effectif ni

● Plus la largeur Δ𝑥 des classes est faibles, plus les effectifs ni et les fréquences fi par classe diminuent :
Δ x → 0⇒ ni → 0 ⇒ f i → 0
11
Cours Galien Lyon Sud – 2022/2023
PASS – Biostatistiques – Statistiques descriptives
🡪 Histogramme des densités (di) de fréquences :

Densité

Mesure du caractère
- Utilisable pour les variables définies par classes
- Hauteur du rectangle est la densité de fréquence :
Effectif ( i ) fi
densité ( i )= d i=
n× Largeur ( i ) Δx i
- Plus la largeur de la classe Δxi est faible, plus la fréquence fi de la classe diminue
- La surface de l’histogramme est égale à 1 = la probabilité d’un événement certain.
- La surface du rectangle d’une classe correspond alors à sa fréquence.

🡪 Boîte à moustaches ou Boxplot :


- Représentation qui fait apparaître les quartiles
- Peuvent être vertical ou horizontal
- Permet d’apprécier le caractère symétrique de la distribution.
▪ Si la distribution est symétrique, on s’attend à ce que :
o La médiane soit au milieu de la boîte à moustache.
o Les moustaches soient identiques.
▪ Si la distribution est peu variable, on s’attend à ce que l’ensemble des valeurs soit dans
l’intervalle 4xIQR = 1,5xIQR de chaque côté de la boîte.
o Les valeurs à l’extérieur de l’intervalle sont des valeurs extrêmes
représentées par des points
o Les valeurs les plus proches des bornes à l’intérieur de l’intervalle
forment l’extrémité des moustaches
o La longueur des moustaches vaut 1,5 fois l’écart interquartile =
InterQuartile Range = IQR

n 303
Min 0.40
Q1 1.20
Q2 1.28
Q3 1.40
Max 1.79

12
Cours Galien Lyon Sud – 2022/2023
PASS – Biostatistiques – Statistiques descriptives
m 1.27
s ou SD 0.21
Max-min 1.39
IQR : Q3-Q1 0.20
sem 0.012

X : Taille (m)

🡪 Représentation usuelle en biologie :


- La hauteur de la barre au-dessus du rectangle est l’écart-type ou l’écart-type estimé de la
moyenne.
- Le dessus du rectangle représente la moyenne.

🡪 Nuage de points ou scatterplot :


2. Si on ne dispose que de peu de valeurs
3. Lorsque les points sont trop proches, on peut faire varier l’abscisse
pour désaligner les points par souci de lisibilité.
4. Permet de représenter les données de deux variables quantitatives en même
temps et ainsi de représenter le lien entre ces variables.

C. Les représentations bidimensionnelles :

1. Variables d’étude qualitatives :

● Description de deux variables qualitatives conjointes :

Tableau de contingence d’effectifs ou de fréquence Diagramme en barres

13
Cours Galien Lyon Sud – 2022/2023
PASS – Biostatistiques – Statistiques descriptives
Groupe : 1 (consultation) 0 (milieu scolaire)
● Pour comparer les distributions observées de deux variables qualitatives :

Diagramme en bandes

2. Variables d’études quantitatives :

Nuage de points : On étudie le lien entre deux variables quantitatives et on fait apparaître visuellement les variations d’une
variable en fonction de l’autre.

L’appréciation de la liaison linéaire entre les


deux variables aléatoires représentant la taille
et le poids respectivement est possible avec le
coefficient de corrélation (cf : cours 8 :
Corrélation et régression linéaire).

1. Une variable qualitative et une


variable quantitative :

Boîte à moustache ou Boxplot par modalité :


on compare la distribution de différents boxplots.

14
Cours Galien Lyon Sud – 2022/2023
PASS – Biostatistiques – Statistiques descriptives
IV. Résumé
Type de données

Qualitatives Quantitatives
Modalités : Noms sans ordre Numériques
Binaires (2 catégories) Résultat d’un comptage
Nominales (> 2 catégories) Résultat d’une mesure

Modalités ordonnées
Ordinales

Description d’un échantillon


Indicateur de position Indicateurs de dispersion
Autour desquelles se dispersent les données Variabilité des données
● Moyenne m ● Variance s2

● Quartiles dont la médiane ● Ecart-type s (Standard Deviation SD)

● Mode ● Étendue (Range)

● Intervalle (ou espace) interquartile

● Coefficient de variation

Échantillon observé et population


Un échantillon observé Population
Indicateurs calculés Paramètres connus ou inconnus
Vrais paramètres (théoriques)
15
Cours Galien Lyon Sud – 2022/2023
PASS – Biostatistiques – Statistiques descriptives
● La moyenne m estimation de μ ● La moyenne théorique μ

● La variance s² estimation de σ² ● La variance théorique σ²

● L’écart type s estimation de σ ● L’écart type théorique σ

● La fréquence f estimation de p (ou π) ● La probabilité ou proportion p (ou π)

V. La loi normale ou Gaussienne

A. D’une distribution observée à une distribution théorique :

1. Distribution observée :

🡪 Histogramme de densité (di) de fréquence :

Histogramme de n valeurs d'une variable aléatoire normale de moyenne μ et d'écart type σ :


- n = 108
- Moyenne théorique = vraie moyenne = μ = 1.27
- Vrai écart-type théorique σ = 0.21
- P(X = x) = 0
fi
- La hauteur des rectangles est d i=
Δx i
- La surface de l’histogramme vaut 1 soit la probabilité d’un événement certain

2. Distribution théorique ou densité de probabilité :

🡪 Densité de probabilité :
- Si on augmente la taille de l’échantillon et qu’on diminue la largeur des classes, la distribution observée
sur l’échantillon se rapproche de la distribution théorique dans la population.
- P ( X=x ) =0

16
Cours Galien Lyon Sud – 2022/2023
PASS – Biostatistiques – Statistiques descriptives
- P ( x< X ≤ x +dx )=f ( x ) dx
- La surface de l'histogramme vaut 1 = somme des probabilités élémentaires f(x)dx

B. Loi normale X → N (μ , σ ) :

1. Distribution théorique ou Densité de probabilité :

🡪 Densité de probabilité d’une loi normale :

X → N (μ , σ ) (Signifie que la variable aléatoire X suit une loi normale de moyenne μ et d’écart type σ ).

X : variable aléatoire continue représentant la Taille


f(x) : densité de probabilité de X

Courbe :
- Densité symétrique par rapport à la verticale passant par μ.
- Moyenne théorique = médiane = mode
- Incurvation aux points d’inflexion en :
▪ μ–𝜎

17
Cours Galien Lyon Sud – 2022/2023
PASS – Biostatistiques – Statistiques descriptives
▪ μ+𝜎
- Densité de probabilité normalisée à 1 (courbe de droite) : il est certain d'observer une valeur x de X entre
- l'infini et + l'infini. La probabilité de cet événement vaut 1.

( )
2
−1 x−μ
Formule : 1 2 σ
f ( x , μ ,σ )= e (formule pas à connaître)
σ √2 π

Probabilités :
- Surface totale :
+∞
P (−∞ ≤ X ≤+ ∞ ) =∫ ❑ f ( x ) dx=1
−∞
- Surface de chaque côté de μ :
P ( X ≤ μ )=P ( X ≥ μ )=0 , 5

“X = x” : est un événement observé : la variable aléatoire X (majuscule) a pris la valeur numérique x


(minuscule).

2. Fonction de répartition

🡪 Définition de la fonction de répartition :

Quand la variable aléatoire est continue, les probabilités sont définies sur des
intervalles car :
P(X = a) = 0

Définition de la fonction de répartition F d'une variable aléatoire X :


F(a) = P (X ≤ a), pour tout réel a

Les probabilités correspondent à la surface sous la courbe de densité :


a
F ( a )=P ( X ≤ a )= ∫ ❑f ( x ) dx
−∞

🡪 Calcul de probabilité à l’aide de la fonction de répartition :

La densité étant symétrique par rapport à μ :


P (X ≤ μ) = 0.5
F (μ) = 0.5

P (X ≤ μ – a) = P(X ≥ μ + a) = p

18
Cours Galien Lyon Sud – 2022/2023
PASS – Biostatistiques – Statistiques descriptives
P (X ≤ μ – a) = 1 – P(X ≤ μ + a)
P (X ≤ μ – a) = 1 – F(μ + a) = p

P (b ≤ X ≤ c) = P(X ≤ c) – P(X ≤ b) = F(c) – F(b)


Lors de la résolution des exercices, n’hésitez pas à faire une courbe rapide au brouillon, pour avoir une idée du
résultat c'est-à-dire s’il est supérieur ou inférieur de 0,5. L’essentiel c’est de visualiser cette courbe pour vous aider à
calculer plutôt que d’apprendre les formules par cœur sans les comprendre.

C. Loi normale centrée réduite :

1. Passage d’une loi normale à la loi centrée réduite :

🡪 Densité de probabilité de la loi normale centrée réduite :

X → N (μ , σ ) U → N (0 , 1)
( )
2
1 x−μ 1
1 – 2 (u )
2

1 2 σ
f ( u , 0 , 1 )= e
f ( x , μ ,σ )= e
σ √2 π √2 π

� � Comment faire en pratique ?


U appelé Z dans le cadre du test de l’écart réduit ou
test Z dans le cours 5 : Test d’hypothèse
Changement de variable : toute variable aléatoire suivant une loi
normale peut se ramener à une variable aléatoire normale centrée réduite.

Centrer : Variable centrée associée à X


- X–μ
- De vraie moyenne nulle

Réduire : Variable centrée réduite associée à X


X−μ
-
σ
- De vraie variance = 1

Passer de X à U :
- Retrancher μ à X (on centre X)
- Puis diviser par σ (on réduit (X – μ))
1 μ
▪ U=σ X−σ

19
Cours Galien Lyon Sud – 2022/2023
PASS – Biostatistiques – Statistiques descriptives
μ
- On change les unités de X, expression en unité d'écart-type puis translation de –
σ
X−μ
- U= → N ( 0 ,1 ). Cette formule est importante à connaître !
σ

Passer de U à X :
- Multiplier U par σ (toujours positif)
- Puis ajouter μ
- X =μ+Uσ → N (μ , σ )

Exemple : pour une loi normale de vraie moyenne (théorique) 100 et de vrai écart-type (théorique) 2.5 : quelle est la valeur de
u correspondant à x=105 ?
X −μ 105−100
u= = =2
σ 2 ,5
Ce calcul est à maîtriser car au concours il y a un QCM sur les stat’ et soit c'est sur ce genre de calcul soit
c'est un calcul de l’aire sous la courbe avec les probabilités. Dans ce cours, VRAI = THEORIQUE pour les
paramètres.

🡪 Conservation des probabilités même après un changement d’unités :

F ( x )=P ( X ≤ x )=P ( X−μ ≤ x−u )


¿P ( X −μ x−μ
σ

σ )
(
¿P U≤
x−μ
σ )
¿ P ( U ≤u )=p

Si x est donné :
- Calcul de u:
x−μ
▪ u=
σ
- Lecture de p au centre de la table de la fonction de répartition de U tabulée, en partant du u trouvé en
marges.

Si p est donné :
- Lecture de u en marges de la table de la fonction de répartition de U tabulée, en partant du p donné au
centre de la table.
- Calcul de x :
▪ x=μ+uσ

2. Fonction de répartition tabulée Φ à partir de la loi normale U → N (0 , 1):

🡪 Calcul de probabilité à l’aide de la fonction de répartition Φ ( u ):


20
Cours Galien Lyon Sud – 2022/2023
PASS – Biostatistiques – Statistiques descriptives
U → N (0 , 1) La densité étant symétrique par rapport à 0 :

P ( U ≤0 )=Φ ( 0 )=0 , 5

P ( U ≥u )=1−P ( U ≤u )=1−Φ (u )= p
P ( U ≤−u )=1−Φ ( u ) =p
Φ (−u )=1−Φ (u)

P (−u1 ≤U ≤ u2 )=Φ ( u2 )−Φ ( −u1 )


¿ Φ ( u 2) + Φ ( u1 )−1

🡪 Fonction de répartition tabulée de U notée Φ :

Cette table sera fournie


au concours si besoin.

U → N (0 , 1)
Φ ( u p )=P ( U ≤u p )= p
u p : fractile p de la loi de U

La table ne comprend que les valeurs de u ≥ 0:


Φ (−u )=1−Φ (u)

Exemple : u=1, 00+ 0 ,00

21
Cours Galien Lyon Sud – 2022/2023
PASS – Biostatistiques – Statistiques descriptives
3. Utilisation de la fonction de répartition tabulée :

🡪 Lecture de la table :

Lire dans la table :

P (U ≤ 0.60) = Φ (0.60) = 0.7257

P (U ≥ 1.04) = 1 – P (U ≤ 1.04)
= 1 – Φ (1.04)
= 1 – Φ (0.8508)
= 0.1492

P (U ≤ -0.81) = Φ (-0.81)
= 1 – Φ (0.81)
= 1 – 0.7910
= 0.2090

🡪 Exercices :

X → N (μ, σ)
Si la loi de X est complètement définie, loi normale de moyenne théorique et écart-type théorique connus.
Avec l'équation suivante : P(X ≤ a) = p
1. Connaissant a, on peut trouver p
2. Connaissant p, on peut trouver a
En effet :
P ( X ≤ a )=P U ≤( a−u
σ
=p )
a−μ
up= ⇒ a=μ +u p σ
σ

EXERCICE 1 :
Pour une loi normale de moyenne théorique 100 et d’écart-type théorique 2.5 : quelle est la probabilité
d’observer une valeur de X inférieure à 102.5 ?

EXERCICE 2 :
Pour une loi normale de moyenne 100 et d'écart-type 2.5 : quelle est la probabilité d'observer une valeur de X
inférieure à 97.5 ?

22
Cours Galien Lyon Sud – 2022/2023
PASS – Biostatistiques – Statistiques descriptives
EXERCICE 3 :
X suit une loi normale de vraie moyenne (théorique) 150 et de vrai écart-type (théorique) 10.
On a 70.19% de chances d'observer X en-dessous de quelle valeur a ?
1) Trouver a tel que :
P ( X ≤ a )=0 ,7
2) Commencer par trouver u0.7019

Réponses :

(
1) P ( X ≤ a )=P U ≤
a−μ
σ )
=P ( U ≤ u0,7019 ) =0,7019

2) X → N ( 150 , 10 )
P ( U ≤u 0,7019 ) =0,7019

D’après la table de fonction de répartition de la


loi normale centrée réduite :
u0,7019 =0 , 50+0 , 03=0 , 53

(
P ( X ≤ a )=P U ≤
a−μ
σ )
=0,7019
a−μ
u0,7019 =
σ
Donc a=μ+u0,7019 σ
a=150+0 , 53 x 10
a=155 , 3

On a 70.19% de chances d'observer X en dessous de 155.3.

EXERCICE 4 :
X suit une loi normale de vraie moyenne 10 et de vrai écart-type 2.
1) Quelle est la probabilité d’observer X entre 7 et 12 ?
2) P (7 ≤ X ≤ 12) ?

Réponses :

X → N ( 10 , 2 )

23
Cours Galien Lyon Sud – 2022/2023
PASS – Biostatistiques – Statistiques descriptives
( 7−µ
P=P ( 7 ≤ X ≤12 )=P
σ

X−µ 12−µ
σ

σ )
P=P (
2 )
7−10 12−10
≤U ≤ =P (−1 ,5 ≤ U ≤1 )
2
P=P ( U ≤ 1 )−P ( U ≤−1 ,5 )=P ( U ≤ 1 )− [ 1−P (U ≤+1 , 5 ) ]
P=P ( U ≤ 1 )+ P ( U ≤+1 , 5 )−1
P=Φ ( 1 )+ Φ ( 1 ,5 )−1
P=0,8413+0,9332−1=0,7745
P ( 7 ≤ X ≤ 12 )=0,7745

4. Table de l’écart réduit :

La table donne la probabilité 𝛔 pour que l’écart-réduit égale ou dépasse, en valeur absolue, une valeur donnée ε,
c'est-à-dire la probabilité extérieure à l’intervalle (- ε, + ε).

Toutes ces tables ne sont pas


à connaître par cœur car elles En marges : probabilités
vous seront fournies au (surfaces hachurées sur la
concours. Mais vous devez courbe)
impérativement savoir les lire
Au centre : valeurs de u
et les utiliser !
Vous devez commencer par
repérer ce que vous devez
calculer/chercher pour savoir
quelle formule utiliser et dans
quelle table lire le résultat
demandé.

- U a une chance de (1 – α) d’être dans l’intervalle ¿−u ; u¿ :


P (−u ≤U ≤ u )=1−α (1 – valeur lue dans les marges du tableau)
Dans cette formule, il faut chercher la valeur de u dans le tableau. Pour trouver α , il suffit de faire la somme
de la tête de colonne et de la tête de la ligne correspondant à u.
- U a un risque α d’être en dehors de l’intervalle ¿−u ; u¿ :
P ( U ≤−u ) + P ( U ≥u )=α (lecture en marges du tableau)
- Valeur à connaître : P (−1 ,96 ≤ U ≤ 1, 96 )=95 %

24
Cours Galien Lyon Sud – 2022/2023
PASS – Biostatistiques – Statistiques descriptives
U à 95% de chances d’être observée dans l’intervalle] -1,96 ; 1,96[

On en déduit donc que : P ( U ≤−1 , 96 ) + P ( U ≥1 , 96 ) =0 , 05


(On a 5% de chances d’être en dehors de l’intervalle mais α/2 soit 2,5% de chances d’être au-dessus ou en
dessous)

Dans quel intervalle centré sur 0 U a


75% de chances d’être observée ?

P (−u ≤U ≤ u )=0 ,75=1−0 , 25


α =0 , 25
U a 75% de chances d’être
observée dans l’intervalle ]-1,15 ;
1,15[.

5. Loi de Student :
petite sœur de la loi normale centrée réduite :

🡪 Distribution théorique de la loi de Student :

Caractérisation :
Par des degrés de liberté ddl ou ν :
- La courbe est écrasée si le nombre de ddl est faible.
- La courbe ressemble à une loi normale si le nombre de ddl tend vers l’infini.

25
Cours Galien Lyon Sud – 2022/2023
PASS – Biostatistiques – Statistiques descriptives
Loi de probabilité de la variable de Student notée T.

Calculs de probabilités :
- T a une chance de (1 – α) d’être dans l’intervalle] -t ; t[:
P (−t<T <+t )=1−α

- T a un risque α d’être en dehors de l’intervalle]-t ; t[ :


P ( T ≤−t ) + P ( T ≥+t )=a

Symétrie :
α
P ( T ≥+t )=P ( T ≤−t )=
2

26
Cours Galien Lyon Sud – 2022/2023
PASS – Biostatistiques – Statistiques descriptives
Cette loi ressemble beaucoup à la loi normale dans les formules, qui sont quasi les mêmes, avec
tout de même quelques variantes. La grande différence est pour les tests d’hypothèses. La loi
normale est utilisée pour les grands échantillons (n ≥ 30). On applique la loi de Student lorsque la loi
normale ne s’applique pas.

En marge : les probabilités (α) (c'est-à-dire


ce qu’il y a en dehors de l’intervalle 95%
comme la table de l’écart réduit)

En marge : les degrés de Exemple : T → loi de Student à 20 ddl. Pour α de


liberté (ddl) la table α = 0,05, on lit :
(C’est à peu près l’équivalent de ( T ≤−2,086 ) + P ( T ≥+2 , 0 , 86 )=0 ,05
la taille de l’échantillon dans la loi On a 5% de risque d’observer T à l’extérieur de
normale) l’intervalle] -2,086 ; +2,086[
On a 95% de chance d’observer T à l’intérieur de
l’intervalle [-2,086 ; +2,086]

Du fait de la symétrie de la densité autour de 0,


les 2 surfaces grises sous la courbe de densité
sont égales et on a :

Au centre : les valeurs de t


0 , 05
P ( T ≥+2,086 )=P (T ≥−2,086 )= =0,025
2

La prof détaillera cette table dans le cours 7 sur les petits échantillons.

D. Résumé :

Signifie la variable aléatoire suit une loi normale de moyenne théorique et d’écart
X → N (μ , σ )
type théorique .

: variable aléatoire normale centrée réduite de moyenne théorique nulle et d’écart-


type théorique unitaire.

X−µ
U= → N (0 , 1)
σ

27
Cours Galien Lyon Sud – 2022/2023
PASS – Biostatistiques – Statistiques descriptives
→ Conservation des probabilité

VI. ANNALES CLASSEES CORRIGEES


2016-2017

Exercice 2 :
Le taux de triglycérides des sujets d’une population P peut être représenté par une variable aléatoire X de loi
normale, de moyenne théorique ( μ=1 , 3) et d’écart-type théorique (σ =0 , 5). Les valeurs sont exprimées en g/L.
On donne les valeurs suivantes de la fonction de répartition de la loi normale centrée réduite :

u 0,20 0,50 0,75 1,00 1,25 1,50 1,75 2,00


P(U ≤ u) 0,58 0,69 0,77 0,84 0,89 0,93 0,96 0,98

Question 02. Quelle est la probabilité pour un sujet de cette population P de présenter un taux de cholestérol
inférieur ou égal à 1,2g/L ? Parmi les propositions suivantes, vous cocherez la proposition exacte :
A) 0,98
B) 0,02
C) 0,58
D) 0,42
E) Les données ne permettent pas de faire le calcul

Réponses : D
X−μ
D. VRAI Pour passer d’une loi normale à une loi normale centrée réduite, on sait que : U =
σ
On cherche :

P ( X ≤1 , 2 )=P ( X −μ
σ

1 , 2−μ
σ )=P (U ≤
1 , 2−1 , 3
0,5 ) =P (U ≤
−0 , 1
0,5 )=P (U ≤− )=P ( U ≤−0 ,2 ) =1−P ( U ≤0 , 2 )=
1
5

Exercice 5 :
La figure 2 représente les distributions des marqueurs NT-proBNP (à gauche) et ST2 (à droite) chez les patients
avec hypertrophie (ventriculaire gauche) et les patients sans hypertrophie, sous forme de boxplot.

28
Cours Galien Lyon Sud – 2022/2023
PASS – Biostatistiques – Statistiques descriptives
Question 07. Sans considérer la significativité statistique, vous cocherez la (ou les) proposition(s) exacte(s)
parmi les propositions suivantes :
A) L’aire sous la courbe ROC du marqueur NT-proBNP devrait être supérieure à celle du marqueur ST2
B) L’aire sous la courbe ROC du marqueur NT-proBNP devrait être inférieure à celle du marqueur ST2
C) Pour le NT-proBNP, la distribution la moins symétrique est celle des patients avec hypertrophie
D) Pour la ST2, plus de 50% des patients avec hypertrophie ont un ST2 supérieur à 6
E) La taille des moustaches dépend toujours de la hauteur de la boîte

Réponses : ACD
A, B. Plus l’aire sous la courbe ROC d’un test est élevée, plus cela veut dire qu’il est efficace c'est-à-dire qu’il
arrive à distinguer les malades des non-malades. Pour faire une correspondance avec le boxplot, le meilleur test
est celui dont les deux boîtes à moustaches (malades/non malades) sont les plus différentes (les parties
centrales qui correspondent à Q1-Q3 se chevauchent le moins possible). Ainsi, le marqueur NT-proBNP a une
aire sous la courbe supérieure à celle du marqueur ST2.
C. VRAI : Sur un boxplot, pour déterminer la symétrie d’une distribution, on regarde Q2=médiane (trait
horizontal au milieu de la boîte). Plus Q2 est au milieu du rectangle, plus la distribution est symétrique. Sur le
boxplot NT-proBNP (celui de gauche), on voit que la médiane des patients sans hypertrophie est plus au centre
que celui des patients avec hypertrophie donc la distribution est plus symétrique.
D. VRAI : Sur le boxplot de droite, on voit que 6 correspond à Q1 = 1er quartile, ce qui veut dire que 75% des
patients de ce groupe ont un ST2 supérieur à 6. Dans l’énoncé, on parle de « plus de 50% » or 75%>50% donc
l’item est juste.
E. La taille des moustaches dépend des valeurs du groupe/échantillon et non pas de la hauteur de la boîte.

2017-2018

Exercice 3 :
On considère que le score d’un questionnaire d’évaluation de la qualité de vie est normalement distribué dans la
population P, de moyenne théorique 54 et de variance théorique 16.
Dans cette population quelle est la proportion théorique de sujets avec un score final inférieur à 50 ?
On donne les valeurs suivantes de la fonction de répartition de la loi normale centrée réduite :

u 0,25 0,50 0,75 1,00 1,25 1,50 1,75 2,00

29
Cours Galien Lyon Sud – 2022/2023
PASS – Biostatistiques – Statistiques descriptives
P(U ≤ u) 0,60 0,69 0,77 0,84 0,89 0,93 0,96 0,98

Question 03. Parmi les propositions suivantes, vous cocherez la proposition exacte :
A) 0,16
B) 0,40
C) 0,60
D) 0,84
E) Aucune des propositions précédentes n’est exacte.

Réponses : A
A. On cherche P ( X <50 ) sachant que X → N (μ=54 ; σ= √ 16=4 )

P ( X <50 ) =P
( X−μ
σ
<
50−54
√16 )=P (U <
4 )
−4
=P ( U ←1 )=1−P (U <1 )=1−0 , 84=0 ,16

2018-2019 / 2019-2020 / 2020-2021


Ø
2021-2022

Exercice 1 :
Les 4 distributions ci-dessous ont la même étendue. Chaque distribution représentée par un histogramme
correspond à une seule boîte de dispersion (boîte à moustaches" ou boxplot).

QCM 1 : Parmi les propositions suivantes, cochez la (ou les) proposition(s) exacte(s) :

A) L'histogramme H1 correspond à la boîte de dispersion B


B) L'histogramme H1 correspond à la boîte de dispersion A
C) L'histogramme H2 correspond à la boîte de dispersion D
D) L'histogramme H4 correspond à la boîte de dispersion A
E) La distribution la plus symétrique est celle représentée par la boîte de dispersion D
30
Cours Galien Lyon Sud – 2022/2023
PASS – Biostatistiques – Statistiques descriptives
Réponses : ACE
H1 = B ; H2 = D (la plus symétrique) ; H3 = A ; H4 = C

31
Cours Galien Lyon Sud – 2022/2023
PASS – Biostatistiques – Statistiques descriptives

Vous aimerez peut-être aussi