Vous êtes sur la page 1sur 10

CAHIER PASS

2022/2023
1
Cours Galien Lyon Est – 2022/2023
PASS – Biostatistique – Statistiques descriptives
Table des matières

I. Définitions 3
II. Les variables qualitatives 3
III. Les variables quantitatives 4
IV. Les différents paramètres 5
A. Les paramètres de position 5
B. Les paramètres de dispersion 6
C. Les paramètres mixtes
6
V. Distribution de la probabilité de la loi normale
7
Formules à retenir 7
VI. Annales Classées Corrigées
8

Biostatistique
STATISTIQUES DESCRIPTIVES

2
Cours Galien Lyon Est – 2022/2023
PASS – Biostatistique – Statistiques descriptives
Introduction à l’UE biostatistiques : le concours ne portera pas là-dessus, cette introduction est uniquement là
pour votre culture générale.
En médecine les biostatistiques sont omniprésentes : en épidémiologie, en pharmacologie, en santé publique, en
économie médicale…
Elle permet de prédire, estimer, analyser, définir le niveau de confiance de valeurs que l’on obtient lors d’une
étude.
Les biostatistiques permettent également de considérer des grands groupes de patients qui sont individuellement
uniques, et de généraliser un traitement, un pronostic, un diagnostic qui convienne à la grande majorité des
patients.

I. Définitions

● Une population : c’est un ensemble d’individu bien défini (âge, lieu, date).
Ex : On s’intéresse au nombre de personnes inscrites en première année de médecine.

● Un échantillon : c’est un groupe issu d’une population. Pour que l’échantillon soit représentatif de
la population générale il faut qu’il soit tiré au sort (randomisé).

● Unité Statistique : élément de l’échantillon, l’ensemble des unités statistiques constitue


l’échantillon.
Ex : dans un échantillon de personnes, l’unité statistique sera l’individu.

● Distribution statistique : correspond à un couple (xi,ni) ou (xi,fi) (pour une proportion):


- xi : modalité de la variable pouvant prendre plusieurs valeurs
- ni : nombre de fois où cette modalité est observée (fréquence absolue ou effectif)
- fi : nombre de fois où cette modalité est observée divisé par l’effectif total (fréquence relative
ou proportion) fi=ni/n

● Deux types de variables :


- Qualitative
- Quantitative

3
Cours Galien Lyon Est – 2022/2023
PASS – Biostatistique – Statistiques descriptives
II. Les variables qualitatives
🡪 Valeurs qui expriment une qualité, qu’on ne peut pas mesurer.

● Qualitatives Nominales
- Pas de relation d’ordre entre les modalités (Ex : groupe sanguin, couleur de cheveux, …)
- Décomposable en variables binaires (Ex : on prend l’événement « être de groupe O » et « ne
pas être du groupe O » (ce qui regroupe les groupes A, B et AB)).
- Pas de rangement par gradation logique possible

● Qualitatives Ordinales
- Relation d’ordre entre les variables (Ex : stade d’un cancer, intensité d’une réaction
inflammatoire…)
- Catégorie hiérarchique
- Gradation logique possible

Pour ces variables, on peut calculer une proportion (comprise entre 0 et 1), la fréquence relative et les
fréquences cumulées. On peut exprimer une proportion en pourcentage en revanche le professeur précise
bien : un résultat donné en pourcentage n’est pas une proportion.
Ex : Une personne sur quatre a les yeux bleus. Ce qui donne une proportion de 0,25 soit une fréquence de
25%

On peut représenter les variables qualitatives par un diagramme circulaire, un histogramme, …

III. Les variables quantitatives


🡪 Valeurs mesurables

● Discrètes
- Variable que l’on peut énumérer ; qui prend une valeur finie.
(Ex : nombre d’enfants, nombre de Globules Rouges, …)

● Continues
- Variable infinie. (Ex : l’âge, la pression artérielle, la concentration, la taille (souvent donnée à
3 chiffres, en raison de la précision des instruments dont on dispose, mais elle serait illimitée
si la précision du mètre l’était également).

- Discrétisation réalisable sur les variables continues, afin de pouvoir les manipuler avec plus
de facilité (Exemples : Taille en cm, âge en années).

Ces variables sont des chiffres ; il est donc logique de pouvoir les trier afin de les étudier.
Pour ces variables, on peut calculer les fréquences absolue, relative et cumulée, la moyenne, le mode (ou classe
modale), la variance, l’écart-type, …

🡪 Une série statistique est un ensemble de valeurs associées à n unités statistiques (individus).
Une série statistique triée est une série classée dans un ordre de valeurs x1<x2<x3<…<xn.

4
Cours Galien Lyon Est – 2022/2023
PASS – Biostatistique – Statistiques descriptives
Une série double est une série statistique, mais au lieu d’avoir une valeur associée à un individu, on
a un couple de valeurs associé à l’individu.

🡪 On peut représenter les variables quantitatives par des diagrammes en points, en bâtons (pour les
variables discrètes) des histogrammes (pour les distributions regroupées en classes).

🡪 Dans le cas des variables quantitatives continues, on peut les regrouper en classes, soit des intervalles
avec une borne inf et une borne sup. On définit une amplitude (c’est-à-dire la différence entre la borne
supérieure et la borne inférieure) et une densité de fréquence.

fi
d i=
amplitude

NB : Lorsque l’on veut créer un histogramme avec des valeurs continues on va les regrouper en classes inégales,
on calcule la densité de fréquence qui permet de pouvoir comparer les fréquences entre ces intervalles.
Ex: si on a les classes [0,2;0,4] et [0,6;1], pour les étudier on calcule leur densité de fréquence par rapport à
l’amplitude des intervalles.
Ici pour faire la moyenne, on réduira les intervalles à respectivement 0,3 et 0,8.
IV. Les différents paramètres

A. Les paramètres de position

Ils permettent de se positionner par rapport à la série de données ; ils servent donc à caractériser la distribution
en termes de valeurs la plus représentative de l’échantillon.

- Moyenne arithmétique

x 1+ x 2 +…+ x n ∑ ❑ xi
x= ou x = i=1
n n

Remarque : Pour les variables continues, on prendra l’effectif de la classe pour n et la valeur centrale de la classe
pour x.

- Médiane (50ème percentile) : valeur qui partage la série classée en deux groupes de même
effectif. Il y a donc autant de valeurs supérieures que de valeurs inférieures à la médiane.

D’une manière générale :


- Si n est impair, la médiane est la valeur de rang (n+1)/2
- Si n est pair, la médiane est la moyenne des deux valeurs situées au milieu.

- Les quantiles : valeurs à une position p(n+1) pour le quantile par ex: le quantile 0,2 sur un
échantillon classé de 99 valeurs est la 20ème valeur.

- Les quartiles : valeurs qui partagent la série ordonnée en quatre groupes de même effectif.
Les quartiles Q1, Q2, Q3 représentent respectivement les quantiles 0,25, 0,5 et 0,75. Q
correspond à la médiane.

5
Cours Galien Lyon Est – 2022/2023
PASS – Biostatistique – Statistiques descriptives
- Le mode d’une distribution : valeur qui est la plus fréquente. Si les données sont rangées par
classes de même amplitude, la classe modale sera la classe dont l’effectif est le plus élevé (la
plus haute fréquence). On attribue alors au mode la valeur centrale de cette classe. Si les
amplitudes des classes sont différentes on va trouver le mode à partir de la densité de
fréquence.

Remarque : On peut donner la valeur de n’importe quelle position. Si on s’intéresse à une valeur qui sépare notre
univers en 5% plus petit et 95% plus grand on cherchera donc le rang du 5 ème percentile. Notre 5ème percentile se
trouve en faisant : 0.05*n

B. Les paramètres de dispersion

Ils quantifient l’amplitude des valeurs et la variabilité entre les valeurs.

- Variance : somme des carrés des écarts à la moyenne divisée par l’effectif total.

L’unité du résultat est au carré (ex: 6,9 jours2).


Littéralement, on dit que la variance est égale à la moyenne des carrés moins le carré de la moyenne.
NB : Un nuage de points très dispersé par rapport à la moyenne aura une variance élevée.
NB : Un écart quadratique=un écart au carré

- Ecart-type :

𝝈=
√𝒗𝒂𝒓𝒊𝒂𝒏𝒄𝒆

- Extrêmes : la plus grande et la plus petite valeur.

- L’étendue : écart entre les 2 extrêmes.

- La distance interquartile : différence entre le 1er quartile et le 3ème quartile => elle
représente la zone centrale comprenant 50% des éléments.

C. Les paramètres mixtes

- Coefficient de variation : ou de dispersion : rapport de l’écart type à la moyenne


6
Cours Galien Lyon Est – 2022/2023
PASS – Biostatistique – Statistiques descriptives
σ
CV =
x

7
Cours Galien Lyon Est – 2022/2023
PASS – Biostatistique – Statistiques descriptives
V. Distribution de la probabilité de la loi normale

La distribution normale est décrite par la moyenne μ et l’écart type σ ou la variance σ 2.

68% des valeurs appartiennent à l’intervalle : (𝝁 - 𝝈 ; 𝝁 + 𝝈)


95% des valeurs appartiennent à l’intervalle : (𝝁 - 2𝝈 ; 𝝁 +2𝝈)
99% des valeurs appartiennent à l’intervalle : (𝝁 - 3𝝈 ; 𝝁 + 3𝝈)

Courbe de Gauss

( )
2
1 −( x−μ )
● La densité de probabilité : f ( x )= exp exp
σ √2 π 2σ
2

● L’aire totale sous la courbe est égale à 1

● La probabilité d’avoir une valeur exacte est nulle

● Centrer et réduire une variable aléatoire : (X - µ) / 𝝈

● Une fois centrée réduite, la variable suit une distribution normale de moyenne 0 et d’écart type 1.

FORMULES A RETENIR…

Moyenne : x 1+ x 2 +…+ x n
∑ ❑ xi
x= ou x = i=1
n n

❑ ❑

Variance (descriptive) : 2
∑ ❑(x i−x)

2


❑ xi
2
2
σ = = −x
n n

Ecart-type : σ =√ variance

σ
Coefficient de variation : CV =
x

8
Cours Galien Lyon Est – 2022/2023
PASS – Biostatistique – Statistiques descriptives
fi
Densité de fréquence : d i=
amplitude

VI. Annales classées corrigées

Questions

2015-2016
Question 3 :

Les affirmations suivantes se rapportent à la figure 1 :

A) Le graphe 1 représente la densité de probabilité d’une loi normale d’espérance égale à 4 et d’écart-type
égal à 4
B) Le graphe 2 représente la fonction de répartition d’une loi normale
C) Le graphe 4 représente la fonction de répartition d’une loi normale centrée réduite
D) Les graphes 1 et 3 montrent que l’écart-type de la variable aléatoire X3 est supérieur à l’écart-type de la
variable aléatoire X1
9
Cours Galien Lyon Est – 2022/2023
PASS – Biostatistique – Statistiques descriptives
E) La médiane de la variable aléatoire X2 vaut environ 4

Correction

2015-2016

Question 3 : BDE
A) FAUX. σ = 1.
B) VRAI
C) FAUX. Le graphe 4 représente la densité de probabilité d’une loi normale centrée réduite.
D) VRAI
E) VRAI. La médiane correspond à l’abscisse du point d’ordonnée 0,5, soit 4.

10
Cours Galien Lyon Est – 2022/2023
PASS – Biostatistique – Statistiques descriptives

Vous aimerez peut-être aussi