Biostat-Chapitre 1

Table des matières
Table des matières 1
1 Statistique descriptive à une dimension 2

1.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2 Vocabulaire Statistique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.3 Tableaux statistiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.3.1 Caractère qualitatif . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.3.2 Caractère quantitatif . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.4 Représentations graphiques . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.4.1 Caractères qualitatifs . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.4.2 Caractères quantitatifs discrets . . . . . . . . . . . . . . . . . . . . . 11
1.4.3 Caractères quantitatifs continus . . . . . . . . . . . . . . . . . . . . . 12
1.5 Indicateurs numériques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.5.1 Paramètres de position ou Tendance centrale . . . . . . . . . . . . . . 14
1.5.2 Paramètres de dispersion . . . . . . . . . . . . . . . . . . . . . . . . . 21
1
Chapitre 1
Statistique descriptive à une

dimension
1.1 Introduction
La biostatistique (appelée aussi biométrie) est un domaine scientifique constitué par
l’application de la science statistique à la biologie et à la médecine. Elle est un outil
mathématique utilisé dans la recherche clinique, l’épidemiologie et en santé publique.
La statistique est un ensemble de méthodes scientifiques qui permettent de collecter,

d’organiser, de résumer, de présenter et d’analyser un ensemble de données numériques, et
qui permettent d’en tirer des conclusions et de prendre les bonnes décisions. Il ne faut pas
confondre la statistique qui est la science qui vient d’être définie et le terme statistiques qui
est un ensemble de données numériques sur un sujet précis. On peut parler de statistiques
relatives aux nouveaux nés, de statistiques relatives au chômage, des statistiques des accidents
de la circulation, des statistiques de la production agricole ou industielle... . On distingue deux
classes de méthodes statistiques : la statistique descripitve ou exploratoire et la stastistique
inférentielle ou inductive.
1. La statistique descriptive : Elle a pour but d’étudier une population à partir de
données. Elle consiste à synthétiser, résumer, structurer l’information contenue dans les
données. Elle utilise pour cela des représentations de données sous forme de tableaux,
de graphiques, d’indicateurs numériques. Elle a pour but de décrire et non d’expliquer.
On cite trois types de statistique descripitive :
La statistique descriptive univariée : Elle consiste à étudier une population selon
une seule variable.
La statistique descriptive bivariée : Elle à pour but d’étudier des corrélations et
relations éventuelles entre deux variables de la même population.
La statistique descriptive multivariée : Elle consiste à étudier des relations
éventuelles entre plusieurs variables de la même population.
2. La statistique inférentielle : elle a pour but d’étendre des propriétés constatées sur
un échantillon à une population entière. La statistique inférentielle utilise la théorie des
2
Statistique descriptive à une dimension 3
probabilités pour généraliser à toute la population statistique, des résultats observés sur
un échantillon. Elle inclut l’estimation statistique et la théorie des tests d’hypothèses.
1.2 Vocabulaire Statistique

– Population : C’est l’ensemble sur lequel porte l’étude statistique. ( Etudiants, entre-
prises, plantes, animaux,produits,... ). La population peut être un ensemble parfois très
grand ou même infini.
– Echantillon : Très souvent, il est impossible de travailler sur toute la population, par
exemple, on n’observe pas tous les véhicules ayant circulé un jour donné dans la ville
d’Alger, mais seulement ceux étant passés dans certains points particuliers. On travaille
alors sur un sous-ensemble extrait de cette population, appelé échantillon.
– Individu ou unité statistique : C’est un élément qui appartient à la population.
Exemple 1.1. On a pesé 100 poissons provenant d’un lac.

– Population : ensemble des poissons du lac.
– Echantillon : ensemble des 100 poissons.
– Individu : Un poisson.
Exemple 1.2. Considérons les étudiants de deuxième année de l’ESSAIA comme notre
population. Un échantillon de cette population pourrait être l’ensemble des étudiants d’un
groupe de TD.
– Taille : Représente le nombre d’individus d’un échantillon ou d’une population. Elle

est symbolisée par « n » dans le cas d’un échantillon et par « N » dans le cas d’une
population.
– Caractère ou variable : Chaque individu de la population est décrit par un en-
semble de caractéristique appelé caractère. Par exemple : Couleur des yeux, poids des
souris, superficie d’une pièce, la température de l’air, le taux de glycémie, la vitesse de
coagulation, la production laitière.
Exemple 1.3. – Dans l’exemple 1.1 le caractère étudié est le poids des poissons.
– Dans l’exemple 1.2, les caractères à étudier pour chaque étudiant ( individu ) pourraient
être : la taille, la couleur des yeux, le sexe, l’âge, le poids.
– Modalités : Ce sont les différentes valeurs que peut prendre un caractère. Un caractère
peut posséder une ou plusieures modalités.
Exemple 1.4.
− La variable ”couleur” des yeux à quatre modalités : vert, bleu, noir et marron,
− Les modalités de la variable ”poids” du 100 poissons (en grammes) sont
{180, 200, 150, 180, ..., 320, 195}
,
− Les modalités de la variable ”âge” des ouvriers d’une entreprise peuvent étre :
[20 − 25[, [25 − 35[, [35 − 42[, [42 − 60[
– Nature des caractères : Les caractères peuvent être classés selon leurs natures. On
distingue deux types de caractères : qualitatif et quantitatif.
1. Caractère qualitatif : Ces modalités ne sont pas mesurables. On peut citer
comme exemple : la nationalité, la profession, l’état matrimonial, le niveau d’ins-
truction, Les hormones, etc. On distingue deux types de variables qualitatives :
1.1 Variable qualitative ordinale : Les modalités peuvent être classées (or-
données) dans un certain ordre naturel.
1.2 Variable qualitative nominale : Les modalités ne peuvent pas être
classées (ordonnées) de façon naturelle.
2. Caractère quantitatif : Ces modalités sont mesurables, à chacune des moda-
lités on peut attacher un nombre (ou une valeur). Ce nombre est appelé variable
statistique ; celle-ci peut être discrète ou continue.
2.1 Variable quantitative discrète : Une variable statistique est discrète
lorsque ses valeurs possibles sont des nombres isolés.
2.2 Variable quantitative continue : Une variable statistique est continue
lorsque ses valeurs possibles sont définies sur un intervalle.
Exemple 1.5. (Variable qualitative ordinale)

- Forme des fruits : petite, moyenne, grosse ;
- Mention au Bac : passable, assez bien, bien, très bien.
- Stade d’une maladie : stade 1, stade 2, stade 3, stade 4.
Exemple 1.6. (Variable qualitative nominale)

- Etat matrimoniale : marié, célibataire, veuf, divorcé ;
- Les hormones : œstradiol, progestérone ;
- Profession : enseignant, médecin.
- Type de globules blancs :
Exemple 1.7. (Variable quantitative discrète)

Le nombre d’étudiants inscrits à l’université, le nombre d’enfants d’une famille, le nombre
de salariés dans une entreprise, le nombre d’espèces de poissons dans un aquarium sont des
variables discrètes.
Exemple 1.8. (Variable quantitative continue)

La taille d’un individu, le poids d’un insecte, le taux de glycémie, la vitesse de coagulation,
la production laitière, sont généralement considérés comme des variables continues.
– Série statistique : On appelle série statistique la suite des valeurs prises par une
variable X sur les différents individus de l’échantillon, notée (x1 , x2 , x3 , ..., xn ),où xi est
la valeur de la variable X observée sur le ième individu.
Exemple 1.9. La série statistique suivante représente les mesures en centimètres des tailles
de 10 plantes :
9, 3 9, 7 10, 1 10, 2 10, 4 10, 6 10, 7 10, 7 10, 9 11
– Effectif total n : C’est le nombre de toutes les valeurs prises par la variable.
– Effectif partiel ni : C’est le nombre d’apparition de la valeur xi dans la population
statistique étudiée. L’effectif est parfois appelé fréquence absolue.
– Effectif cumulé croissant : En rangeant les valeurs du caractère dans l’ordre crois-
sant, on peut calculer l’effectif cumulé croissant Ni , en faisant la somme des effectifs de
cette valeur et de tous ceux qui la précèdent.


 N1 = n 1
 N2 = n 1 + n 2


N3 = n 1 + n 2 + n 3
.........................




Nk = n1 + n2 + n3 + .... + nk = n

Exemple 1.10. Dans une promotion de 20 étudiants de Biochimie, voici les notes obtenues
au dernier examen de Biostatistique :
10, 14, 12, 15, 7, 8, 10, 11, 12, 18, 2, 4, 12, 13, 14, 15, 19, 11, 9, 0
On va calculer les effectifs et les effectifs cumulés.

1) Les effectifs ni :
– Combien d’étudiants ont eu 10 ? 2 étudiants.
– Combien d’étudiants ont eu 12 ? 3 étudiants.
On continue ainsi et on forme le tableau des données suivant (Tableau 1) :
Notes xi 0 2 4 7 8 9 10 11 12 13 14 15 18 19
Effectifs ni 1 1 1 1 1 1 2 2 3 1 2 2 1 1
Tableau 1 : Les effectifs ni relatifs à chaque modalité xi (notes)
2) Les effectifs cumulés : On fait la somme des effectifs de la note plus la somme des effectifs
de toutes les notes qui la précédent.


 N1 = n 1 = 1
 N2 = n 1 + n 2 = 1 + 1 = 2


N3 = n 1 + n 2 + n 3 = 1 + 1 + 1 = 3
.........................




N14 = n1 + n2 + n3 + .... + n14 = 1 + 1 + 1 + 1 + 1 + 1 + 2 + 2 + 3 + 1 + 2 + 2 + 1 + 1 = 20

Ce qui nous donne (Tableau 2) :

Notes xi 0 2 4 7 8 9 10 11 12 13 14 15 18 19
Effectifs ni 1 1 1 1 1 1 2 2 3 1 2 2 1 1
Effectifs cumulés Ni ↑ 1 2 3 4 5 6 8 10 13 14 16 18 19 20
Tableau 2 : Les effectifs ni et Ni ↑ relatifs à chaque modalité xi (notes)
– Fréquence relative : La fréquence relative est le rapport de l’effectif concerné ni par

l’effectif total n, soit :
ni
fi = .
n
Remarque 1.1.
1. Les fréquences sont comprises entre 0 et 1.
2. La somme des fréquences est donc égale à 1 :
k
X
fi = f1 + f2 + f3 + .... + fk = 1
i=1
.
3. Si on veut obtenir la répartition en pourcentages, il suffit de multiplier les fréquences par
100. 

 fi % = fi × 100%,

k
P
fi % = f1 % + f2 % + f3 % + .... + fk % = 100%



i=1
– Fréquence cumulée : La fréquence cumulée Fi est la somme des fréquences corres-

pondant aux valeurs de la variable statistique discrète inférieure ou égale à xi .


 F1 = f1
 F2 = f1 + f2


F3 = f1 + f2 + f3
.........................




Fi = f1 + f2 + f3 + .... + fi = 1

Exemple 1.11. On reprend l’exemple précédent et on applique tout simplement la formule

des fréquences pour les calculer (Tableau 3).
Notes xi 0 2 4 7 8 9 10 11 12 13 14 15 18 19
fi 0,05 0,05 0,05 0,05 0,05 0,05 0,1 0,1 0,15 0,05 0,1 0,1 0,05 0,05
Fi ↑ 0,05 0,1 0,15 0,2 0,25 0,3 0,4 0,5 0,65 0,7 0,8 0,9 0,95 1
Tableau 3 : Les fréquences fi et Fi ↑ relatives à chaque modalité xi (notes)
– Classe : Dans le cas continu, il est nécessaire de regrouper les résultats en classes à
cause de leur grande masse. Une classe est un intervalle fermé à gauche et ouvert à
droite, du type [bi ; bi+1 [.
– Centre d’une classe : ci = bi +b2i+1 ( lire ci : centre de la classe i ).
– Amplitude d’une classe : L’amplitude d’une classe est ai = bi+1 − bi (lire ai :

amplitude de la classe i).
– Nombre de classe k : On calcul le nombre de classes k par l’une des formules
suivantes :
- Formule de STURGE : k = 1 + 3, 3 log n, avec n est l’effectif de la population.
√
- Règle de YULE : k = 2, 5 4 n.
– Etendu : Le nombre
e = xmax − xmin
s’appelle étendu de X.
Remarque 1.2. Pour calculer l’amplitude des classes, il faut ordonner la série statistique.
Une fois ordonnée, on applique la formule suivantes afin de calculer l’amplitude :
étendu xmax − xmin
ai = =
nombre de classe k
Exemple 1.12. On s’intéresse à la taille en cm de 20 étudiants, les résultats obtenus sont :
140 150 148 147 146 144 155 154 153 152
150 163 159 158 157 156 142 143 143 144
Avant de regrouper cette série en classes, il faut d’abord l’ordonner.
140 142 143 143 144 144 146 147 148 150
150 152 153 154 155 156 157 158 159 163
On a xmin = x1 = 140 et xmax = x20 = 163.

Nombre de classe :
k = 1 + 3, 3 log N = 1 + 3, 3 log 20 = 1 + 3, 3 · 1, 30 = 5, 29 ≈ 5
Etendu :
e = xmax − xmin = x20 − x1 = 163 − 140 = 23
Amplitude :
e 23
ai = = = 4, 6 ≈ 5
k 5
Cette série est regroupée en 5 classes et chaque classe est d’amplitude égale à 5.
Classes Centre ci Effectifs ni
[140, 145[ 142.5 6
[145, 150[ 147.5 3
[150, 155[ 152.5 5
[155, 160[ 157.5 5
[160, 165[ 162.5 1
Total - 20
1.3 Tableaux statistiques

1.3.1 Caractère qualitatif
Modalités numéro i Effectif ni Fréquence fi
1 n1 f1
2 n2 f2
3 n3 f3
. . .
. . .
. . .
k nk fk
Total n 1
Exemple 1.13. La répartition selon le groupe sanguin de 100 étudiants est :

A : 40 étudiants, B : 43 étudiant, AB : 12 étudiants et O : 5 étudiants.
La population est l’ensemble des étudiants.
L’échantillon est l’ensemble de 100 étudiants.
Un individu est un étudiant.
Le caractère étudié est le groupe sanguin.
La nature du caractère : qualitatif nominal.
Le tableau statistique relatif au groupe sanguin de 100 étudiants est :
xi ni fi fi %
A 40 0, 40 40%
B 43 0, 43 43%
AB 12 0, 12 12%
O 5 0, 05 5%
Total 100 1 100%
Tableau 6 : Tableau des résultats d’analyse du sang pour 100 étudiants
1.3.2 Caractère quantitatif

a) Caractère quantitatif discret
Valeurs observées xi Effectifs ni Fréquences relatives fi Fréquence cumulée croissante Fi

x1 n1 f1 F1
x2 n2 f2 F2
x3 n3 f3 F3
. . . .
. . . .
. . . .
xk nk fk Fk
Total n 1 .
Exemple 1.14. On observe 20 lots au laboratoire, on a le nombre de lapins dans chacun :
10, 1, 0, 0, 0, 10, 12, 18, 5, 5, 12, 10, 12, 12, 0, 10, 15, 10, 20, 20
La population est l’ensemble des lots.

L’échantillon est l’ensemble de 20 lots.
Un individu est un lot.
Le caractère étudié est le nombre de lapins par lot.
La nature du caractère : quantitatif discret.
Le tableau statistique relatif au nombre de lapin dans 20 lots est :
xi : nombre de lapin par lot 0 1 5 10 12 15 18 20 Total
ni : nombre de lots 4 1 2 5 4 1 1 2 20
Fréquences relatives fi 0,20 0,05 0,10 0,25 0,20 0,05 0,05 0,10 1
fi % 20% 5% 10% 25% 20% 5% 5% 10% 100%
Ni ↑ 4 5 7 12 16 17 18 20 -
Fi ↑ 0,20 0,25 0,35 0,60 0,80 0,85 0,90 1 -
Tableau 8 : Nombre de lapins dans 20 lots au laboratoire
b) Caractère quantitatif continu
Classes numéro i, [bi , bi+1 [ Centre ci Effectifs ni Fréquences relatives fi Fréquances cumulées Fi
[b1 , b2 [ c1 n1 f1 F1
[b2 , b3 [ c2 n2 f2 F2
[b3 , b4 [ c3 n3 f3 F3
. . . . .
. . . . .
. . . . .
[bk , bk+1 [ ck nk fk Fk
Total - n 1 -
Exemple 1.15. Prenons l’exemple 1.12, le tableau statistique relatif à la taille des étudiants
est :
Classes i Centre ci ni fi Ni ↑ Fi ↑
140+145
[140, 145[ c1 = 2
= 142, 5 6 0, 30 6 0,30
145+150
[145, 150[ c2 = 2
= 147, 5 3 0, 15 9 0,45
150+155
[150, 155[ c3 = 2
= 152, 5 5 0, 25 14 0,70
155+160
[155, 160[ c4 = 2
= 157, 5 5 0, 25 19 0,95
160+165
[160, 165[ c5 = 2
= 162, 5 1 0, 05 20 1
Total - 20 1 - -
Tableau 10 : Tableau de la distribution des fréquences des tailles des étudiants
1.4 Représentations graphiques

1.4.1 Caractères qualitatifs
Diagramme à barre (diagramme en tuyaux d’orgues ou diagramme à bandes)
Les différentes modalités sont représentées par des rectangles dont la base est constante
et de hauteur égal à l’effectif ou à la fréquence.
Fig. 1.1 – Répartition selon le groupe sanguin de 100 étudiants
Diagramme circulaire (diagramme en secteurs ou diagramme en camembert)
Ce diagramme est un disque divisé en secteurs angulaires dont les angles au centre sont
proportionnels aux effectifs ou aux fréquences de chaque modalité. L’angle de chaque modalité
se calcule par :
ni
αi = × 360◦ = fi × 360◦
n
avec αi ; l’angle correspondant à la modalité i, ni : effectif de la modalité i et n : effectif total.
Les angles correspondant de l’exemple 1.11 sont :
α1 = f1 × 360◦ = 0, 40 × 360◦ = 144◦ −→ groupe sanguin A
α2 = f2 × 360◦ = 0, 43 × 360◦ = 154, 8◦ −→ groupe sanguin B

α3 = f3 × 360◦ = 0, 12 × 360◦ = 43, 2◦ −→ groupe sanguin AB
α4 = f4 × 360◦ = 0, 05 × 360◦ = 18◦ −→ groupe sanguin O
Fig. 1.2 – Répartition selon le groupe sanguin de 100 étudiants

1.4.2 Caractères quantitatifs discrets

Diagramme en bâtons
Il est formé d’un certain nombre de segments (ou bâtons). Les valeurs discrètes xi prises
par les variables sont placées sur l’axe des abscisses, et les effectifs (ou les fréquences) sur
l’axe des ordonnées. La hauteur du bâton est proportionnelle à l’effectif (ou à la fréquence).
Fig. 1.3 – Nombre de lapin dans 20 lots
Polygone des fréquences
En joignant les sommets des bâtons par une ligne brisée, on obtient le polygone de
fréquences.
Courbe cumulative
Dans le cas d’une variable discrète, la courbe cumulative se présente comme une courbe
en escalier. En abscisse figurent les observations de la variable considérée xi , tandis qu’en
ordonnée figurent les fréquences cumulées Fi (ou les effectifs cumulées Ni ). Dans un premier
temps, en face de chaque observation xi figure un point dont l’ordonnée est égale à la fréquence
cumulée correspondante Fi . Ensuite, pour compléter le graphique, les différents points sont
joints par des segments horizontaux puisque, par définition, le cumul reste constant entre
deux observations (la variable considérée est discrète, ce qui signifie qu’entre deux entiers il
n’y a pas d’observation possible). Chaque segment de cette courbe en escalier est ouvert à
droite et fermé à gauche (sauf le dernier).
1.4.3 Caractères quantitatifs continus

Histogramme
a) Classes d’amplitudes égales : Dans le cas où les amplitudes sont égales, l’histo-
gramme est un diagramme composé de rectangles verticaux dont les hauteurs sont propor-
tionnelles aux fréquences (ou aux effectifs) et dans les bases sont égales à l’amplitude de la
classe associée.
Fig. 1.6 – Histogramme : cas d’amplitudes égales
b) Classes d’amplitudes inégales : Dans le cas où les amplitudes ai sont différentes,
l’histogramme est un diagramme composé de rectangles verticaux dont les hauteurs sont
proportionnelles aux fréquences corrigées fic (ou aux effectifs corrigés nci ) et dont les bases
sont égales à l’amplitude de la classe associée.
ni fi
nci = , oufic =
ai ai
Supposons que l’on regroupe les données de l’exemple 1.12 classe d’amplitudes inégales.
xi ni ai hi = ni /ai
[140, 145[ 6 5 h1 = n1 /a1 = 6/5 = 1, 2
[145, 155[ 8 10 h2 = n2 /a2 = 8/10 = 0, 8
[155, 158[ 3 3 h3 = n3 /a3 = 3/3 = 1
[158, 165[ 3 7 h4 = n4 /a4 = 3/7 = 0, 42
Fig. 1.7 – Histogramme : cas d’amplitudes inégales
Polygone des fréquences
Pour tracer le polygone, on joint les points milieu du sommet des rectangles adjacents
par un segment de droite.
Fig. 1.8 – Polygone des fréquences

Fig. 1.9 – Courbe cumulative
Courbe cumulative
La courbe cumulative ( ou polygone des fréquences cumulées ) est obtenue en portant les
points dont les abscisses représentent la borne supérieure de chaque classe et les ordonnées les
fréquences cumulées correspondantes, puis en reliant ces points par des segments de droite.
1.5 Indicateurs numériques

Les représentations graphiques ne permettent qu’une analyse visuelle de la répartition
des données. Les indicateurs numériques n’ont de sens que pour des variables quantitatives.
1.5.1 Paramètres de position ou Tendance centrale

Les paramètres de postion nous donne une idée de ce qui se passe au centre d’une dis-
tribution, d’un ensemble de données. On distingue trois mesures de tendance centrale : Le
mode, la médiane et la moyenne.
Le mode
Le mode, noté M0 , est la seule mesure centrale qui peut être relevée et utilisée aussi bien
pour des données qualitatives que quantitatives.
1) Variable discrète : Le mode est la valeur de la variable statistique pour laquelle l’effectif
(ou la fréquence) est le plus grand.
Exemple 1.16.
Le mode de l’exemple 1.11 est le groupe sanguin B (M0 = B), car il correspond à l’effectif le
plus élevé 43.
La distribution des notes obtenues à un examen de mathématiques d’une classe de 100
étudiants.
Notes xi 5 6 8 9 10 12 13 14 Total
Nombre d’étudiants ni 4 8 9 18 10 25 16 10 100
Le mode de cette série statistique est égal à 12 car il correspond au plus grand effectif 25.
L’interprétation est que la note la plus fréquente est 25.
2) Variable continue : On parle dans ce cas de classe modale :

Classe modale : C’est la classe ayant le plus grand effectif par unité d’amplitude. Graphi-
quement la classe modale est la base du rectangle ayant la hauteur la plus élevée. Cependant,
on distingue deux cas :
a) Classes d’amplitudes égales : Si les classes sont d’amplitudes égales, alors la classe
modale est la classe qui a l’effectif ni le plus élevé ou la fréquence fi la plus élevée, soit
[ei , ei+1 [. Pour déterminer la valeur du mode, on utilise la méthode d’interpolation linéaire
suivante :
α1
M0 = ei + ai · , (1.1)
α1 + α2
où
– ei : c’est la borne inférieure de la classe modale.
– ai : c’est l’amplitude de la classe modale.
– α1 = n0 − n1 ou bien α1 = f0 − f1 avec n0 et f0 sont l’effectif et la fréquence de la classe
modale. n1 et f1 sont l’effectif et la fréquence de la classe qui précède la classe modale.
– α2 = n0 − n2 ou bien α2 = f0 − f2 avec n2 et f2 sont l’effectif et la fréquence de la classe
qui suit la classe modale.
Exemple 1.17. Dans le tableau ci-dessous, les valeurs d’une variable X ont été groupées
par classes de valeurs d’amplitudes égales.
Classes n i Ni
[0, 5[ 2 2
[5, 10[ 7 9
[10, 15[ 18 27
[15, 20[ 3 30
La classe modale est [10, 15[ correspondant à l’effectif le plus élevé n3 = 18.
α1 = n0 − n1 = 18 − 7 = 11, α2 = n0 − n2 = 18 − 3 = 15, ai = 15 − 10 = 5, ei = 10
Appliquons la formule (1.1)
α1 11
M0 = ei + ai · = 10 + 5 · = 12, 115.
α1 + α2 11 + 15
b) Classe d’amplitudes inégales :
ni fi
Si les classes sont d’amplitudes inégales, alors la classe modale est la classe qui a ou le
ai ai
plus élevé. Dans ce cas, pour calculer le mode, il faut appliquer la formule précedente (1.1),
ni fi
et remplacer les effectifs ni par hi = ou fi par hi = .
ai ai
Exemple 1.18. Soit le tableau suivant où des données sont présentées par classes d’ampli-
tudes inégales.
Fig. 1.10 – Détermination graphique du mode : classes d’amplitudes égales
xi ni ai hi = naii
[0, 10[ 9 10 0,9
[10, 12[ 9 2 4,5
[12, 20[ 12 8 1,5
La classe modale est [10, 12[ correspondant à hi le plus élevé h2 = 4, 5.

On a donc
α1 = h0 − h1 = 4, 5 − 0, 9 = 3, 6; α2 = h0 − h2 = 4, 5 − 1, 5 = 3
et
α1 3, 6
M0 = ei + ai · = 10 + 2 · = 11, 09
α1 + α2 3, 6 + 3
Remarque 1.3. Le mode peut etre déterminé par la méthode graphique à partir de l’histo-
gramme de fréquence.
La médiane
Noté Me , la médiane est la valeur, observée ou possible, dans la série des données classées
par ordre croissant (ou décroissant) qui partage cette série en deux ensembles d’effectifs
égaux : 50% des valeurs lui sont supérieures et 50% lui sont inférieures.
1) Variable discrète : Soit x1 , x2 , x3 , ..., xn une série statistique discrète ordonnée dans
l’ordre croissant tel que x1 ≤ x2 ≤ x3 ≤ ... ≤ xn .
1. Si n est impair, la médiane est unique :
Me = x n+1
2
2. Si n est pair, la médiane peut prendre toutes valeur comprise dans [x n2 , x n2 +1 ] :
x n2 + x n2 +1
Me = .
2
Exemple 1.19. : Soit un échantillon de 11 personnes dont le poid en kg est :
45, 68, 89, 74, 55, 62, 56, 74, 49, 52, 63.
Les poids classés par ordre croissant sont :
45, 49, 52, 55, 56, |{z}

62 , 63, 68, 74, 74, 89 .
| {z } | {z }
5 x6 =Me 5
Le nombre d’individus est impair, n = 11, la médiane est :
Me = x n+1 = x 12 = x6 = 62kg.
2 2
Exemple 1.20. Soit maintenant un échantillon de 12 personnes dont le poid en kg est :
45, 68, 89, 74, 55, 55, 62, 56, 74, 49, 52, 63.
Les poids classés par ordre croissant sont :
45, 49, 52, 55, 55, 56, 62, 63, 68, 74, 74, 89 .
| {z } | {z }
6 6
45, 49, 52, 55, 55, 56, 62, 63, 68, 74, 74, 89.
| {z }
L’effectif total est pair, n = 12, la médiane est :
x n2 + x n2 +1 x 12 + x 12 +1 x6 + x7 56 + 62
Me = = 2 2
= = = 59kg.
2 2 2 2
Il ne s’agit pas d’une valeur observée.
Remarque 1.4. Si n est impair alors la médiane est égale à l’une des données. Si n est
pair, elle n’est pas forcément égale à l’une des données.
2) Variable continue : La médiane Me d’une variable statistique continue est la valeur

pour laquelle la fréquence cumulée est égale à 0, 5 ou 50%, c’est à dire F (Me ) = 0.5. On
détermine alors une classe médiane (classe contenant la médiane). C’est la classe [ei ; ei+1 [
telle que F (ei ) < 12 < F (ei+1 ). Ensuite, par interpolation linéaire, on peut calculer la valeur
exacte de la médiane.
0.5 − F (ei )
Me = ei + ai (1.2)
F (ei+1 ) − F (ei )
où ai est l’amplitude de la classe médiane [ei , ei+1 [
Remarque 1.5. L’expression de la médiane en utilisant l’effectifs cumulés est donnée par :
n
2
− Ni
Me = ei + ai (1.3)
Ni+1 − Ni
Remarque 1.6. on peut déterminer la médiane Me au moyen de la représentation graphique
des Fréquences cumulées.
Exemple 1.21. Répartition des 100 individus selon leur âge :

Classes Effectifs ni Effectifs cumulés Ni ↑ Fréquences fi Fréquences cumulées Fi ↑
[5, 10[ 11 11 0,11 0,11
[10, 15[ 10 21 0,10 0,21
[15, 20[ 15 36 0,15 0,36
[20,30[ 20 56 0,20 0,56
[30, 40[ 18 74 0,18 0,74
[40, 60[ 16 90 0,16 0,90
[60, 80[ 10 100 0,10 1
Total 100 - 1 -
n
2
= 50 alors la classe qui contient la médiane est [20, 30[, par interpolation linéaire on
trouve : n
− Ni 50 − 36
Me = ei + ai 2 = 20 + 10 · = 27
Ni+1 − Ni 56 − 36
C’est à dire que 50% des individus sont âgés de moins de 27 ans.
Moyenne
1) Variable discrète : Soit X une variable statistique discrète pouvant prendre les
valeurs x1 , x2 , . . . , xk .
Définition 1.1. La moyenne arithmétique : On appelle moyenne arithmétique la somme
de toutes les données statistiques divisée par le nombre de ces données :
k
x1 + x2 + ... + xk 1X
x = = xi (1.4)
n n i=1
Définition 1.2. La moyenne arithmétique pondérée : Si les valeurs xi de X sont
observées ni fois, la formule (1.4) devient :
k
n1 x1 + n2 x2 + ... + nk xk 1X
x = = ni xi (1.5)
n n i=1
on peut écrir la moyenne arithmétique (1.5) à l’aide des fréquences fi comme suit :
k
X
x = fi xi (1.6)
i=1
Exemple 1.22. Les résultats de poids de 20 chiens de race Berger Allemand, tous sexes
confondus, exprimés en kg sont :
29 28 30 35 35 33 31 30 36 37 38 37 35 33 31 29 28 28 34 35
La moyenne arithmétique vaut :
n 20 P20
1X 1 X xi
x = xi = xi = i=1
n i=1 20 i=1 n
29 + 28 + 30 + 35 + 35 + 33 + 31 + 30 + 36 + 37 + 38 + 37 + 35 + 33 + 31 + 29 + 28 + 28 + 34 + 35
=
20
652
= = 32, 6
20
La distribution d’effectifs correspondant aux poids de 20 chiens de race Berger Allemand est
xi 28 29 30 31 33 34 35 36 37 38
ni 3 2 2 2 2 1 4 1 2 1
ni xi 84 58 60 62 66 34 140 36 74 38
La moyenne arithmétique pondérée égale à :
k 10 P10
1X 1 X i=1ni xi
x = ni xi = ni xi =
n i=1 20 i=1 20
84 + 58 + 60 + 62 + 66 + 34 + 140 + 36 + 74 + 38 652
= = = 32, 6
20 20
2) Variable continue : Dans ce cas on utilise les mêmes formules que dans le cas discret
sauf que les xi seront remplacés par les centres de classes ci .
La moyenne arithmétique est donnée par la formule suivante :
k
c1 + c2 + ... + ck 1X
x = = ci (1.7)
n n i=1
La moyenne arithmétique pondérée est donnée par :

k k
n1 c1 + n2 c2 + ... + nk ck 1X X
x = = ni ci = fi ci (1.8)
n n i=1 i=1
Propriété 1.1.
La somme des écarts à la moyenne arithmétique est nulle :
k
1X
ni (x − xi ) = 0
n i=1
Si l’on multiplie par un même nombre a chaque valeur de la série, la moyenne arithmétique
est multipliée par ce nombre :
k
1X
ni axi = ax
n i=1
Si l’on ajoute (ou retranche) un même nombre à chaque valeur de la série, la moyenne
arithmétique se trouve augmentée (diminuée) de ce nombre :
k
1X
ni (xi ± a) = a ± x
n i=1
la moyenne arithmétique des moyennes arithmétiques calculées sur des sous-ensembles d’une
série est égale à la moyenne arithmétique générale de la série.
Remarque 1.7. La moyenne est plus sensible aux valeurs extrêmes que la médiane.
Exemple 1.23. Considérons les deux séries suivantes :
1 3 5 8 10 1 3 5 8 10000
La médiane est x3 = 5 pour les deux série, alors que la moyenne x vaut 5, 4 pour la première
série et 2003, 4 pour la deuxième. La moyenne est fortement infuencée par la valeur 10000
du deuxième série, alors que la médiane ne l’est pas.
Quartiles
Les quartiles découpent la série statistique en quatre classes d’effectifs égaux.

Le premier quartile : noté Q1 , est la plus petite valeur de la série statistique telle qu’au
moins 25% des données soient inférieures ou égales à Q1 .
Le deuxième quartile : noté Q2 , est la médiane
Le troisième quartile : noté Q3 , est la plus petite valeur de la série statistique, telle qu’au
moins 75% des données soient inférieures ou égales à Q3 .
Calcul des quartiles
variable discrète :
Xnα +Xnα+1

 2
, si nα ∈ N ;
Qα =
X[nα]+1 , si nα ∈
/ N.

1 1 1
avec α = , ,
4 2 3
Exemple 1.24. Considérons la série des observations suivantes :
2, 3, 4, 5, 6, 6, 7, 7, 8, 9, 10,
Calcul de Q1 : Q1 est la valeur xi dont le rang (la position) est le plus petit entier qui suit
n
4
.
On a : n = 11 et n4 = 11 4
= 2, 75. Le plus petit entier qui suit n4 = 2, 75 est 3, alors Q1 est la
troisième valeur. D’où Q1 = x3 = 4.
Calcul de Q3 : Q3 est la valeur xi dont le rang (la position) est le plus petit entier qui suit
3n
4
.
On a : n = 11 et 3n 4
= 3×11
4
= 8, 25. Le plus petit entier qui suit 3n4
= 8, 25 est 9, alors Q3
ème
est la 9 valeur. D’où Q3 = x9 = 8.
variable continue : Pour la détermination de la valeur exacte de Q1 et Q3 , on va utiliser

la méthode d’interpolation linéaire.
0.25 − F (ei )
Q1 = ei + ai
F (ei+1 ) − F (ei )
0.75 − F (ei )
Q3 = ei + ai
F (ei+1 ) − F (ei )
Exemple 1.25. Prenons l’exemple 1.19,

Calcul de Q1 : la classe de Q1 correspond, à la classe où le fréquences cumulée ( ou
l’effectifs cumulé ) atteint ou dépasse pour la première fois 0, 25 ( 25% de l’effectif total ).
F (Q1 ) = 0, 25 ⇒ Q1 ∈ [15, 20[, par interpolation linéaire on trouve :
0.25 − F (ei ) 0.25 − 0, 21
Q1 = ei + ai = 15 + 5 = 16, 33
F (ei+1 ) − F (ei ) 0, 36 − 0, 21
Calcul de Q3 : la classe de Q3 correspond, à la classe où le fréquences cumulée ( ou l’effectifs
cumulé ) atteint ou dépasse pour la première fois 0, 75 ( 75% de l’effectif total ).
F (Q3 ) = 0, 75 ⇒ Q1 ∈ [40, 60[, par interpolation linéaire on trouve :
0.75 − F (ei ) 0.75 − 0, 74
Q3 = ei + ai = 40 + 20 = 41, 25
F (ei+1 ) − F (ei ) 0, 90 − 0, 74
1.5.2 Paramètres de dispersion

Les paramètres de dispersion donnent des informations sur la répartition des valeurs
autour de la valeur centrale.
Exemple 1.26. Les deux séries d’observations suivantes :
X = {6, 6, 7, 7, |{z}
8 , 9, 9, 10, 10} et Y = {1, 2, 4, 6, |{z}
8 , 10, 12, 14, 15}
x=Me x=Me
ont la même moyenne et la même médiane x = y = Me = 8, mais elles sont différentes. La

première série est moins dispersée que la deuxième.
Étendue
L’étendue d’une série statistique quantitative est la différence entre la plus grande valeur
observée et la plus petite, notée E.
E = max(xi ) − min(xi )
Plus l’étendu est grande plus les valeurs sont dispersées.
Exemple 1.27. Prenons l’exemple 1.26 L’étendue de la première série d’observations : X =
{6, 6, 7, 7, 8, 9, 9, 10, 10} est égale à E1 = 10 − 6 = 4, et l’étendue de la deuxième série
d’observations : Y = {1, 2, 4, 6, 8, 10, 12, 14, 15} est égale à E2 = 15 − 1 = 14. Comme
E2 > E1 , on peut deduire alors que la deuxième série ( Y ) est plus dispersée que la première
( X ).
Définition 1.3. (Ecart-interquartile) l’intervalle interquartile [Q1 ; Q3 ] contient 50% des
observations. La longueur de cette intervalle est appelée écart-interquartile notée IQ .
IQ = Q3 − Q1
Plus cette différence est élevée, et plus les valeurs de la population sont dispersées.
Remarque 1.8. L’écart-interquartile mesure la dispersion des valeurs xi autour de la
médiane Me . Plus cet écart est petit, plus les valeurs appartenant à l’intervalle interquar-
tile sont proches de la médiane.
Variance
La variance est un indicateur de la dispersion d’une série par rapport à sa moyenne.

variable discrète :
n
1X
V (x) = ni (xi − x)2
n i=1
ou
n
1X
V (x) = ni (xi )2 − x2 (1.9)
n i=1
Remarque 1.9. cette dernière formule de la variance (1.9), limite les erreurs d’arrondis car
la moyenne n’intervient qu’une seule fois alors que dans la formule précédente elle intervient
i fois.
Remarque 1.10. Dans le cas de petit échantillon (n ≤ 30), on utilise la formule V (x) =
1
Pn 2
n−1 i=1 ni (xi −x) pour une raison qui dépasse le cadre de ce chapitre. Cependant, si la taille
de l’échantillon est grande (n > 30) les valeurs numériques fournies par les deux formules
sont relativement proches.
variable continue :
n
1X
V (x) = ni (ci − x)2
n i=1
ou
n
1X
V (x) = ni (ci )2 − x2 (1.10)
n i=1
où ci est le centre de la classe i.

Propriétés de la variance
1. V (x) ≥ 0.
2. ∀a ∈ R : V (ax) = a2 V (x).
3. ∀b ∈ R : V (x + b) = V (x).
4. ∀a, b ∈ R : V (ax + b) = a2 V (x).
Exemple 1.28. Supposons que X soit le poids en lb des bébés d’un certain échantillon et
que x = 5, 0lb, σ(x) = 2.0lb. Considérons la variable Z = [0, 454X + 3, 0]Kg. Il n’est pas
nécessaire de connaı̂tre les valeurs observées de X et de Z pour déterminer la moyenne, la
variance et l’écart type de Z. En effet :
z = [0.454x + 3.0]Kg = 5, 26Kg,
V (z) = 0, 4542V (x) = 0, 824Kg 2 .

Ecart-type
L’écart-type est défini comme la racine carrée positive de la variance

p
σ(x) = V (x).
Remarque 1.11.
• L’écart-type mesure la distance entre x et les valeurs de X. Il sert à mesurer la dispersion
d’une série statistique autour de sa moyenne.
• La série varie autour d’une moyenne x : x ± σ(x)
• Si l’écart-type est faible, cela signifie que les valeurs sont concentrées autour de la moyenne
(on dit que la série est homogène).
• Si l’écart-type est élevé, cela veut dire que les valeurs sont plus dispersées autour de la
moyenne (on dit que la série est hétérogène).
Exemple 1.29. Soit la série statistique 2, 3, 4, 4, 5, 6, 7, 9 de taille 8. On a

2+3+4+4+5+6+7+9
x= =5
8
n
1X
V (x) = ni (xi − x)2
n i=1
1
(2 − 5)2 + (3 − 5)2 + (4 − 5)2 + (4 − 5)2 + (5 − 5)2 + (6 − 5)2 + (7 − 5)2 + (9 − 5)2

=
8
36
= = 4, 5
8
On peut utiliser la deuxième formule (1.9) de la variance, ce qui nécessite moins de calcul.
n
1X
V (x) = ni (xi )2 − x2
n i=1
1 2
= (2 + 32 + 42 + 42 + 52 + 62 + 72 + 92 ) − 52
8
1
= (236) − 25 = 4, 5
8
p √
et L’écart-type σ(x) = V (x) = 4, 5 = 2, 12
Coefficient de variation
Le coefficient de variation est le rapport de l’écart-type par rapport à la moyenne. Il est

le plus souvant exprimé sous la forme d’un pourcentage.
σ(x)
CV = × 100
x
Remarque 1.12. Le coefficient de variation est une quantité sans unité. Il est utilisé pour
comparer les dispersions relatives de deux séries statistiques, lorsqu’elles sont exprimées dans
des unités différentes.
Exemple 1.30. On a mesuré la taille (en centimètres) et le poids (en gramme) de 10 pois-
sons. Les résultats sont :
x = {23, 20, 17, 15, 30, 25, 24, 27, 22, 19}.
y = {250, 220, 150, 180, 350, 250, 200, 240, 200, 100}.
On a
x = 22, 2cm, σ(x) = 4, 59cm, CV (x) = 20, 6%
et
y = 214gr, σ(y) = 67, 03gr, CV (y) = 31, 2%
Le coefficient de variation du poids est supérieur à celui de la taille (CV (y) = 31, 2% >
CV (x) = 20, 6%), le poids est donc plus dispersé que la taille.

Biostat-Chapitre 1

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Biostat-Chapitre 1

Transféré par

Droits d'auteur :

Formats disponibles

Table des matières

Table des matières 1

1 Statistique descriptive à une dimension 2

Statistique descriptive à une

La statistique est un ensemble de méthodes scientifiques qui permettent de collecter,

1.2 Vocabulaire Statistique

Exemple 1.1. On a pesé 100 poissons provenant d’un lac.

– Taille : Représente le nombre d’individus d’un échantillon ou d’une population. Elle

{180, 200, 150, 180, ..., 320, 195}

[20 − 25[, [25 − 35[, [35 − 42[, [42 − 60[

Exemple 1.5. (Variable qualitative ordinale)

Exemple 1.6. (Variable qualitative nominale)

Exemple 1.7. (Variable quantitative discrète)

Exemple 1.8. (Variable quantitative continue)

On va calculer les effectifs et les effectifs cumulés.

Tableau 1 : Les effectifs ni relatifs à chaque modalité xi (notes)

Ce qui nous donne (Tableau 2) :

Tableau 2 : Les effectifs ni et Ni ↑ relatifs à chaque modalité xi (notes)

– Fréquence relative : La fréquence relative est le rapport de l’effectif concerné ni par

– Fréquence cumulée : La fréquence cumulée Fi est la somme des fréquences corres-

Exemple 1.11. On reprend l’exemple précédent et on applique tout simplement la formule

Tableau 3 : Les fréquences fi et Fi ↑ relatives à chaque modalité xi (notes)

– Amplitude d’une classe : L’amplitude d’une classe est ai = bi+1 − bi (lire ai :

Avant de regrouper cette série en classes, il faut d’abord l’ordonner.

On a xmin = x1 = 140 et xmax = x20 = 163.

1.3 Tableaux statistiques

Exemple 1.13. La répartition selon le groupe sanguin de 100 étudiants est :

1.3.2 Caractère quantitatif

Valeurs observées xi Effectifs ni Fréquences relatives fi Fréquence cumulée croissante Fi

La population est l’ensemble des lots.

b) Caractère quantitatif continu

1.4 Représentations graphiques

Fig. 1.1 – Répartition selon le groupe sanguin de 100 étudiants

Diagramme circulaire (diagramme en secteurs ou diagramme en camembert)

α1 = f1 × 360◦ = 0, 40 × 360◦ = 144◦ −→ groupe sanguin A

α2 = f2 × 360◦ = 0, 43 × 360◦ = 154, 8◦ −→ groupe sanguin B

Fig. 1.2 – Répartition selon le groupe sanguin de 100 étudiants

1.4.2 Caractères quantitatifs discrets

Fig. 1.3 – Nombre de lapin dans 20 lots

Polygone des fréquences

Fig. 1.4 – Nombre de lapin dans 20 lots

Fig. 1.5 – Nombre de lapin dans 20 lots

1.4.3 Caractères quantitatifs continus

Fig. 1.6 – Histogramme : cas d’amplitudes égales

Fig. 1.7 – Histogramme : cas d’amplitudes inégales

Polygone des fréquences

Fig. 1.8 – Polygone des fréquences

Fig. 1.9 – Courbe cumulative

1.5 Indicateurs numériques

1.5.1 Paramètres de position ou Tendance centrale

2) Variable continue : On parle dans ce cas de classe modale :

Fig. 1.10 – Détermination graphique du mode : classes d’amplitudes égales

La classe modale est [10, 12[ correspondant à hi le plus élevé h2 = 4, 5.

2. Si n est pair, la médiane peut prendre toutes valeur comprise dans [x n2 , x n2 +1 ] :

Exemple 1.19. : Soit un échantillon de 11 personnes dont le poid en kg est :

Les poids classés par ordre croissant sont :

45, 49, 52, 55, 56, |{z}

Le nombre d’individus est impair, n = 11, la médiane est :

Exemple 1.20. Soit maintenant un échantillon de 12 personnes dont le poid en kg est :

Les poids classés par ordre croissant sont :

2) Variable continue : La médiane Me d’une variable statistique continue est la valeur

Exemple 1.21. Répartition des 100 individus selon leur âge :

La moyenne arithmétique pondérée est donnée par :