Académique Documents
Professionnel Documents
Culture Documents
1
Chapitre 1
1.1 Introduction
La biostatistique (appelée aussi biométrie) est un domaine scientifique constitué par
l’application de la science statistique à la biologie et à la médecine. Elle est un outil
mathématique utilisé dans la recherche clinique, l’épidemiologie et en santé publique.
2
Statistique descriptive à une dimension 3
probabilités pour généraliser à toute la population statistique, des résultats observés sur
un échantillon. Elle inclut l’estimation statistique et la théorie des tests d’hypothèses.
Exemple 1.2. Considérons les étudiants de deuxième année de l’ESSAIA comme notre
population. Un échantillon de cette population pourrait être l’ensemble des étudiants d’un
groupe de TD.
Exemple 1.3. – Dans l’exemple 1.1 le caractère étudié est le poids des poissons.
– Dans l’exemple 1.2, les caractères à étudier pour chaque étudiant ( individu ) pourraient
être : la taille, la couleur des yeux, le sexe, l’âge, le poids.
– Modalités : Ce sont les différentes valeurs que peut prendre un caractère. Un caractère
peut posséder une ou plusieures modalités.
Exemple 1.4.
− La variable ”couleur” des yeux à quatre modalités : vert, bleu, noir et marron,
− Les modalités de la variable ”poids” du 100 poissons (en grammes) sont
,
Statistique descriptive à une dimension 4
− Les modalités de la variable ”âge” des ouvriers d’une entreprise peuvent étre :
– Nature des caractères : Les caractères peuvent être classés selon leurs natures. On
distingue deux types de caractères : qualitatif et quantitatif.
1. Caractère qualitatif : Ces modalités ne sont pas mesurables. On peut citer
comme exemple : la nationalité, la profession, l’état matrimonial, le niveau d’ins-
truction, Les hormones, etc. On distingue deux types de variables qualitatives :
1.1 Variable qualitative ordinale : Les modalités peuvent être classées (or-
données) dans un certain ordre naturel.
1.2 Variable qualitative nominale : Les modalités ne peuvent pas être
classées (ordonnées) de façon naturelle.
2. Caractère quantitatif : Ces modalités sont mesurables, à chacune des moda-
lités on peut attacher un nombre (ou une valeur). Ce nombre est appelé variable
statistique ; celle-ci peut être discrète ou continue.
2.1 Variable quantitative discrète : Une variable statistique est discrète
lorsque ses valeurs possibles sont des nombres isolés.
2.2 Variable quantitative continue : Une variable statistique est continue
lorsque ses valeurs possibles sont définies sur un intervalle.
– Série statistique : On appelle série statistique la suite des valeurs prises par une
variable X sur les différents individus de l’échantillon, notée (x1 , x2 , x3 , ..., xn ),où xi est
la valeur de la variable X observée sur le ième individu.
Exemple 1.9. La série statistique suivante représente les mesures en centimètres des tailles
de 10 plantes :
9, 3 9, 7 10, 1 10, 2 10, 4 10, 6 10, 7 10, 7 10, 9 11
– Effectif total n : C’est le nombre de toutes les valeurs prises par la variable.
– Effectif partiel ni : C’est le nombre d’apparition de la valeur xi dans la population
statistique étudiée. L’effectif est parfois appelé fréquence absolue.
– Effectif cumulé croissant : En rangeant les valeurs du caractère dans l’ordre crois-
sant, on peut calculer l’effectif cumulé croissant Ni , en faisant la somme des effectifs de
cette valeur et de tous ceux qui la précèdent.
N1 = n 1
N2 = n 1 + n 2
N3 = n 1 + n 2 + n 3
.........................
Nk = n1 + n2 + n3 + .... + nk = n
Exemple 1.10. Dans une promotion de 20 étudiants de Biochimie, voici les notes obtenues
au dernier examen de Biostatistique :
10, 14, 12, 15, 7, 8, 10, 11, 12, 18, 2, 4, 12, 13, 14, 15, 19, 11, 9, 0
Notes xi 0 2 4 7 8 9 10 11 12 13 14 15 18 19
Effectifs ni 1 1 1 1 1 1 2 2 3 1 2 2 1 1
2) Les effectifs cumulés : On fait la somme des effectifs de la note plus la somme des effectifs
de toutes les notes qui la précédent.
N1 = n 1 = 1
N2 = n 1 + n 2 = 1 + 1 = 2
N3 = n 1 + n 2 + n 3 = 1 + 1 + 1 = 3
.........................
N14 = n1 + n2 + n3 + .... + n14 = 1 + 1 + 1 + 1 + 1 + 1 + 2 + 2 + 3 + 1 + 2 + 2 + 1 + 1 = 20
Notes xi 0 2 4 7 8 9 10 11 12 13 14 15 18 19
Effectifs ni 1 1 1 1 1 1 2 2 3 1 2 2 1 1
Effectifs cumulés Ni ↑ 1 2 3 4 5 6 8 10 13 14 16 18 19 20
Notes xi 0 2 4 7 8 9 10 11 12 13 14 15 18 19
fi 0,05 0,05 0,05 0,05 0,05 0,05 0,1 0,1 0,15 0,05 0,1 0,1 0,05 0,05
Fi ↑ 0,05 0,1 0,15 0,2 0,25 0,3 0,4 0,5 0,65 0,7 0,8 0,9 0,95 1
– Classe : Dans le cas continu, il est nécessaire de regrouper les résultats en classes à
cause de leur grande masse. Une classe est un intervalle fermé à gauche et ouvert à
droite, du type [bi ; bi+1 [.
– Centre d’une classe : ci = bi +b2i+1 ( lire ci : centre de la classe i ).
Statistique descriptive à une dimension 7
Remarque 1.2. Pour calculer l’amplitude des classes, il faut ordonner la série statistique.
Une fois ordonnée, on applique la formule suivantes afin de calculer l’amplitude :
étendu xmax − xmin
ai = =
nombre de classe k
Exemple 1.12. On s’intéresse à la taille en cm de 20 étudiants, les résultats obtenus sont :
140 150 148 147 146 144 155 154 153 152
150 163 159 158 157 156 142 143 143 144
140 142 143 143 144 144 146 147 148 150
150 152 153 154 155 156 157 158 159 163
k = 1 + 3, 3 log N = 1 + 3, 3 log 20 = 1 + 3, 3 · 1, 30 = 5, 29 ≈ 5
Etendu :
e = xmax − xmin = x20 − x1 = 163 − 140 = 23
Amplitude :
e 23
ai = = = 4, 6 ≈ 5
k 5
Cette série est regroupée en 5 classes et chaque classe est d’amplitude égale à 5.
Classes Centre ci Effectifs ni
[140, 145[ 142.5 6
[145, 150[ 147.5 3
[150, 155[ 152.5 5
[155, 160[ 157.5 5
[160, 165[ 162.5 1
Total - 20
Statistique descriptive à une dimension 8
10, 1, 0, 0, 0, 10, 12, 18, 5, 5, 12, 10, 12, 12, 0, 10, 15, 10, 20, 20
Statistique descriptive à une dimension 9
Classes numéro i, [bi , bi+1 [ Centre ci Effectifs ni Fréquences relatives fi Fréquances cumulées Fi
[b1 , b2 [ c1 n1 f1 F1
[b2 , b3 [ c2 n2 f2 F2
[b3 , b4 [ c3 n3 f3 F3
. . . . .
. . . . .
. . . . .
[bk , bk+1 [ ck nk fk Fk
Total - n 1 -
Exemple 1.15. Prenons l’exemple 1.12, le tableau statistique relatif à la taille des étudiants
est :
Classes i Centre ci ni fi Ni ↑ Fi ↑
140+145
[140, 145[ c1 = 2
= 142, 5 6 0, 30 6 0,30
145+150
[145, 150[ c2 = 2
= 147, 5 3 0, 15 9 0,45
150+155
[150, 155[ c3 = 2
= 152, 5 5 0, 25 14 0,70
155+160
[155, 160[ c4 = 2
= 157, 5 5 0, 25 19 0,95
160+165
[160, 165[ c5 = 2
= 162, 5 1 0, 05 20 1
Total - 20 1 - -
Tableau 10 : Tableau de la distribution des fréquences des tailles des étudiants
Les différentes modalités sont représentées par des rectangles dont la base est constante
et de hauteur égal à l’effectif ou à la fréquence.
Statistique descriptive à une dimension 10
Ce diagramme est un disque divisé en secteurs angulaires dont les angles au centre sont
proportionnels aux effectifs ou aux fréquences de chaque modalité. L’angle de chaque modalité
se calcule par :
ni
αi = × 360◦ = fi × 360◦
n
avec αi ; l’angle correspondant à la modalité i, ni : effectif de la modalité i et n : effectif total.
Les angles correspondant de l’exemple 1.11 sont :
Il est formé d’un certain nombre de segments (ou bâtons). Les valeurs discrètes xi prises
par les variables sont placées sur l’axe des abscisses, et les effectifs (ou les fréquences) sur
l’axe des ordonnées. La hauteur du bâton est proportionnelle à l’effectif (ou à la fréquence).
En joignant les sommets des bâtons par une ligne brisée, on obtient le polygone de
fréquences.
Courbe cumulative
Dans le cas d’une variable discrète, la courbe cumulative se présente comme une courbe
en escalier. En abscisse figurent les observations de la variable considérée xi , tandis qu’en
ordonnée figurent les fréquences cumulées Fi (ou les effectifs cumulées Ni ). Dans un premier
temps, en face de chaque observation xi figure un point dont l’ordonnée est égale à la fréquence
cumulée correspondante Fi . Ensuite, pour compléter le graphique, les différents points sont
Statistique descriptive à une dimension 12
joints par des segments horizontaux puisque, par définition, le cumul reste constant entre
deux observations (la variable considérée est discrète, ce qui signifie qu’entre deux entiers il
n’y a pas d’observation possible). Chaque segment de cette courbe en escalier est ouvert à
droite et fermé à gauche (sauf le dernier).
a) Classes d’amplitudes égales : Dans le cas où les amplitudes sont égales, l’histo-
gramme est un diagramme composé de rectangles verticaux dont les hauteurs sont propor-
tionnelles aux fréquences (ou aux effectifs) et dans les bases sont égales à l’amplitude de la
classe associée.
b) Classes d’amplitudes inégales : Dans le cas où les amplitudes ai sont différentes,
l’histogramme est un diagramme composé de rectangles verticaux dont les hauteurs sont
Statistique descriptive à une dimension 13
proportionnelles aux fréquences corrigées fic (ou aux effectifs corrigés nci ) et dont les bases
sont égales à l’amplitude de la classe associée.
ni fi
nci = , oufic =
ai ai
Supposons que l’on regroupe les données de l’exemple 1.12 classe d’amplitudes inégales.
xi ni ai hi = ni /ai
[140, 145[ 6 5 h1 = n1 /a1 = 6/5 = 1, 2
[145, 155[ 8 10 h2 = n2 /a2 = 8/10 = 0, 8
[155, 158[ 3 3 h3 = n3 /a3 = 3/3 = 1
[158, 165[ 3 7 h4 = n4 /a4 = 3/7 = 0, 42
Pour tracer le polygone, on joint les points milieu du sommet des rectangles adjacents
par un segment de droite.
Courbe cumulative
La courbe cumulative ( ou polygone des fréquences cumulées ) est obtenue en portant les
points dont les abscisses représentent la borne supérieure de chaque classe et les ordonnées les
fréquences cumulées correspondantes, puis en reliant ces points par des segments de droite.
Le mode
Le mode, noté M0 , est la seule mesure centrale qui peut être relevée et utilisée aussi bien
pour des données qualitatives que quantitatives.
1) Variable discrète : Le mode est la valeur de la variable statistique pour laquelle l’effectif
(ou la fréquence) est le plus grand.
Exemple 1.16.
Le mode de l’exemple 1.11 est le groupe sanguin B (M0 = B), car il correspond à l’effectif le
plus élevé 43.
La distribution des notes obtenues à un examen de mathématiques d’une classe de 100
étudiants.
Notes xi 5 6 8 9 10 12 13 14 Total
Nombre d’étudiants ni 4 8 9 18 10 25 16 10 100
Statistique descriptive à une dimension 15
Le mode de cette série statistique est égal à 12 car il correspond au plus grand effectif 25.
L’interprétation est que la note la plus fréquente est 25.
Exemple 1.17. Dans le tableau ci-dessous, les valeurs d’une variable X ont été groupées
par classes de valeurs d’amplitudes égales.
Classes n i Ni
[0, 5[ 2 2
[5, 10[ 7 9
[10, 15[ 18 27
[15, 20[ 3 30
La classe modale est [10, 15[ correspondant à l’effectif le plus élevé n3 = 18.
α1 = n0 − n1 = 18 − 7 = 11, α2 = n0 − n2 = 18 − 3 = 15, ai = 15 − 10 = 5, ei = 10
Appliquons la formule (1.1)
α1 11
M0 = ei + ai · = 10 + 5 · = 12, 115.
α1 + α2 11 + 15
b) Classe d’amplitudes inégales :
ni fi
Si les classes sont d’amplitudes inégales, alors la classe modale est la classe qui a ou le
ai ai
plus élevé. Dans ce cas, pour calculer le mode, il faut appliquer la formule précedente (1.1),
ni fi
et remplacer les effectifs ni par hi = ou fi par hi = .
ai ai
Exemple 1.18. Soit le tableau suivant où des données sont présentées par classes d’ampli-
tudes inégales.
Statistique descriptive à une dimension 16
xi ni ai hi = naii
[0, 10[ 9 10 0,9
[10, 12[ 9 2 4,5
[12, 20[ 12 8 1,5
α1 = h0 − h1 = 4, 5 − 0, 9 = 3, 6; α2 = h0 − h2 = 4, 5 − 1, 5 = 3
et
α1 3, 6
M0 = ei + ai · = 10 + 2 · = 11, 09
α1 + α2 3, 6 + 3
Remarque 1.3. Le mode peut etre déterminé par la méthode graphique à partir de l’histo-
gramme de fréquence.
La médiane
Noté Me , la médiane est la valeur, observée ou possible, dans la série des données classées
par ordre croissant (ou décroissant) qui partage cette série en deux ensembles d’effectifs
égaux : 50% des valeurs lui sont supérieures et 50% lui sont inférieures.
1) Variable discrète : Soit x1 , x2 , x3 , ..., xn une série statistique discrète ordonnée dans
l’ordre croissant tel que x1 ≤ x2 ≤ x3 ≤ ... ≤ xn .
1. Si n est impair, la médiane est unique :
Me = x n+1
2
x n2 + x n2 +1
Me = .
2
Statistique descriptive à une dimension 17
45, 68, 89, 74, 55, 62, 56, 74, 49, 52, 63.
Me = x n+1 = x 12 = x6 = 62kg.
2 2
45, 68, 89, 74, 55, 55, 62, 56, 74, 49, 52, 63.
45, 49, 52, 55, 55, 56, 62, 63, 68, 74, 74, 89 .
| {z } | {z }
6 6
45, 49, 52, 55, 55, 56, 62, 63, 68, 74, 74, 89.
| {z }
L’effectif total est pair, n = 12, la médiane est :
x n2 + x n2 +1 x 12 + x 12 +1 x6 + x7 56 + 62
Me = = 2 2
= = = 59kg.
2 2 2 2
Il ne s’agit pas d’une valeur observée.
Remarque 1.4. Si n est impair alors la médiane est égale à l’une des données. Si n est
pair, elle n’est pas forcément égale à l’une des données.
Remarque 1.5. L’expression de la médiane en utilisant l’effectifs cumulés est donnée par :
n
2
− Ni
Me = ei + ai (1.3)
Ni+1 − Ni
Remarque 1.6. on peut déterminer la médiane Me au moyen de la représentation graphique
des Fréquences cumulées.
Statistique descriptive à une dimension 18
Moyenne
1) Variable discrète : Soit X une variable statistique discrète pouvant prendre les
valeurs x1 , x2 , . . . , xk .
Définition 1.1. La moyenne arithmétique : On appelle moyenne arithmétique la somme
de toutes les données statistiques divisée par le nombre de ces données :
k
x1 + x2 + ... + xk 1X
x = = xi (1.4)
n n i=1
Définition 1.2. La moyenne arithmétique pondérée : Si les valeurs xi de X sont
observées ni fois, la formule (1.4) devient :
k
n1 x1 + n2 x2 + ... + nk xk 1X
x = = ni xi (1.5)
n n i=1
on peut écrir la moyenne arithmétique (1.5) à l’aide des fréquences fi comme suit :
k
X
x = fi xi (1.6)
i=1
Exemple 1.22. Les résultats de poids de 20 chiens de race Berger Allemand, tous sexes
confondus, exprimés en kg sont :
29 28 30 35 35 33 31 30 36 37 38 37 35 33 31 29 28 28 34 35
La moyenne arithmétique vaut :
n 20 P20
1X 1 X xi
x = xi = xi = i=1
n i=1 20 i=1 n
29 + 28 + 30 + 35 + 35 + 33 + 31 + 30 + 36 + 37 + 38 + 37 + 35 + 33 + 31 + 29 + 28 + 28 + 34 + 35
=
20
652
= = 32, 6
20
Statistique descriptive à une dimension 19
La distribution d’effectifs correspondant aux poids de 20 chiens de race Berger Allemand est
xi 28 29 30 31 33 34 35 36 37 38
ni 3 2 2 2 2 1 4 1 2 1
ni xi 84 58 60 62 66 34 140 36 74 38
La moyenne arithmétique pondérée égale à :
k 10 P10
1X 1 X i=1ni xi
x = ni xi = ni xi =
n i=1 20 i=1 20
84 + 58 + 60 + 62 + 66 + 34 + 140 + 36 + 74 + 38 652
= = = 32, 6
20 20
2) Variable continue : Dans ce cas on utilise les mêmes formules que dans le cas discret
sauf que les xi seront remplacés par les centres de classes ci .
La moyenne arithmétique est donnée par la formule suivante :
k
c1 + c2 + ... + ck 1X
x = = ci (1.7)
n n i=1
Propriété 1.1.
La somme des écarts à la moyenne arithmétique est nulle :
k
1X
ni (x − xi ) = 0
n i=1
Si l’on multiplie par un même nombre a chaque valeur de la série, la moyenne arithmétique
est multipliée par ce nombre :
k
1X
ni axi = ax
n i=1
Si l’on ajoute (ou retranche) un même nombre à chaque valeur de la série, la moyenne
arithmétique se trouve augmentée (diminuée) de ce nombre :
k
1X
ni (xi ± a) = a ± x
n i=1
la moyenne arithmétique des moyennes arithmétiques calculées sur des sous-ensembles d’une
série est égale à la moyenne arithmétique générale de la série.
Remarque 1.7. La moyenne est plus sensible aux valeurs extrêmes que la médiane.
Statistique descriptive à une dimension 20
1 3 5 8 10 1 3 5 8 10000
La médiane est x3 = 5 pour les deux série, alors que la moyenne x vaut 5, 4 pour la première
série et 2003, 4 pour la deuxième. La moyenne est fortement infuencée par la valeur 10000
du deuxième série, alors que la médiane ne l’est pas.
Quartiles
variable discrète :
Xnα +Xnα+1
2
, si nα ∈ N ;
Qα =
X[nα]+1 , si nα ∈
/ N.
1 1 1
avec α = , ,
4 2 3
Exemple 1.24. Considérons la série des observations suivantes :
2, 3, 4, 5, 6, 6, 7, 7, 8, 9, 10,
Calcul de Q1 : Q1 est la valeur xi dont le rang (la position) est le plus petit entier qui suit
n
4
.
On a : n = 11 et n4 = 11 4
= 2, 75. Le plus petit entier qui suit n4 = 2, 75 est 3, alors Q1 est la
troisième valeur. D’où Q1 = x3 = 4.
Calcul de Q3 : Q3 est la valeur xi dont le rang (la position) est le plus petit entier qui suit
3n
4
.
On a : n = 11 et 3n 4
= 3×11
4
= 8, 25. Le plus petit entier qui suit 3n4
= 8, 25 est 9, alors Q3
ème
est la 9 valeur. D’où Q3 = x9 = 8.
0.75 − F (ei )
Q3 = ei + ai
F (ei+1 ) − F (ei )
Statistique descriptive à une dimension 21
Étendue
L’étendue d’une série statistique quantitative est la différence entre la plus grande valeur
observée et la plus petite, notée E.
E = max(xi ) − min(xi )
Plus l’étendu est grande plus les valeurs sont dispersées.
Exemple 1.27. Prenons l’exemple 1.26 L’étendue de la première série d’observations : X =
{6, 6, 7, 7, 8, 9, 9, 10, 10} est égale à E1 = 10 − 6 = 4, et l’étendue de la deuxième série
d’observations : Y = {1, 2, 4, 6, 8, 10, 12, 14, 15} est égale à E2 = 15 − 1 = 14. Comme
E2 > E1 , on peut deduire alors que la deuxième série ( Y ) est plus dispersée que la première
( X ).
Définition 1.3. (Ecart-interquartile) l’intervalle interquartile [Q1 ; Q3 ] contient 50% des
observations. La longueur de cette intervalle est appelée écart-interquartile notée IQ .
IQ = Q3 − Q1
Plus cette différence est élevée, et plus les valeurs de la population sont dispersées.
Remarque 1.8. L’écart-interquartile mesure la dispersion des valeurs xi autour de la
médiane Me . Plus cet écart est petit, plus les valeurs appartenant à l’intervalle interquar-
tile sont proches de la médiane.
Statistique descriptive à une dimension 22
Variance
ou
n
1X
V (x) = ni (xi )2 − x2 (1.9)
n i=1
Remarque 1.9. cette dernière formule de la variance (1.9), limite les erreurs d’arrondis car
la moyenne n’intervient qu’une seule fois alors que dans la formule précédente elle intervient
i fois.
Remarque 1.10. Dans le cas de petit échantillon (n ≤ 30), on utilise la formule V (x) =
1
Pn 2
n−1 i=1 ni (xi −x) pour une raison qui dépasse le cadre de ce chapitre. Cependant, si la taille
de l’échantillon est grande (n > 30) les valeurs numériques fournies par les deux formules
sont relativement proches.
variable continue :
n
1X
V (x) = ni (ci − x)2
n i=1
ou
n
1X
V (x) = ni (ci )2 − x2 (1.10)
n i=1
Exemple 1.28. Supposons que X soit le poids en lb des bébés d’un certain échantillon et
que x = 5, 0lb, σ(x) = 2.0lb. Considérons la variable Z = [0, 454X + 3, 0]Kg. Il n’est pas
nécessaire de connaı̂tre les valeurs observées de X et de Z pour déterminer la moyenne, la
variance et l’écart type de Z. En effet :
Ecart-type
Remarque 1.11.
• L’écart-type mesure la distance entre x et les valeurs de X. Il sert à mesurer la dispersion
d’une série statistique autour de sa moyenne.
• La série varie autour d’une moyenne x : x ± σ(x)
• Si l’écart-type est faible, cela signifie que les valeurs sont concentrées autour de la moyenne
(on dit que la série est homogène).
• Si l’écart-type est élevé, cela veut dire que les valeurs sont plus dispersées autour de la
moyenne (on dit que la série est hétérogène).
n
1X
V (x) = ni (xi − x)2
n i=1
1
(2 − 5)2 + (3 − 5)2 + (4 − 5)2 + (4 − 5)2 + (5 − 5)2 + (6 − 5)2 + (7 − 5)2 + (9 − 5)2
=
8
36
= = 4, 5
8
On peut utiliser la deuxième formule (1.9) de la variance, ce qui nécessite moins de calcul.
n
1X
V (x) = ni (xi )2 − x2
n i=1
1 2
= (2 + 32 + 42 + 42 + 52 + 62 + 72 + 92 ) − 52
8
1
= (236) − 25 = 4, 5
8
p √
et L’écart-type σ(x) = V (x) = 4, 5 = 2, 12
Coefficient de variation
σ(x)
CV = × 100
x
Statistique descriptive à une dimension 24
Remarque 1.12. Le coefficient de variation est une quantité sans unité. Il est utilisé pour
comparer les dispersions relatives de deux séries statistiques, lorsqu’elles sont exprimées dans
des unités différentes.
Exemple 1.30. On a mesuré la taille (en centimètres) et le poids (en gramme) de 10 pois-
sons. Les résultats sont :
x = {23, 20, 17, 15, 30, 25, 24, 27, 22, 19}.
y = {250, 220, 150, 180, 350, 250, 200, 240, 200, 100}.
On a
x = 22, 2cm, σ(x) = 4, 59cm, CV (x) = 20, 6%
et
y = 214gr, σ(y) = 67, 03gr, CV (y) = 31, 2%
Le coefficient de variation du poids est supérieur à celui de la taille (CV (y) = 31, 2% >
CV (x) = 20, 6%), le poids est donc plus dispersé que la taille.