Académique Documents
Professionnel Documents
Culture Documents
Statistique descriptive
Branche de la statistique qui regroupe les techniques utilisées pour représen-
ter des données (représentations graphiques et calculs de caractéristiques numériques).
Population et échantillon
1
Une des parties de la statistique consiste à apprendre comment on prend une
bonne décision concernant un grand groupe (population) après avoir étudié les
informations recueillies pour un petit groupe de cette population (échantillon).
Une population comprend tous les êtres ou objets d’un groupe bien dé…ni
sur lequel porte l’étude.
Types de données
les données peuvent être classées de la façon suivante :
à caractères spéci…ques,
ordinales,
quantitatives.
Données ordinales
Les catégories possèdent un ordre donné.
Exemple :
Niveau d’études atteint (brevet, bac, licence, master etc.).
Consommation de tabac : pas, petite consommation, grosse consommation.
2
Données quantitatives ( cardinales)
Les données quantitatives sont des données qui peuvent être mesurées.
Les données quantitatives impliquent une mesure.
Données discrètes
Exemples Nombre d’enfants dans un ménage.
Nombre de bactéries.
Données continues
Exemples Poids, taille, taux de cholesterol.
Tableau de données
Les étudiants ont obtenu les résultats suivants à un test en biostatistique:
12 9 17 11 13
15 13 12 9 3
5 12 13 11 11
13 15 9 13 12
1 11 5 10 16
12 3 8 7 0
Ce sont des données brutes (non-classées). Une telle quantité de données est
di¢ cile à utiliser et la situation pourrait être pire si nous avons 120 étudiants
au lieu de 30.
Quand toutes les données du tableau ont été dénombrèes, le nombre de
données appartenant à chaque classe de resultat est enregistré dans une colonne
appelée fréquence. Nous utiliserons habituellement X ou Y pour les classes de
résutats et f pour la fréquence. Une distribution de fréquence est l’ensemble du
nombre de données qu’il y a dans chaque classe de résultat. La distribution
de fréquence obtenue pour le test en biostatistique débutera ainsi:
Resultat Denombrement f requence Classes f requence
0 1 1 0 1
3 2 2 3 2
: : : : :
: : : : :
Distribution de fréquences
Chaque distribution de fréquence doit comporter les classes d’observations
(X) et la frequence de chaque classe (f ). Chaque résultat doit être présent
3
dans une classe seulement. En examinant la distribution de fréquence, on peut
aisément voir qu’elle résume le tableau des données brutes et qu’elle est par le
fait même, plus informative que l’ensemble des données brutes. il est facile de
determiner le plus bas résultat (0) et la meilleure note (17), combien d’étudiants
ont eu 13 (5).
Il est souvent utile de regrouper les classes pour en en diminuer le nombre.
Par exemple:
classe X 1 f classe X 2 f
0 9 0 9
10 13 10 17
15 17
La largeur de classe est la di¤érence entre le plus petit résultat qui entre
dans une classe et le plus petit résultat qui entre dans la classe suivante (ce n’est
pas la di¤érence entre le plus grand et le plus petit résultat qui entrent dans
une même classe).
La limite inférieure de la classe est le plus petit résultat qui entre dans
cette classe.
La limite supérieure est le plus grand résultat qui entre dans cette classe.
Les bornes d’une classe sont à mi-chemin entre la limite supérieure d’une
classe et la limite inférieure de la classe suivante.
Exemple: compléter
classes X Bornes des classes classes Y Bornes des classes
16 18 15:5 18:5 0:1 0:3 0:05 0:35
19 21 18:5 21:5 0:4 0:6 0:35 0:65
22 24 21:5 24:5 0:7 0:9 0:65 0:95
4
Exemple
classes X Bornes des classes
0 2:99 0:00 2:995
3 5:99 2:995 5:995
6 et plus 5:995 1
La borne supérieure de la dernière classe est l’in…ni (symbole 1). Une telle
classe est appelée une classe ouverte. Elle n’a ni limite supérieure ni milieu.
Il est à remarquer également que la borne inférieure de la première classe
est 0:00 au lieu de 0:05, s’il s’agit par exemple de résultats positifs comme par
exemple les salaires.
5
Example 4 Environ 15 classes doivent servir à regrouper 300 résultats qui vari-
ent de 207 à 592. Comment choisir les classes?
L’étendue est 592-207=385. Largeur de classe : étendue/(nombre de classes)=385/15=25
qui est un
nombre impair. Si on prend 15 classes : 15*25=375 (insu¢ sant). On pren-
dra alors 16 classes :
16*25=400 (plus grand que 385). On peut former les classes suivantes:207-
231; 232-256; ...;
582-606. Un meilleur choix serait : 200-224; 225-249; ...; 575-599.
Dans le cas des données groupées, la classe modale est celle qui possède la
plus grande fréquence; le point milieu de cette classe est appelé le mode brut.
Classes X f
1 4 2
Exemple. 5 8 7
9 12 5
13 16 3
La classe modale est 5 8; le mode brut est 6:5:
La médiane
La médiane (notée M d ou x e) est le résultat du milieu après que les résultats
de la distribution furent ordonnés dans un ordre croissant ou décroissant.
Si x(1) ; x(2) ; :::; x(n) sont les données en ordre croissant alors
(
x( n+1 ) si n est impair
2
Md = 1
2 x( n ) + x( n +1)
2 2
si n est pair
6
Si n est impair alors la médiane est égale à l’une des données. Si n est pair,
elle n’est pas forcément égale a l’une des données.
La médiane peut être utilisée pour des données ordinales ou quantitatives
mais pas pour des données à caractère spéci…ques.
Exemples.
Classes X f
1 3 15
15 2+10 5+5 8 120
Example 5 4 6 10 X = 30 = 30 = 4:
7 9 5
30
7
Quartiles, Centiles et Rangs Centiles
Le premier quartile, noté Q1 ; est le nombre qui est plus grand que le quart
des données et plus petit que les trois quarts.
Le deuxième quatile Q2 est la médiane.
Le troisième quartile Q3 est plus grand que les trois quarts des données.
Le soixantième centile (noté P60 ) est plus grand que 60% des données (et
plus petit que 40%).
Noter que P25 = Q1 ; P50 = Q2 ; P75 = Q3 :
Les quartiles et les centiles sont appelés des mesures de position.
L’écart interquartile est
IQR = Q3 Q1
Si 14 n n’est pas entier, il est arrondi pour trouver Q1 : Par exemple, si
n = 50, Q1 sera le 13ieme résultat après ceux-ci seront écrits en ordre croissant
(50/4=12.5 et en arrondissant, on obtient 13), ce qui veut dire que 12 résultats
sont plus petits et 37 sont plus grands.
Q3 et Pa sont déterminés de la même façon, en multipliant n par 3=4 et par
a=100 respectivement. Si le résultat est entier, on choisit le nombre à mi-chemin
entre ce résultat et le nombre suivant; si le résultat n’est pas entier, on arrondit.
Exemple. Quatre-vingt-dix sont écrits en ordre croissant. Alors
Q1 : est le 23 ieme résultat 14 90 = 22:5
Q3 : est le 68 ieme résultat 34 90 = 67:5
16
P16 :est le 15 ieme résultat 100 90 = 14:5
60
P60 :est le 54 ieme résultat 100 90 = 54
Le rang centile d’un résultat est le pourcentage de résultats qui lui sont
inférieurs.
Si 75 est le 349 ieme résultat d’une liste de 400 résultats écrits dans un ordre
348
croissant, alors il y a 348 résultats inférieurs à 75 et 400 100 = 87 pour cent
des résultats sont plus petits que 75; le rang centile de 75 est 87.
3 Mesure de dispersion
Pour résumer un ensemble de résultats, il est nécessaire de donner deux mesures:
une qui traduit le centre de la distribution (la moyenne, la médiane ou le
mode)
et une autre, qui traduit la dispersion ou l’éparpillement des données.
Nous examinerons cinq mesures de dispersion:
le rapport variation,
l’étendue,
l’intervalle semi-interquartile,
la variance et l’écart-type.
8
Le rapport variation, noté V, est la proportion de résultats non-modaux.
C’est la seule mesure de dispersion qui peut être utilisée pour des données à
caractères spéci…ques.
N ombre de resultats f requence modale n fM o
V = =
N ombre de resultats n
0 < V < 1: Si V est près de 0, la plupart des résultats sont près du mode; si V
est près de 1, le mode est moins représentatif.
IQR = Q3 Q1
Intervalle semi-interquartile Q (aussi appelé écart des quartiles)
Q3 Q1
Q=
2
On utilise l’intervalle semi-interquartile quad la moyenne ne peut être calculée,
par exemple, quand on a une classe ouverte.
Exemple X : 5; 12; 13; 13; 14; 15; 15; 15; 18; 20: Q3 = 15; Q1 = 13; Q = 1:
Exemple X : 5; 5; 11; 11; 11; 19; 19; 19; 20; 20: Q3 = 19; Q1 = 11; Q = 4:
9
L’ecart-type, noté s; est
s s P
P 2 P ( X)2
p X X X2 n
s= s2 = =
n 1 n 1
3 X Md
dissymetrie =
s
En divisant par s, la dissymétrie devient une mesure sans dimension.
Exemple.
X : 1; 1; 1; 1; 2; 3; 5 Y : 1; 3; 4; 5; 5; 5; 5
14 3(2 1)
X = ; M d = 1; s = 1:5; dissymetrie = =2
7 1:5
28 3(4 5)
Y = ; M d = 5; s = 1:5; dissymetrie = = 2
7 1:5
Il est à noter qu’une dissymétrie à droite est positive et une dissymétrie à gauche
est négative.
10
4 Exercices
1) Dénombrer les résultats suivants
126 132 121 149 130 139 127 136 138 129
121 134 139 135 128 123 133 136 124 130
127 136 132 126 145 139 131 133 142 131
134 130 141 144 136 124 136 136 133 128
123 125 139 145 148 141 126 145 138 139
133 147 136 134 132 142 149 122 131 139
130 139 136 148 132 147 121 124 148 133
139 127 147 124 148 135 142 142 133 142
121 146 145 148 127 136 130 144 143 124
148 140 136 136
Quel est le plus petit résultat? le plus grand? combien de fois a-t-on le
résultat 139?
2) Commenter les regroupements ci-dessous qui proviennent des resultats de
l’exo 1. Quels conseils ne sont pas respectés?
11
N b d0 essais N b de rats
1 3 7
4 6 5
7 9 3
10 12 3
5) On donne le nombre d’enfants pour 30 familles habitant une maison de
la rue Hassiba
3 1 2 0 4 6 1 0 1 5 2 3 2 0 7
2 2 0 3 1 3 2 4 2 4 0 4 3 1 4
78 42 72 88 86 97 91 79 82 86 91 74
12
(a) (b) (c) (d)
X f X f X f X f
5 9 2 6 10 2 10 < 20 4 10 19 5
10 14 5 11 15 4 20 < 30 8 20 29 10
15 19 2 16 20 3 30 < 40 6 30 39 12
40 < 50 3 40etplus 4
50 < 60 4
13