Vous êtes sur la page 1sur 13

1 Introduction à la statistique

Qu’est-ce que la statistique?

Le mot statistique peut s’interpréter de deux façons:


Les statistiques sont des faits classi…és (plus spécialement des faits numériques)
concernant une catégorie particulière d’objets.
Exemple:
les statistiques sur les accidents automobiles (3639 morts dans les accidents
de la route en 2017 en Algérie).

La statistique est une partie de la science qui s’intéresse à généraliser à de


grands ensembles (populations) les conclusions tirées des résultats obtenus avec
des ensembles beaucoup plus restreints (échantillons). C’est ce que l’on appelle
l’inférence statistique.
En général, est-il possible de généraliser, en ne connaissant qu’une portion
de l’information nécessaire pour répondre à une question?
La réponse est oui, mais ce oui est soumis à plusieurs restrictions.
En statistique descriptive, certaines erreurs peuvent survenir au moment de
la compilation des résultats ou en e¤ectuant certains calculs, mais sinon les
résultats sont toujours exacts.
En inférence statistique, la situation est bien di¤érente.
"La statistique est un ensemble de méthodes permettant de prendre une
bonne décision face à l’incertitude."
Pour prendre une bonne décision, il faut connaître quel genre et quelle quan-
tité d’information est nécessaire, quel genre de conclusion peut être donnée et
avec quelle précision.

Statistique descriptive
Branche de la statistique qui regroupe les techniques utilisées pour représen-
ter des données (représentations graphiques et calculs de caractéristiques numériques).

Qu’est-ce que la biostatistique ?


La biostatistique : ensemble des méthodes qui ont pour objet :
la collecte des données
le traitement des données
l’interprétation des données
tout cela au service de sciences biomédicales.
En d’autres termes, une discipline scienti…que dont le but est de plani…er
et recueillir des données pertinentes, d’extraire l’information contenue dans un
ensemble de données, de fournir une analyse et une interprétation des données
a…n de pouvoir prendre des décisions.

Population et échantillon

1
Une des parties de la statistique consiste à apprendre comment on prend une
bonne décision concernant un grand groupe (population) après avoir étudié les
informations recueillies pour un petit groupe de cette population (échantillon).

Une population comprend tous les êtres ou objets d’un groupe bien dé…ni
sur lequel porte l’étude.

Un échantillon est un groupe relativement petit et choisi scienti…quement de


manière à représenter le plus …dèlement possible une population.

Example 1 Quelle est la population et quel est l’échantillon dans la situation


suivante?
Un médecin véri…e un nouveau médicament sur 100 patients atteints de
leucémie, choisis au hasard. Après six ans, 20 patients sont guéris. Quelle
proportion de tous les leucémique sera guérie après six ans de traitement avec
ce nouveau médicament?
L’échantillon est formé des 100 patients sur lesquels le nouveau médicament
est appliqué. La population est l’ensemble de tous les leucémiques identi…és.

Example 2 Une compagnie achète 10000 ampoules éléctriques d’un fabriquant


qui a¢ rme que ses ampoules ont une vie moyenne d’au moins 1000 heures. La
compagnie véri…e 15 ampoules et, suite à ces résultats, doit décider si elle garde
ou non les 10000 ampoules. Décrire la population et l’échantillon.
Ici la population est l’ensemble des 10000 ampoules et l’échantillon, les 15
ampoules véri…ées.

Types de données
les données peuvent être classées de la façon suivante :
à caractères spéci…ques,
ordinales,
quantitatives.

Données nominales (à caractères spéci…ques


Les individus sont simplement placés dans la bonne catégorie puis le nombre
d’individus dans chaque catégorie est enregistré. Chaque individu doit entrer
dans une catégorie seulement (les catégories sont dites mutuellement exclusives).

Example 3 Le sexe (masculin ou féminin). La religion (catholique, protestant,


Musulman ...). La profession (avocat, professeur, plombier ...).

Données ordinales
Les catégories possèdent un ordre donné.
Exemple :
Niveau d’études atteint (brevet, bac, licence, master etc.).
Consommation de tabac : pas, petite consommation, grosse consommation.

2
Données quantitatives ( cardinales)
Les données quantitatives sont des données qui peuvent être mesurées.
Les données quantitatives impliquent une mesure.
Données discrètes
Exemples Nombre d’enfants dans un ménage.
Nombre de bactéries.
Données continues
Exemples Poids, taille, taux de cholesterol.

Tableau de données
Les étudiants ont obtenu les résultats suivants à un test en biostatistique:
12 9 17 11 13
15 13 12 9 3
5 12 13 11 11
13 15 9 13 12
1 11 5 10 16
12 3 8 7 0

Ce sont des données brutes (non-classées). Une telle quantité de données est
di¢ cile à utiliser et la situation pourrait être pire si nous avons 120 étudiants
au lieu de 30.
Quand toutes les données du tableau ont été dénombrèes, le nombre de
données appartenant à chaque classe de resultat est enregistré dans une colonne
appelée fréquence. Nous utiliserons habituellement X ou Y pour les classes de
résutats et f pour la fréquence. Une distribution de fréquence est l’ensemble du
nombre de données qu’il y a dans chaque classe de résultat. La distribution
de fréquence obtenue pour le test en biostatistique débutera ainsi:
Resultat Denombrement f requence Classes f requence
0 1 1 0 1
3 2 2 3 2
: : : : :
: : : : :

Il est souvent utile de regrouper les classes pour en diminuer le nombre.


Classes f requence
0 5
5 10
: :
: :

Distribution de fréquences
Chaque distribution de fréquence doit comporter les classes d’observations
(X) et la frequence de chaque classe (f ). Chaque résultat doit être présent

3
dans une classe seulement. En examinant la distribution de fréquence, on peut
aisément voir qu’elle résume le tableau des données brutes et qu’elle est par le
fait même, plus informative que l’ensemble des données brutes. il est facile de
determiner le plus bas résultat (0) et la meilleure note (17), combien d’étudiants
ont eu 13 (5).
Il est souvent utile de regrouper les classes pour en en diminuer le nombre.
Par exemple:
classe X 1 f classe X 2 f
0 9 0 9
10 13 10 17
15 17

On construit un tableau de la forme :


Classe F requence F requence P ourcentage P ourcentage
cumulative cumulatif
a x b
..
.

Remarque: au fur et à mesure que le nombre de classes diminue, l’information,


qu’elles fournissent, devient plus facile à assimiler. On y gagne en simplic-
ité, mais d’un autre côté, on perd les détails dans le regroupement. Quand
on regroupe, il faut toujours faire un compromis entre la clarté et la perte
d’informations.

La largeur de classe est la di¤érence entre le plus petit résultat qui entre
dans une classe et le plus petit résultat qui entre dans la classe suivante (ce n’est
pas la di¤érence entre le plus grand et le plus petit résultat qui entrent dans
une même classe).

Le point mileu de la classe est la moyenne du plus petit et du plus grand


résultat qui entrent dans une classe.

La limite inférieure de la classe est le plus petit résultat qui entre dans
cette classe.

La limite supérieure est le plus grand résultat qui entre dans cette classe.

Les bornes d’une classe sont à mi-chemin entre la limite supérieure d’une
classe et la limite inférieure de la classe suivante.
Exemple: compléter
classes X Bornes des classes classes Y Bornes des classes
16 18 15:5 18:5 0:1 0:3 0:05 0:35
19 21 18:5 21:5 0:4 0:6 0:35 0:65
22 24 21:5 24:5 0:7 0:9 0:65 0:95

4
Exemple
classes X Bornes des classes
0 2:99 0:00 2:995
3 5:99 2:995 5:995
6 et plus 5:995 1
La borne supérieure de la dernière classe est l’in…ni (symbole 1). Une telle
classe est appelée une classe ouverte. Elle n’a ni limite supérieure ni milieu.
Il est à remarquer également que la borne inférieure de la première classe
est 0:00 au lieu de 0:05, s’il s’agit par exemple de résultats positifs comme par
exemple les salaires.

Comment regrouper les résultats


Voici quelques conseils pour le regroupement.
Chaque résultat doit être présent dans une classe seulement.
L’ensemble des valeurs mesurées depla variable est subdivisé en sous-intervalles
(classes). Si on a n données, environ n classes est un bon choix.
Les classes doivent être de même largeur; c’est une méthode conventionnelle
de regroupement. Quelquefois, il est impossible d’avoir des classes de même
largeur.
La largeur des classes doit être autant que possible un nombre impair. On
peut également privilégier certaines valeurs.

Un ensemble de résultats peut être traité de la façon suivante:


Dénombrer les résultats.
Déterminer l’étendue (di¤érence entre le plus grand et le plus petit résultat).
Choisir une largeur de classe et le nombre de classes en respectants les con-
seils précédents et de sorte que (largeur de classe)*(nombre de classes) donne
l’étendue. Pour y arriver on peut choisir le nombre de classes puis, diviser
l’étendue par celui-ci pour trouver une approximation de la largeur de la classe.
Déterminer les limites de chaque classe, s’assurer que chaque résultat trouve
une place dans une classe.
Construire un tableaux montrant les classes avec leurs limites ainsi que la
fréquence dans chaque classe. Ce tableaux doit avoir un titre qui contient la
provenance des données, la date, etc.
Exemple
Le plus petit de 100 resultats est 10 et le plus grand est 45. Comment les
regrouper en 10 classes?
L’étendue est 45 10 = 35; si on prend 4 comme largeur on obtient 10 4 = 40
ce qui couvre
l’étendue, mais 4 est un nombre pair et le conseil (4) n’est pas respecté.
Alors on prendra 3 comme
largeur, mais pour couvrir l’étendue il nous faudra 12 classes car 12 3 = 36
les classes seront alors
10-12; 13-15; ...; 43-45.

5
Example 4 Environ 15 classes doivent servir à regrouper 300 résultats qui vari-
ent de 207 à 592. Comment choisir les classes?
L’étendue est 592-207=385. Largeur de classe : étendue/(nombre de classes)=385/15=25
qui est un
nombre impair. Si on prend 15 classes : 15*25=375 (insu¢ sant). On pren-
dra alors 16 classes :
16*25=400 (plus grand que 385). On peut former les classes suivantes:207-
231; 232-256; ...;
582-606. Un meilleur choix serait : 200-224; 225-249; ...; 575-599.

2 Mesures et tendance centrale


Le mode
Le mode de l’échantillon (noté M o) est la valeur la plus fréquente des
données.
Le mode est nécessairement égal à l’une des données.
Le mode est la seule mesure centrale qui peut être utilisée pour des données
à caractères spéci…ques.
Exemples
1 X : 1; 1; 1; 2; 2; 2; 2; 2; 3; 3; 3; 3; 3; 3; 4; 6; 8; 8: M o = 3:
Un échantillon peut avoir plusieurs modes.
2 X : 1; 1; 1; 2; 2; 2; 2; 2; 3; 3; 3; 4; 4; 4; 4; 4; 6; 8; 8: M o = 2 et 4: Cette distrib-
ution est appelée bimodale.
3 X : 1; 3; 5; 9; 22; 27; 30: Chaque résultat apparait le même nombre de fois
(une fois dans ce cas); le mode est une mesure non-signi…cative.

Dans le cas des données groupées, la classe modale est celle qui possède la
plus grande fréquence; le point milieu de cette classe est appelé le mode brut.
Classes X f
1 4 2
Exemple. 5 8 7
9 12 5
13 16 3
La classe modale est 5 8; le mode brut est 6:5:

La médiane
La médiane (notée M d ou x e) est le résultat du milieu après que les résultats
de la distribution furent ordonnés dans un ordre croissant ou décroissant.
Si x(1) ; x(2) ; :::; x(n) sont les données en ordre croissant alors
(
x( n+1 ) si n est impair
2
Md = 1
2 x( n ) + x( n +1)
2 2
si n est pair

6
Si n est impair alors la médiane est égale à l’une des données. Si n est pair,
elle n’est pas forcément égale a l’une des données.
La médiane peut être utilisée pour des données ordinales ou quantitatives
mais pas pour des données à caractère spéci…ques.
Exemples.

1 X : 8; 1; 10; 7; 17; 23; 12; 15; 24: M d = 12:


2 X : 1; 7; 8; 10; 12; 15; 17; 23; 24; 29: M d = 13:5:
3 200 résultats ont été classés par ordre croissant. 200 pair. La médiane est
à mi-chemin entre le 100e et le 101e terme.
4 201 résultats ont été classés par ordre croissant. 201 impair. La médiane
est le 101e terme.

La médiane pour des données groupées est trouvée par interpolation.

La moyenne des données non groupées


La moyenne est la somme des résultats divisée par le nombre de résultats
P
X
X=
n
Soit x1 ; x2 ; :::; xn un echantillon de n observations d’une population (valeurs
numériques).

La moyenne de l’échantillon, ou moyenne échantillonnale est


i=n
1X
x= xi
n i=1
La moyenne n’est pas nécessairement égale à la valeur d’une des données.

La moyenne des données groupées


P P
fX fX
X= P =
f n
ou les résultats X representent les points milieux de chaque classe.

Classes X f
1 3 15
15 2+10 5+5 8 120
Example 5 4 6 10 X = 30 = 30 = 4:
7 9 5
30

7
Quartiles, Centiles et Rangs Centiles
Le premier quartile, noté Q1 ; est le nombre qui est plus grand que le quart
des données et plus petit que les trois quarts.
Le deuxième quatile Q2 est la médiane.
Le troisième quartile Q3 est plus grand que les trois quarts des données.
Le soixantième centile (noté P60 ) est plus grand que 60% des données (et
plus petit que 40%).
Noter que P25 = Q1 ; P50 = Q2 ; P75 = Q3 :
Les quartiles et les centiles sont appelés des mesures de position.
L’écart interquartile est

IQR = Q3 Q1
Si 14 n n’est pas entier, il est arrondi pour trouver Q1 : Par exemple, si
n = 50, Q1 sera le 13ieme résultat après ceux-ci seront écrits en ordre croissant
(50/4=12.5 et en arrondissant, on obtient 13), ce qui veut dire que 12 résultats
sont plus petits et 37 sont plus grands.
Q3 et Pa sont déterminés de la même façon, en multipliant n par 3=4 et par
a=100 respectivement. Si le résultat est entier, on choisit le nombre à mi-chemin
entre ce résultat et le nombre suivant; si le résultat n’est pas entier, on arrondit.
Exemple. Quatre-vingt-dix sont écrits en ordre croissant. Alors
Q1 : est le 23 ieme résultat 14 90 = 22:5
Q3 : est le 68 ieme résultat 34 90 = 67:5
16
P16 :est le 15 ieme résultat 100 90 = 14:5
60
P60 :est le 54 ieme résultat 100 90 = 54
Le rang centile d’un résultat est le pourcentage de résultats qui lui sont
inférieurs.
Si 75 est le 349 ieme résultat d’une liste de 400 résultats écrits dans un ordre
348
croissant, alors il y a 348 résultats inférieurs à 75 et 400 100 = 87 pour cent
des résultats sont plus petits que 75; le rang centile de 75 est 87.

3 Mesure de dispersion
Pour résumer un ensemble de résultats, il est nécessaire de donner deux mesures:
une qui traduit le centre de la distribution (la moyenne, la médiane ou le
mode)
et une autre, qui traduit la dispersion ou l’éparpillement des données.
Nous examinerons cinq mesures de dispersion:
le rapport variation,
l’étendue,
l’intervalle semi-interquartile,
la variance et l’écart-type.

8
Le rapport variation, noté V, est la proportion de résultats non-modaux.
C’est la seule mesure de dispersion qui peut être utilisée pour des données à
caractères spéci…ques.
N ombre de resultats f requence modale n fM o
V = =
N ombre de resultats n
0 < V < 1: Si V est près de 0, la plupart des résultats sont près du mode; si V
est près de 1, le mode est moins représentatif.

Example 6 Le rapport variation des distributions suivantes


Categorie f f f
(a) (b) (c)
(a)V = 1212 9 = 0:25
A 1 1 2
(b)V = 1212 7 = 0:42
B 1 3 5
(c)V = 1212 5 = 0:58
C 9 7 3
D 1 1 2

L’étendue d’une distribution est la di¤érence entre le plus grand résultat


et le plus petit.
Exemples
X : 5; 12; 13; 14; 15; 15; 15; 18; 20: L’étendue est 20 5 = 15
X : 5; 5; 11; 11; 11; 19; 19; 19; ; 20; 20: L’étendue est 20 5 = 15
classes f
1 3 4 L0etendue est 12:5 0:5 = 12:
4 6 7 On utilise ici la borne superieure de la derniere
7 9 3 classe et la borne inf erieure de la premiere classe:
10 12 2
L’écart interquartile est

IQR = Q3 Q1
Intervalle semi-interquartile Q (aussi appelé écart des quartiles)

Q3 Q1
Q=
2
On utilise l’intervalle semi-interquartile quad la moyenne ne peut être calculée,
par exemple, quand on a une classe ouverte.
Exemple X : 5; 12; 13; 13; 14; 15; 15; 15; 18; 20: Q3 = 15; Q1 = 13; Q = 1:
Exemple X : 5; 5; 11; 11; 11; 19; 19; 19; 20; 20: Q3 = 19; Q1 = 11; Q = 4:

La variance d’une population de taille n, notée s2 ; est


P P P
2 ( X)2
2 X X X2 n
s = =
n 1 n 1

9
L’ecart-type, noté s; est
s s P
P 2 P ( X)2
p X X X2 n
s= s2 = =
n 1 n 1

Exemple. La variance et l’écart-type des résultats X : 1; 2; 6 sont s2 = 7 et


s = 2:6

Example 7 La variance est


P P P
2 ( f X)2
2 f X X f X2 n
s = =
n 1 n 1
L’ecart-type, noté s; est
s s P
P 2 P ( f X)2
p f X X f X2 n
s= s2 = =
n 1 n 1
La variance et l’écart-type de la distribution
classes f
4 6 2
s2 = 4:9 et s = 2:2
7 9 5
10 12 10

Quelque fois, une distribution présente une dissymétrie à droite si celle-ci


a une queue plus longue qu’à gauche, reciproquement elle peut présenter une
dissymétrie à gauche. Dans ce cas, la moyenne et la médiane peuvent être trèe
di¤érentes car les résultats dans la queue la plus longue, a¤ecteront la moyenne,
mais pas la médiane. Cette di¤érence est exprimée dans la mesure de dissymétrie

3 X Md
dissymetrie =
s
En divisant par s, la dissymétrie devient une mesure sans dimension.
Exemple.

X : 1; 1; 1; 1; 2; 3; 5 Y : 1; 3; 4; 5; 5; 5; 5
14 3(2 1)
X = ; M d = 1; s = 1:5; dissymetrie = =2
7 1:5
28 3(4 5)
Y = ; M d = 5; s = 1:5; dissymetrie = = 2
7 1:5
Il est à noter qu’une dissymétrie à droite est positive et une dissymétrie à gauche
est négative.

10
4 Exercices
1) Dénombrer les résultats suivants

126 132 121 149 130 139 127 136 138 129
121 134 139 135 128 123 133 136 124 130
127 136 132 126 145 139 131 133 142 131
134 130 141 144 136 124 136 136 133 128
123 125 139 145 148 141 126 145 138 139
133 147 136 134 132 142 149 122 131 139
130 139 136 148 132 147 121 124 148 133
139 127 147 124 148 135 142 142 133 142
121 146 145 148 127 136 130 144 143 124
148 140 136 136

Quel est le plus petit résultat? le plus grand? combien de fois a-t-on le
résultat 139?
2) Commenter les regroupements ci-dessous qui proviennent des resultats de
l’exo 1. Quels conseils ne sont pas respectés?

(a) (b) (c)


classesX f classesX f classesX f
120 123 7 121 126 16 120 122 6
124 127 13 126 130 15 123 125 8
128 130 8 131 135 17 126 128 9
131 135 18 136 140 22 129 131 9
136 139 21 141 145 14 132 134 13
140 143 9 135 137 13
144 147 10 138 140 11
148 151 8 141 143 8
144 146 7
147 149 11

3) suivre les conseils pour déterminer la largeur de la classe, le nombre de


classes de chacune des distributions suivantes. Quelles seront les limites de la
classe contenant le plus petit résultat?

N ombre P lus grand P lus petit N b approximatif


de resultats resultat resultat de classes
(a) 10:000 208 22 20
(b) 600 737 112 14
(c) 120 114 52 10

4) Trouver les bornes, la largeur et le point milieu de la classe de distributions


suivantes
Nb d’essais pour apprendre à un rat à reconnaitre des objets

11
N b d0 essais N b de rats
1 3 7
4 6 5
7 9 3
10 12 3
5) On donne le nombre d’enfants pour 30 familles habitant une maison de
la rue Hassiba
3 1 2 0 4 6 1 0 1 5 2 3 2 0 7
2 2 0 3 1 3 2 4 2 4 0 4 3 1 4

Trouver la moyenne, la médiane et le mode.


P
6) Montrer que X X = 0:
P
Montrer que si (X A) = 0 où A est une constante alors A = X:

7) 12 étudiants ont obtenu les résultats suivants en examen:

78 42 72 88 86 97 91 79 82 86 91 74

(a) Trouver le mode, la médiane et la moyenne. (b) Trouver Q1 et Q3 (c)


Quel est le rang centile du résultat 88?
8) Trouver la moyenne et le mode brut (point milieu de la classe modale)
des distributions suivantes
(a) (b) (c) (d)
classesX f classesX f classesX f classesX f
100 102 30 10 14 2 0:5055 0:5059 1 10 19 6
103 105 20 15 19 5 0:5050 0:5054 2 20 29 0
106 108 60 20 24 8 0:5045 0:5049 8 30 39 8
109 111 40 25 29 0 0:5040 0:5044 17 40 49 4
112 114 10 30 34 5 0:5035 0:5039 8 50 59 7
0:5030 0:5034 0 60etplus 3
0:5025 0:5029 4

9) Trouver le rapport de variation des résultats suivants:


X:1 1 1 2 2 2 2 2 3 3 3 3 3 3 4 4 5 6 8

10) Trouver l’étendue, l’intervalle semi-interquartile, la moyenne, l’écart-type


et la mesure de dissymétrie de chacune des distributions:
(a) X : 1 4 9 18
(b) X : 30 24 21 25 20 30 22 28
(c) X : 14 16 17 plus de 18

11) Trouver 3 résultats dont la moyenne est 10 et la variance est 1.

12) Trouver la variance de chacune des distributions suivantes:

12
(a) (b) (c) (d)
X f X f X f X f
5 9 2 6 10 2 10 < 20 4 10 19 5
10 14 5 11 15 4 20 < 30 8 20 29 10
15 19 2 16 20 3 30 < 40 6 30 39 12
40 < 50 3 40etplus 4
50 < 60 4

13