Académique Documents
Professionnel Documents
Culture Documents
F) statistiques descriptives
Statistiques descriptives
1
Cours d’épidémiologie-A6 (Pr ALLOUN.F) statistiques descriptives
Objectifs du cours
Cours
1. Définir en tant que « variable » les données que l’on utilise pour
des études statistiques.
2. Catégoriser ces variables en fonction de leur nature.
3. Regrouper des données selon des classes.
4. Dénombrer des effectifs et calculer des fréquences.
5. Connaitre les règles de présentation d’un tableau.
6. Connaitre les consignes indispensables à la présentation d’un
graphique.
7. Mesurer les valeurs centrales d’une distribution
8. Mesurer la dispersion d’une distribution
TD
2
Cours d’épidémiologie-A6 (Pr ALLOUN.F) statistiques descriptives
1 – DEFINITIONS
Notion de Population :
Notion d’échantillon :
C’est un sous ensemble ou une partie de la population. Un échantillon
correctement constitué (méthode aléatoire) est dit représentatif de la population
et constitue une image réduite de celle-ci.
1.1 – VARIABLE
C’est un caractère dont les modalités s’expriment par des valeurs numériques.
Ex : Le poids, la taille, la glycémie,
3
Cours d’épidémiologie-A6 (Pr ALLOUN.F) statistiques descriptives
C’est un caractère dont les modalités s’expriment par des qualités et non plus
par des valeurs numériques.
Le sexe est une variable qualitative puisque les qualités masculin et féminin ne
sont pas des valeurs numériques. Il en est de même pour la variable « groupe
sanguin dans le système ABO» avec ses quatre modalités non numériques : O,
A, B, AB.
1.4 – EFFECTIF
1.6 – RATIO
4
Cours d’épidémiologie-A6 (Pr ALLOUN.F) statistiques descriptives
1.7 – TAUX
Ex : si dans les 24 h qui suivent un repas à une cantine fréquentée par 300
personnes, 30 présentent des signes d’intoxication alimentaire, le taux de la
maladie est : 30/300 = 0.10 =10.0% = 100 pour mille.
1.8 – INDICE
Une série statistique est l’ensemble des valeurs prises par une variable
quantitative, comme, par exemple, les valeurs du poids d’un groupe d’étudiants
ou les durées de séjour d’un groupe de malades hospitalisés.
5
Cours d’épidémiologie-A6 (Pr ALLOUN.F) statistiques descriptives
La mise en ordre des données est l’étape qui suit immédiatement celle du recueil
des valeurs de la (ou des) variable(s) étudiée(s).
Elle consiste à dresser un tableau qui fait correspondre aux valeurs ou qualités
de la variable prise en considération, le nombre d’individus présentant
effectivement ces valeurs ou ces qualités. Le tableau en question s’appelle
tableau d’effectifs ou distribution de fréquences.
Les modalités d’un caractère qualitatif doivent épuiser toutes les possibilités et
ne pas empiéter les unes sur les autres.
Supposons qu’on ait à dresser le tableau d’effectifs de personne étudiées selon le
groupe sanguin dans le système ABO. Les modalités O, A, B, AB satisfont aux
critères ci-dessus énoncés.
Il est primordial de bien définir les modalités des caractères de l’étude pour
éviter les difficultés qui ne manqueront pas de surgir lors de la collecte et de
l’exploitation.
Dans le cas ou certaines modalités ont une fréquence rare, dans le cas précis
d’une étude donnée, on pourra les regrouper sous une rubrique unique qui sera
appelée « autre ».
Il est évident aussi que si les modalités d’un caractère qualitatif étudié sont
nombreuses, elles pourront faire l’objet d’une véritable nomenclature. Ex : la
classification internationale des maladies qui est éditée par l’OMS. Il existe
aussi des classifications officielles des professions et des catégories
socioprofessionnelles éditées par les organismes d’état et publiées dans les
annuaires statistiques.
Sexe Effectif %
Masculin 15 30,0
Féminin 35 70,0
Total 50 100,
6
Cours d’épidémiologie-A6 (Pr ALLOUN.F) statistiques descriptives
Si les modalités sont peu nombreuses, par exemple le nombre d’enfants dans
une famille, on peut les laisser telles quelles, et on opérera de la même façon que
dans le cas d’une variable qualitative.
Nombre Effectif %
d’épisodes
0 3 15.8
1 7 36.8
2 6 31.6
3 2 10.5
4 1 5.3
Total 19 100.0
On peut aussi réunir les deux dernières modalités sous une rubrique unique « 3
et plus ». L’effectif correspondant à cette modalité est 2+1=3.
7
Cours d’épidémiologie-A6 (Pr ALLOUN.F) statistiques descriptives
Pour pouvoir dresser un tableau d’effectifs qui soit facile à lire, il faut grouper
les observations ou données dans un certain nombre de classes successives,
contigües ne se recouvrant pas.
Total 19 100.0
Chaque classe est définie par ses limites, son amplitude et sa valeur centrale.
Les limites de classes doivent être bien précisées. Chaque classe a donc sa limite
inferieur et sa limite supérieure.
Une observation ne doit être située que dans une seule classe. C’est pour cela
que la convention adoptée est de toujours inclure dans la classe la limite
inferieure et donc de toujours exclure la limite supérieure.
8
Cours d’épidémiologie-A6 (Pr ALLOUN.F) statistiques descriptives
L’étendue (ou marge) est la différence entre la valeur la plus grande et la valeur
la plus faible de la série.
3 – FREQUENCES CUMULEES
9
Cours d’épidémiologie-A6 (Pr ALLOUN.F) statistiques descriptives
Total 19 - 100.0 -
On voit immédiatement que 12 étudiants ont un poids inferieur à 70 kg, soit 63.1
% des étudiants.
Les fréquences relatives cumulées sont plus expressives que les effectifs
cumulés. Pour cette raison les fréquences relatives cumulées seront utilisées de
préférence.
Les fréquences cumulées sont aussi utilisées pour la détermination des quantiles
et la construction des graphiques.
10
Cours d’épidémiologie-A6 (Pr ALLOUN.F) statistiques descriptives
1 – CONSIDERATIONS GENERALES
2- CONTENU DU TABLEAU
Chaque tableau a son titre, son numéro et les notes qui l’accompagnent.
11
Cours d’épidémiologie-A6 (Pr ALLOUN.F) statistiques descriptives
Les données peuvent être classées aussi selon les données de deux variables en
même temps dans un seul tableau. C’est un tableau à deux variables ou à double
entrée ou à deux dimensions. Un tel tableau va permettre de tester la liaison
entre deux variables étudiées.
Si les deux caractères étudiés sont des caractères qualitatifs, le tableau à double
entrée est dit tableau de contingence. Si les deux caractères étudiés sont de
caractères quantitatifs, le tableau à double entrée est dit tableau de corrélation.
Tableau 2.1 Répartition de 826 élèves d’une école d’Alger selon la survenue
Eventuelle d’un accident en 1985 en fonction du sexe.
12
Cours d’épidémiologie-A6 (Pr ALLOUN.F) statistiques descriptives
Le tableau 2.2 illustre la façon avec la quelle les données peuvent être présentées
à l’intention d’un lecteur au cours d’une publication.
13
Cours d’épidémiologie-A6 (Pr ALLOUN.F) statistiques descriptives
Paramètres de réduction
I/ Définition :
Les paramètres de réduction sont des valeurs numériques permettant de résumer les
caractéristiques principales de l’ensemble des mesures d’un caractère quantitatif.
m = ∑ x /N
ex : soit la série suivante : fréquence cardiaque de 10 étudiants : 59 batt/min, 72, 58,
65, 77, 83, 72, 77, 62, 62.
*MOYENNE PONDEREE :
14
Cours d’épidémiologie-A6 (Pr ALLOUN.F) statistiques descriptives
Elle permet une simplification des calculs lorsque certaines observations se répètent.
Il s’agit simplement de compter autant de fois les valeurs qui se répètent plusieurs
fois.
Lorsque les données sont groupées en classes, toutes les valeurs de la classe
coïncident avec le centre de la classe.
II.2/ MODE :
Le mode peut ne pas exister, c’est le cas d’une série statistique d’une variable dont
chacune des valeurs a le même effectif.
Lorsque les valeurs de la variable sont réparties en classes, la classe modale est
celle pour laquelle la fréquence est maximale. On comprend alors que l’estimation
du mode est fonction de la manière dont les données ont été groupées. On peut
attribuer au mode le centre de la classe modale.
Dans l’exemple du poids de 19 étudiants, la classe modale est 60-64. Le mode peut
être assimilé au centre de la classe : 62,5 kg.
15
Cours d’épidémiologie-A6 (Pr ALLOUN.F) statistiques descriptives
II.3 / LA MEDIANE :
C’est la valeur de la variable qui se trouve au milieu de la série quand les données
observées sont rangées par ordre croissant ou décroissant. En d’autres termes, c’est
la valeur de la variable qui divise l'effectif total de la distribution statistique en deux
parties égales donc la valeur médiane est celle qui se trouve au milieu de la série
statistique de telle sorte qu'il puisse y avoir autant de valeurs supérieures que
de valeurs inférieures à la médiane.
Lorsque les valeurs de la série statistique sont connues, il suffit de les classer par
ordre de grandeur croissant (ou décroissant) et de prendre celle qui se trouve au
milieu.
Exemples :
Si n est impair on prend la valeur qui sépare l’ensemble en 2 parties
1- Données en nombre impair : 5 poids de nouveau-nés :
3150 g
3200 g
3500 g ------------ = médiane
3510 g
3720 g
Si n est pair on prend la valeur moyenne des 2 valeurs
2- Données en nombre pair : 6 poids nouveaux nés
1. 1 3150 g
2. 3200 g
3. 3500 g
4. 3510 g
5. 3720 g
6. 3800 g
16
Cours d’épidémiologie-A6 (Pr ALLOUN.F) statistiques descriptives
III/ QUANTILES
III.1/ QUARTILES :
Les quartiles divisent la série statistique en quatre parties égales comprenant le
même nombre de sujets.
Le premier quartile (quartile inf) est la valeur de la variable du 25ème sujet sur
100.
Dans une série de 60 cas, par exemple, le rang du premier quartile sera 15, le rang
du deuxième quartile sera 30 e le rang du troisième quartile sera 45. Une fois le rang
déterminé, on recherche les valeurs correspondantes de la variable.
Pour le poids de 19étudiants, le rang du premier quartile est 4,8, le rang du
deuxième quartile est 9,5, le rang du troisième quartile est 14,3.
17
Cours d’épidémiologie-A6 (Pr ALLOUN.F) statistiques descriptives
On peut à priori affecter aux différents quartiles les valeurs des centres de classes
dans lesquelles ils se trouvent, soit pour notre exemple et par ordre : 62,5, 67,5, 72,5
Kg.
III.2/ DECILES :
Les déciles sont au nombre de 9. Ce sont des valeurs de la variable qui partagent
la série statistique en 10 parties comprenant chacune 1/1Oème de l’effectif total.
Le premier décile est la note du 10ème sujet sur 100.
Le décilage est d’un usage fréquent, notamment en biométrie, parce qu’il permet de
situer rapidement et facilement la position d’un sujet quelconque par rapport aux
autres sujets de la série.
III.3.PERCENTILES :
Les percentiles sont au nombre de 99. Ce sont des valeurs de la variable qui
partagent la série statistique en 100 parties comprenant chacune 1/100ème de
l’effectif total.
De façon générale, les percentiles sont utilisés lorsque le nombre de valeurs de la
série statistique est supérieur à 1000.
Le 42ème percentile, par exemple, est la note du 420ème sujet sur 1000.
18
Cours d’épidémiologie-A6 (Pr ALLOUN.F) statistiques descriptives
On remarque que les deux observations ont la même moyenne et la même médiane
mais la deuxième série est mois dispersée que la première. A partir de cet exemple,
on se rend compte que les paramètres de tendance centrale ne suffisent pas à
décrire et à caractériser une série statistique. Il est donc nécessaire de disposer
d’autres paramètres qui permettent d’estimer dans quelle mesure les observations
s’écartent de la tendance centrale.les plus connus de ces paramètres sont l’écart-
type et la variance.
L’écart-type et la variance sont en réalité deux expressions du même paramètre de
dispersion.
la variance est simplement le carré de l’écart-type.
La variance est la moyenne des carrés des écarts à la moyenne. Elle est
généralement notée S² lorsqu’elle est calculée à partir d’un échantillon.
En cas de données non groupées (individuelles), la variance s’écrit :
S² = (∑ nixi²) - (m ²)
N
L’écart type est tout simplement la racine carrée de la variance. C’est la
caractéristique de dispersion la plus utilisée car la plus satisfaisante.
La variance et l’écart-type renseignent tous deux sur l’étalement de la série
statistique autour de la moyenne. Mais tandis que la variance mesure le carré d’une
grandeur, l’écart-type d’une distribution s’exprime dans la même unité de mesure que
les observations.
Si par exemple, une variable s’exprime en Kg, la variance s’exprime en Kg² tandis
que l’écart-type en Kg.
19
Cours d’épidémiologie-A6 (Pr ALLOUN.F) statistiques descriptives
Les deux séries ont la même moyenne, mais elles ne se ressemblent pas. La
deuxième série est plus étalée que la première autour de la moyenne. On dit que La
deuxième série est plus dispersée.
Calcul des deux variances :
S² (série 1) = [(15-25)²+ (20-25)²+ (25-25)²+ (30-25)²+ (35-25)²]/ (5-1)=62,5
S² (série 2) = [(5-25)²+ (15-25)²+ (25-25)²+ (35-25)²+ (45-25)²]/ (5-1)=250
Les écarts types correspondants sont :
S (série 1) = rc62, 5= 7,9
S (série 1) = rc250= 15,8
La série 2 est évidemment plus dispersée autour de la moyenne. Le calcul de la
variance et de l’écart-type permet de quantifier cette dispersion.
Moy = 67,5
S²= [1(52,5-67,5)² + 2(57,5-67,5)²+5(62,5-67,5)²+ 4(67,5-67,5)²+ 3(72,5-67,5)²+
3(77,5-67,5)²+ 1(82,5-67,5)²]/(19-1)= 63,9 Kg²
S= rc63, 9=8,0 Kg
Notons enfin que la variance s’écrit aussi sous la forme :
S²= [T2-(T1²/n)]/ (n-1) où : T2 est la somme des x² et T1 somme des X.
Exemple : les diamètres de l’induration lue sur le bras après IDR à la tuberculine
chez 408 enfants d’un groupe d’allergiques spontanés au BK.
m = ∑x/408
S² = ∑(x-m) ²/407
20
Cours d’épidémiologie-A6 (Pr ALLOUN.F) statistiques descriptives
m = T1/n= 6789/408=16,64 mm
S²= [T2-T1²/n]/(n-1)= [129 437-(6789)²/408]/407= 40,47
S² = ∑ nxi² -m²
N
21