Vous êtes sur la page 1sur 21

Cours d’épidémiologie-A6 (Pr ALLOUN.

F) statistiques descriptives

Faculté de Médecine d’Alger


Département de médecine Mohamed Maherzi

CHU BENI MESSOUS

Statistiques descriptives

Polycopié destiné aux étudiants de 6éme en épidémiologie

Rédigé par Pr ALLOUN.F

Année universitaire : 2018/2019

1
Cours d’épidémiologie-A6 (Pr ALLOUN.F) statistiques descriptives

Objectifs du cours

A la fin du cours et des travaux dirigés (TD) sur les statistiques


descriptives, l’étudiant de 6eme année doit être capable de :

Cours

1. Définir en tant que « variable » les données que l’on utilise pour
des études statistiques.
2. Catégoriser ces variables en fonction de leur nature.
3. Regrouper des données selon des classes.
4. Dénombrer des effectifs et calculer des fréquences.
5. Connaitre les règles de présentation d’un tableau.
6. Connaitre les consignes indispensables à la présentation d’un
graphique.
7. Mesurer les valeurs centrales d’une distribution
8. Mesurer la dispersion d’une distribution

TD

9. Présenter les données collectées sous forme de tableaux et


graphes
10. Calculer les principaux paramètres de tendances centrales et
de dispersion (plus particulièrement la moyenne, la variance et
l’écart-type).
11. Calculer les quartiles.
12. Présenter les données sous forme graphiques.

2
Cours d’épidémiologie-A6 (Pr ALLOUN.F) statistiques descriptives

DEFINITION PRELIMINAIRE - MISE EN ORDRE DES DONNEES

1 – DEFINITIONS

Notion de Population :

Une population est définie en statistique comme l’ensemble des observations


concernant un caractère étudié. Une population peut être finie ou infinie. elle
peut être constitué d’un nombre d’individus très élevé.
Ex : population d’une localité

Notion d’échantillon :
C’est un sous ensemble ou une partie de la population. Un échantillon
correctement constitué (méthode aléatoire) est dit représentatif de la population
et constitue une image réduite de celle-ci.

1.1 – VARIABLE

Contrairement à une constante, caractéristique ayant la même valeur pour tous


les individus, une variable comporte nécessairement plus d’une modalité. Les
modalités sont les différentes catégories que peut présenter une variable.

Ex : le sexe est une variable à deux modalités masculin et féminin.


La maladie est une variable parce qu’on peut lui définir au moins deux
modalités : malade et non malade.
La glycémie est aussi une variable puisque ce caractère présente différentes
valeurs.

1.2 – VARIABLE QUANTITATIVE

C’est un caractère dont les modalités s’expriment par des valeurs numériques.
Ex : Le poids, la taille, la glycémie,

Ces variables quantitatives se différencient en variables discontinues et en


variable continues :

- variable discontinue : les modalités s’expriment par des nombre entiers,


ex : fréquence cardiaque, le nombre d’individus par ménage.

3
Cours d’épidémiologie-A6 (Pr ALLOUN.F) statistiques descriptives

- Variable continue : les modalités sont en nombre infini et se situent à un


point quelconque d’une échelle numérique. Ex la glycémie est une
variable quantitative continue puisque, ente les valeurs 1g et 2g, on peut
observer infinités de valeurs.

1.3 – VARIABLE QUALITATIVE

C’est un caractère dont les modalités s’expriment par des qualités et non plus
par des valeurs numériques.

Le sexe est une variable qualitative puisque les qualités masculin et féminin ne
sont pas des valeurs numériques. Il en est de même pour la variable « groupe
sanguin dans le système ABO» avec ses quatre modalités non numériques : O,
A, B, AB.

1.4 – EFFECTIF

L’effectif ou fréquence absolue est le nombre d’individus appartenant à une


modalité donnée.

Prenons l’exemple simple de la distribution de 50 malades selon le sexe. Parmi


ces 50 malades, 15 sont de sexe masculin et 35 de sexe féminin. Les effectifs
correspondant à chacune des deux modalités sont 15 et 35.

1.5 – FREQUENCE RELATIVE

Une fréquence relative est le rapport entre l’effectif d’une modalité de la


variable étudiée et l’effectif total de la population ou plus généralement de
l’échantillon sur le quel cette variable est mesurée.
Le numérateur fait obligatoirement partie du dénominateur.
La fréquence relative s’exprime généralement en pourcentage.
Pour l’exemple précédent, la fréquence relative au sexe masculin est : 15/50 =
0.30 = 3% et la fréquence relative au sexe féminin est : 35/50 = 0.70 = 70% .

1.6 – RATIO

Un ratio est le rapport des fréquences (effectifs ou fréquences relatives) de deux


modalités d’une même variable. Le numérateur n’est pas compris dans le

4
Cours d’épidémiologie-A6 (Pr ALLOUN.F) statistiques descriptives

dénominateur. Généralement le numérateur et le à dénominateur se réfèrent à


deux catégories d’une même variable.

Ex : sex-ratio = effectifs masculin


Effectifs féminin

Rapport urbain/rural = évènement observés en urbain


Evènement observés en rural

1.7 – TAUX

Le taux mesure la probabilité de survenue d’un évènement donné au cours du


temps. Un taux doit toujours s’exprimer en fonction d’une certaine unité de
temps, pour un lieu géographique donné et pour un groupe de personnes bien
défini.

Le numérateur est un nombre d’évènements (décès, maladie, handicap) survenus


au cours d’une certaine période t1-t2. le dénominateur représente la population
exposée au risque de survenue de cet évènement pendant cette période.

Ex : si dans les 24 h qui suivent un repas à une cantine fréquentée par 300
personnes, 30 présentent des signes d’intoxication alimentaire, le taux de la
maladie est : 30/300 = 0.10 =10.0% = 100 pour mille.

1.8 – INDICE

Un indice est une pseudo-frequence relative ; c’est un substitut d’une fréquence


relative difficile à calculer. (le numérateur n’est pas compris dans le
dénominateur)
L’indice est utilisé quand le dénominateur est difficile à déterminer.
Exemple : indice de masse corporelle

1.9 – SERIE STATISTIQUE

Une série statistique est l’ensemble des valeurs prises par une variable
quantitative, comme, par exemple, les valeurs du poids d’un groupe d’étudiants
ou les durées de séjour d’un groupe de malades hospitalisés.

2. –MISE EN ORDRE DES DONNEES

2.1 – TABLEAUX D’EFFECTIFS

5
Cours d’épidémiologie-A6 (Pr ALLOUN.F) statistiques descriptives

La mise en ordre des données est l’étape qui suit immédiatement celle du recueil
des valeurs de la (ou des) variable(s) étudiée(s).
Elle consiste à dresser un tableau qui fait correspondre aux valeurs ou qualités
de la variable prise en considération, le nombre d’individus présentant
effectivement ces valeurs ou ces qualités. Le tableau en question s’appelle
tableau d’effectifs ou distribution de fréquences.

2.2 – MISE EN ORDRE DES DONNEES D’UN CARACTERE


QUALITATIF

Les modalités d’un caractère qualitatif doivent épuiser toutes les possibilités et
ne pas empiéter les unes sur les autres.
Supposons qu’on ait à dresser le tableau d’effectifs de personne étudiées selon le
groupe sanguin dans le système ABO. Les modalités O, A, B, AB satisfont aux
critères ci-dessus énoncés.

Il est primordial de bien définir les modalités des caractères de l’étude pour
éviter les difficultés qui ne manqueront pas de surgir lors de la collecte et de
l’exploitation.

Dans le cas ou certaines modalités ont une fréquence rare, dans le cas précis
d’une étude donnée, on pourra les regrouper sous une rubrique unique qui sera
appelée « autre ».

Il est évident aussi que si les modalités d’un caractère qualitatif étudié sont
nombreuses, elles pourront faire l’objet d’une véritable nomenclature. Ex : la
classification internationale des maladies qui est éditée par l’OMS. Il existe
aussi des classifications officielles des professions et des catégories
socioprofessionnelles éditées par les organismes d’état et publiées dans les
annuaires statistiques.

Tableau 1.1. Distribution de 50 malades selon le sexe

Sexe Effectif %
Masculin 15 30,0
Féminin 35 70,0
Total 50 100,

La fréquence relative est généralement exprimée en pourcentage.

6
Cours d’épidémiologie-A6 (Pr ALLOUN.F) statistiques descriptives

2.3 – MISE EN ORDRE DES DONNEES D’UN CARACTERE


QUANTITATIF

2.3.1 – Caractère quantitatif discontinu

Si les modalités sont peu nombreuses, par exemple le nombre d’enfants dans
une famille, on peut les laisser telles quelles, et on opérera de la même façon que
dans le cas d’une variable qualitative.

On a observé parmi 19 personnes, le nombre d’épisodes de syndrome grippal


pendant un an. Le nombre d’épisodes variant de 0 à 4, on classe les 19 individus
selon les valeurs entières successives 0, 1, 2, 3, 4
Le tableau d’effectifs correspondant est le tableau 1.2.

Tableau 1.2. Distribution du nombre d’épisodes de syndrome grippal parmi 19


personnes

Nombre Effectif %
d’épisodes
0 3 15.8
1 7 36.8
2 6 31.6
3 2 10.5
4 1 5.3
Total 19 100.0

On peut aussi réunir les deux dernières modalités sous une rubrique unique « 3
et plus ». L’effectif correspondant à cette modalité est 2+1=3.

Si les modalités du caractère quantitatif discontinu sont très nombreuses, on


opérera de la même façon que dans le cas d’un caractère quantitatif continu.

2.3.2 – caractère quantitatif continu

7
Cours d’épidémiologie-A6 (Pr ALLOUN.F) statistiques descriptives

Pour pouvoir dresser un tableau d’effectifs qui soit facile à lire, il faut grouper
les observations ou données dans un certain nombre de classes successives,
contigües ne se recouvrant pas.

Par exemple, on a relevé le poids de 19 étudiants. L’unité de poids retenue est le


kilogramme et les résultats sont les suivants :

76,340 60,400 68,280 57,740


64,990
83,450 79,650 64,100 72,880
69,120
59,990 61,820 61,820 76,360
66,330
52,990 70,560 70,130 65,450

Il s’agit de diviser le domaine de variation de la variable, de 52.990 kg à 83.450


kg, en classes.
Le tableau d’effectifs peut être présenté comme suit lorsqu’on retient 7 classes.

Tableau 1.3. Répartition du poids de 19 étudiants

poids Centre de classe effectif %

50-54 52.5 1 5.3


55-59 57.5 2 10.5
60-64 62.5 5 26.3
65-69 67.5 4 21.2
70-74 72.5 3 15.8
75-79 77.5 3 15.8
80-84 82.5 1 5.3

Total 19 100.0
Chaque classe est définie par ses limites, son amplitude et sa valeur centrale.

Les limites de classes doivent être bien précisées. Chaque classe a donc sa limite
inferieur et sa limite supérieure.

Une observation ne doit être située que dans une seule classe. C’est pour cela
que la convention adoptée est de toujours inclure dans la classe la limite
inferieure et donc de toujours exclure la limite supérieure.

8
Cours d’épidémiologie-A6 (Pr ALLOUN.F) statistiques descriptives

L’amplitude de classe est la différence entre les limites inferieure et supérieure


de la classe. Dans notre exemple, toutes les classes ont une amplitude égale à 5
kg.

Souvent, on s’efforce de construire des classes d’amplitude égale. Il n’existe pas


de règle permettant d’imposer le nombre de classes. Mais si on choisit une
amplitude égale pour les classes, la règle suivante a pu être proposée :

Nombre de classes = étendu / amplitude

L’étendue (ou marge) est la différence entre la valeur la plus grande et la valeur
la plus faible de la série.

L’étendue dans l’exemple du poids est : 83.450 – 52.990 = 30.460 kg

Donc le nombre de classe est : 30.46 / 5 = 6 classes.

Comment créer des classes ? : Quelque règle

 Observer la série de la variable et la diviser en classes de taille à peu prés


égale,
 Commencer par faire des classes petites et les regrouper le cas échéant.

Le centre de classe est la valeur située au milieu de la classe = (limite inférieure


de la classe + limite supérieure classe) / 2.

3 – FREQUENCES CUMULEES

Les fréquences cumulées peuvent donner de manière instantanée des


informations très utiles. Elles se calculent aussi bien pour les effectifs que pour
les fréquences relatives.

Reprenons l’exemple du poids des 19 étudiants et calculons les fréquences


cumulées. Les résultats sont consignés au tableau 1.5.

9
Cours d’épidémiologie-A6 (Pr ALLOUN.F) statistiques descriptives

Tableau 1.5. Répartition du poids de 19 étudiants

Poids (kg) effectifs Effectifs Fréquences Fréquences


cumulés relatives relatives
simples cumulées

50-54 1 1 5.3 5.3


55-59 2 3 10.5 15.8
60-64 5 8 26.3 42.1
65-69 4 12 21.0 63.1
70-74 3 15 15.8 78.9
75-79 3 18 15.8 94.7
80-84 1 19 5.3 100.0

Total 19 - 100.0 -

On voit immédiatement que 12 étudiants ont un poids inferieur à 70 kg, soit 63.1
% des étudiants.

Les fréquences relatives cumulées sont plus expressives que les effectifs
cumulés. Pour cette raison les fréquences relatives cumulées seront utilisées de
préférence.

Les fréquences cumulées sont aussi utilisées pour la détermination des quantiles
et la construction des graphiques.

10
Cours d’épidémiologie-A6 (Pr ALLOUN.F) statistiques descriptives

PRESENTATION TABULAIRE DE L’INFORMATION

1 – CONSIDERATIONS GENERALES

La construction de tableaux d’effectifs ou tabulation est l’étape qui suit


immédiatement le recueil des données et leur contrôle. Dans ce chapitre, nous
examinons les règles relatives à la présentation des tableaux ainsi que les faits
qu’ils peuvent exprimer en fonction du nombre de variables.

Un tableau est une unité d’information se suffisant à elle-même. C’est


pourquoi il doit contenir toutes les indications utiles à sa compréhension. Le
lecteur doit être en mesure de cerner l’essentiel du message véhiculé par le
tableau sans le secours du texte dans lequel néanmoins il doit être commenté.

2- CONTENU DU TABLEAU

Chaque tableau a son titre, son numéro et les notes qui l’accompagnent.

Le titre précise l’objectif et définit le contenu du tableau. Le titre doit être


*explicite quant à l’objet et les éléments de l’étude, au lieu ou se déroule la
collecte des données et à la période de l’enquête. En d’autres termes, il doit
répondre à la question : « quoi, où, quand ? ».

Le numéro est en chiffres arabes ou romains. Le numéro et le titre sont sur


la même ligne au dessus du tableau.

Des indications complémentaires qui peuvent être indépendantes du titre


sont portées en notes au bas du tableau.

Le tableau proprement dit comporte :


 Un en-tête,
 Des têtes de colonnes,
 Des têtes de lignes,
 Un corps

11
Cours d’épidémiologie-A6 (Pr ALLOUN.F) statistiques descriptives

3 – TABLEAUX A UNE OU PLUSIEURS VARIABLES

3.1 – TABLEAUX A UNE SEULE VARIABLE

La présentation des données peut être unidimensionnelle, c'est-à-dire qu’on


étudie une population ou un échantillon de cette population selon une seule
variable. C’est une série statistique simple ou tableau statistique à simple entrée
ou encore tableau à une seule dimension.

3.2 – TABLEAUX A DEUX VARIABLES

Les données peuvent être classées aussi selon les données de deux variables en
même temps dans un seul tableau. C’est un tableau à deux variables ou à double
entrée ou à deux dimensions. Un tel tableau va permettre de tester la liaison
entre deux variables étudiées.

Si les deux caractères étudiés sont des caractères qualitatifs, le tableau à double
entrée est dit tableau de contingence. Si les deux caractères étudiés sont de
caractères quantitatifs, le tableau à double entrée est dit tableau de corrélation.

Soit l’exemple de 826 écoliers répartis selon la survenue d’un accident en


fonction du sexe. Les données sont contenues au tableau 2.1.

Tableau 2.1 Répartition de 826 élèves d’une école d’Alger selon la survenue
Eventuelle d’un accident en 1985 en fonction du sexe.

Survenue Masculin Féminin Total


d’un accident
Oui 102 105 207
Non 209 410 619
Total 311 515 826

12
Cours d’épidémiologie-A6 (Pr ALLOUN.F) statistiques descriptives

C’est un tableau de contingence parce qu’il contient les données de deux


variables qualitatives : le sexe (modalités : masculin et féminin) et la survenue
éventuelle d’un accident (modalités : oui et non).

La colonne « total » et la ligne « total » constituent les distributions marginales.


Elles représentent respectivement la distribution de 826 élèves selon la survenue
d’un accident et la distribution de 826 élèves selon le sexe.

Les autres lignes et les autres colonnes constituent les distributions


conditionnelles.

Il s’agit dans notre tableau de tester la relation entre le sexe et la survenue


éventuelle d’un accident. Plus précisément, on veut savoir lequel des deux sexes
est plus vulnérable que l’autre aux accidents. On dit que le sexe est la variable
qui sert de base aux comparaisons.

Le tableau 2.2 illustre la façon avec la quelle les données peuvent être présentées
à l’intention d’un lecteur au cours d’une publication.

Tableau 2.2 Répartition de 826 élèves selon la survenue éventuelle


D’un accident en fonction du sexe.

Sexe Sujets enquêtés Sujets accidentés


effectif effectif %
Masculin 311 102 32.8
Féminin 515 105 20.4

χ2 = 15.9 p< 0.001 DS

13
Cours d’épidémiologie-A6 (Pr ALLOUN.F) statistiques descriptives

Paramètres de réduction

I/ Définition :
Les paramètres de réduction sont des valeurs numériques permettant de résumer les
caractéristiques principales de l’ensemble des mesures d’un caractère quantitatif.

 Les paramètres de tendance centrale sont des mesures qui localisent le


centre d’une distribution. Les plus utilisés sont : la moyenne arithmétique, la
médiane et le mode.

 Les statistiques de dispersion renseignent sur l’étalement de la série autour


de la mesure de tendance centrale, ce sont la variance et l’écart-type.

II/ PARAMETRES DE TENDANCE CENTRALE :

II.1/ MOYENNE ARITHMITIQUE :

La plus connue et la plus précise des paramètres de tendance centrale.

Elle se calcule en additionnant les différentes valeurs x de la série et en divisant la


somme obtenue par le nombre total N des valeurs.

m = ∑ x /N
ex : soit la série suivante : fréquence cardiaque de 10 étudiants : 59 batt/min, 72, 58,
65, 77, 83, 72, 77, 62, 62.

m = (somme des x)/N= 68,7 batt/min

*MOYENNE PONDEREE :

14
Cours d’épidémiologie-A6 (Pr ALLOUN.F) statistiques descriptives

Elle permet une simplification des calculs lorsque certaines observations se répètent.
Il s’agit simplement de compter autant de fois les valeurs qui se répètent plusieurs
fois.

La moyenne pondérée s’écrit : m = ∑ nx/N

n est l’effectif de chaque valeur observée.

soit la série suivante : 3, 3,3, 3,4,4,5,5,5,5,7,9. M=(4*3+2*4+4*5+7+9)/12=4,7.

Lorsque les données sont groupées en classes, toutes les valeurs de la classe
coïncident avec le centre de la classe.

Pour calculer la moyenne de données groupées en classes, on applique la formule


de la moyenne pondérée.

Ex : calcul de la moyenne du poids de 19 étudiants sur la base des données


groupées en classes s’effectue ainsi :

Poids (kg) Centre de la classe Effectifs


50-54 52,5 1
55-59 57,5 2
60-64 62,5 5
65-69 67,5 4
70-74 72,5 3
75-79 77,5 3
80-84 82,5 1
M=(52,5*1 +57,5*2+62,5*5+67,5*4+72,5*3+77,5*3+72,5)/19=67,5 kg

II.2/ MODE :

Le mode ou valeur modale ou dominante est la valeur de la variable de fréquence


maximum, c’est la valeur dominante qui correspond au plus grand effectif.

Le mode peut ne pas exister, c’est le cas d’une série statistique d’une variable dont
chacune des valeurs a le même effectif.

4, 12, 20, 34, 80,112

Lorsque les valeurs de la variable sont réparties en classes, la classe modale est
celle pour laquelle la fréquence est maximale. On comprend alors que l’estimation
du mode est fonction de la manière dont les données ont été groupées. On peut
attribuer au mode le centre de la classe modale.

Dans l’exemple du poids de 19 étudiants, la classe modale est 60-64. Le mode peut
être assimilé au centre de la classe : 62,5 kg.

Ex2 : distribution du nombre d’épisodes de grippe parmi 19 personnes :

15
Cours d’épidémiologie-A6 (Pr ALLOUN.F) statistiques descriptives

Nbre d’épisodes Effectifs


0 3
1 7
2 6
3 2
4 1
Le mode est égal à 1.

II.3 / LA MEDIANE :
C’est la valeur de la variable qui se trouve au milieu de la série quand les données
observées sont rangées par ordre croissant ou décroissant. En d’autres termes, c’est
la valeur de la variable qui divise l'effectif total de la distribution statistique en deux
parties égales donc la valeur médiane est celle qui se trouve au milieu de la série
statistique de telle sorte qu'il puisse y avoir autant de valeurs supérieures que
de valeurs inférieures à la médiane.

Lorsque les valeurs de la série statistique sont connues, il suffit de les classer par
ordre de grandeur croissant (ou décroissant) et de prendre celle qui se trouve au
milieu.

Exemples :
Si n est impair on prend la valeur qui sépare l’ensemble en 2 parties
1- Données en nombre impair : 5 poids de nouveau-nés :
3150 g
3200 g
3500 g ------------ = médiane
3510 g
3720 g
Si n est pair on prend la valeur moyenne des 2 valeurs
2- Données en nombre pair : 6 poids nouveaux nés
1. 1 3150 g

2. 3200 g

3. 3500 g

4. 3510 g

5. 3720 g

6. 3800 g

La valeur médiane se situe entre les poids de 3 et 4 Sa valeur est égale à la


moyenne arithmétique des deux poids.(3500 + 3510)/2 = 3505
la médiane du poids des 19 étudiants correspond à la classe 65-69 ans.

16
Cours d’épidémiologie-A6 (Pr ALLOUN.F) statistiques descriptives

Cependant, il serait plus juste de tenir compte de la position de la médiane dans la


classe en ajoutant à la limite inferieure de la classe une fraction de l’amplitude de
classe, c’est la technique de calcul par interpolation.

La formule correspondante est : Médiane = x+ [(N/2-S)/n]*a


Dans laquelle :
X : limite inferieure de la classe médiane
N : taille globale de l’échantillon
S : effectif cumulé « moins de » de la classe inf à la classe médiane
n : effectif de la classe médiane
a : amplitude de la classe médiane
Appliquée au poids des 19 étudiants, cette formule donne :
médiane =65+ [(19/2-8)/4]*5=66,9 Kg

III/ QUANTILES
III.1/ QUARTILES :
Les quartiles divisent la série statistique en quatre parties égales comprenant le
même nombre de sujets.
 Le premier quartile (quartile inf) est la valeur de la variable du 25ème sujet sur
100.

 Le deuxième quartile n’est autre que la médiane, c’est la valeur de la variable


du 50ème sujet sur 100.

 Le troisième quartile (quartile sup) est la valeur de la variable du 75ème sujet


sur 100.

Dans une série de 60 cas, par exemple, le rang du premier quartile sera 15, le rang
du deuxième quartile sera 30 e le rang du troisième quartile sera 45. Une fois le rang
déterminé, on recherche les valeurs correspondantes de la variable.
Pour le poids de 19étudiants, le rang du premier quartile est 4,8, le rang du
deuxième quartile est 9,5, le rang du troisième quartile est 14,3.

17
Cours d’épidémiologie-A6 (Pr ALLOUN.F) statistiques descriptives

On peut à priori affecter aux différents quartiles les valeurs des centres de classes
dans lesquelles ils se trouvent, soit pour notre exemple et par ordre : 62,5, 67,5, 72,5
Kg.
III.2/ DECILES :
Les déciles sont au nombre de 9. Ce sont des valeurs de la variable qui partagent
la série statistique en 10 parties comprenant chacune 1/1Oème de l’effectif total.
 Le premier décile est la note du 10ème sujet sur 100.

 Le deuxième décile est la note du 20ème sujet sur 100.

 Le cinquième décile se confond avec le deuxième quartile et la médiane.

Le décilage est d’un usage fréquent, notamment en biométrie, parce qu’il permet de
situer rapidement et facilement la position d’un sujet quelconque par rapport aux
autres sujets de la série.
III.3.PERCENTILES :
Les percentiles sont au nombre de 99. Ce sont des valeurs de la variable qui
partagent la série statistique en 100 parties comprenant chacune 1/100ème de
l’effectif total.
De façon générale, les percentiles sont utilisés lorsque le nombre de valeurs de la
série statistique est supérieur à 1000.
Le 42ème percentile, par exemple, est la note du 420ème sujet sur 1000.

IV/ PARAMETRES DE DISPERSION : ECART TYPE ET VARIANCE :


Les caractéristiques de tendance centrale et de position sont insuffisantes pour
caractériser complètement une série statistique, c'est-à-dire décrire sa structure
interne ou le mode de dispersion des valeurs de la série statistique autour d’une
caractéristique centrale.
Deux distributions peuvent avoir la même valeur de tendance centrale sans être
réparties de la même manière.
Ex :
 3 .4.6.14.18.19.20. MY=12, ME=14

 5.7.10.14.15.16.17 MY=12, ME=14

18
Cours d’épidémiologie-A6 (Pr ALLOUN.F) statistiques descriptives

On remarque que les deux observations ont la même moyenne et la même médiane
mais la deuxième série est mois dispersée que la première. A partir de cet exemple,
on se rend compte que les paramètres de tendance centrale ne suffisent pas à
décrire et à caractériser une série statistique. Il est donc nécessaire de disposer
d’autres paramètres qui permettent d’estimer dans quelle mesure les observations
s’écartent de la tendance centrale.les plus connus de ces paramètres sont l’écart-
type et la variance.
L’écart-type et la variance sont en réalité deux expressions du même paramètre de
dispersion.
la variance est simplement le carré de l’écart-type.
La variance est la moyenne des carrés des écarts à la moyenne. Elle est
généralement notée S² lorsqu’elle est calculée à partir d’un échantillon.
 En cas de données non groupées (individuelles), la variance s’écrit :

S² = [∑ (x-m) ²]/ (N)


 En cas de données groupées, et de manière générale, la variance s’écrit :

S² = [∑ n(x-m) ²]/ (N)

S² = (∑ nixi²) - (m ²)
N
L’écart type est tout simplement la racine carrée de la variance. C’est la
caractéristique de dispersion la plus utilisée car la plus satisfaisante.
La variance et l’écart-type renseignent tous deux sur l’étalement de la série
statistique autour de la moyenne. Mais tandis que la variance mesure le carré d’une
grandeur, l’écart-type d’une distribution s’exprime dans la même unité de mesure que
les observations.
Si par exemple, une variable s’exprime en Kg, la variance s’exprime en Kg² tandis
que l’écart-type en Kg.

Considérons les deux séries suivantes :


Série 1 : 15. 20. 25. 30. 35. La moyenne de la série 1= (15+20+25+30+35)/5=25
Série 2 : 5. 15. 25. 35. 45. La moyenne de la série 2= (5+15+25+35+45)/5=25

19
Cours d’épidémiologie-A6 (Pr ALLOUN.F) statistiques descriptives

Les deux séries ont la même moyenne, mais elles ne se ressemblent pas. La
deuxième série est plus étalée que la première autour de la moyenne. On dit que La
deuxième série est plus dispersée.
Calcul des deux variances :
S² (série 1) = [(15-25)²+ (20-25)²+ (25-25)²+ (30-25)²+ (35-25)²]/ (5-1)=62,5
S² (série 2) = [(5-25)²+ (15-25)²+ (25-25)²+ (35-25)²+ (45-25)²]/ (5-1)=250
Les écarts types correspondants sont :
S (série 1) = rc62, 5= 7,9
S (série 1) = rc250= 15,8
La série 2 est évidemment plus dispersée autour de la moyenne. Le calcul de la
variance et de l’écart-type permet de quantifier cette dispersion.

Calcul de la variance et de l’écart-type de la série des poids de 19 étudiants :


Poids (kg) Centre de la classe Effectifs Nxi nixi²
50-54 52,5 1 52,5 2756.25
55-59 57,5 2 115 6612.5
60-64 62,5 5 312 .5 19531.25
65-69 67,5 4 270 18225
70-74 72,5 3 217.5 15768.75
75-79 77,5 3 232.5 18018.75
80-84 82,5 1 82.5 6806.25
TOTAL 19 1282.5 87718.75

Moy = 67,5
S²= [1(52,5-67,5)² + 2(57,5-67,5)²+5(62,5-67,5)²+ 4(67,5-67,5)²+ 3(72,5-67,5)²+
3(77,5-67,5)²+ 1(82,5-67,5)²]/(19-1)= 63,9 Kg²
S= rc63, 9=8,0 Kg
Notons enfin que la variance s’écrit aussi sous la forme :
S²= [T2-(T1²/n)]/ (n-1) où : T2 est la somme des x² et T1 somme des X.

Exemple : les diamètres de l’induration lue sur le bras après IDR à la tuberculine
chez 408 enfants d’un groupe d’allergiques spontanés au BK.
m = ∑x/408
S² = ∑(x-m) ²/407

20
Cours d’épidémiologie-A6 (Pr ALLOUN.F) statistiques descriptives

Après groupement de données en 6 classes ;


Tableau : induration lue sur le bras après IDR à la tuberculine chez 408 enfants d’un
groupe d’allergiques spontanés au BK.
Limites des Centre de Effectifs Nixi nixi²
intervalles de classe
classes (mm) Xi Ni
5,5 – 10,5 8 75 600 4800
10,5 – 15,5 13 118 1534 19 942
15,5 – 20,5 18 111 1998 35 964
20,5 – 25,5 23 55 1265 29 095
25,5 – 30,5 28 45 1260 35 280
30,5 – 35,5 33 4 132 4356
TOTAL N=408 T1=6789 T2=129 437

m = T1/n= 6789/408=16,64 mm
S²= [T2-T1²/n]/(n-1)= [129 437-(6789)²/408]/407= 40,47
S² = ∑ nxi² -m²
N

21

Vous aimerez peut-être aussi