Vous êtes sur la page 1sur 30

Programme du cours de la statistique descriptive

Introduction générale

1. Histoire et intérêt de la statistique


2. Notion de la statistique
3. Vocabulaire statistique

Chapitre 1 : Distributions statistiques simples

1. Méthodes de présentation
a- Tableau statistique simple
b- Graphiques
2. Paramètres de position
a- Mode
b- Médiane
c- Moyenne arithmétique
3. Paramètres de dispersion
a- Variance - écart type
b- les quartiles
c- Coefficient de variation
4. Paramètres de concentration
a- Courbe de concentration
b- Indice de concentration
C- Médiale
Chapitre 2 : Distributions statistiques doubles

1. Tableau de contingence
2. Distributions marginales – caractéristiques marginales
a- Distributions marginales
b- Caractéristiques marginales
3. Distributions conditionnelles – caractéristiques conditionnelles
a- Distributions conditionnelles
b- Caractéristiques conditionnelles

Chapitre3 : L’ajustement linéaire :

1. Méthodes de présentation
2. La droite des moindres carrés
3. Le coefficient de corrélation linéaire
Généralités sur la statistique

1. Histoire et intérêt de la statistique


2. Notion de la statistique
3. Vocabulaire statistique

1- Histoire et intérêt de la statistique :

Aussi loin que l'on remonte dans le temps et dans l'espace, les États ont toujours senti le
besoin de disposer d'informations sur leurs populations, sur les ressources dont ils disposent
ou sur les biens qu'ils produisent (les recensements de population et des ressources). La
statistique est restée purement descriptive jusqu'au 18ème siècle.

L’origine de la statistique remonte au 18 ème siècle avec beaucoup de la statistique descriptive


en Allemagne, puis la naissance de la statistique inférentielle à partir du calcul des
probabilités (Bernoulli, 1654- 1705; Laplace 1749-1827).

Au 20ème siècle et depuis les années soixante la statistique a connu un essor considérable,
applications multiples (la médecine, la physique, l’industrie…).

La statistique fait partie de ce qu’on appelle aujourd’hui la science des données (data science.
Elle a pour objectif l’étude des phénomènes à travers la collecte de données, leur traitement,
leur analyse, l’interprétation des résultats et leur présentation afin de rendre ces phénomènes
compréhensibles.

2- Notion de la statistique

Au cours de son histoire la statistique a reçu de très nombreuses définitions.

La statistique est un ensemble de méthodes qui permettent de collecter, d’organiser, de


présenter, de traiter et d’analyser des données afin de tirer des conclusions et de prendre
des décisions.

La statistique descriptive est une méthode qui vise la description quantitative des ensembles
nombreux.

 Une méthode : méthode qui décrit contrairement à la théorie qui essaie d’expliquer ; il
s’agit donc d’une simple observation des phénomènes ;

 Description quantitative : utilisation des chiffres pour la description et l’analyse ;

 Ensemble nombreux : la statistique ne s’intéresse que rarement aux ensembles de petite


dimension, c’est un instrument de connaissance des phénomènes qui échappent à
l’appréhension direct ou individuel.
Il est nécessaire de distinguer trois étapes de l’enseignement de la statistique :

 La statistique descriptive : ou exploratoire qui permet la description des phénomènes en


utilisant :

- des représentations graphiques ;

- des résumés synthétiques en utilisant le langage numérique ;


 la statistique probabiliste qui étudie les mécanismes aléatoires ;
 la statistique inférentielle (confirmatoire ou décisionnelle) : dont l’objectif est d’obtenir
de l’information sur un phénomène étudié sur une population globale, à partir de
l’information collectée auprès d’une partie restreinte de cette population (échantillon).

Remarque :
Il convient de distinguer entre la statistique, la science et les statistiques l’ensemble des données
numériques relatives à un phénomène particulier (les statistiques du commerce extérieur, du
chômage…).

3- Vocabulaire statistique
 Population : l’ensemble que l'on observe et qui fera l’objet de l’analyse statistique
(champ de l’étude).

 Individu ou unité statistique: un élément de cet ensemble.

La taille ou l’effectif de la population est le nombre d'individus qui compose la population.

 Echantillon : c'est un sous ensemble de la population considérée.


 Recensement : étude statistique menée auprès de l’ensemble de la population.
 Sondage : lorsque une partie de la population est concernée par l’étude.
 Caractère statistique : c'est la propriété observée qui permet de distinguer les
individus de la population (ou de l'échantillon) étudiée, qui porte aussi le nom de
variable statistique. Les différentes valeurs ou qualités que peut prendre un
caractère s’appellent les modalités du caractère.

Exemple
Caractères X - la catégorie socio professionnelle
- le nombre d’enfants par ménage
- le salaire mensuel
Modalités Mi - la catégorie socio professionnelle : ouvriers, technicien supérieur, ingénieur…
- le nombre d’enfants par ménage : 0, 1, 2 …
- le salaire mensuel : [2500, 4000[, [4000, 6000[…[40000, 60000[
Différents types de variables statistiques :

 variable qualitative dont les modalités ne sont pas mesurables (exemple: secteur
d’activité, opinions politiques, nationalité...). Elle peut être ordonnée ou non,
dichotomique ou non. Lorsque les modalités prises par la variable ne sont pas
ordonnables la variable est nominale. Une variable dont les modalités prises sont
ordonnables est ordinale.
 Variable quantitative dont les modalités peuvent être exprimées numériquement
ou mesurables. Dans ce cas, elle peut être discontinue ou continue.
- Elle est discontinue (discret)si elle ne prend que des valeurs isolées les unes
des autres (en pratique, ces valeurs seront le plus souvent entières. Exemple:
nombre d'enfants par ménage, le nombre de salariés des entreprises…).
- Elle est dite continue lorsqu'elle peut prendre toutes les valeurs d'un intervalle
fini ou infini de IR (exemple : salaires, le chiffre d’affaires, la taille...).

Les distributions statistiques simples

On étudie dans ce chapitre les données correspondant à l’observation d’une population de N


individus suivant un seul caractère X.

On cherche dans ce chapitre à présenter sous forme de tableau, à visualiser la façon dont ces
données sont réparties et à résumer ces données au moyen des caractéristiques synthétiques.

I. Les méthodes de présentation :


1. Présentation en tableau :

Soit une population de N individus désignés par : I1, I2,…,Ii…,IN

N est le nombre des individus qui composent cette population appelé effectif total (ou taille) de
la population.

Ii désigne le ième individu (l’individu de rang i).

Soit X un caractère statistique supposé à k modalités désignées par : M1, M2 ,…, Mi,…,Mk

On étudie cette population suivant le caractère X. les données relatives à cette distribution peuvent
être groupées dans le tableau suivant :

Modalités Effectifs Fréquences


Mi ni fi (%)
M1 n1 f1
M2 n2 f2
⋮ ⋮ ⋮
Mi ni fi
⋮ ⋮ ⋮
Mk nk fk

Total N=ni fi = 1(100)


ni est l’effectif de la modalité xi qui donne le nombre d'individus ayant cette modalité.

Avec n1+ n2+…+ni+…+nk = N


k

 ni  N
i 1

fi est la fréquence de la modalité xi ,qui donne la proportion (le pourcentage ou la part) des
individus présentant cette modalité, donnée par :

n
fi  Ni

fi est toujours comprise entre 0 et 1 ( 0 ≤ fi ≤ 1)

f1+ f2 +…+ fi +…+fK = 1


k

∑ fi = 1
i=1

Les fréquences peuvent être exprimées en pourcentage fi ( en %) = fi100

 cas d’un caractère qualitatif :

Dans ce cas les modalités du caractère sont des variantes non mesurables qu’on note M 1, M2…Mi,
…,M k

Exemple1:

Trois frères dirigent une entreprise de confection. L’effectif du personnel, y compris les trois
présidents directeurs, est de 120 personnes. La répartition du personnel par catégorie socio-
professionnelle est la suivante :

Catégories socio- Effectif Fréquence Oi


professionnelles ni fi (%)
Ouvriers 90 75 O1 = 0,75 x 360= 270
Employés administratifs n2 = 9 7,5 7,5x 360 /100 = 27
Techniciens (Stylistes, etc ) 15 12,5 12,5 x360/100 = 45
Ingénieurs 3 2,5 2,5x 360/100 = 9
Présidents directeurs 3 2,5 2,5x 360/100 = 9
Total 120 100 360

 cas d’un caractère quantitatif discret :


Dans ce cas le caractère est mesurable et les modalités sont discrètes qu’on note par : x1, x2,…xi,…,xk
Les modalités xi sont différentes et classées par ordre croissant.
En plus des ni et des fi , on peut définir :
Les effectifs cumulés croissants :
Ni donne le nombre des individus ayant une valeur du caractère inférieure ou égale à xi qui est donné
par la somme des effectifs correspondant aux valeurs du caractère inférieures ou égales à x i.
N1 = n1
N2 = n1 + n2 = N1 + n2
N3 = n1 + n2 +n3 = N2 + n3

Ni-1 = n1 + n2 +…+ni-1
Ni = n1 + n2 +…+ni-1 +ni = Ni-1 + ni
Ni = Ni-1 + ni

et les fréquences cumulées croissantes :

Fi donne la proportion des individus ayant une valeur du caractère inférieure ou égale à x i

Fi = f1 + f2 +…+fi-1 + fi

Fi = Fi-1 + fi

Et on a Nk = N et Fk = 1 (ou 100%)

Exemple 2 :

Le tableau suivant correspond à la distribution de 350 selon le nombre d’enfants par ménage :

Nombre Effectifs Fréquences Effectifs Fréquences


d’enfants ni fi cumulés cumulées
(%) croissants Ni croissantes Fi(%)
X1 = 0 15 4,3 N1= 15=n1 F1 = 4,3= f1
1 35 10 N2 =50=n1+n2 F2=f1 + f2 = 14,3
2 55 15,7 N3=105=N2+n3 F3 =F2 + f3 = 30
3 95 27,1 200=105 + 95 57,1
x5 = 4 150 42,9 350= N5 =N 100 = FK
Total 350 100 ---------- ----------
 Cas d’un caractère quantitatif continu :

Pour un caractère quantitatif continu les modalités sont des classes de valeurs de la forme ]e 0,
e1], ]e1, e2],…]ei-1, ei] …]ek-1, ek]. X est à k modalités on aura donc k classes.

On note par :

ni : l’effectif de la ième modalité qui donne le nombre des individus ayant une valeur du caractère
située dans la classe ]ei-1, ei] ;

Ni : l’effectif cumulé jusqu’à la ième classe qui donne le nombre des individus qui ont une valeur du
caractère inférieure ou égale à ei ;

fi : la fréquence de la ième classe ;

Fi : la fréquence cumulée jusqu’à la ième classe ;

Ci : le centre de la ième classe, ci = (ei + ei-1)/2

ai : l’amplitude de la ième classe , ai = ei – ei-1

Exemple 3 :

L’étude de 250 salariés suivant le salaire mensuel (exprimé en millier de Dhs)

Classes de ni Ni fi (%) Fi (%) ai Ci COi fi’= fi


salaire amplitude centre =au/ai .COi
4 - 8 22 22 8,8 8,8 4 = 8-4 6= (4+8) /2 1 8,8
8 - 12 68 90 27,2 36 4 10 1 27,2
12 - 16 94 184 37,6 73,6 4 14 1 37,6
16 - 18 56 240 22,4 96 2 18 2 44,8
18 - 24 10 250 4 100 6 22 2/3 2,6
Total 250 ----- 100 ------- ------- ------- ----- -----

Remarque:
Les individus sont considérés répartis uniformément entre les deux bornes.

2. les représentations graphiques :

Les représentations graphiques constituent une étape importante dans une étude statistique. Elles
permettent de communiquer des informations à l’aide des visualisations graphiques.

Les graphiques à utiliser varient suivant la nature du caractère étudié. Un graphique doit être
parfaitement renseigné : titre clair, légende, grandeurs représentées, échelle choisie…
 Caractère qualitatif :

Dans ce cas deux représentations graphiques sont les plus fréquentes le diagramme sectoriel
(ou à secteurs circulaires), le diagramme en barres (ou en tuyaux d'orgue). Le principe est de
représenter des aires proportionnelles aux effectif (ou aux fréquences) des modalités du
caractère statistique.

- Diagramme en barres :

Les modalités sont représentées par des rectangles de même base et de hauteur proportionnelle à
leurs effectifs (ou fréquences).

Diagramme en barres représentant la dirtibution des 250


salariés selon la catégorie socio professionnelle
90

80
70

60

50

40
30

20

10

0
ouvriers employés techniciens ingénieurs Présidents

- Diagramme sectoriel :

Chaque modalité est représentée par un secteur dont l’angle Oi est proportionnel à l’effectif (ou à la
fréquence) de la modalité concernée. L’angle Oi = 360° x fi = 360 x ni /N
Catégories socio professionnelles des 120
salariés

Ouvriers
Employés
Techniciens
Ingénieurs
Directeurs

 Cas d’un caractère quantitatif discret :

En plus du diagramme différentiel en bâtons on utilise le diagramme des fréquences cumulées


appelé diagramme cumulatif.

- Diagramme en bâtons :

Le diagramme en bâtons est représenté dans un repère orthogonal. On porte en abscisses les
valeurs des modalités et en ordonnés les effectifs (ou bien les fréquences). Chaque modalité est
représentée par un bâton de hauteur proportionnelle à l’effectif ou à la fréquence de la modalité
considérée.

Exemple :

On considère les données de l’exemple 2 (l’étude des ménages suivant le nombre d’enfants) :

Le diagramme en bâtons correspondant est le suivant :


Diagramme en bâtons repésentant la dirtibution des 350 ménage suivant le nombre
d'enfants

160

140

120

100

80
Effectifs

60

40

20

0
0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5
Nombre d'enfants

Diagramme en bâtons repésentant la dirtibution des 350 ménage


suivant le nombre d'enfants
160

140

120

100

80

60

40

20

0
0 1 2 3 4

Remarques

1- On obtient le polygone des effectifs (ou des fréquences) en reliant les sommets des bâtons.
2- Dans le cas discret on se limite uniquement au diagramme en bâtons.

3-Le diagramme cumulatif est la représentation graphique d’une fonction F, appelée fonction de
répartition de la variable statistique.

 Cas d’un caractère quantitatif continu :


- Histogramme (diagramme différentiel) :
L’histogramme correspond à une série de rectangles juxtaposés dont chacune des bases est
égale à l’intervalle de chaque classe (l’amplitude) et dont la hauteur est telle que l’aire de
chaque rectangle soit proportionnelle aux effectifs (histogramme des effectifs) ou aux
fréquences de la classe correspondante (histogramme des fréquences). Cette définition n’est
correcte que dans le cas d’égalité des amplitudes des classes. Dans le cas où les amplitudes des
classes sont inégales, la comparaison interclasse n’est possible qu’après la correction des effectifs
(ou bien des fréquences).
Exemple :
On considère l’exemple 3 qui donne la répartition des 250 salariés suivant le salaire mensuel
touché. L’histogramme correspondant est :

Diagramme représentant la distribution des


100 salariés suivant le salaire mensuel
90
80
70
60
50
40
30
20
10
0
]4 , 8 ] ]8 , 12] ]12 , 16] ]16, 20] ]20, 24]

Remarques :
1- Pour tracer l’histogramme dans le cas ou les amplitudes sont inégales, il faut passer par la
correction des effectifs (ou des fréquences).
Pour corriger les effectifs il faut :
a- Choisir une amplitude unitaire au (au est l’amplitude qui apparait le plus grand nombre de
fois possible) ;
b- Déterminer pour chaque classe le coefficient de correction :
COi = au / ai ;
c- Calculer la fréquence (ou l’effectif) corrigée :
f’i = COi . fi (n’i = ni . COi).
2- Pour des raisons de stabilité de l’histogramme, il est conseillé d’avoir des effectifs
suffisants dans chaque classe. On recommande souvent d’avoir des effectifs voisins. Les
limites de classes correspondent alors à des quantiles. Ce choix conduit souvent à des
classes d’amplitude différentes.

- La courbe cumulative croissante diagramme cumulatif :

La courbe cumulative ( ou polygone des fréquences cumulées ) est obtenue en reliant les
points dont les abscisses représentent la borne supérieure de chaque classe et les ordonnées
les fréquences cumulées correspondantes (les points (ei , Fi) ou (ei , Ni)).

Exemple :
On considère l’exemple 3 :

Le tableau ci-dessous présente la répartition des salariés d’une entreprise suivant le salaire mensuel
exprimé en milliers de dirhams :

Classes de ni Ni fi (%) Fi (%) ci ai (ei, Ni) (ei,, Fi)


salaire 0 (4, 0) (4, 0%)
4 - 8 22 22 8,8 8,8 6 4 (8, 22)
8 - 12 68 90 27,2 36 10 6 (12,90)
12 - 16 94 184 37,6 73,6 14 2 (16,184) (16 ;73,6%)
16 - 20 56 240 22,4 96 18 4 (20,240)
20 - 24 10 250 4 100 22 4 (24,250) (24 ; 100%)
Total 250 ----- 100 ------- ------- -------

La courbe cumulative croissante, représentant la distribution des salaries des 250 salariés, se
présente comme suit :

Courbe cumulative croissante des effectifs


250

200

150

100

50

0
4 8 12 16 20 24
La courbe cumulative croissante est continue qui croit de 0 à N ( ou de 0 à 100%) si elle est
représentée en terme des effectifs cumulés croissants (si elle est représentée en terme des
fréquences cumulées croissantes).

II- Les caractéristiques de position( de tendance centrale) :

1- Le mode m

Le mode est la valeur du caractère la plus fréquente. On le note par : m


Dans le cas d'un caractère statistique continu, on parle de classe modale.

Remarque : Le mode ou la classe modale n'est pas obligatoirement unique.

Exemples :
- Cas discret ( voir exemple 2) :
Le tableau suivant correspond à la distribution de 350 selon le nombre d’enfants par ménage :

Nombre Effectifs Fréquences Effectifs Fréquences xi xni


d’enfants ni fi cumulés cumulées
(%) croissants Ni croissantes Fi(%)
X1 = 0 15 4,3 15 F1 = 4,3= f1 0x15 =0
1 35 10 N2 =50=n1+n2 F2=f1 + f2 = 14,3 1x35 = 35
2 55 15,7 N3=105=N2+n3 F3 =F2 + f3 = 30 2x55 =110
3 95 27,1 200=105 + 95 57,1 3x95= 285
4 150 42,9 350= Nk =N 100 = FK 4x150= 600
Total 350 100 ---------- ---------- 1030

L’effectif le plus élevé est n5 = 150 donc le mode m = 4 c.à.d. la plupart des ménages ont 4 enfants.

 Cas continu (voir exemple 3) :

Classes de ni Ni fi (%) Fi (%) ci ai (ei, Ni) (4, 0%)


salaire (4, 0)
4 - 8 22 22 8,8 8,8 6 4 (8, 22)
8 - 12 68 90 27,2 36 10 6 (12,90)
12 - 16 94 184 37,6 73,6 14 2 (16,184) (16 ;73,6%)
16 - 20 56 240 22,4 96 18 4 (20,240)
20 - 24 10 250 4 100 22 4 (24,250) (24 ; 100%)
Total 250 ----- 100 ------- ------- -------

L’effectif le plus élevé est 150 qui correspond à la 3ème classe c.à.d. que le plus grand nombre de
salariés touchent entre 12 et 16 milliers DHS. 12-16 est la classe modale.

2-La médiane

La médiane, désignée par Me, est la valeur du caractère qui partage en deux groupes
de même effectif les individus d’une population supposée rangée par valeur croissante du
caractère.
50% des observations sont inferieures ou égales à la médiane ; et l’autre moitié est
supérieure à la médiane.

La médiane est la valeur du caractère telle que : F(Me) = 50% (ou bien N (Me) = N/2)

(puisque 50% des observations sont inferieures à la médiane)

 Si le caractère est discret :

On désigne par N le nombre d’observations.

- Si N est impair la médiane correspond à l’effectif cumulé ( ou à l’observation de rang) (N +1)/2


- Si N est pair la médiane correspond à l’effectif cumulé ( ou à l’observation) de rang N /2

 Si le caractère est continu :

On sait par définition que F(Me) = 0.5 ,où F est la fonction cumulative croissante. On
détermine alors un intervalle médian (intervalle contenant la médiane), puis on procède à
l'intérieur de cette classe à une interpolation linéaire.

On sait que: F(ei-1) ≤ F(Me) = 0,5≤ F(ei)

Donc : ei-1 ≤ Me ≤ei

En appliquant la formule d’interpolation linéaire on obtient :

Me = ei-1 + (ei – ei-1) [(F(Me)-F(ei-1)) / (F(ei) – F(ei-1)) ]

La médiane peut être déterminée également en termes des effectifs :

Me = ei-1 + (ei – ei-1) [(N(Me)-N(ei-1)) / (N(ei) – N(ei-1)) ]

( F(ei) = Fi et N(ei) = Ni)

Exemples :

 Cas discret (voir exemple 2)

On calcule les effectifs cumulés croissants ( ou bien les fréquences cumulées croissantes)
On sait que N( Me) = N /2 = 350 /2 = 175
On remarque que : 105 ≤ N(Me) = 175 ≤ 200
Donc : dans ce il n’y a pas de point médian. On a un intervalle médian (2,3)
 Cas continu (Voir l’exemple 3)
De la même manière que dans la cas discret on commence par le calcul des effectifs ( ou bien des
fréquences) cumulés croissant ;
On sait par définition que : N(Me) = N /2 = 250/2 = 125
On remarque que : 90 = N(12) ≤ N(Me) = 125 ≤ 184 = N(16)
12 ≤ Me ≤ 16
En appliquant la formule d’interpolation linéaire en termes des effectifs:

Me = ei-1 + (ei – ei-1) [(N(Me)-N(ei-1)) / (N(ei) – N(ei-1)) ]

= 12 + (16 – 12)[ (125 – 90)/ ( 184 – 90)]


= 13,48 MDHS
c.à.d. que 13 480 DHS est le salaire qui partage les salariés en deux groupes de même effectifs.
50% des salariés touchent moins de 13480 DHS et l’autre moitié touchent plus de 13 480dhs.

3-La moyenne arithmétique :

La moyenne arithmétique d’un caractère statistique X,


notée X est donnée par :

1er cas : si les observations ne sont pas groupées (observations individuelles)

X = ∑ xi/N

2ème cas : si les observations sont groupées

X = ∑fi xi = 1/N ∑ni xi

X = ∑fi ci = 1/N ∑ni ci

Remarque: Dans le cas d’un caractère continu, on remplace les xj par les centres des classes ci.

Exemples :

 Cas discret (voir l’exemple 2)

Ajouter une nouvelle colonne au niveau du tableau statistique : ni xi et calculer le total de cette
colonne :

Nombre d’enfants effectifs effectifs nixi


cumulés
croissants
0 15 15 0
1 35 50 35
2 55 105 110
3 95 200 285
4 150 350 600
Total 350 ------ 1030

X = ∑ni xi/N = 1030/ 350 = 2, 92≅ 3 ; il s’agit des enfants, on arrondi à l’entier le plus proche : 3

En moyen chaque ménage, parmi les 350, a trois enfants.

 Cas continu (voir exemple 3)

Pour calculer la moyenne il faut calculer les centres des classes (ci ) et par la suite la colonne nici

Classes de Effectifs Effectifs Centres Si = cini


salaire cumulés ci
croissants
4 - 8 20 20 6 120
8 - 12 70 90 10 700
12 - 16 150 240 14 2100
16 - 20 10 250 18 180
Total 250 ----- -------- 3100

X = 1/N ∑ni xi = 3100/ 250 = 12,4 M Dhs

C’est le salaire moyen perçu par chaque salarié de l’entreprise considérée.

Remarques:

1- les moyennes de deux variables statistiques en correspondance linéaire sont liées par la même
correspondance :
Soient X et X’ deux caractères statistiques tels que :

___ __

Si X’ = a X + b alors X ' = a X + b

2- la moyenne des écarts à la moyenne est nulle

__

1/N ∑ni ( xi - X ) = 0 c.à.d. il y a autant d’observations à gauche qu’à droite de la moyenne


III- CARACTÉRISTIQUES DE DISPERSION

Exemple

On considère deux séries de notes obtenues par deux étudiants A et B :


Pour A : 7 – 8 – 11 – 12 – 13 – 13 – 13
Pour B : 4 – 7 – 9 – 12 – 13 – 13 – 19
Calculons les paramètres de positions de chacune des deux séries :
La moyenne :

x A= ∑ xi /N = 11 et x B = 11

Le mode :

m A = 13 et m B = 13

La médiane :

Le rang de la médiane est (N + 1)/2 = 4 si N est impair ( si n est pair rang(Me) N/2)

Me A = 12 et Me B = 12

On remarque que les deux séries de notes ont les mêmes paramètres de position alors qu’elles sont
profondément différentes (les notes de B sont plus dispersées que celle de A).
Donc, les paramètres de position sont insuffisants pour décrire une distribution il faut les compléter
en déterminant les paramètres de dispersion.

1- L’étendue

L'étendue, notée E, représente la différence entre les valeurs extrêmes de la distribution :


E = xk - x1 ( ou par ek – e0 dans le cas d’un caractère continu).

2- Variance et écart type

 La variance

C'est la caractéristique de dispersion la plus utilisée, donnée par la moyenne du carré des écarts des
observations par rapport à la moyenne :

1er cas : série d’observations individuelles :


k
V(X) = ∑ ¿¿ ¿ ¿ ni=1
i=1

2ème cas : série d’observations groupées :

k
V(X) = ∑ ¿¿ ¿ ¿ ¿
i=1

Remarques

1- Dans le cas d’une variable statistique continue, on remplace xi par ci le centre de la ième classe.
2- La variance est donc toujours positive ou nulle.

3- Pour calculer la variance on utilise la formule simplifiée de calcul en utilisant le théorème de


Koenig :

1er cas: série d’observations individuelles


k

V(x) =
∑ xi2 - x 2
1=1
N
2ème cas: série d’observations groupées
k

V(x) =
∑ ¿ xi2 - x 2
1=1
N

= ∑fi xi2 - x 2

 Ecart type

Par définition, l’écart type d’une série statistique est la racine carrée de la variance
appelé aussi écart quadratique moyen. On le note : x = √ V (X )

L'écart type est homogène à la variable statistique et s'exprime dans la même unité, à la
différence de la variance qui correspond à un carré. Il permet de mesurer la dispersion de la
distribution statistique autour de sa valeur moyenne.
3- Le coefficient de variation :

Le coefficient de variation d’un caractère X est défini par le rapport entre l’écart type et la moyenne :

σx
CV(X) =
x
C’est un indicateur sans dimension, son but est de comparer la dispersion des séries statistiques.

4- Les quartiles - intervalle interquartile

On appelle quartiles des valeurs du caractère qui partagent la population en quatre groupes de même
effectif. On définit :
Le quartile d'ordre 1/4 : C’est la valeur Q1 telle que F(Q1) = 0.25.

Le quartile d'ordre 2/4 : C’est la valeur Q2 telle que F(Q2) = 0.50 (Q2 = Me).

Le quartile d'ordre 3/4 : C’est la valeur Q3 telle que F(Q3) = 0.75.

 Q1 : 25% des individus ont une valeur du caractère ≤ Q1 càd F(Q1) =25%

N/4 individus ont une valeur du caractère ≤ Q1 càd N(Q1) = N/4

 Q2 : 50% des individus ont une valeur du caractère ≤ Q2 càd F(Q2) =50%

N/2 individus ont une valeur du caractère ≤ Q2 càd N(Q2) = N/2

Donc Q2 = Me

 Q3 : 75% des individus ont une valeur du caractère ≤ Q3 càd F(Q3) =75%

3 N/4 individus ont une valeur du caractère ≤ Q3 càd N(Q1) = 3N/4

 Q4 = la valeur maximale du caractère (x0 , ek )

Le quartile d’ordre 4 : c’est la valeur Q4 telle que F(Q4) = 1 ; Q4 est toujours égale à xk (ou ek)

L'intervalle interquartile, noté EI, est la différence entre les deux quartiles Q3 et Q1 :

EI = Q3 - Q1

Cet intervalle contient 50% de la population en laissant 25% à chaque extrémité.

L’étendue interquartile relatif, noté EIR, est le rapport de l’intervalle interquartile par rapport à
l’étendue :
EIR = EI / E = (Q3 - Q1) / E
L’étendue interquartile relatif permet de juger la concentration des observations à l’intérieur et à
l’extérieur de l’intervalle interquartile.
Remarques :
1- Les quartiles se déterminent facilement à partir de la courbe cumulative croissante en cherchant
les abscisses des points de coordonnées N /4 pour Q1, N/2 pour Q2 = Me et 3N/4 pour Q3.
2- De la mê’me manière que pour les quartiles on peut déterminer les déciles qui partagent la
population en dix parties égales (d1, d2,…… , d9).
Applications:

On considère l’exemple 3 : l’étude des salariés suivant le salaire mensuel exprimé en millier
de Dhs :

Classes de Effectifs Effectifs Centres Si = cini nici2


salaire cumulés ci
croissants
4 - 8 20 20 6 120 720
8 - 12 70 90 10 700 7000
12 - 16 150 240 14 2100 29400
16 - 20 10 250 18 180 3240
Total 250 ----- -------- 3100 40360

 L’étendue
E = e5 – e0
= 20 – 4 = 16 correspond à l’écart entre le salaire le plus bas et le salaire le plus
élevé.
Il donne la longueur de l’intervalle de variation du caractère X.
 Variance – écart type
Pour calculer la variance, il faut calculer la colonne des valeurs ni ci2

__
On a : x = 12,4 MDhs

Calculons :
 V(X) et x

V(x) =
∑ ¿ xi2 - x 2
1=1
N
= 40360/ 250 – (12,4)2

= 7, 68

x = √ 7 , 68 = 2,77 MDhs

Chaque salarié touche un salaire qui s’écarte du salaire moyen de plus ou moins 2 770Dhs.
σx
 CV(X) = = 2,77/12,4 = 0,22 =22%
x
 Quartiles
Pour déterminer les quartiles on aura besoin soit des effectifs cumulés croissants soit des
fréquences cumulées croissantes (voir le tableau).

- Calculons Q1
On sait que : N(Q1) = N/4= 250/4 = 62,5

Du tableau on remarque que : 20 = N(8) < N(Q1) = 62,5 < 90 = N(12)

8 < Q1 < 12

(Q1- 8)/(12-8) = (62,5- 20)/ (90-20)

En appliquant la formule d’interpolation linéaire :

Q1 = 8 + (12 – 8)[(62,5 – 20)/ (90 – 20)]

= 10,43MDhs

25% des salariés touchent moins de 10 430Dhs et 75% touchent plus de 10 430Dhs.

- Q2= Me = 12, 4 est déjà calculé, c’est la médiane.


- Calculons Q3
On sait que : N(Q3) = 3N/4 = 3x 250/ 4 = 187,5

90 = N(12) < N(Q3) = 187,5 < 240 = N(16)

12 < Q3 < 16

Donc

Q3 = 12 + (16 – 12)[(187,5 – 90)/ (240 – 90)]

= 14,6MDhs

75% des salariés touchent moins de 14 600Dhs et les 25% restant touchent pus de
14 600Dhs.
 L’étendue interquartile et l’étendue interquartile relatif :
- L’étendue interquartile
EI = Q3 – Q1 = 14,6 – 10,43 = 4,17 MDhs

C’est la longueur de l’intervalle qui contient 50% des observations en laissant autant
d’observations à gauche qu’à droite (25%)

- L’étendue interquartile relatif


EIR = (Q3 – Q1)/ E

= 4,17/16 = 0,26 = 26%

50% des observations sont situées sur 26% de l’étendue (forte concentration à l’intérieur de
l’intervalle interquartile) et l’autre moitié des observations sont situées sur 74% de
l’étendue (forte dispersion à l’extérieur de l’intervalle interquartile).
IV- les caractéristiques de concentration

La notion de concentration étudie la répartition de « la masse globale » de la grandeur


étudiée: salaires, chiffre d’affaires, superficie cultivable, consommation…
L’étude de la concentration ne concerne que les caractères statistiques continus dont les
modalités sont positives et dont la somme a un sens.
On introduit dans ce point les paramètres de concentration, pour étudier et apprécier la
répartition de la masse globale (une répartition égalitaire ou inégalitaire).

1- la courbe de concentration

Soit X une variable statistique continue. Dont les valeurs sont positives et regroupées en
k classes ]e0 , e1], ] e1, e2] ,⋯]ei-1, ei]…, ]ek-1, ek]
d’effectifs respectifs n1, n2 ⋯ni,…,nk, et de centres respectifs c1, c2 ,…,ci,…,ck.
On note :

 pi = Fi = F(ei) , : la proportion des individus ayant une valeur inférieure à ei (fréquence


cumulée croissante)
 Si = ni ci : la masse du caractère X dans la classe [ ei-1, ei [ (ou relative à ci )
 S =∑ Si =∑ ni ci : est la masse totale du caractère X

 Sic = S1+S2+…+Si = ∑ S j = ∑n j x j : est la masse du caractère possédée par les


individus présentant une valeur inférieure à ei (ou la masse cumulée jusqu’à la ième
classe).
 qi = Sic / S (%) : est la part de la masse totale des individus ayant une valeur du
caractère inférieure à ei (la masse cumulée relative associée à la classe [ ei-1, ei [ ).

Remarque

qi la proportion cumulée de la masse globale, est toujours comprise entre 0 et 1

( ou 100%)

On note : qi ou q(ei)

pi et qi sont des proportions cumulées croissantes

0 ≤ pi ; qi ≤ 1 ( ou 100%)
A partir de ces éléments on définit la courbe de concentration comme étant la courbe
représentative des qi en fonction des pi : qi = f(pi) ( ou bien des pi en fonction des qi).
C’est la courbe joignant les points de coordonnées (pi , qi)

Comme pi et qi varient entre 0 et 1 (100%), cette courbe de concentration s’inscrit toujours


dans un carré de côté l’unité (ou 100%).

La courbe de concentration, appelée aussi courbe de Lorenz, se présente comme suit :

q i(%)
100 B
La droite de répartition égalitaire
0 ,8

60 A i re d e
concentration
40 co ncentr atio n
C o ur b e d e
0 ,2 concentration
co n ce n tr ation
A
0
O 20 40 60 80 100p i(%)
40

Lorsque la courbe de concentration est confondue avec la 1 ère bissectrice (droite de


répartition égalitaire) cela veut dire que la distribution est égalitaire c.à.d. p i = qi si on prend
par exemple 10% des salariés, ils touchent 10% de la masse salariale.

Plus la courbe de concentration est proche de la première bissectrice plus la concentration


est faible.

Plus la courbe est proche de l’axe des abscisses la concentration est forte.

A une concentration faible correspond une répartition égalitaire et à une concentration forte
correspond une distribution inégalitaire.

Exemple

On considère la distribution du salaire horaire (en dirhams) de 110 salariés d’une


entreprise
qi=Sic/S Pi –pi-1 = qi +qi-1 (Pi –pi-1)
Salaires ni Ni Fi =pi ci si = ni ci
Sic fi (qi +qi-1)
en DH/h (%) (%)
0 0 0
0
[10 , 12[ 15 15 13,6 11 165 165 9,2 13,6 9,2 125,12
[12 , 15[ 35 50 45,5 13,5 472,5 637,5 35,6 31,9 44,8 1429,12
[15 , 20[ 45 95 86,4 17,5 787,5 1425 79,7 40,9 115,3 4715,77
[20 , 25[ 10 105 95,5 22,5 225 1650 92,3 9,1 172 1565,2
[25 , 30[ 5 110 100 27,5 137,5 1787,5 100 4,5 192,3 865,35
Total 110 ------- --------- ------- S=1787,5 ------- ------- 100 ---- 8700,56

Considérons la 3ème classe [15, 20[, on lit :

- n3 = 45 : 45 salariés parmi les 110 touchent un salaire horaire compris entre 15 et 20


dhs ; chacun des 45 salariés touche en moyen c3 = 17,5Dhs/h ;
- N3 = 95 : 95 salariés touchent moins de 20dhs par heure ; ce qui correspond à 86,4% de
l’ensemble des salariés de l’entreprise.
- S 3 = 787,5 est la masse salariale distribuée aux 45 salariés qui touchent entre 15 et 20
Dhs par heure ;
- S = 1787,5 est la masse salariale totale distribuée à l’ensemble des salariés (aux 110
salariés) par heure ;
- S3C = 1425 est la masse salariale horaire distribuée aux salariés qui touchent moins de
20Dhs par heure.
- q 3 = S 3C /S = 79,7 % est la part de la masse salariale totale distribuée aux salariés qui
touchent entre moins de 20 Dhs par heure ;

On a les pi et les qi ; on peut tracer la courbe de concentration en prenant en abscisses les pi et


en ordonnées les qi (voir la courbe ci-dessus).
100

80

60
0
Series4
40 Series6

20

0
0 20 40 60 80 100

Dans le cas de l’exemple, la courbe est proche de la première bissectrice. Il s’agit donc d’une
faible concentration.

2- L’indice de concentration :

On mesure la concentration d’une distribution statistique par la surface comprise entre la


courbe et la 1ère bissectrice.

On appelle indice de concentration (ou indice de Gini), le double de la surface comprise


entre la 1ère bissectrice et la courbe de concentration, noté par Ic et donné par :

Ic = 1 – [∑(pi – pi-1 )(qi + qi-1)/10 000] si pi et qi sont exprimées en pourcentage.

Ic est toujours compris entre O et 1 : 0 ≤ Ic ≤ 1

Si Ic est proche de 0 alors la concentration est faible ( Ic ≤ 0,3) ;

Si Ic est proche de 1 alors la concentration est forte ( Ic ≥ 0,7).

Application :

Pour calculer l’indice de concentration on aura besoin de (pi – pi-1), (qi + qi-1), (pi – pi-1)(qi + qi-1)
et de ∑ (pi – pi-1)(qi + qi-1).( voir tableau précédent)

Ic = 1 – [∑(pi – pi-1 )(qi + qi-1)/10 000]

= 1 – 8700,56/10 000

Ic = 0,13 < 0,3


Donc : il s’agit d’une faible concentration.

Vous aimerez peut-être aussi