Académique Documents
Professionnel Documents
Culture Documents
Support de cours
References
§ Anderson, Sweeney, Williams 2009, “Essentials of Statistics for Business and Economics”,
5th Edition, South Western, Cengage learning.
§ Newbold, Carlson, Thorne 2007, “Statistics for Business and Economics”, 6th Edition,
Prentice Hall.
§ Berenson, Levine, Krehbiel 2006, “Basic Business Statistics-Concepts and
th
Applications”, 10 Edition, Prentice Hall.
§ Barrow 2006, “Statistics for Economics, Accounting and Business Studies”, 4th Edition,
Prentice Hall, Harlow.
1
Destinée aux les étudiants étrangers anglophones.
Indicateurs de dispersion________________________________________________________41
1. Boîte-à-pattes
2. L’étendue
3. L’écart interdécile et l’écart intercentile
4. L’écart interquartile
5. L’écart absolu
6. La variance et l’écart-type
7. Les indicateurs de dispersion relative
Indicateurs de concentration_____________________________________________________47
1. Courbe de Lorenz
2. Indice de Gini
Prof. Ilham EL HARAOUI
Statistique descriptive 6
2
Des exemples concrets ont été présentés et expliqués lors du cours.
3
Anderson, Sweeney, Williams 2011. Statistiques pour l’économie et la gestion”, 3ème Edition, de boeck.
5. Vocabulaire du statisticien
La maîtrise du vocabulaire technique de la statistique est indispensable pour comprendre la suite
du cours. Plusieurs concepts ont été introduits et définis :
o Population : un ensemble d’éléments (au sens mathématique) considéré dans une étude
particulière.
o Individus ou unités statistiques : les éléments de la population.
o Taille de la population (Effectif total) : le nombre d’individus ou d’unités statistiques
appartenant à la population.
o Une variable statistique ou un caractère : une caractéristique des éléments à laquelle on
s’intéresse.
o Modalités : les valeurs que peut prendre une variable statistique.
o Effectif : nombre d’individus qui représentent une modalité de la variable statistique.
o Echantillon : un sous-ensemble de la population.
4
Des exemples ont été présentés lors du cours pour comprendre les 6 étapes d’une étude statistique. Notons que lors de ce semestre
nous aborderons deux étapes à savoir, la quatrième et la cinquième.
Pour appliquer ce vocabulaire, des exemples ont été présentés durant le cours. L’un d’entre eux
concerne la répartition des étudiants inscrits en S1 à la FSJES et il est présenté ci-dessous.
Exemple 1:
§ La FSJESk veut faire une étude statistique concernant les étudiants inscrits en S1.
§ Cette étude concerne les options du BAC des étudiants.
Source : …..
Il s’agit d’identifier :
∗ la population étudiée ;
∗ la taille de la population ;
∗ les unités statistiques ou les individus ;
∗ la variable statistique et les modalités ;
∗ l’effectif de la modalité “sciences expérimentales” et l’effectif des deux dernières
modalités.
NB : Un tableau statistique doit toujours avoir un titre et une source. Un tableau sans source n’a
aucun sens.
Solution 1 :
§ La population étudiée : étudiants inscrits en S1 à la FSJESk.
§ La taille de la population: 1716.
§ Les unités statistiques ou individus: étudiants.
§ L’unité statistique : étudiant.
§ La variable statistique : cette population est étudiée selon la variable statistique ou le
caractère « option du BAC »
§ Les modalités du caractère : 1. Sciences Expérimentales, 2. Sciences Mathématiques,
3. Sciences Economiques, 4. Lettres. Il faut les énumérer.
§ L’effectif de la modalité “sciences expérimentales” = 505 étudiants.
§ L’effectif des deux dernières modalités = 71 (45+26) étudiants.
Nous mettons en exergue les points suivants qui sont souvent sujets de confusion pour les
étudiants :
o Il ne faut pas confondre entre la population et les unités statistiques. La population
représente l’ensemble des éléments observés, et ces éléments portent le nom d’unités
statistiques.
o La population est un ensemble bien délimité, sa définition doit être parfaitement claire et
précise.
o La population n’est jamais un nombre, c’est un ensemble. Exemples : des pièces fabriquées
par une machine, les véhicules dans un parking, les étudiants dans une faculté…
o Les unités statistiques peuvent être des êtres humains, des objets, des entités
géographiques…c’est des éléments de la population.
o Il ne faut pas confondre entre unités statistiques et modalités, deux concepts distincts. De
même, il ne faut pas confondre entre la variable statistique (ou caractère) et les modalités.
La variable statistique est un aspect particulier des unités statistiques (ou individus), auquel
on s’intéresse, une caractéristique qui peut varier d’un individu à l’autre. La variable porte
aussi le nom de caractère. L’ensemble des observations d’une variable statistique forme
l’ensemble des modalités de ce caractère.
o A chaque individu (unité statistique) doit être associée une modalité unique. C’est-à-dire
« au moins une » et « au plus une ».
∗ Au plus une: il ne doit pas être possible d’associer à un même individu deux modalités. Les
modalités sont incompatibles (parfaitement distinctes les unes des autres).
∗ Au moins une : il ne doit pas être possible qu’un individu ne soit associé à aucune modalité.
Tous les aspects de la variable doivent être présents dans la liste des modalités.
Les modalités ou les valeurs de la variable qualitative peuvent être notées : m1, m2…mk , en
prenant en considération k modalités.
pouvons considérer par exemple, la taille, le poids, le revenu, le chiffre d’affaires (CA) des
entreprises…
§ Les modalités ou les valeurs de la variable quantitative peuvent être notées: X1, X2…Xk , en
prenant en considération k modalités.
En résumé on peut schématiser les types et les sous-types des variables statistiques comme
ci-dessous.
Variable statistique
Nominale Discrète
Ordinale Continue
Pour présenter et résumer des données (qualitatives ou quantitatives) sous forme de tableaux ou de
graphiques, nous avons en premier lieu défini l’effectif, l’effectif total et la fréquence.
1.2 Fréquence
La fréquence (fi) associée à une modalité « i » tel que i=1,2,…k, ou à un ensemble de modalités qui
peuvent être aussi regroupées en classes, indique la proportion d’individus présentant cette
modalité, ou cet ensemble de modalités par rapport à l’ensemble des individus.
ni
La fréquence d’une modalité « i » : fi =
n
k
La somme des fréquences : ∑ fi = 1
i=1
Nous soulignons que la fréquence est un nombre qui est toujours compris entre 0 et 1 (fréquence
relative) ou entre 0% et 100% (fréquence en pourcentage).
Notons que parfois la fréquence absolue (ou tout simplement fréquence) est utilisée pour désigner
l’effectif, surtout dans des livres anglo-saxons traduits en français.
Nous pouvons aussi souligner que :
Nous utiliserons l’effectif, l’effectif total et la fréquence pour présenter les données. Ces données
peuvent être présentées sous forme de tableaux ou de graphiques. Il est ainsi important de savoir
les concevoir et les interpréter.
Ainsi, nous utiliserons dans la partie suivante des exemples afin de comprendre l’importance des
présentations sous forme de tableaux et de graphiques et savoir comment les interpréter. Nous
ferons aussi la distinction entre les présentations des données qualitatives et les présentations des
données quantitatives.
Solution 1 :
Présentation des données sous forme de tableaux :
Fréquence Fréquence en
Niveau Effectif
relative pourcentage
Source : ……
Présentation des données sous forme de graphiques :
Notons qu’un graphique permet de mieux mettre en évidence certaines informations données dans
le tableau. Pour des variables qualitatives, un diagramme à barres ou un digramme à secteurs
circulaires sont les graphiques les plus utilisés. Nous présentons brièvement ces deux graphiques.
§ Un diagramme à barres (à bandes/à tuyaux d’orgue) associe une bande verticale à chaque
modalité et la distance entre chaque bande doit être constante. La largeur de chacune des
bandes est la même et la hauteur est égale à l’effectif ou à la fréquence de la modalité
correspondante.
6 000
5 400
5 000
4 000
3 000
Effectif
2 000 1 450
1 000 500
56 109
0
Doctorat Master Licence Bac Etudes
secondaires
ou moins
Fréquence en
80,00% pourcentage 71,86%
70,00%
60,00%
50,00%
40,00%
19,29%
30,00%
20,00% 6,65%
0,75% 1,45%
10,00%
0,00%
Doctorat Master Licence Bac Etudes
secondaires
ou moins
NB. Dans les manuels de la statistique, le titre d’un graphique se situe en général en bas,
contrairement au titre d’un tableau.
1 450; 19,29%
Doctorat
Master
Licence
Bac
Etudes secondaires ou moins
5 400; 71,86%
Exemple 2 :
On considère la répartition des consommateurs selon leur appréciation d’un produit X. Il faut
calculer l’effectif de la modalité « mauvais » sachant que nous disposons de l’effectif total et les
effectifs des autres modalités.
Il faut aussi calculer la fréquence relative, la fréquence en pourcentage, la fréquence cumulée et
présenter les données sous forme de graphiques. Le tableau initial contient seulement les effectifs
qui sont inclus dans la solution 2 ci-dessous.
Solution 2 :
Répartition des consommateurs
selon leur appréciation d’un produit X
Appréciation d’un Fréquence Fréquence Fréquence
Effectif
produit X relative en % cumulée en %
Très mauvais 20 0,054 5,41% 5,41%
Mauvais 45 0,122 12,16% 17,57%
Moyen 201 0,543 54,32% 71,89%
Bon 101 0,273 27,30% 99,19%
Très Bon 3 0,008 0,81% 100,00%
Total 370 1,000 100,0% ---
Source : ……
Nous soulignons, des erreurs communes commises par les étudiants et nous mettons en exergue les
points suivants :
o Le total des fréquences relatives est toujours égal à 1.00, il ne peut pas être égal à 0.9999 ;
sinon il faut essayer d’arrondir les valeurs des fréquences relatives.
o La même remarque est valable pour la somme des fréquences en pourcentage, elle ne peut
pas être égale à 99,99% ou à 108%, soit il faut arrondir les valeurs en prenant en
considération le nombre de décimales adéquat, soit il faut revoir les calculs.
o Il faut veiller à ce que le nombre de décimales après la virgule soit le même pour toutes les
valeurs, sinon y il aura une forte probabilité d’erreurs.
o Le total des fréquences cumulées en pourcentage n’existe pas.
54,32%
60,00%
50,00%
Fréquence en
40,00% pourcentage
27,30%
30,00%
12,16%
20,00%
5,41%
0,81%
10,00%
0,00%
Très Mauvais Moyen Bon Très Bon
mauvais
0,81%
5,41%
27,30% 12,16%
Très mauvais
Mauvais
Moyen
Bon
Très Bon
54,32%
Notons que nous pouvons avoir d’autres types de diagrammes pour présenter les données, comme
le diagramme à cumul interne, le diagramme figuratif, ou d’autres histogrammes de comparaison
(diagrammes en barres multiples). Nous présentons ci-dessous quelques graphiques à titre
d’exemple. Les données ont été simplifiées pour les illustrer.
151"
160"
140" 120"
120"
89"
100" 83"
64" 66"
80" Hommes&
20"
0"
Doctorat" Master" Licence" Bac" Etudes"
secondaires"ou"
moins"
Source : ……
100%#
80%#
60%#
Femmes%
40%# 70%# Hommes%
59%# 59%#
20%# 36%# 37%#
0%#
Doctorat# Master# Licence# Bac# Etudes#
secondaires#
ou#moins#
59"
60"
50" 45"
40" 33"
Sciences"Economiques"
25"
30" 23" Sciences"Experimentales"
19"
Sciences"Mathéma>ques"
20" 12"
10"
10"
3"
0"
2010" 2011" 2012"
59"
60"
50"
33"
40"
2010"
30"
23" 2011"
19"
2012"
20" 12"
10" 3"
0"
Sciences"Economiques" Sciences"Experimentales" Sciences"Mathéma=ques"
Source : ……
En résumé, nous pouvons présenter des données qualitatives (nominales ou ordinales) sous forme
de tableaux et plusieurs types de graphiques que nous avons résumés dans le schéma ci-dessous :
Base de données
Pour une variable quantitative continue, nous pouvons noter que les valeurs des modalités
appartiennent à des intervalles réels. Ainsi, ces valeurs sont regroupées dans des intervalles de
valeurs numériques appelés classes.
Nous soulignons que le regroupement en classes se justifie par l’existence d’un grand nombre de
modalités, ainsi la présentation des données s’en trouve simplifiée.
ei+1 + ei
Centre de la classe : xi =
2
ai
Exemple 1 :
On prend on considération un tableau qui nous donne la répartition des consommateurs d’un
produit Y selon l’âge. Le tableau initial inclut les effectifs seulement qui sont intégrés dans la
solution 1 ci-dessous.
Il faut calculer l’amplitude de chaque classe, son centre et la fréquence en pourcentage
correspondante. Nous pouvons noter que cet exemple concerne un cas avec des amplitudes égales.
Nous avons repris le même exemple avec des amplitudes inégales (solution 2 ci-dessous), afin de
présenter les données sous forme de graphique et assimiler la méthode et les erreurs à éviter.
Avant de présenter les deux solutions, il est important de noter qu’un histogramme peut être utilisé
pour présenter des données quantitatives continues.
Un histogramme est formé d’un ensemble de rectangles, tel que la base de chaque rectangle
est déterminée par les extrémités de la classe correspondante, et dont la surface doit être
proportionnelle à l’effectif (ou à la fréquence) qui représente cette classe.
Si toutes les classes ont la même amplitude, il suffit pour réaliser l’histogramme de porter en
ordonnée les effectifs ou les fréquences. Si elles n’ont pas la même amplitude, on porte en abscisse
les extrémités de chaque classe et en ordonnée les effectifs par unité d’amplitude ni/ai , appelés
densités d’effectifs, ou les fréquences par unité d’amplitude fi/ai , nommées densités de fréquences
(voir l’application dans la solution 2).
Solution 1 :
(Un cas avec des amplitudes égales)
Répartition des consommateurs
d’un produit Y selon l’âge
Amplitude de Centre de la Fréquence en
Age Effectif
la classe ai classe xi pourcentage fi
[ 15 - 20 [ 130 5 17,5 19,49%
[ 20 - 25 [ 343 5 22,5 51,42%
[ 25 - 30 [ 107 5 27,5 16,04%
[ 30 - 35 [ 33 5 32,5 4,95%
[ 35 - 40 [ 54 5 37,5 8,10%
Total 667 --- ---- 100,00%
Source : ……
Solution 2 :
(Le même cas avec des amplitudes inégales)
Répartition des consommateurs
d’un produit Y selon l’âge
Amplitude de Fréquence en
Age Effectif fi /ai
la classe ai pourcentage fi
[ 15 - 20 [ 130 5 19,49% 3,9
[ 20 - 35 [ 343 15 51,42% 3,4
[ 35 - 40 [ 107 5 16,04% 3,2
[ 40 - 50 [ 33 10 4,95% 0,5
[ 50 - 55 [ 54 5 8,10% 1,6
Total 667 --- 100,00% ----
Source : ……
Afin de présenter les données sous forme d’histogramme, et puisque dans la solution 2, les
amplitudes des classes sont inégales, nous utiliserons les densités de fréquences (fi/ai), tel que fi
représente les fréquences en pourcentage.
Notons qu’une représentation des données dans un graphique, comme dans le graphique ci-dessous,
qui représente la répartition des consommateurs d’un produit Y selon l’âge, sans prendre en
considération que les amplitudes sont inégales est une représentation non appropriée des données,
puisqu’elle peut nous conduire à des erreurs d’interprétation.
Effectif(
343
700
600
500
400
300 130 107
54
200
33
100
0
5 10 15 20 25 30 35 40 45 50 55 Age(
Le graphique approprié doit prendre en considération les densités d’effectifs ou bien les densités
de fréquences comme ci-dessous.
(fi/ai)*100*
3,9!
↓
4,0 3,4!
3,2!
3,5
3,0
2,5
2,0 1,6!
1,5
1,0 0,5!
0,5
0
5 10 15 20 25 30 35 40 45 50 55
Age$
Nous pouvons ajouter au dernier graphique, le polygone des fréquences qui peut être construit en
joignant les milieux de chaque sommet des rectangles. Ceci dit, le polygone des fréquences passera
par les centres des classes au sommet de chaque rectangle.
Nous pouvons aussi noter que la classe modale n’est pas [20 - 35[, comme il peut nous sembler
dans le premier graphique en bleu, mais [15 - 20[.
Nous pouvons aussi dessiner la courbe cumulative ou la courbe des fréquences, en prenant en
considération le cas d’amplitudes égales. Cette courbe cumulative est une représentation graphique
des fréquences cumulées. Ces fréquences cumulées sont des fréquences cumulées ascendantes
comme dans le graphique ci-dessous :
Fréquences**
cumulées* 100,00%*
100 91,90%*
86,96%*
80
70,91%*
60
40
19,49%*
20
0
Age*
10 15 20 25 30 35 40 45
Nous pouvons aussi dessiner une ogive. Cette dernière est un graphique d’une distribution cumulée
qui représente sur l’axe horizontal, les valeurs des observations et sur l’axe vertical, les valeurs des
effectifs cumulés (fréquences absolues cumulées).
L’ogive est construite en indiquant par un point précis la fréquence absolue cumulée de chaque
classe, comme ci-dessous :
Effectifs
800" cumulés
667"
700" 613"
580"
600"
473"
500"
400"
300"
200" 130"
100"
0"
0"
Age" ["15""/"20""[" ["20""/"25""[" ["25""/"30""[" ["30""/"35""[" ["35""/"40""["
Exemple 3 :
Nous analysons la répartition des consommateurs selon le nombre de fois d’achat en ligne. Il s’agit
de calculer la fréquence en pourcentage et la fréquence cumulée, ainsi que de présenter les données
sous forme de diagramme en bâtons et sous forme de diagramme cumulatif.
Solution 3 :
Répartition des consommateurs selon le nombre
de fois d’achat en ligne
Fréquence
Nombre de fois Fréquence en
Effectif cumulée en
d’achat en ligne pourcentage
pourcentage
0 150 73,17% 73,17%
1 34 16,59% 89,76%
2 16 7,80% 97,56%
3 3 1,46% 99,02%
4 2 0,98% 100,00%
Total 205 100,00% ---
Source : ……
Pour présenter les données sous forme de graphiques, nous utiliserons un diagramme en bâtons.
Ce dernier est appelé aussi un diagramme différentiel, puisqu’il représente les différentes modalités
de la variable discrète. C’est aussi un diagramme à barres, sauf que les barres sont plus fines.
Effectif
160 150
140
120
100
80
60
34
40
20 16
0 3
2
0
1
2
3
4
Nous pouvons aussi utiliser un diagramme cumulatif qui est également appelé diagramme intégral
au sens de l’intégration mathématique. Il représente des fréquences cumulées comme illustré dans
le graphique ci-dessous, en prenant en considération les données de l’exemple 3.
Fréquences cumulées
99,02% 100,00%
100 97,56%
95
90
89,76%
85
80
75
73,17%
0 1 2 3 4
Nous mettons en exergue qu’il y a d’autres diagrammes que nous pouvons utiliser, comme le
diagramme de points, ou le diagramme Stem and Leaf qui est normalement utilisé pour montrer
simultanément l’ordre et la forme de la distribution des données, et qui ont été explicités avec des
exemples durant le cours.
Nous pouvons ainsi résumer la présentation des données quantitatives (discrètes ou continues) sous
forme de tableaux et de graphiques dans le schéma ci-dessous :
Base de données
En statistique, les tableaux présentent l’information recueillie d’une variable et les graphiques
fournissent un portrait pour appréhender plus facilement la globalité de l’information. Pour
caractériser la représentation visuelle par des éléments synthétiques, on peut utiliser des
indicateurs.
Nous appelons « Indicateurs », les nombres qui résument une base de données selon des règles et
des pratiques. On les appelle aussi des « paramètres » ou des « caractéristiques ».
Yule, a souligné un certain nombre de propriétés souhaitées pour les indicateurs statistiques.
Ceux-ci doivent :
§ Etre des résumés maniables ;
§ Etre des résumés faciles à utiliser ;
§ Etre les plus exhaustifs possible relativement à l’information contenue dans les données ;
§ Rassembler le plus d’information possible.
Nous allons en premier lieu introduire les indicateurs de tendance centrale et de position, qui nous
faciliteront la compréhension des indicateurs de dispersion, pour passer après aux indicateurs de
concentration.
Les indicateurs de tendance centrale et de position sont des indicateurs qui se situent au milieu, ou
qui indiquent où se positionne une série de données. C’est des indicateurs qui représentent une
valeur numérique, autour de laquelle les observations sont réparties. Ceux de la tendance centrale
mesurent par exemple le centre de la distribution d’une série de données, nous pouvons citer à titre
d’exemple, la moyenne.
Dans cette partie nous introduirons la moyenne, le mode et la médiane, comme indicateurs de
tendance centrale et les quantiles, comme indicateurs de position.
1. La moyenne
La moyenne arithmétique est un indicateur de tendance centrale qui concerne uniquement les
variables quantitatives. La moyenne d’une série statistique est définie par la somme des valeurs de
xi divisée par l’effectif total. Sa formule est la suivante :
(1)
1
x= ∑ xi
n i
1
(2) x = ∑ ni x i
n i
x = ∑ f i xi
i
Notons que la formule (1) représente la formule pour calculer la moyenne arithmétique simple et la
formule (2) pour calculer la moyenne arithmétique pondérée.
Remarque : si tous les ni prennent des valeurs égales à 1, l’indicateur est simple et par conséquent
il est non-pondéré. Si les ni prennent des valeurs différentes de 1, l’indicateur est pondéré. Cette
remarque est valable pour les autres types de la moyenne.
Nous mettons en exergue que la moyenne arithmétique a des propriétés et des caractéristiques
intéressantes5 que nous explicitons ci-dessous :
1. La moyenne est le centre de la distribution d’une série statistique.
2. La somme des écarts des observations par rapport à la moyenne est toujours nulle.
3. La moyenne est affectée par le changement de valeurs.
4. La moyenne est sensible aux valeurs extrêmes.
5. La moyenne d'un groupe qui est un ensemble d'autres groupes n'est égale à la moyenne des
moyennes que si tous les groupes ont le même effectif.
6. La moyenne de l'échantillon peut être un estimateur de la moyenne de la population.
7. La moyenne peut être un chiffre avec des décimales, même si les xi sont entiers par nature.
8. La moyenne prend en compte l’ensemble des valeurs (contrairement au mode).
Important : dans le cas d’une variable continue, nous remplaçons xi par ci qui représente le
centre des classes dans la formule (2).
La moyenne géométrique d'une série statistique (d’une variable statistique) avec des valeurs
positives est la racine nième du produit des valeurs observées. Sa formule peut être écrite de
plusieurs façons, en utilisant le logarithme, en utilisant la notation Pi du produit (π), ou comme
ci-dessous :
n
G = n x1n1 × ... × x p p
5
Durant le cours magistral, nous avons donné plusieurs exemples afin d’assimiler le calcul de la moyenne arithmétique et ses
propriétés. La même démarche a été suivie pour tous les indicateurs étudiés dans cette partie.
La moyenne géométrique est principalement utilisée pour calculer les coefficients multiplicateurs
moyens dont sont déduits les taux de variation. A titre d’exemples, les taux de variation annuels,
les taux de variation semestriels, les taux de variation mensuels…
Notons que la moyenne géométrique est applicable à des mesures de grandeurs dont la croissance
est géométrique ou exponentielle. Elle est toujours inférieure ou égale à la moyenne arithmétique.
La moyenne harmonique d'une série statistique dont les valeurs sont positives est égale à l'inverse
de la moyenne arithmétique des inverses des valeurs. Sa formule est la suivante :
n 1
H= ou bien H=
∑ ni / x i
i
∑i
f i / xi
Elle est principalement utilisée quand l’unité de la variable dont on cherche la moyenne est un
quotient (ex. Km/h, dirham/dollar, prix/unité...). Elle peut être ainsi utilisée lorsqu’il est possible
d’attribuer un sens réel à l’inverse des données.
H≤G≤ x
La moyenne quadratique est la racine carrée de la moyenne arithmétique des carrés des valeurs. Sa
formule est la suivante :
1 k 1 k
Q = ∑ ni xi2 → Q =
2
∑ ni xi2
n i =1 n i =1
Elle est utilisée par exemple en physique, pour calculer l’énergie moyenne ou l'intensité moyenne
dans un circuit. Elle est aussi utilisée en mathématique pour calculer la superficie moyenne d’un
ensemble de parcelles par exemple.
2. Le mode
Le mode est la valeur de la variable la plus fréquemment observée. En d’autres termes, c’est la
valeur de la variable pour laquelle l’effectif est le plus élevé (ou la fréquence est la plus élevée).
Le mode peut être aussi défini comme une valeur qui domine les autres et qui lui confère le statut
d’indicateur de tendance centrale. Le mode représente ainsi le xi correspondant au ni (ou fi)
maximum. Notons que le mode n’est pas influencé par les valeurs extrêmes.
Si les données ont exactement deux modes, on note que les données sont bimodales. Si les données
ont plus de deux modes, on souligne que les données sont multimodales ou plurimodales.
Le mode est facilement repérable, c'est la valeur xi pour laquelle la fréquence est la plus élevée. Le
mode d’une distribution est la modalité de la variable dont l’effectif est le plus important (le plus
élevé). Dans un diagramme en bâtons, c’est la valeur de la variable qui correspond au bâton le plus
haut.
Puisque les données sont groupées en classes, on doit définir en premier lieu la classe modale.
Cette dernière est la classe ayant la plus forte densité de fréquence. Notons que nous pouvons avoir
des classes avec des amplitudes égales ou inégales.
La classe modale est celle qui correspond à la fréquence la plus élevée, ou l’effectif le plus élevé.
Il est important de noter qu’on retient comme valeur modale ou le mode, le centre de la classe
modale, dans un cas particulier : si l’effectif de la classe précédente à la classe modale (ni-1) est
égal à l’effectif de la classe suivante à la classe modale (ni+1); sinon le mode doit être calculé selon
la formule suivante :
⎛ ( ni − ni −1 ) ⎞
Mo = bMo + ⎜⎜ ⎟⎟ × aMo
⎝ ( ni − ni −1 ) + ( ni − ni + 1 ) ⎠
Si les classes ont des amplitudes inégales, il faut corriger par rapport aux amplitudes, c’est-à-dire il
faut prendre en considération soit la densité d’effectif (ni/ai) ou la densité de fréquence (fi/ai). La
détermination de la classe modale se ramène après au cas précédent. Le mode est calculé en
appliquant la formule ci-dessus en remplaçant ni par (ni/ai).
Notons que dans un cas particulier, où une classe est caractérisée à la fois par l’amplitude la plus
petite et l’effectif le plus élevé, dans ce cas elle a nécessairement la densité la plus forte et le calcul
des densités n’est pas nécessaire pour en déduire la classe modale.
Nous pouvons aussi déterminer le mode graphiquement comme illustré dans le schéma ci-dessous.
100
90
80
70
60
50
40
30
20
10
0 9 0 1 4
0 0 1 9
0 0 2 4
0 0 2 9
0 0 3 5
0 0 o u p lu s
. .
3. La médiane
La médiane (Me) est un centre de position lorsque les données sont rangées par ordre croissant. Sa
détermination est réalisée de façon différenciée en fonction de la parité (pair ou impair) de la taille
de l’échantillon (n).
Notons que la médiane (Me) d’une série statistique est une valeur de la variable telle que 50% des
individus statistiques présentent une modalité inférieure à Me, et 50% présentent une modalité
supérieure ou égale à Me. Ainsi, en prenant en considération F comme une fonction des fréquences
cumulées, la médiane d’une série statistique sera la plus petite valeur x telle que F(x) ≥ 0,5 ou bien
F(x) ≥ 50%. On peut ainsi déterminer graphiquement la médiane, dans la courbe de fréquence
cumulée (ou même dans la courbe d’effectif cumulé)
Dans le cas d’une variable continue où les données sont groupées en classes, on doit définir en
premier lieu la classe médiane, qui contient la médiane. La valeur de la médiane est déduite par la
suite par interpolation linéaire selon la formule suivante :
⎡ 50 − Fi −1 ⎤
Me = bi + ⎢ai × ⎥
⎣ Fi − Fi −1 ⎦
ai : amplitude de la classe médiane.
bi : limite inférieure de la classe médiane.
Fi-1 : fréquence cumulée de la classe précédente à la classe médiane.
Fi : fréquence cumulée de la classe médiane.
§ la médiane ne doit pas être confondu avec la médiale qui se calcule aussi avec des
fréquences cumulées, mais qui sont basées sur les (xi × ni).
§ la médiane est un indicateur dit robuste, car de nombreuses observations peuvent varier
sans que la médiane ne soit modifiée.
4. Quantiles
Les quantiles (ou les percentiles) sont des indicateurs de position. Si nous considérons une variable
quantitative discrète ou continue, dont les modalités sont classées en ordre croissant, le quantile
d'ordre α (0 ≤ α ≤ 1) noté qα est la valeur de la variable telle que α% (c’est-à-dire une proportion α)
des individus ont une modalité inférieure ou égale à qα. En d’autres termes (100 - α)% des
individus ont une valeur supérieure ou égale à qα.
Nous allons introduire ci-dessous les quantiles les plus utilisés, à savoir, les quartiles, les déciles et
les centiles, avant de spécifier leur méthode de calcul.
4.1 Quartiles
Les quartiles sont des indicateurs de position qui partagent les observations en 4 groupes d’effectifs
égaux.
Les quartiles sont les 3 valeurs q25, q50, q75. Ceci dit, 25%, 50%, 75% des individus ont une valeur
de la variable inférieure à q25, q50, q75 respectivement.
Les quartiles sont aussi notés : Q1, Q2, Q3 (Q pour Quartile). Notons que Q2 représente la médiane,
qui est aussi un indicateur de tendance centrale.
4.2 Déciles
Les déciles sont des indicateurs de position qui partagent les observations en 10 groupes d’effectifs
égaux. Les déciles sont les 9 valeurs q10, q20,…,q90.
Ceci dit, 10%, 20%,...90% des individus ont une valeur de la variable inférieure à q10, q20,...q90
respectivement.
Les déciles sont aussi notés : D1, D2….D9 (D pour Décile).
4.3 Centiles
Les centiles sont des indicateurs de position qui partagent les observations en 100 groupes
d’effectifs égaux. Les centiles sont les 99 valeurs q1, q2, q3,...,q99. Ceci dit, 1%, 2%, 3% ….99%,
des individus ont une valeur de la variable inférieure à q1, q2, q3,...,q99 respectivement.
Les centiles sont aussi notés : C1, C2….C99 (C pour Centile).
La notation « q » a le mérite d’être identique pour tous les quantiles, car même si les notations C1,
Q1, D1, par exemple, ont l’avantage de nous indiquer le type de quantile, leur inconvénient est de
noter de manière différente des quantiles qui représentent la même chose (exemple : D1 = C10, Q1 =
C25, Q2= D5= C50).
Lorsqu’on dispose d’une variable qui est quantitative continue on peut déterminer les quantiles
graphiquement (dans la courbe de fréquence cumulée ou même dans la courbe d’effectif cumulé),
comme pour le cas de la médiane, ou selon la formule ci-dessous qui est aussi utilisée pour calculer
la médiane en remplaçant F(qα ) par 50%.
⎡ F (qα ) − Fi −1 ⎤
qα = bi + ⎢ai × ⎥
⎣ Fi − Fi −1 ⎦
Dans le cas d’une variable discrète ou d’une série statistique, la formule ci-dessus ne peut pas être
appliquée et les quantiles se calculent selon les 3 étapes suivantes :
Etape 1 : Mettre les données en ordre croissant.
Etape 2 : Calculer un indice i,
!
tel que i = ×n;
!""
Etape 3 :
Si l’indice i est un nombre entier, la valeur du quantile correspond à la moyenne des
valeurs des deux observations du rang i et i +1. Elle est ainsi égale à (Xi + Xi+1 )/2
Si l’indice i n’est pas un nombre entier, il faut l’arrondir (troncature à l’unité). La
valeur du quantile est celle de l’observation du rang (i+1) après la troncature et elle
est égale à (Xi+1).
La moyenne, le mode et la médiane comme indicateurs de tendance centrale nous renseignent sur
l’ordre de grandeur d’une série statistique et sur la forme qu’elle prend. Statistiquement, une
distribution peut être symétrique ou asymétrique (oblique).
Dans le cas d’une distribution symétrique, la moyenne, le mode et la médiane ont les mêmes
valeurs, et les observations sont également dispersées par rapport à ces valeurs centrales. Sa forme
est représentée comme ci-dessous :
M0 = Mé = x
Distribution symétrique
Si la distribution n’est pas symétrique, elle est asymétrique ou oblique. L’obliquité ou l’inclinaison
se repère du côté de la décroissance la plus forte. La distribution peut être oblique à gauche (étalée
vers la droite) comme dans le graphique ci-dessous. Dans ce cas, le mode est inférieur strictement à
la médiane qui est de même par rapport à la moyenne arithmétique.
Distribution asymétrique
La distribution peut être aussi oblique à droite (étalée vers la gauche) comme dans le graphique
ci-dessous. Le mode est supérieur strictement à la médiane qui est de même par rapport à la
moyenne arithmétique.
Distribution asymétrique
Au lieu de dessiner la courbe qui représente les fréquences relatives afin d'en déduire si la
distribution est symétrique, oblique à droite ou oblique à gauche, nous pouvons calculer le
coefficient de Yule et Kendall. Ce dernier est égal à :
⎡ Q3 + Q1 − 2Q2 ⎤
⎢ ⎥
⎣ Q3 − Q1 ⎦
Q1, Q2, Q3 représentent les quartiles.
Le coefficient de Yule et Kendall est compris entre -1 et 1, son interprétation est la suivante :
§ 0 : la distribution est symétrique.
§ > 0 : la distribution est étalée vers la droite.
§ < 0 : la distribution est étalée vers la gauche.
Le coefficient de Fisher peut être aussi utilisé pour déduire la forme de la distribution et il a la
même interprétation que celle de Yule et Kendall, afin de savoir si la distribution est symétrique,
ou étalée vers la droite ou vers la gauche. Ce coefficient est égal à :
3
n n ⎛ xi − x ⎞
×∑ ⎜ ⎟
(n - 1) × (n - 2) i =1 ⎜ s ⎟
⎝ ⎠
« s » représente l’écart-type, un indicateur de dispersion qui sera introduit dans la section suivante.
En obtenant les quartiles Q1, Q2, Q3 et en y ajoutant le minimum et le maximum des observations,
nous obtenons un résumé en 5 chiffres. Ces 5 chiffres (Q1, Q2, Q3, Min, Max) seront utiles pour
illustrer la Boîte-à-pattes (Box plots). Elle est aussi appelée Boîte de Tukey.
1. Boîte-à-pattes
La boîte-à-pattes est utile pour visualiser la dispersion des données, pour faire des comparaisons
entre plusieurs échantillons ou populations et pour détecter les valeurs aberrantes. Elle est illustrée
dans le graphique ci-dessous.
Limite& Limite&
Inférieure& supérieure&
A partir de la boîte-à-pattes nous pouvons noter l’écart (Q3 - Q1) et l’écart (Max - Min), le rapport
((Q3- Q1)/ Q2) par exemples, qui représentent des indicateurs de dispersion que nous allons
introduire dans cette partie.
Les indicateurs de dispersion caractérisent numériquement la manière dont les observations
s’écartent les unes des autres. C’est des indicateurs qui montrent comment les observations
s’écartent d’une valeur de référence ou d’un indicateur de tendance centrale. Leur utilité se
concrétise surtout lorsqu’on a deux distributions qui peuvent être différentes tout en ayant des
caractéristiques de tendance centrale proches.
2. Etendue
L’étendue est la différence entre la plus grande valeur et la plus petite valeur des observations. Sa
formule est la suivante :
Etendue = X (max) - X (min)
L’étendue est très simple à calculer, mais il ne tient compte que des deux observations extrêmes,
susceptibles d’être parfois des données aberrantes. Pour pallier cet inconvénient, une idée consiste
à éliminer de la mesure de dispersion une certaine proportion d’observations aux extrémités de la
distribution (appelées queues de distribution). Ceci nous amène à définir l’écart inter-décile, l’écart
inter-centile et l’écart interquartile.
L’écart inter-décile (D9 - D1) écarte 10% des observations les plus petites et 10% des observations
les plus grandes des deux extrémités de la distribution. C’est un indicateur de dispersion qui
concerne 80% des observations centrales.
Un écart relatif peut être aussi calculé à partir de ces deux déciles, sous la forme de (D9/D1).
L’écart inter-centile (C99-C1) écarte 1% des observations les plus petites à gauche et 1% des
observations les plus grandes à droite. C’est aussi un indicateur de dispersion, et il concerne 98%
des observations centrales.
L’écart interquartile (EIQ) est un indicateur de dispersion, qui peut être utilisé pour illustrer la
boîte-à-pattes, et qui n’est pas dépendant des valeurs extrêmes. Sa formule est la suivante :
EIQ = Q3 -Q1
L’intervalle interquartile est l’intervalle [Q1 - Q3] et il contient 50% des observations.
Notons qu’on utilise parfois l'écart semi-interquartile qui peut être calculé selon la formule
suivante :
(Q3 -Q1)/2.
5. Ecart absolu
L’écart absolu moyen est par définition la moyenne arithmétique des valeurs absolues des écarts de
toutes les observations à la moyenne arithmétique.
Cet indicateur nous donne une vision sur la valeur moyenne qui écarte toutes les observations par
rapport à la moyenne.
Sa formule est la suivante :
1
e= ∑n i xi − x
n i
L’écart absolu médian est la moyenne arithmétique des valeurs absolues des écarts de toutes les
observations à la médiane.
Sa formule est la suivante :
1
e' = ∑ ni xi − M e
n i
La variance est un indicateur qui se base sur la différence entre chaque observation et la moyenne
arithmétique (écart par rapport à la moyenne). Elle est utile comme une mesure pour comparer le
degré de dispersion de plusieurs populations/échantillons selon la même variable exprimée dans la
même unité.
La variance est un indicateur de dispersion qui utilise toutes les observations. Elle est la moyenne
arithmétique des carrés des écarts de toutes les observations à la moyenne arithmétique.
La variance est souvent notée s2 (dans le cas d’un échantillon) ou σ² (dans le cas d’une population),
ou tout simplement Var(x) et elle est calculée en utilisant la formule suivante :
k
∑ n (x ) 2
i i −x
S2 = i =1
n
2
Notons que la variance d’un échantillon s peut être un estimateur de la variance de la population.
La formule peut être aussi rectifiée en remplaçant (n) par (n-1). Notons aussi que les unités
associées à la variance sont élevées au carré, ce qui rend difficile son interprétation.
L’interprétation que nous pouvons lui donner est que la population ou l’échantillon qui a la plus
grande variance a la plus grande dispersion. Ceci dit, il n’est pas utile de chercher d’autres
interprétations pour cet indicateur.
Pour obtenir un indicateur de dispersion absolue, l’écart-type est calculé en utilisant la variance.
L'écart-type est noté σ ou s et il correspond à la racine carrée de la variance, comme dans les deux
formules ci-dessous.
σ = σ²
S= S²
L’écart type est ainsi plus facilement comparable et interprétable que la variance, puisqu’il est
mesuré dans les mêmes unités que les données. Notons qu’il est aussi utilisé pour calculer le
coefficient d’asymétrie de Fisher introduit plus haut.
Nous avons défini l’étendue, l’écart inter-décile, l’écart inter-centile, l’écart interquartile, l’écart
absolu, la variance et l’écart type, qui représentent des indicateurs de dispersion absolue. Nous
présentons dans la section suivante les indicateurs de dispersion relative.
La question qui peut se poser maintenant est la suivante : comment peut-on comparer la dispersion
de deux échantillons en prenant en considération la même variable qui a des unités différentes
(Yen et Dirham par exemple) ? Pour ce faire, les indicateurs de dispersion relative peuvent être
utilisés, à titre d’exemple le coefficient de variation.
Le coefficient de variation (CV) mesure l’écart type relatif à la moyenne. C’est un indicateur utile
pour comparer la dispersion de variables ayant des unités différentes. Le CV est calculé selon la
formule suivante :
σx
CV x = × 100
x
En d’autres termes, le coefficient de variation permet de comparer les dispersions de distributions,
en prenant en considération la même variable, mais qui n’est pas exprimée dans la même unité.
Nous pouvons souligner que la distribution (population ou échantillon) qui a le coefficient de
variation le plus élevé a la plus grande dispersion autour de la moyenne.
On peut aussi déduire d’autres indicateurs de dispersion relative en utilisant par exemple, les
quartiles, les déciles, ou l’écart absolu moyen. Ces indicateurs et leur formule de calcul sont
présentés ci-dessous.
D9 − D1
D5
Nous pouvons remarquer que ces indicateurs de dispersion relative sont sous forme d’un ratio, qui
représente le rapport entre un indicateur de dispersion et un indicateur de tendance centrale.
Enfin, nous mettons en exergue que le choix d’un indicateur de dispersion est souvent lié au choix
des indicateurs de tendance centrale et de position.
Ceci dit, si la position d’une distribution a été résumée par des quantiles, la distribution est dans la
plupart des cas, quantifiée par les écarts absolus ou relatifs inter-quantiles. Si la moyenne
arithmétique a été privilégiée alors l’écart type est souvent l’indicateur de dispersion choisi.
Ceci dit, une condition est nécessaire pour pouvoir utiliser et calculer les indicateurs de
concentration, qui requiert que la somme des observations ait un sens et les données bien
évidemment doivent être quantitatives. Ainsi pour une distribution de salaires, le résumé de la
répartition de la masse salariale fait appel à des méthodes distinctes de celles utilisées pour
résumer la répartition des salaires.
1. Courbe de Lorenz
Pour obtenir une représentation graphique mettant en évidence la concentration, l’idée est de
travailler avec les fréquences cumulées et les agrégats cumulés (selon la variable étudiée). En
portant en abscisse les fréquences cumulées et en ordonnée les agrégats cumulés (qui varient de 0%
à 100 %), nous obtenons une courbe de concentration, appelée courbe de Lorenz. Cette courbe relie
des points successifs : fréquence cumulée - agrégat cumulé.
La courbe de Lorenz est toujours en dessous de la bissectrice, comme illustrée dans le graphique
plus bas. Si cette courbe s’en éloigne, l’inégalité s’accroît. En d’autres termes, plus la courbe est
proche de la diagonale, plus la répartition de la variable étudiée tend à être égalitaire. Ceci suggère
d’utiliser l’aire de concentration, comprise entre la courbe et la bissectrice comme indicateur
d’inégalité.
La courbe de Lorenz illustrée ci-dessous est un exemple qui concerne la part ou la proportion
cumulée d’une population par rapport à celle du revenu. « A » désigne l’air de concentration6.
Courbe de Lorenz
Source : élaboré pour illustration.
Nous pouvons souligner qu’en prenant en considération la courbe de Lorenz, on peut comparer la
concentration de deux populations ou plus, selon la même variable en représentant sur le même
graphique leur courbe de Lorenz. On peut aussi comparer la concentration de deux variables, par
rapport à la même population.
2. Indice de Gini
L’indice de Gini (IG) constitue un indicateur, ou une mesure synthétique de la concentration des
données.
Le calcul de cet indice repose sur la position de la courbe de Lorenz, c’est à dire plus la courbe est
proche de la diagonale, plus la répartition tend à être égalitaire.
L’idée est donc de calculer l’aire de la surface (surface de concentration) située entre la courbe de
Lorenz et la bissectrice.
On peut souligner que l’indice de Gini (IG) est égal à deux fois l’aire de concentration. Cet indice
est compris entre 0 et 1 :
6
Durant le cours magistral, nous avons abordé des exemples afin d’assimiler l'illustration de cette courbe et comprendre comment
peut-on interpréter les trois parties distinctes (avec des couleurs différentes) en dessous de la courbe de Lorenz.
Les xi désignent les valeurs prises par la variable sur la part cumulée de la population étudiée, et yi
désignent les valeurs prises par la variable sur la part cumulée de la masse à répartir.
Les fi désignent les fréquences relatives concernant la variable et les F'i désignent les fréquences
relatives cumulées concernant la masse de la variable.
L’analyse d’une série bi-variée consiste à étudier une série d'observations ou une série statistique
selon deux variables, d’où le concept de croisement de variables statistiques.
En effet, le croisement de variables statistiques consiste à relever pour le même individu la valeur
prise par deux variables. Ce croisement a pour objectifs :
• de rechercher l’existence d’un lien de dépendance entre les deux variables7 ;
• d’étudier la corrélation et de dégager des tendances ;
• de modéliser le lien (si ce lien existe).
La présentation d’une série bi-variée peut être sous forme d’un tableau de contingence, qui peut
être défini comme :
§ un tableau à double entrée ou à deux dimensions ;
§ Un tableau avec deux variables X et Y, tel que les m modalités de X sont désignées
par X1, X2,…Xi…Xm et les n modalités de Y sont désignées par Y1, Y2,…. Yj,…Yn.
§ Un tableau avec m lignes et n colonnes comme illustré dans le tableau ci-dessous,
tel que m et n sont les nombres de modalités de la variable X et de la variable Y
respectivement8.
7
Il est important de souligner qu’un lien ne signifie pas une relation de cause à effet.
8
On peut noter m, n ou a, b…peu importe la notation, l’important est de les définir.
Tableau de contingence
Var X /VarY Y1 Y2 Yj Yn
X1
X2
Xi nij
Xm
2. Distribution conjointe
La répartition de toutes les observations (n) est appelée la distribution conjointe. On peut noter que
l’effectif nij est le nombre d’individus statistiques qui représente à la fois la modalité Xi et la
modalité Yj.
Les nij, tel que i=1,…,m et j=1,…n, représentent ainsi une distribution observée conjointe du
couple (X,Y), qui peut être notée :
{(xi, yj, nij , i=1,…m, j=1,…,n)} ;
tel que le total des observations est la somme des nij.
Les nij sont nommés les effectifs d’intersection.
Dans un tableau de contingence, si on calcule le total des colonnes, on obtient les effectifs :
n.1, n.2,…, n.j,…,n.n qui constituent la distribution marginale de la variable Y.
De même, si on calcule le total des lignes, on obtient :
n1. ,n2. ,…,ni. ,…, nm et qui constituent la distribution marginale de la variable X.
Les deux distributions sont illustrées dans le tableau ci-dessous :
Tel que :
• ni. est le nombre d’observations de la modalité Xi de la variable X quelle que soit la
modalité de la variable Y.
• n.j est le nombre d’observations de la modalité Yj de la variable Y quelle que soit la
modalité de la variable X.
• n.. est le nombre total d’observations quelle que soit les modalités de X et de Y, il est
parfois noté n++.
On note ainsi les formules de calcul de ni. , n.j et n.. qui sont explicitées ci-dessous :
𝒏 𝒎
Ces deux distributions sont illustrées respectivement dans les deux tableaux ci-dessous :
Var Y Y1 Y2 Yj Yn Total
Effectif n.1 n.j n.n n..
Var X Effectif
X1 n1.
X2 n2.
Xi ni.
Xm nm.
Total n..
De même, si on fixe Yj et on garde toutes les modalités de la variable X, on obtient une distribution
conditionnelle, qui est la distribution de la variable X, tel que la modalité de la variable Y est égale
à Yj .
9
On peut ainsi calculer les indicateurs de tendance centrale et de position, et les indicateurs de dispersion introduits dans la partie
précédente.
Nous illustrons ces deux distributions respectivement dans les deux tableaux ci-dessous :
On peut souligner que dans un tableau de contingence, au lieu des effectifs nous pouvons avoir des
fréquences. Nous définirons ainsi les fréquences marginales, les fréquences conditionnelles et les
fréquences conjointes.
Soit, une distribution conjointe {(xi, yj, nij , i=1,…m, j=1,…,n)}, pour i fixé entre 1 et m et j fixé
entre 1 et n, la fréquence conjointe est égale à : fij = nij / n..
Pour i fixé entre 1 et m, la fréquence marginale colonne est égale à (fi. = ni. / n..). Si on calcule pour
toutes les colonnes les fréquences nij/n.j tel que j=1,…,n ; on obtient les profils colonnes des
individus statistiques.
Pour j fixé entre 1 et n, la fréquence marginale ligne est égale à (f.j = n.j / n..). Si on calcule pour
toutes les lignes les fréquences nij/ni. tel que i=1…m ; on obtient les profils lignes des individus
statistiques.
Les profils lignes et les profils colonnes nous permettent de visualiser les fréquences
conditionnelles que nous introduirons dans la section suivante.
Pour k fixé entre 1 et m et l fixé entre 1 et n, la fréquence conditionnelle ligne est égale à :
(fj=l/i=k = nkl / nk.)
Etablir les profils lignes consiste de ce fait à calculer toutes ces fréquences.
Pour k fixé entre 1 et m et l fixé entre 1 et n, la fréquence conditionnelle colonne est égale à :
(fi=k/j=l = nkl / n.l)
Etablir les profils colonnes consiste à calculer toutes ces fréquences.
Après l’introduction d’un tableau de contingence, on peut se poser la question : comment peut-on
commenter ses données ?
On peut utiliser le résumé des marges, le résumé des colonnes et le résumé des lignes et ceci en
prenant en considération les effectifs (ou les fréquences) les plus élevés ou les plus bas, selon la
problématique traitée dans notre étude statistique.
Rappelons que l’objectif de croisement de variable est la recherche d’un lien de dépendance qui
peut exister entre les variables. Ainsi, on peut se poser les questions suivantes :
Pour répondre à la première question, les données statistiques peuvent être présentées sous forme
d’un graphique, et plus précisément sous forme d’un nuage de point, car ce dernier :
o permet de voir si les deux variables ont globalement tendance à co-varier, ou non dans le
même sens.
o permet de déterminer si les deux variables sont liées par une relation de dépendance et
d’identifier la forme de la relation quand elle existe.
En fait, un nuage de points est une présentation graphique de la relation entre deux variables
quantitatives, qui peut être traversée par la tendance, qui est une droite qui fournit une
approximation de la relation. Il permet donc d’infirmer ou confirmer « l’intuition » de dépendance.
Mais comment peut-on définir la dépendance ou l’indépendance de deux variables ?
Nous pouvons mettre en exergue deux définitions qui concernent l’indépendance de deux variables
statistiques.
La première :
Deux variables X et Y sont statistiquement indépendantes si toutes les distributions
conditionnelles en colonnes (respectivement en lignes) sont identiques à la distribution
marginale colonne (respectivement ligne) de l’ensemble. Ceci dit, si pour tout i et pour tout j
on a :
fj=l/i=k = f.j & fi=k/j=l = fi.
La deuxième :
Deux variables X et Y sont statistiquement indépendantes si la distribution des fréquences
conjointes est égale au produit des distributions des fréquences marginales. Ceci dit, si pour
tout i et pour tout j on a :
fij = fi. × f.j équivalant à nij = (ni. × n.j )/n..
Dans le cas contraire, on peut déduire qu’il y a une forte présomption de dépendance entre les
deux variables.
En prenant en considération ces deux définitions de l’indépendance, nous pouvons souligner
qu’elles sont applicables pour tous les types de variables, puisqu’elles ne tiennent pas compte des
modalités.
Maintenant, la question qui se pose est la suivante : quel est le moyen de quantifier les écarts entre
la situation théorique d’indépendance et la situation réelle ?
On peut répondre à cette question en introduisant l’indice de spécificité.
8. Indice de spécificité
Un indice de spécificité est égal au rapport entre la fréquence conditionnelle ligne (colonne) et la
fréquence marginale ligne (colonne) correspondante. Il est applicable, peu importe le type des
deux variables. Si cet indice :
• dépasse 100%, nous pouvons noter que par rapport à l’ensemble des unités statistiques, il y
a une surreprésentation d’un pourcentage p, qui représente un dépassement.
• est moins de 100%, nous pouvons noter que par rapport à l’ensemble des unités statistiques,
il y a une sous-représentation d’un pourcentage p, qui sera déduit suite à un calcul simple
pour aboutir à 100%.
Lors d’un croisement de deux variables, on a souligné trois cas. Si les deux variables sont
quantitatives, on peut calculer bien évidemment des indicateurs comme la moyenne et l’écart-type.
9. Covariance
A quoi sert la covariance ? La covariance sert tout simplement à quantifier la variabilité conjointe
de deux variables quantitatives, à titre d’exemple X et Y.
Dans un nuage de points qui est limité par deux droites qui passent par le centre de gravité, qu’on
note G(𝒙, 𝒚), nous pouvons noter les cas suivants :
§ X et Y ont tendance à co-varier dans le même sens, c’est-à-dire, qu’une augmentation de X
a tendance à s’accompagner d’une augmentation de Y par exemple (voir le nuage de points
A ci-dessous).
§ X et Y ont tendance à co-varier en sens contraire, c’est-à-dire, une augmentation de X a
tendance à s’accompagner d’une diminution de Y par exemple (voir le nuage de points B
ci-dessous).
De ces deux cas, on peut comprendre l’idée derrière l’utilité de la covariance qui représente un
indicateur qui mesure la variabilité conjointe de deux variables.
Pour le nuage de points C dans le schéma ci-dessous, il est de forme circulaire. Il est ainsi difficile
de dire si les deux variables co-varient dans le même sens ou dans des sens inverses. Néanmoins,
on ne peut pas conclure de manière définitive l’indépendance entre les deux variables, il n’est donc
pas totalement exclu que les variables soient dépendantes.
Nous pouvons facilement déduire que la 𝐂𝐨𝐯 x, x = 𝐕𝐚𝐫 (x) et que 𝐂𝐨𝐯 y, y = 𝐕𝐚𝐫 (y).
Nous pouvons introduire une autre formule de calcul de la covariance qui est plus économique en
temps de calcul que la formule précédente.
Cette formule est la moyenne du produit XY moins le produit des moyennes de X et de Y :
𝒏
𝟏
𝑪𝒐𝒗 𝒙, 𝒚 = (𝒙𝒊 𝒚𝒊 ) − 𝒙 𝒚 = 𝒙𝒚 − 𝒙𝒚
𝒏
𝒊!𝟏
La covariance peut être positive ou négative. Elle est positive dans le cas du nuage de points A par
exemple, négative dans le cas du nuage de points B et nulle ou proche de 0 dans le cas du nuage de
points C.
Dans le cas d’une covariance positive, la plupart des points se trouvent dans le cadran I et III.
Comme dans le graphique ci-dessous où l'on peut remarquer une tendance linéaire10.
10
Nous pouvons avoir une covariance positive avec une tendance exponentielle ou puissance par exemple.
Si la covariance est négative, la plupart des points se trouvent dans le cadran II et IV, comme dans
le graphique ci-dessous :
Si les points du nuage se répartissent équitablement dans les quatre cadrans comme dans le
graphique ci-dessous, la covariance est nulle ou presque nulle.
Il est important de souligner qu’une covariance nulle n’implique pas l’indépendance, MAIS
l’indépendance implique une covariance nulle. Ce constat peut être prouvé en prenant en
considération les deux nuages de points ci-dessous où la covariance est nulle. Celui à droite illustre
deux variables qui peuvent être liées par une relation fonctionnelle, et celui à gauche illustre deux
variables qui sont indépendantes. Il faut ainsi distinguer entre le concept d’indépendance et la
covariance.
Notons que la covariance d’un couple de variables (X,Y) intervient dans la variance de la somme
de ces deux variables et dans la variance de leur différence, puisque nous pouvons démontrer que :
Ainsi, si les deux variables sont indépendantes, la covariance est nulle, et par conséquent :
Comme pour la variance, la valeur numérique de la covariance dépend des unités, par contre la
corrélation en est indépendante.
10. Corrélation
Cov ( x , y )
r=
σ xσ y
Le coefficient de corrélation est aussi nommé, la corrélation tout simplement ou le coefficient de
corrélation de Bravais-Pearson.
Nous pouvons souligner que :
§ Le coefficient de corrélation linéaire (r) est du même signe que la Cov (x,y).
§ r est toujours compris entre -1 et 1 (-1≤ r ≤1).
§ Si r = 1 ou r = -1 les observations du couple (X, Y) sont parfaitement alignées.
§ Le coefficient de corrélation est une mesure de l’intensité du lien linéaire et linéaire
seulement unissant deux variables X et Y.
§ Le coefficient de corrélation prend 1 lorsque les points du nuage se positionnent tous
parfaitement le long d’une droite ascendante.
§ Le coefficient de corrélation prend -1 lorsque les points du nuage se trouvent tous sur une
droite de pente négative.
En résumé :
∗ La covariance nous permet de savoir si les deux variables varient dans le même sens ou en
sens inverse. Sa valeur n’est pas importante lors de l’interprétation, vu que c’est le signe
qui est important et qu’on peut interpréter.
∗ La corrélation est une mesure de l’intensité du lien linéaire entre deux variables
quantitatives, utilisée pour calculer le coefficient de détermination.
∗ Le coefficient de détermination nous permet d’en déduire si la qualité du modèle linéaire
estimée est bonne. Ce coefficient sera introduit dans la section suivante.
2%variables%quantitatives%
Coefficient%de%%
Covariance%% Corrélation%
détermination%%
Modéliser%la%%%%
relation%%
Source : élaboré par nous-même.
Dans ce dernier schéma, il nous reste la modélisation de la relation entre les deux variables qui sera
introduite dans la partie 5.
Dans cette partie, nous introduirons la régression et plus précisément la régression linéaire simple,
puisque nous allons nous limiter à une relation linéaire entre deux variables seulement. Notons que
la régression linéaire multiple concerne la relation entre une variable dépendante et plusieurs
variables indépendantes.
Coefficient%de%%
Covariance%% Corrélation%
détermination%%
Modéliser%la%%%%
relation%%
Estimation:% Méthodes%%%%%%%%%%
Prévisions%
Régression% d’ajustement%%
Ceci dit, pour modéliser une relation, nous pouvons utiliser la régression et estimer le modèle de
régression par des méthodes d’ajustement, en cherchant la meilleure relation entre deux variables,
c’est-à-dire la courbe qui passe le plus proche du nuage de points.
L’équation estimée de la régression peut être ainsi utilisée pour faire des prévisions. Dans cette
partie, nous introduirons les méthodes d’ajustement et nous nous concentrerons sur la méthode des
Moindres Carrées Ordinaires MCO, qui est la plus répandue.
Méthodes d’ajustement
Nous introduirons quatre méthodes d’ajustement et nous commencerons par la méthode des MCO.
La méthode des MCO est une procédure qui permet d’utiliser les données de l’échantillon pour
estimer l’équation de régression linéaire : 𝑦 = 𝑎𝑥 + 𝑏.
L’équation estimée de la régression linéaire est ainsi notée 𝒚 = 𝒂𝒐 𝒙 + 𝒃𝒐 issue d’un modèle de
régression linéaire 𝒚 = 𝒂𝒙 + 𝒃 + ℇ, tel que ℇ est une variable aléatoire qui représente l’erreur, le
résidu ou la différence entre la valeur observée et la valeur estimée.
Notons que :
𝐂𝐨𝐯 𝐱,𝐲
o « a » est la pente telle que a =
𝐕𝐚𝐫 𝐱
Il est important de souligner que les formules de calcul de « a » et « b » minimisent les écarts au
carré entre les valeurs observées 𝒚𝒊 et les valeurs estimées 𝒚𝒊 . L’équation estimée de la
régression linéaire est ainsi utilisée pour faire des prévisions, en replaçant 𝒙 par une valeur précise
et en déduisant y.
Le graphique ci-dessous nous illustre la différence entre une valeur observée y! et une valeur
estimée y! et 𝒚.
250
200
150
100
50
0
0 2 4 6 8 10 12 14 16 18 20 22 24 26 28
La méthode des MCO fournit ainsi une équation estimée de la régression qui minimise la somme
des écarts au carré entre les valeurs observées y! et les valeurs estimées y! de la variable
!
dépendante. C’est-à-dire elle minimise : !!! (y! − y! )!
Pourquoi les écarts au carré et non pas les écarts tout simplement ?
Parce que l’épaisseur du nuage représente la dispersion des observations, et dans ce cas en faisant
référence à la dispersion, nous mettons en exergue et nous utilisons la variance qui est un
indicateur de dispersion absolue.
Ceci dit, on prend en considération la variance du terme d’erreur (ou du résidu). Ainsi, nous
pouvons noter que la méthode des MCO minimise la variance σ ε2 , telle que la moyenne des
En d’autres termes, la méthode des MCO minimise la variance des résidus qui est égale à
𝟏 𝒏
σ ε2 = 𝒏 𝒊!𝟏 (𝒚𝒊 − 𝒚𝒊 )𝟐 tel que 𝑦𝒊 est la valeur estimée de yi. Notons que la variance de la
𝟏 𝒏
variable Y, est égale à σ y2 = 𝒏 𝒊!𝟏(𝒚𝒊 − 𝒚)𝟐 ; nous pouvons démontrer que σ y2 = σ ε2 + σ exp
2
liquée
𝟏 𝒏
2
tel que σ expliquée =𝒏 𝒊!𝟏 (𝒚𝒊 − 𝒚)𝟐 .
Ceci dit, plus les points s’ajustent sur la droite, plus la variance résiduelle (nommée aussi la
variance non expliquée) devient faible, et la variance expliquée est importante.
De r2 nous pouvons déduire r qui représente la corrélation. Mais la question qui peut être posée
est la suivante : Comment reconnaître le signe de la corrélation ?
§ La méthode des MCO peut être utilisée pour ajuster des nuages de points par des fonctions
non-linéaires, en utilisant des changements de variables adéquats.
o Ci-dessous un schéma qui nous donne un aperçu sur trois types de régression, avec
leur fonction avant et après avoir pris le logarithme népérien pour transformer les
deux variables X et Y en X* et Y*. Cette transformation a pour objectif d’aboutir à
une équation linéaire pour pouvoir appliquer la méthode des MCO.
X*=ln X
• Régression puissance
Y*=ln Y
• Régression exponentielle
• Régression logistique
(seuil à 1)
Nous aborderons dans ce qui suit d’autres méthodes d’ajustement dans le cas d’une régression
linéaire simple, à savoir la méthode des moyennes de Mayer, la méthode des points extrême et la
méthode graphique.
Cette méthode consiste à diviser une série en deux groupes égaux et calculer les points moyens ou
Cette méthode consiste à tracer une droite qui passe par les points extrêmes de la série. Elle reste
néanmoins une méthode subjective et non précise.
o La méthode graphique
Cette méthode consiste à tracer à main levée une droite qui passe le plus près des points du nuage.
Elle reste aussi une méthode subjective et non précise.
L’un des objectifs de la statistique est de comparer et mesurer l’évolution des données pour
informer et prendre des décisions. Mesurer l’évolution des données consiste à une comparaison qui
porte sur la même variable statistique saisie à des dates différentes, d’où l’analyse des séries
chronologiques.
Une série chronologique décrit l’évolution d’un phénomène dans le temps. Elle est aussi nommée
série temporelle ou chronique.
En fait, l’analyse des séries chronologiques est fondée sur l’existence d’un lien de corrélation entre
la variable quantitative étudiée et le temps.
Cette analyse a donc pour objectif de décrire et prévoir un phénomène qui évolue dans le temps,
interpréter son évolution et le prévoir dans le futur.
En d’autres termes, l’objectif de l’analyse d’une série chronologique est de mettre en évidence
l’évolution passée d’une variable statistique, et sous certaines conditions d’extrapoler cette
évolution afin d’effectuer des prévisions à court terme.
Une série chronologique est une suite d’observations chiffrées d’une variable quantitative Y,
ordonnées dans le temps t. La valeur prise par la variable Y à la date t est notée yt.
Notons qu’en économie et en gestion les dates d’observations sont souvent équidistantes et
ordonnées dans le temps (jours, mois, trimestres, années) et sont représentées, par des entiers
naturels non nuls de 1 à n.
Une série chronologique peut être décomposée en plusieurs mouvements, afin de disposer d’un
outil pertinent pour analyser son évolution. Quatre composantes sont habituellement retenues pour
la décrire11 :
• La tendance, notée (ft) (également appelée trend, mouvement de tendance générale ou
composante générale) est une évolution durable, régulière et en général lente du phénomène
11
Cette décomposition a été proposée par le statisticien Warren Person en 1919.
étudié. C’est une orientation générale qui exprime une tendance durable à la croissance ou à
la décroissance. La tendance est matérialisée par une courbe qui est souvent une droite et
qui résume le phénomène. Elle ajuste ainsi l’ensemble des points du nuage et lisse la série.
On peut souligner que ces deux dernières composantes ne sont pas toujours distinguables 12. Les
fluctuations cycliques sont souvent intégrées à la tendance et ne sont pas étudiées indépendamment
du trend.
Notons que ces quatre composantes ne sont pas nécessairement présentes dans tous les cas et leur
existence peut notamment dépendre de l’intervalle de temps entre deux dates d’observation
successives.
Dans le graphique ci-dessous, nous illustrons les trois composantes (ft , St , ℇt).
12
Pour pouvoir distinguer la tendance des fluctuations cycliques, il faut disposer de la série brute sur une très longue période. Il est
généralement très difficile de dissocier les deux.
Le mouvement saisonnier
Tendance
Variations accidentelles
Yt : variable observée
Saison
Temps (t)
En prenant en considération ces trois composantes, nous pouvons nous intéresser à leur mode de
composition.
Trois types de situations coexistent :
Avant toute analyse, les données d’une série chronologique doivent être représentées par une
courbe exprimant une continuité de l’évolution de la variable étudiée.
Ainsi, dans le graphique, les points sont reliés par des segments pour traduire la chronologie. Le
temps est en général noté t et prend comme valeurs 1,2,…,n lorsqu’on dispose de n périodes, et les
modalités de la variable étudiée sont notées yt.
D’un tableau de contingence avec n lignes et p colonnes, nous pouvons représenter les données
d’une série chronologique sous plusieurs formes, comme dans le tableau ci-dessous :
t yt
1 y1
2 y2
3 y3
n yn
Exemple 1
Nous disposons dans le tableau ci-dessous de la répartition trimestrielle des ventes d’un produit
durant 3 années. Cette série chronologique peut être représentée par plusieurs types de graphiques,
comme illustré plus bas.
Avant de représenter ces données sous forme de graphique, nous pouvons les représenter sous
forme d’un tableau qui sera composé de n lignes tel que n =12, comme ci-dessous :
Yt
235$
230$ 230$
225$
225$
221$ 219$
220$
215$ 215$
215$ 216$ 215$
212$
210$ 208$ 209$
205$ 204$
200$
195$
190$
1$ 2$ 3$ 4$ 5$ 6$ 7$ 8$ 9$ 10$ 11$ 12$
235
230 230
225 225
221
219
220 2011
215
216
2012
215 215
215 212
209 2013
210
208 204
205
200
1er trimestre 2ème trimestre 3ème trimestre 4ème trimestre
Source : …
1er trimestre
230
225
221
220
215
210
205
200
2011
230 195
219
4ème trimestre 190
2013
215
3ème trimestre
Source : …
On peut noter qu’il existe trois méthodes pour choisir le modèle de décomposition d'une série
chronologique. Parmi celles-ci, deux méthodes sont graphiques et une méthode est analytique. La
méthode analytique est plus fiable, puisque les interprétations qu’on peut déduire suite aux
méthodes graphiques sont parfois imprécises ou approximatives.
Cette méthode graphique consiste à tracer deux droites, une qui passe le plus près par les
minimums et une qui passe le plus près par les maximums. Nous pouvons ainsi avoir deux cas :
o Le cas où les deux droites sont à peu près parallèles, ce qui signifie que l’amplitude des
variations saisonnières reste plus au moins constante, et dans ce cas notre modèle peut être
un additif.
o Sinon, les deux droites ne sont pas parallèles, et dans ce cas notre modèle peut être un
multiplicatif.
Ci-dessous nous avons respectivement un graphique qui représente un modèle additif, suivi d’un
autre qui représente modèle multiplicatif.
Modèle additif
200
Les valeurs de la série statistique
150
Tendance
100
Modèle multiplicatif
200
150
100
50
Cette méthode consiste à utiliser le graphique des courbes superposées. Le chronogramme parallèle
nous permet de superposer les saisons et ainsi vérifier si elles sont parallèles ou non. Nous pouvons
remarquer deux cas :
o Le cas où les différentes courbes qui caractérisent les saisons sont à peu près parallèles,
dans ce cas notre modèle peut être un additif.
o Le cas où les différentes courbes ne sont pas parallèles, dans ce cas notre modèle peut être
un multiplicatif.
Ci-dessous nous avons un exemple (avec des chiffres différents de l’exemple 1) d’un graphique qui
représente un modèle additif. Notons que pour chaque année, nous avons relevé 8 observations
équidistantes.
235
230
225
220
215 2011
210 2012
205 2013
200
195
190
T1 T2 T3 T4 T5 T6 T7 T8
Source : …
A partir de la série de données brutes, la méthode de Buys et Ballot consiste à calculer la moyenne
et l’écart-type pour chacune des périodes considérées, puis à vérifier le lien ou la relation entre ces
deux indicateurs en utilisant la méthode des MCO.
Nous pouvons ainsi avoir deux cas :
o Lorsque l’écart-type n’est pas en fonction de la moyenne, c’est-à-dire que la pente de la
droite estimée est très proche de zéro (a ≈ o) ou égale à zéro (a = o), le modèle est
additif.
o Si l'écart-type est en fonction de la moyenne, c’est-à-dire que la pente de la droite
estimée est différente de zéro (a ≠ 0), le modèle est multiplicatif.
Exemple 2
On considère dans le tableau ci-dessous une répartition du Chiffre d’Affaires (CA) trimestriel
d’une entreprise X en milliers de Dirhams, pendant quatre ans :
Afin d’utiliser la méthode de Buys et Ballot, nous devons en premier lieu calculer la moyenne et
l’écart-type qui correspond à chaque période.
Source : …
En utilisant la méthode des MCO nous obtenons a = 0.0162 qui est proche de 0. Nous pouvons
donc déduire que le modèle est additif.
Le graphique ci-dessous représente le lien entre la moyenne et l’écart-type.
4.40
4.20 y = 0.0162 x + 1.5486
4.00 R² = 0.59271
3.80
Ecart-type
3.60
3.40
3.20
3.00
100 110 120 130 140 150
Moyenne
Ce résultat peut être confirmé par une méthode graphique, telle que la méthode de la bande. En
traçant deux droites, l’une qui passe le plus près par les minimums et l’autre par les maximums,
nous pouvons remarquer qu’elles sont parallèles, comme dans le graphique ci-dessous :
200
180
160
153 150
146
140 140 143
137
133 130
129 126
122
120 119
116 110 114
108
100
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
L’analyse d’une série chronologique consiste à isoler ses trois composantes afin de les étudier. En
d’autres termes, cette analyse se fonde sur la décomposition de l’évolution d’une variable en
plusieurs composantes.
Notons qu’une représentation graphique est parfois nécessaire afin d’avoir une idée sur les
composantes d’une série chronologique, pour l’analyser par la suite.
L’analyse d’une série chronologique porte dans un premier temps, sur la détermination de la
tendance, suivie d’une analyse de la composante saisonnière et par la suite de la détermination de
la composante résiduelle. Avant d’expliciter ces trois étapes, notons deux concepts intéressants qui
sont le « lissage » et le « filtrage ».
• Le lissage d’une série chronologique est une transformation qui limite l’amplitude des
oscillations de toutes ses composantes, y compris celles qui ne sont pas périodiques. Ceci
dit, le lissage permet d’éliminer ou d’amortir les mouvements cycliques, saisonniers et
accidentels. Notons que la méthode des moyennes mobiles (une méthode qui sera détaillée
plus bas) lisse toujours une série chronologique, quelque soit l’ordre des moyennes.
• Le filtrage d’une série chronologique est une transformation qui a pour but d’éliminer
totalement les fluctuations périodiques sans avoir, à la mesure du possible, une influence
sur les composantes non périodiques de la série. Comme pour le lissage, la méthode des
moyennes mobiles filtre une série chronologique, si celle-ci présente un mouvement
périodique, de périodicité constante et si l’ordre des moyennes est égal à cette périodicité.
Comme précisé auparavant, l’analyse d’une série chronologique porte en premier lieu sur la
détermination de la tendance. Cette dernière consiste à un lissage des « irrégularités ». Trois
méthodes peuvent être utilisées : la méthode graphique, la méthode analytique et la méthode
empirique.
• Méthode graphique
La détermination de la tendance peut être faite selon une approche exploratoire, en utilisant la
méthode des points moyens ou la méthode de Mayer présentée auparavant.
• Méthode analytique
Lorsque nous prenons en considération une série chronologique, nous pouvons noter que la
variable explicative est le temps (t) et la variable expliquée est yt.
Nous pouvons ainsi utiliser la méthode des MCO afin d’estimer une droite qui passera le plus près
possible par l’ensemble des observations. Nous estimons donc « a » et « b » dans une
équation sous forme de : yt = at+b, qui permet d’associer à chaque valeur t une valeur de la
tendance, notée yt.
En outre, « a » et « b » peuvent être estimés selon les deux formules ci-dessous :
Cov T, Y
a= 𝐞𝐭 b = y − at
Var T
Application
160 153
y = 2.7353t + 106.5 150
150 146
R² = 0,8343
140
140 133
137 143
129
130 122
126 130
120 116
110 119
114
110
108
100
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
Si les fluctuations de la série autour de la tendance sont trop importantes, on pourra par la suite les
atténuer en utilisant des moyennes adaptées. Ceci dit, nous pouvons diminuer l’amplitude des
oscillations de toutes les composantes de la série, en calculant des moyennes successives. Pour ce
faire, il existe plusieurs méthodes qui sont présentées dans la section qui aborde les méthodes
empiriques.
Attention !
Notons que a = 2.7353 ; ce résultat ne peut dans aucun cas être utilisé pour conclure que le modèle
est additif puisque a ≠ 0 ! Il faut éviter la confusion, ici le « a » représente la pente de la droite
estimée du le lien entre « yt » et « t », et non pas entre la moyenne est l’écart-type correspondants
aux périodes. D’autant plus que dans la présente étape, nous analysons la tendance, ceci dit
l’application de la méthode de Buys et Ballot n’a pas de sens.
• Méthodes empiriques
Les méthodes empiriques utilisent les moyennes arithmétiques pour procéder au lissage d’une série
chronologique. Nous pouvons noter la méthode des moyennes échelonnées, la méthode des
moyennes mobiles non centrées et la méthode des moyennes mobiles centrées.
Afin de lisser les fluctuations, on peut remplacer des données périodiques par leur moyenne. Ces
moyennes ne subissent pas l’influence des variations saisonnières et ont l’avantage de minimiser
les extrêmes.
La méthode des moyennes échelonnées consiste ainsi à remplacer un certain nombre de données
consécutives par leur moyenne.
Si nous reprenant l’exemple 2, nous pouvons calculer la moyenne échelonnée pour chaque période,
qui représente la moyenne arithmétique de quatre trimestres de chaque année. Le tableau
ci-dessous représente les valeurs des moyennes échelonnées des quatre années.
Par la suite, nous pouvons tracer une droite qui passe par ces moyennes, sachant que chacune a été
affectée en abscisse au milieu correspondant à chaque année, comme dans le graphique
ci-dessous :
160
148
150
135
140
130 124
120 112
110
100
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
Cette méthode est simple à mettre en œuvre, mais elle a l’inconvénient de trop simplifier et réduire
la réalité. Ceci dit, nous perdons beaucoup d’information.
Pour pallier cet inconvénient, la méthode des moyennes mobiles est utilisée pour analyser et
déterminer la tendance d’une série chronologique.
Cette méthode permet de suivre le phénomène étudié par chevauchement, et on distingue deux
méthodes : la méthode des moyennes mobiles non centrées et la méthode des moyennes mobiles
centrées.
La méthode des moyennes mobiles non centrées d’ordre p à la date t (MMp(t) nc), consiste à
remplacer une valeur observée yt par la moyenne arithmétique des p valeurs antérieures.
1 p
Ceci dit : MMp( t )nc = ∑ yt
p t =1
1 p 1 p +1
On remplace ainsi yp par : ∑ t y et yp+1 par : ∑ yt et ainsi de suite.
p t =1 p t =2
Notons que les moyennes mobiles non centrées « raccourcissent » la série, car aucune moyenne
mobile n’est affectée aux (p-1) premières dates.
Toutes les moyennes mobiles non centrées d’ordre 4, correspondantes à t = 4,…,16 sont présentées
dans le tableau ci-dessous.
Moyennes mobiles non centrées d’ordre 4
t yt MM4 (t) nc
1 116 --
2 110 --
3 108 --
4 114 112
5 129 115,25
6 122 118,25
7 119 121
8 126 124
9 140 126,75
10 133 129,5
11 130 132,25
12 137 135
13 153 138,25
14 146 141,5
15 143 144,75
16 150 148
Source : …
Le graphique ci-dessous nous permet de visualiser en même temps la série de données et le lissage
réalisé par les moyennes mobiles non centrées d’ordre 4 (pourquoi 4 ? parce que dans cet exemple
nous avons une répartition par trimestre).
160
150 148
144.75
141.5
140 138.25
135
132.25
130 129.5
126.75 MM4 (t) nc
124
121
120 118.25
115.25
112
110
100
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
La méthode des moyennes mobiles centrées d’ordre p, consiste à remplacer une valeur observée yt,
par la moyenne arithmétique des p valeurs centrées autour de yt.
Une moyenne mobile centrée d’ordre p à la date t (MMp(t)) est définie en prenant en considération
l’ordre p :
1 k
§ Si p est impair, (p = 2k + 1) alors MMp( t ) = ∑ yt + i
p i=− k
A titre d’exemple, la moyenne mobile centrée d’ordre 3, représente la moyenne de trois valeurs
centrées autour de la période choisie, y compris la valeur elle-même.
Les moyennes mobiles centrées d’ordre 3, sont notées MM3. En calculant ces moyennes, nous
pouvons remarquer qu’il manque une valeur au début et une valeur à fin de la série.
Notons que la valeur de « t » affectée à une moyenne mobile d’ordre 3 est en effet la médiane des
trois valeurs de « t » utilisées.
Puisque l’ordre est impair, affecter une valeur « t » à une moyenne mobile centrée d’ordre 3 ou
5…ne pose pas de problème. Mais, que se passe-t-il pour les moyennes mobiles d’ordre pair
comme MM4 ?
En suivant la même logique, une moyenne mobile d’ordre p = 4 est calculée en utilisant 4 valeurs,
par exemple, (y1 + y2 + y3 + y4) / 4. Cette dernière doit être donc affectée à une valeur « t »
médiane qui correspondra à 2.5 mais qui n’existe pas dans la série.
La moyenne mobile calculée avec les quatre valeurs suivantes est égale à (y2 + y3 + y4 + y5) / 4.
Elle doit être de même affectée à la date médiane de 3.5 et qui ne correspond à aucune valeur « t »
dans la série.
Pour pallier ce problème, on prend en considération la moyenne des deux moyennes (ci-dessus) qui
prend en compte les valeurs y1 , y2 , y3 , y4 et y5 , pour pouvoir lui affecter une valeur t=3. Ainsi
nous obtenons la moyenne mobile centrée d’ordre 4 égale à :
1 y1 + y 2 + y 3 + y 4 y 2 + y 3 + y 4 + y 5 y + y 2 + y 3 + y4 + y 2 + y 3 + y4 + y5
( + )= 1
2 4 4 8
1 1
y1 + y 2 + y 3 + y 4 + y 5
= 2 2
4
Ceci dit, pour former la première moyenne mobile centrée d’ordre 4, on utilise les 5 premières
observations dans une moyenne arithmétique pondérée, en affectant aux valeurs extrêmes (la 1ère
valeur et la 5ème valeur) le coefficient ½ et aux 3 valeurs centrales le coefficient 1. Cette moyenne
mobile centrée sera affectée à t = 3.
En général,
1 ⎡ k −1 1 1 ⎤
§ Lorsque p est pair (p = 2k), MMp( t ) = ⎢ ∑ yt + i + yt −k + yt + k ⎥
p ⎣ i = − k +1 2 2 ⎦
En calculant les MM4, nous pouvons remarquer qu’il manque deux valeurs au début et deux
valeurs à fin de la série.
En d’autres termes, les moyennes mobiles centrées « raccourcissent » la série, car aucune
moyenne mobile n’est affectée aux (k) premières dates et (k) dernières dates « t ».
Ainsi, nous mettons en exergue, qu’une série des moyennes mobiles centrées comporte moins
d’observations que la série brute.
Enfin, notons que l’ordre des moyennes mobiles est choisi en prenant en considération la
périodicité des données. A titre d’exemple, p = 7 pour des données journalières (7j/semaine), p = 4
pour des données trimestrielles (4 trimestres/année).
Application :
Reprenant l’exemple 2,
La représentation graphique ci-dessous montre le lissage réalisé par la courbe des moyennes
mobiles centrées d’ordre 3 et d’ordre 4.
160
150
140
Données brutes
130
MM3(t)
120 MM4(t)
110
100
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
Répartition du CA trimestriel en milliers de Dirhams
Source : …
L’estimation de la tendance par la méthode des moyennes mobiles centrées présente deux
inconvénients :
• Elle ne peut pas donner d’estimation pour les premières et les dernières dates de la
série.
• Si la périodicité du mouvement saisonnier est longue, par exemple 12 mois,
l’obligation de choisir une MM12 pour assurer le filtrage du mouvement saisonnier
entraîne un lissage qui risque d’être excessif.
Un moyen pour pallier ces deux inconvénients est de corriger les variations saisonnières en
utilisant la méthode des écarts saisonniers ou la méthode des rapports saisonniers, selon le modèle
de la série. On obtiendra ainsi, une série Corrigée des Variations Saisonnières CVS, aussi nommée
série désaisonnalisée, en éliminant les influences saisonnières.
La question qui peut être posée est la suivante : Quelles étapes peut-on suivre pour corriger les
variations saisonnières et obtenir une série CVS ?
Nous pouvons noter 6 Etapes qui sont explicitées ci-dessous.
Etape 1
La composante saisonnière st (écart saisonnier ou rapport saisonnier) est une fonction périodique,
déterminée par p coefficients saisonniers qui mesurent l’influence saisonnière, notés S1, S2, S3….
Sp et qui vérifient que Si = Si+p.
o Dans un modèle additif, la composante saisonnière (écart saisonnier) est calculée selon la
formule suivante : st = yt - ft. Elle représente la différence entre l’observation et la tendance.
o Dans un modèle multiplicatif, cette composante saisonnière (rapport saisonnier) est
calculée selon la formule suivante : st = yt / ft. Elle représente ainsi le rapport entre
l’observation et la tendance.
Etape 2
On calcule ensuite pour chaque saison, la moyenne arithmétique des écarts saisonniers, ou des
rapports saisonniers correspondants à cette saison (St) qui représente le coefficient saisonnier.
o Notons que si on dispose de données sur n périodes, c’est à dire np dates « t », le coefficient
n −1
1
saisonnier St correspondant à la saison i (i=1,….,p) sera égal à : Si = ∑s i + kp
n k =0
Il est important de souligner deux principes fondamentaux qui sont à la base de la détermination
des coefficients saisonniers dans un modèle théorique.
§ La répétition à l’identique : on suppose que toute variation saisonnière se répète
identiquement à chaque période qui représente un ensemble de saisons. Ceci dit, Si le
nombre de saisons d’une série chronologique est p, on déterminera p coefficient saisonnier.
§ La neutralité de l’influence de la variation saisonnière sur chaque période : on suppose
que la composante saisonnière est parfaitement périodique, qu’à l’intérieur d’une période le
phénomène saisonnier est neutre, et les variations saisonnières se compensent.
Ceci dit :
• Dans le cas d’un modèle additif, pour que l’influence des variations saisonnières soit
neutre sur une période, la valeur moyenne des coefficients saisonniers St doit être
nulle, c’est à dire :
p
1
∑ Si = 0
p i=1
• Dans le cas d’un modèle multiplicatif, pour que l’influence des variations
saisonnières soit neutre sur une période, la valeur moyenne des coefficients
saisonniers St doit être égale à 1, c’est à dire :
p
1
∑ Si = 1
p i=1
Etape 3
Dans cette étape on s’assure du principe de neutralité de l’influence des variations saisonnières.
Dans le cas d’un modèle additif, on vérifie que la valeur moyenne des coefficients saisonniers est
nulle, et dans le cas d’un modèle multiplicatif on vérifie que la valeur moyenne des coefficients
saisonniers est égale à 1. Si ce n’est pas le cas, on introduit alors les coefficients saisonniers
corrigés S't selon l’étape 4.
Etape 4
Dans le cas d’un modèle additif, on calcule les coefficients saisonniers corrigés S'i tels que la
somme de ces coefficients est égale à 0, c’est à dire :
p
∑S' i =0
i=1
Pour ce faire, il suffit de soustraire à chaque coefficient Si la valeur moyenne des Si qui représente :
p
1
S= ∑Si ; tel que S'i = S i - 𝐒
p i=1
Dans le cas d’un modèle multiplicatif, il faut calculer les coefficients saisonniers corrigés S'i tel que
p p
1
S'i = Si / 𝐒 , on aura alors ∑ S'i = p ceci dit, ∑ S'i = 1
i=1 p i=1
Par la suite, nous procèderons à la cinquième étape afin de calculer la série corrigée des variations
saisonnières CVS.
Etape 5
Rappelons que la série corrigée des variations saisonnières CVS est une série obtenue à partir de
la série brute en éliminant la composante saisonnière. Elle contient la tendance et la composante
accidentelle.
La série CVS exprime ce qu’aurait été la réalité du phénomène étudié s’il n’y avait pas de
variations saisonnières. En pratique, les économistes utilisent les séries CVS dans de nombreux
domaines, notamment en analyse conjoncturelle, pour éviter les erreurs d’interprétation des
évolutions d’une période à une autre.
On considère ci-dessous, le cas du modèle additif et le cas du modèle multiplicatif pour déduire la
série CVS.
Dans le cas du modèle additif, nous pouvons noter que Ycvs = Y - S, soit pour toute date « t », i
désigne la saison relative à la date « t » :
p
ycvs(t) = yt - Si dans le cas où ∑S i =0
i=1
p
ycvs(t) = yt - S'i dans le cas où ∑S i ≠0
i=1
Dans le cas du modèle multiplicatif, nous pouvons noter que Ycvs = Y/S, soit pour toute date « t », i
désigne la saison relative à la date « t » :
p
1
ycvs(t) = yt/Si dans le cas où ∑ Si = 1
p i=1
p
1
ycvs(t) = yt//S'i dans le cas où ∑ Si ≠ 1
p i=1
Après le calcul de la série CVS, nous pouvons passer à la dernière étape pour calculer la série
ajustée.
Etape 6
Pour restituer le mieux les variations de la variable étudiée, il faut prendre en compte les variations
saisonnières de celle-ci. On additionne ainsi la composante saisonnière à la tendance.
Soit Yaj la variable associée à la série ajustée, alors Yaj = T + S. En pratique, pour déterminer la
série ajustée, il faut calculer les yt aj = f t + S'i , i étant la saison associée à la date t.
Pour restituer le mieux les variations de la variable étudiée, il faut multiplier la composante
saisonnière par la tendance.
Soit Yaj la variable associée à la série ajustée, alors Yaj = G × S. En pratique, pour déterminer la
aj
série ajustée il faut calculer les yt = f t × S'i , i étant la saison associée à la date t.
A partir des valeurs ft et St, on peut déduire les valeurs résiduelles. Nous passons ainsi à la section
suivante qui concerne l’analyse de la composante accidentelle.
Pour analyser la composante accidentelle ℇt, nous distinguons entre le cas d’un modèle additif et le
cas d’un modèle multiplicatif.
Reprenant l’exemple 2, (cas d’un modèle additif), nous pouvons choisir d’utiliser la méthode des
MCO pour estimer la tendance, tel que ft = 2,74t + 106,5. Le tableau ci-dessous nous explicite les
calculs pour obtenir la série Corrigée des Variations Saisonnières (CVS), la série ajustée et la
composante accidentelle.
Source : …
Coefficients saisonniers
2013 2014 2015 2016 Moyenne
T1 6,76 8,80 8,84 10,88 8,82
T2 -1,98 -0,94 -0,90 1,14 -0,67
T3 -6,72 -6,68 -6,64 -4,60 -6,16
T4 -3,46 -2,42 -2,38 -0,34 -2,15
Source : …
4. Prévision
L’un des objectifs principaux de l’analyse d’une série chronologique est de faire des prévisions. En
fait, la prévision consiste à prévoir des valeurs futures à partir des valeurs observées.
En d’autres termes, la prévision est une continuité du calcul en prenant en considération la série
ajustée.
Notons que la tendance et les coefficients saisonniers sont utilisés pour faire des prévisions. Ceci
dit, l’équation de la tendance peut être utilisée pour prévoir à une date « t » la variable Yt. Nous
soulignons la différence entre les deux cas :
𝒚𝒕 = ft + S 'j
§ Dans le cas d’un modèle multiplicatif
𝒚𝒕 = ft × S 'j
Application :
En prenant l’exemple 2, pour calculer une prévision pour t = 23, nous pouvons utiliser la formule :
ft = 2.7353t + 106.5 , ou en arrondissant la valeur de la pente : ft = 2.74t + 106.5
Dans plusieurs domaines, il faut savoir décrire et analyser l’évolution temporelle de différentes
grandeurs et de synthétiser leur évolution simultanée13. L’indicateur fondamental de l’évolution des
variables économiques et sociales est l’indice.
On distingue deux types d’indices : les indices simples portant sur une seule grandeur et les indices
synthétiques portant sur des grandeurs complexes de même nature (ex. indice des prix regroupant
un panier de biens).
Si les grandeurs sont de natures différentes (ex. indice boursier de Shanghai), les indices sont ainsi
nommés indices composites.
En d’autres termes, un indice synthétique, est un indicateur de tendance centrale d’une distribution
d’indices simples. Les indices synthétiques sont souvent des moyennes d’indices simples, comme
la moyenne arithmétique pour l’indice de Laspeyres, et la moyenne harmonique pour l’indice de
Paasche (deux indices qui seront introduits dans cette partie).
Notons que les indices ont été conçus pour effectuer des comparaisons sur des variables
économiques mesurables. Ils synthétisent en un seul nombre les modifications affectant un
ensemble de variables, nous pouvons citer par exemple l’indice des prix à la consommation.
En économie par exemple, chaque année, les consommateurs achètent des dizaines de produits et
de services à des prix et à des quantités variables. L’évolution, par exemple, du prix de chacun de
ces produits peut être mesurée par un indice simple de prix.
Par contre, les indices synthétiques présentés dans cette section résument, par un seul indicateur,
une série d'indices de prix ou de quantité.
Avant de définir les indices, nous pouvons souligner qu’un indice évalue une variation est non pas
un niveau. Il mesure ainsi une variation en valeur relative et non pas en valeur absolue14.
13
Il faut auparavant savoir comparer les données. On peut noter quatre principaux indicateurs qui sont utiles à cette comparaison :
les parts, les ratios qui sont des rapports jugés significatifs entre deux grandeurs, les écarts absolus et les écarts relatifs.
14
En 2013, un indice base 100 en 2012, du prix du pain est de 125 et celui du lait de 115 n’indique pas que le prix du pain est
supérieur à celui du lait, mais que le pain a augmenté de 25% de 2012 à 2013 et le lait de 15% dans la même période.
La question qui peut être posée : quelle est la différence entre la variation absolue et la variation
relative ?
Nous allons ainsi définir la variation absolue, la variation relative et aussi le coefficient
multiplicateur15.
Notons que la variation absolue, la variation relative et les indices simples ou élémentaires sont les
principaux indicateurs qui permettent de mesurer l’évolution des données.
• Variation absolue
La variation absolue d’une Grandeur G de la date 0 à la date t est la différence entre la valeur
finale et la valeur initiale. Cette variation absolue est ainsi notée :
∆𝐆 = 𝐆𝐭 − 𝐆𝟎
Notons qu’une variation absolue positive implique une augmentation et une variation négative une
indique une baisse.
• Variation relative
La variation relative d’une Grandeur G de la date 0 à la date t est le rapport entre la variation
absolue et la valeur initiale de cette grandeur. Cette variation relative16 est notée :
∆𝐆 𝐆𝐭 − 𝐆𝟎 𝐆𝐭
= = −𝟏
𝐆𝟎 𝐆𝟎 𝐆𝟎
Le terme de variation relative est synonyme au taux de variation et au taux de croissance qui peut
éventuellement être positif ou négatif.
• Coefficient multiplicateur
Quand une grandeur passe de la valeur G0 à la valeur Gt, on peut calculer le coefficient
multiplicateur en utilisant la formule :
𝐆𝐭
𝐦=
𝐆𝟎
15
La moyenne géométrique est principalement utilisée pour calculer les coefficients multiplicateurs moyens pour
déduire les taux de variation.
16
La variation relative s’exprime souvent en pourcentage.
Notons qu’un coefficient > 1 traduit une hausse, par contre un coefficient < 1 traduit une baisse.
Il est aussi important de souligner que puisque les variations relatives ne sont pas additives, ce fait
conduit à la construction d’un indicateur très proche de la variation relative, mais qui a des
propriétés fort intéressantes. Cet indicateur est l’indice simple ou élémentaire qui est explicité dans
la section suivante.
Pour décrire les variations de grandeurs simples, on compare leurs valeurs dans le temps ou
dans l’espace en effectuant le rapport des valeurs de la grandeur considérée à deux dates
différentes (indice chronologique), ou dans des lieux différents (indice spatial).
Nous introduirons dans cette section un indice de base 1 et un indice de base 100.
• Indice de base 1
La date 0 est appelée la date de référence et la date t, la date courante17. Notons que 𝐈𝟎/𝟎 (𝐆) = 𝟏.
On appelle indice élémentaire de la grandeur simple G, à la date t, base 100 à la date 0, le rapport
noté :
𝐆𝐭
𝐈𝒕/𝟎 (𝐆) = ( ) × 𝟏𝟎𝟎
𝐆𝟎
Notons que 𝐈𝟎/𝟎 𝐆 = 𝟏𝟎𝟎.
Il est important de souligner les points suivants :
o Un indice ne possède pas d’unité.
o Un indice supérieur à 100 représente une hausse.
17
En économie, on utilise souvent l’année de base ou l’année de référence pour dénommer la date 0.
Comme précisé auparavant, les indices élémentaires possèdent des propriétés intéressantes et qui
manquent aux pourcentages.
Ces propriétés sont les suivantes :
o Les indices élémentaires sont transférables.
o Les indices élémentaires sont réversibles.
o Les indices élémentaires sont enchaînés.
o Les indices élémentaires se caractérisent par une circularité.
3. Indices synthétiques
L’un des défis majeurs concernant la mesure de l’évolution des données est celui de la synthèse
de l’évolution simultanée de plusieurs grandeurs. Par exemple, chaque année, les consommateurs
achètent des dizaines de produits et de services à des prix et dans des quantités variables.
L’évolution, par exemple, du prix de chacun de ces produits peut être mesurée par un indice simple
de prix. Les indices synthétiques présentés dans cette section résument par un seul indicateur, une
série d’indices de prix ou d’indices de quantités.
Avant d’introduire ces indices synthétiques, notons la définition d’un indice de la valeur. Un indice
de la valeur d’un panier de n produits à la date t, base 100 à la date 0 est égal à :
n
t t
∑P Q
i =1
i i
Cet indice n’est pas un indice de prix, il mesure à la fois l’évolution des prix et des quantités
consommées. D’où l’idée de calculer un indice de prix, et de fixer la structure de consommation en
fixant les quantités.
Dans cette section, nous allons introduire et définir les indices synthétiques de Laspeyres18 et de
Paasche19, indices de prix et de quantités. Ces indices respectent les principes suivants :
o En calculant un indice de prix, seuls les prix varient, les quantités restent constantes.
Si les quantités sont celles de l’année de base, nous calculons l’indice des prix de
Laspeyres. Si les quantités sont celles de l’année courante t, nous calculons l’indice
des prix de Paasche.
o En calculant un indice de quantité, seules les quantités varient, les prix restent fixes Si
les prix sont ceux de l’année de base, nous calculons l’indice des quantités de
Laspeyres. Si les prix sont ceux de l’année courante t, nous calculons l’indice des
quantités de Paasche.
• Indices de Laspeyres
Nous allons définir les deux indices de Laspeyres, le premier relatif aux prix et le deuxième relatif
aux quantités.
On appelle indice des prix de Laspeyres, année t, base 100 l’année 0, l’indice suivant :
n
o
∑Q i Pi t
i =1
𝐋𝒕/𝟎 (𝐏) = ×𝟏𝟎𝟎
n
o o
∑Q
i =1
i Pi
L’indice des prix de Laspeyres est la moyenne arithmétique pondérée des indices élémentaires de
prix. Les coefficients de pondération sont relatifs à l’année de base.
On appelle indice des prix de Laspeyres, année t, base 100 l’année 0, l’indice suivant :
18
Laspeyres, économiste et statisticien allemand (1834-1913).
19
Paasche, économiste et statisticien allemand (1851-1925).
n
o
∑P i Qit
i =1
𝐋𝒕/𝟎 (𝐐) = ×𝟏𝟎𝟎
n
o o
∑P
i =1
i Q i
L’indice des quantités de Laspeyres est la moyenne arithmétique pondérée des indices élémentaires
de quantités. Les coefficients de pondération sont relatifs à l’année de base.
En tant que moyenne arithmétique, l’indice de Laspeyres (des prix ou des quantités) présente la
propriété d’agrégation. Cette propriété est très utile pour le calcul de l’Indice des Prix à la
Consommation (IPC), l’un des indices synthétiques les plus connus. En effet, l’IPC est un
instrument de mesure de l’inflation qui permet d’estimer des prix des biens et des services
consommés par les ménages. Le rôle de l’IPC est triple : socio-économique, monétaire et financier
et bien évidemment économique.
• Indices de Paasche
Nous allons définir les deux indices de Paasche, le premier relatif aux prix et le deuxième relatif
aux quantités.
On appelle indice des prix de Paasche, année t, base 100 l’année 0, l’indice suivant :
n
t t
∑Q P
i =1
i i
L’indice des prix de Paasche est la moyenne harmonique pondérée des indices élémentaires de prix.
Les coefficients de pondération sont relatifs à l’année courante.
On appelle indice des quantités de Paasche, année t, base 100 l’année 0, l’indice suivant :
n
t t
∑P Q
i =1
i i
𝐏𝒕/𝟎 (𝐐) = n
×𝟏𝟎𝟎
t o
∑P Q
i =1
i i
L’indice des quantités de Paasche est la moyenne harmonique pondérée des indices élémentaires
de quantités. Les coefficients de pondération sont relatifs à l’année courante.
L’indice de Laspeyres est le plus couramment utilisé, car il permet de conserver la même
pondération pour toutes les années : celle de l’année de base. Cet avantage du point de vue des
calculs devient vite un inconvénient, car le panier « figé » s’éloigne de plus en plus de la réalité
économique. Pour l’indice des prix par exemple, l’indice de Laspeyres pondère les différents
articles proportionnellement aux habitudes de consommation du passé, alors que celui de Paasche
prend en compte les habitudes de consommation actuelles.
L’incorporation inévitable dans les indices des prix d’articles dont la quantité produite a nettement
augmentée et dont le prix relatif a de ce fait souvent diminué, introduit des disparités dans les
résultats obtenus pour les indices de Paasche et de Laspeyres.
On peut démontrer que la moyenne harmonique est inférieure ou égale à la moyenne arithmétique.
L’indice de Laspeyres étant une moyenne arithmétique des indices élémentaires et l’indice de
Paasche une moyenne harmonique, normalement, l’indice de Paasche est inférieur ou égale à
l’indice de Laspeyres.
Cependant, il faut prendre en compte que la situation est plus complexe. Les coefficients de
pondération étant différents peuvent influer sur la tendance de l’indice de Laspeyres à surestimer
les variations et sur celle de l’indice de Paasche à les sous-estimer.
• Indice de Fisher
Le choix entre les deux indices présente un certain arbitraire, ainsi le statisticien Fisher20 a proposé
un indice idéal qui est la moyenne géométrique des deux indices.
L’indice synthétique de Fisher est défini comme étant la moyenne géométrique des indices de
Laspeyres et de Paasche.
Il est important de souligner que l’indice de Fisher est toujours compris entre l’indice de Paasche et
et l’indice de Laspeyres, car il représente leur moyenne géométrique.
Rappelons que ce support n’est pas une restitution du cours magistral, mais son complémentaire.
Il est disponible sur la plateforme MOODLE.
http://ead.uit.ac.ma/moodle/
20
Fisher, économiste, statisticien et mathématicien (1867-1947).