Académique Documents
Professionnel Documents
Culture Documents
Ilham EL HARAOUI
Université Ibn Tofail – Faculté d’Economie et de Gestion
Dépôt légal 2023MO3477
Bibliothèque Nationale du Royaume du Maroc BNRM - Rabat
ISBN 978-9920-42-145-4
Septembre 2023
1ère édition
Ilham EL haraoui
Préface
L’objectif de cet ouvrage est de donner aux étudiants inscrits en licence fondamentale,
Sciences Economiques et Gestion-SEG, une introduction conceptuelle à la statistique descriptive et
à son application. Ainsi, son contenu est conçu de façon à permettre aux étudiants d'acquérir une
bonne base en statistique pour pouvoir comprendre d’autres cours, pour avoir les capacités
d'analyser, de résumer et d'interpréter les données, et pour pouvoir utiliser la statistique dans
d'autres matières, notamment dans les projets de fin d’études et les rapports.
Dans ce sens, les objectifs escomptés de cet ouvrage sont les suivants : assimiler les méthodes
tabulaires et graphiques pour présenter les données, assimiler l’utilité des indicateurs statistiques,
leurs calculs et leurs applications, pouvoir croiser deux variables statistiques et établir un tableau
de contingence, savoir modéliser une relation linéaire entre deux variables quantitatives, assimiler
la régression linéaire simple et interpréter ses résultats, comparer et mesurer l’évolution des
données, notamment dans le temps, en analysant une série chronologique, et enfin calculer les
indices simples et synthétiques.
Le contenu de cet ouvrage est divisé en 7 chapitres, le chapitre 1 est une introduction et des
concepts de base de la statistique descriptive. Le chapitre 2 concerne la présentation des données
sous forme de tableaux et de graphiques. Le chapitre 3 traite les indicateurs statistiques. Le
chapitre 4 concerne la statistique descriptive bivariée. Le chapitre 5 aborde la régression linéaire
simple. Le chapitre 6 présente les étapes d’analyse d’une série chronologique. Le dernier chapitre
concerne les indices simples et synthétiques.
Cet ouvrage1 offre aussi des exercices corrigés à la fin de chaque chapitre, des séries de 3
exercices de 20 questions sous forme de QCM qui couvrent les 7 chapitres et un glossaire, afin que
les étudiants puissent assimiler facilement les connaissances présentées.
Ilham EL HARAOUI
Septembre 2023
1
Cet ouvrage est disponible gratuitement sur la plateforme Classroom avec le code : l4yyrnw, sur la plateforme Moodle de
l’université Ibn Tofail et dans ResearchGate.
SOMMAIRE
Glossaire 199
Introduction & concepts de base 1
Chapitre 1.
Introduction et concepts de base de la statistique descriptive
Chapitre 1.
Introduction et concepts de base de la statistique descriptive
En d’autres termes, cette étape du traitement des données consiste à analyser, résumer,
comparer, et mesurer les données pour créer de l’information.
5. Vocabulaire du statisticien
La maîtrise du vocabulaire technique de la statistique est indispensable. Plusieurs concepts
peuvent être introduits2 :
2
Le glossaire introduit tous les concepts.
Introduction & concepts de base 5
Nous mettons en exergue les points suivants qui suscitent la confusion chez les étudiants :
o Il ne faut pas confondre entre la population et les unités statistiques. La population
représente l’ensemble des éléments observés, et ces éléments portent le nom d’unités
statistiques.
o La population est un ensemble bien délimité, sa définition doit être parfaitement
claire et précise.
o La population n’est jamais un nombre, c’est un ensemble. Exemples : des pièces
fabriquées par une machine, les véhicules dans un stationnement, les étudiants dans
une faculté…
o Les unités statistiques peuvent être des êtres humains, des objets, des entités
géographiques...Ce sont des éléments de la population.
Introduction & concepts de base 6
o Il ne faut pas confondre entre unités statistiques et modalités. Les deux concepts
sont distincts. De même, il ne faut pas confondre entre une variable statistique (ou
caractère) et une modalité.
La variable statistique est un aspect particulier des unités statistiques (ou individus),
auquel on s’intéresse, une caractéristique qui peut varier d’un individu à l’autre. La
variable porte aussi le nom de caractère. L’ensemble des observations d’une
variable statistique forme l’ensemble des modalités de ce caractère.
o A chaque individu (unité statistique) doit être associée une modalité unique.
C’est-à-dire « au moins une » et « au plus une ».
* Au plus une : il ne doit pas être possible d’associer à un même individu deux
modalités. Les modalités sont incompatibles (parfaitement distinctes les unes des
autres).
* Au moins une : il ne doit pas être possible qu’un individu ne soit associé à aucune
modalité. Tous les aspects de la variable doivent être présents dans la liste des
modalités.
Nous pouvons prendre, par exemple, une évaluation des opinions ou la satisfaction des
consommateurs vis-à-vis d’un produit.
Les modalités ou les valeurs de la variable qualitative peuvent être notées : m1, m2…mk , en
prenant en considération k modalités.
En résumé, on peut schématiser les types et les sous-types des variables statistiques comme
ci-dessous.
Variable
statistique
Qualitative Quantitative
Nominale Discrète
Ordinale Continue
Introduction & concepts de base 8
7. Exercices corrigés
Exercice 1
On dispose de la production de voitures d’une entreprise X dans un mois destinée pour
l’exportation qui est répartie dans le tableau ci-dessous :
Source3: exemple
Il s’agit de définir :
1. La population étudiée.
2. La taille de la population.
3. Les unités statistiques.
4. La variable statistique.
5. Les modalités.
6. L’effectif de la modalité “C”.
Solution
1. La population étudiée : les voitures produites durant un mois destinées à l’export.
2. La taille de la population : 11.369.000 voitures.
3. L’unité statistique : voiture.
3
Un tableau statistique doit toujours avoir un titre et une source. Un tableau sans source n’a aucun sens. Nous
utilisons dans cet ouvrage comme source : exemple, puisque les exemples présentés ne sont pas issus de données réels.
Introduction & concepts de base 9
Exercice 2
La faculté d’économie et de gestion veut entamer une étude statistique concernant les
étudiants inscrits en première année. Cette étude concerne les options du BAC des étudiants.
Source : exemple
Il s’agit d’identifier :
§ la population étudiée ;
§ la taille de la population ;
§ les unités statistiques ou les individus ;
§ la variable statistique et les modalités ;
§ l’effectif de la modalité “sciences expérimentales” et l’effectif des deux dernières
modalités.
Solution
§ La population étudiée : les étudiants inscrits en première année à la faculté
d’économie et de gestion.
§ La taille de la population : 1716.
Introduction & concepts de base 10
Chapitre 2.
Présentation des données sous forme de tableaux et de graphiques
Chapitre 2.
Présentation des données sous forme de tableaux et de graphiques
La somme des effectifs est l’effectif total, il est ainsi égal au nombre total d’individus :
k
n1 + n2 +…………….+ nk = ∑ ni = n
i=1
1.2 Fréquence
La fréquence (fi) associée à une modalité « i » telle que i=1, 2, …k, ou à un ensemble de
modalités qui peuvent être aussi regroupées en classes, indique la proportion d’individus
présentant cette modalité, ou cet ensemble de modalités par rapport à l’ensemble des
individus.
ni
La fréquence d’une modalité « i » : fi =
n
k
La somme des fréquences : ∑ fi = 1
i=1
Présentation des données 13
Nous soulignons que la fréquence est un nombre qui est toujours compris entre 0 et 1
(fréquence relative) ou entre 0% et 100% (fréquence en pourcentage).
Nous pouvons aussi souligner que :
Notons que parfois la fréquence absolue (ou tout simplement fréquence) est utilisée pour
désigner l’effectif, surtout dans des livres anglo-saxons traduits en français.
Rappelons que nous utiliserons l’effectif, l’effectif total et la fréquence pour présenter les
données. Ces données peuvent être présentées sous forme de tableaux ou de graphiques. Il
est ainsi important de savoir les calculer et les interpréter.
Ainsi, nous utiliserons dans le chapitre suivant des exemples afin de comprendre
l’importance des présentations sous forme de tableaux et de graphiques et savoir comment
les interpréter.
Nous ferons aussi la distinction entre la présentation des données qualitatives et la
présentation des données quantitatives.
Exemple 1
On considère la répartition de l’effectif des employés d’une entreprise X selon leur niveau
d’éducation.
Il faut calculer la fréquence relative, la fréquence en pourcentage, et présenter les données
sous forme de graphiques. Le tableau initial contient l’effectif seulement qui est inclus dans
la solution 1.
Présentation des données 14
Solution 1
Présentation des données sous forme de tableau
Fréquence Fréquence en
Niveau Effectif
relative pourcentage
Doctorat 56 0,0075 0,75 %
Master 109 0,0145 1,45 %
Licence 500 0,0665 6,65 %
Bac 1 450 0,1929 19,29 %
Etudes secondaires ou moins 5 400 0,7186 71,86 %
Total 7 515 1,0000 100,00 %
Source : exemple
6 000
5 400
5 000
4 000
3 000
Effectif
2 000 1 450
1 000 500
56 109
0
Doctorat Master Licence Bac Etudes
secondaires
ou moins
Fréquence en
80,00% pourcentage 71,86%
70,00%
60,00%
50,00%
40,00%
19,29%
30,00%
20,00% 6,65%
0,75% 1,45%
10,00%
0,00%
Doctorat Master Licence Bac Etudes
secondaires
ou moins
NB. Dans les manuels de la statistique, le titre d’un graphique se situe en général en bas,
contrairement au titre d’un tableau.
1 450; 19,29%
Doctorat
Master
Licence
Bac
Etudes secondaires ou moins
5 400; 71,86%
Source : exemple
Exemple 2
On considère la répartition des consommateurs selon leur appréciation d’un produit X. Il
faut calculer l’effectif de la modalité « mauvais » sachant que nous disposons de l’effectif
total et les effectifs des autres modalités.
Il faut aussi calculer la fréquence relative, la fréquence en pourcentage, la fréquence
cumulée et présenter les données sous forme de graphiques.
Présentation des données 17
Le tableau initial contient seulement les effectifs qui sont inclus dans la solution 2
ci-dessous.
Solution 2
Répartition des consommateurs
selon leur appréciation d’un produit X
Nous soulignons, les erreurs commises par certains étudiants et nous mettons en exergue
les points suivants :
o Le total des fréquences relatives est toujours égal à 1.00, il ne peut pas être égal à
0.9999 ; sinon il faut essayer d’arrondir les valeurs des fréquences relatives.
o La même remarque est valable pour la somme des fréquences en pourcentage, elle
ne peut pas être égale à 99,99% ou à 108%, soit il faut arrondir les valeurs en
prenant en considération le nombre de décimales adéquat, soit il faut revoir les
calculs.
o Il faut veiller à ce que le nombre de décimales après la virgule soit le même pour
toutes les valeurs, sinon, il aura une probabilité de commettre des erreurs.
o Le total des fréquences cumulées en pourcentage n’existe pas.
Présentation des données 18
54,32%
60,00%
50,00%
Fréquence en
40,00% pourcentage
27,30%
30,00%
12,16%
20,00%
5,41%
0,81%
10,00%
0,00%
Très Mauvais Moyen Bon Très Bon
mauvais
0,81%
5,41%
27,30% 12,16%
Très mauvais
Mauvais
Moyen
Bon
Très Bon
54,32%
Notons que nous pouvons avoir d’autres types de diagrammes pour présenter les données,
comme le diagramme à cumul interne, le diagramme figuratif, ou d’autres histogrammes
de comparaison (diagrammes en barres multiples).
Présentation des données 19
Nous présentons ci-dessous quelques graphiques à titre d’exemple. Les données ont été
simplifiées et changées pour les illustrer.
151"
160"
140" 120"
120"
89"
100" 83"
64" 66"
80" Hommes&
20"
0"
Doctorat" Master" Licence" Bac" Etudes"
secondaires"ou"
moins"
Source : exemple
Diagramme à cumul interne :
100%#
80%#
60%#
Femmes%
40%# 70%# Hommes%
59%# 59%#
20%# 36%# 37%#
0%#
Doctorat# Master# Licence# Bac# Etudes#
secondaires#
ou#moins#
59
60
50 45
40 33
30 25
23 19
20 12
10
10 3
0
2021 2022 2023
59
60
50 45
40 33
30 25
23 19
20 12
10
10 3
0
Sciences Economiques Sciences Sciences
Experimentales Mathématiques
Source : exemple
Présentation des données 21
En résumé, nous pouvons présenter des données qualitatives (nominales ou ordinales) sous
forme de tableaux et de graphiques que nous avons résumés dans le schéma ci-dessous :
Base de données
Nous mettons en exergue trois étapes pour établir des classes à savoir :
1. Déterminer le nombre de classes
§ Il est recommandé d’utiliser entre 5 et 15 classes.
§ En pratique, le nombre est déterminé par un processus “essai-erreur”.
Présentation des données 22
Notons qu’une détermination de la même largeur pour toutes les classes réduit énormément
les erreurs d’interprétation.
ei+1 + ei
Centre de la classe : xi =
2
ai
Exemple 1
On prend on considération un tableau qui nous donne la répartition des consommateurs
d’un produit Y selon l’âge. Le tableau initial inclut les effectifs seulement qui sont intégrés
dans la solution 1. Il faut calculer l’amplitude de chaque classe, son centre et la fréquence
en pourcentage. Nous pouvons noter que cet exemple concerne un cas avec des amplitudes
égales.
Nous avons repris le même exemple avec des amplitudes inégales (solution 2 ci-dessous),
afin de présenter les données sous forme de graphique et assimiler la méthode et
comprendre les erreurs à éviter.
Présentation des données 23
Avant de présenter les deux solutions, il est important de noter qu’un histogramme peut être
utilisé pour présenter des données quantitatives continues.
Un histogramme est formé d’un ensemble de rectangles, tel que la base de chaque
rectangle est déterminée par les extrémités de la classe correspondante, et dont la
surface doit être proportionnelle à l’effectif (ou à la fréquence) qui représente cette
classe.
Si toutes les classes ont la même amplitude, il suffit pour réaliser l’histogramme de porter
en ordonnée les effectifs ou les fréquences. Si elles n’ont pas la même amplitude, on porte
en abscisse les extrémités de chaque classe, et en ordonnée les effectifs par unité
d’amplitude ni/ai , appelés densités d’effectifs, ou les fréquences par unité d’amplitude fi/ai ,
nommées densités de fréquences (voir l’application dans la solution 2).
Solution 1
Cas d’amplitudes égales.
Répartition des consommateurs
d’un produit Y selon l’âge
Source : exemple
Solution 2
(Le même cas avec des amplitudes inégales)
Présentation des données 24
Amplitude de Fréquence en
Age Effectif fi /ai
la classe ai pourcentage fi
[ 15 - 20 [ 130 5 19,49% 3,9
[ 20 - 35 [ 343 15 51,42% 3,4
[ 35 - 40 [ 107 5 16,04% 3,2
[ 40 - 50 [ 33 10 4,95% 0,5
[ 50 - 55 [ 54 5 8,10% 1,6
Total 667 --- 100,00% ----
Source : exemple
Afin de présenter les données sous forme d’histogramme, et puisque dans la solution 2, les
amplitudes des classes sont inégales, nous utiliserons les densités de fréquences (fi/ai), tel
que fi représente les fréquences en pourcentage.
Notons qu’une représentation des données dans un graphique, comme dans le graphique
ci-dessous, qui représente la répartition des consommateurs d’un produit Y selon l’âge, sans
prendre en considération que les amplitudes sont inégales est une représentation appropriée.
Mais, elle peut conduire certains étudiants à des erreurs d’interprétation, tel que l’intervalle
[20 -35 [contient une plus grande concentration de consommateurs.
Ce qui n’est pas correct. En prenant en considération les densités des fréquences par
exemple, on peut noter que c’est l’intervalle [15 -20 [. Nous pouvons aussi noter que la
classe modale n’est pas [20 - 35[, comme il peut paraître dans le premier graphique en bleu,
mais [15 - 20 [.
Présentation des données 25
Effectif(
343
700
600
500
400
300 130 107
54
200
33
100
0
5 10 15 20 25 30 35 40 45 50 55 Age(
Source : exemple
Le graphique qui prend en considération les densités des fréquences est illustré
ci-dessous.
(fi/ai)*100*
3,9!
↓
4,0 3,4!
3,2!
3,5
3,0
2,5
2,0 1,6!
1,5
1,0 0,5!
0,5
0
5 10 15 20 25 30 35 40 45 50 55
Age$
Nous pouvons ajouter au dernier graphique, le polygone des fréquences qui peut être
construit en joignant les milieux de chaque sommet des rectangles.
Présentation des données 26
Ceci dit, le polygone des fréquences passera par les centres des classes au sommet de
chaque rectangle.
Nous pouvons aussi dessiner la courbe cumulative ou la courbe des fréquences, en prenant
en considération par exemple le cas d’amplitudes égales.
Cette courbe cumulative est une représentation graphique des fréquences cumulées. Ces
fréquences cumulées sont des fréquences cumulées ascendantes comme il est illustré dans
le graphique ci-dessous :
Fréquences**
cumulées* 100,00%*
100 91,90%*
86,96%*
80
70,91%*
60
40
19,49%*
20
0
Age*
10 15 20 25 30 35 40 45
Source : exemple
Nous pouvons aussi dessiner une ogive. Cette dernière est un graphique d’une distribution
cumulée qui représente sur l’axe horizontal, les valeurs des observations et sur l’axe
vertical, les valeurs des effectifs cumulés (fréquences absolues cumulées). L’ogive est
construite en indiquant par un point précis la fréquence absolue cumulée de chaque classe,
comme dans le graphique suivant :
Présentation des données 27
Effectifs
800" cumulés
667"
700" 613"
580"
600"
473"
500"
400"
300"
200" 130"
100"
0"
0"
Age" ["15""/"20""[" ["20""/"25""[" ["25""/"30""[" ["30""/"35""[" ["35""/"40""["
Exemple 3
Nous analysons la répartition des consommateurs selon le nombre de fois d’achats en ligne.
Il s’agit de calculer la fréquence en pourcentage et la fréquence cumulée, et présenter les
données sous forme de diagramme en bâtons et sous forme de diagramme cumulatif. Le
tableau initial inclut seulement les effectifs.
Solution 3
Répartition des consommateurs selon le nombre
de fois d’achats en ligne
Source : exemple
Présentation des données 28
Pour présenter les données sous forme de graphiques, nous utiliserons un diagramme en
bâtons. Ce dernier est appelé aussi un diagramme différentiel, puisqu’il représente les
différentes modalités de la variable discrète. C’est aussi un diagramme à barres, sauf que
les barres sont plus fines.
Effectif
160 150
140
120
100
80
60
34
40
20 16
0 3
2
0
1
2
3
4
Source : exemple
Nous pouvons aussi utiliser un diagramme cumulatif qui est également appelé diagramme
intégral au sens de l’intégration mathématique. Il représente des fréquences cumulées
comme illustrées dans le graphique ci-dessous, en prenant en considération les données de
l’exemple 3.
Fréquences cumulées
99,02% 100,00%
100 97,56%
95
90
89,76%
85
80
75
73,17%
0 1 2 3 4
Nous mettons en exergue qu’il y a d’autres diagrammes que nous pouvons utiliser, comme
le diagramme de points, ou le diagramme Stem and Leaf. L’exercice à la fin de ce chapitre
concerne ces deux diagrammes.
Base de données
4. Exercice corrigé
Considérons les données ci-dessous qui nous informent sur le nombre de jours consacrés
par des étudiants pour la préparation des examens.
12 14 19 18
15 15 18 17
20 27 22 23
22 21 33 28
14 18 16 13
1. Suivez les étapes introduites dans le chapitre pour déterminer les classes/intervalles.
2. Présentez ces données sous forme d’un diagramme Stem and leaf ou « Branche et
feuille ».
Solution
1. Pour déterminer les classes, il faut :
§ Déterminer le nombre de classes : on peut prendre une décision d’avoir 3 classes.
§ Déterminer l’amplitude de la classe :
(Max-Min)/ nombre de classes = (33 - 12)/3 = 7
Décision : « 7 jours » représente l’amplitude des classes.
§ Déterminer les limites des classes :
Le minimum est de 12 qui sera la borne inférieure de la première classe. Le
maximum est le chiffre 33 ans qui sera la borne supérieure de la dernière classe.
§ Définir les intervalles :
Les intervalles : [12 – 19 [ , [19 – 26 [ , [26 - 25 [ , [25 – 33 ]
NB. Cet exercice est juste un exemple illustratif avec 20 observations seulement.
Normalement, l’effectif doit être plus grand, d’où l’objectif de cette méthode.
On pourrait avoir d’autres propositions d’intervalles et ceci dépendra du nombre de classes
choisies dans l’étape 1.
Présentation des données 31
Le diagramme Steam and Leaf peut aussi représenter les modalités et les effectifs, si ces
derniers ne dépassent pas 2 ou 3, sinon il ne sera pas présentable.
Indicateurs statistiques 32
Chapitre 3.
Indicateurs statistiques
Chapitre 3.
Indicateurs statistiques
Nous appelons « Indicateurs », les nombres qui résument une base de données selon des
règles et des pratiques. On les appelle aussi des « paramètres » ou des « caractéristiques ».
Yule, a souligné un certain nombre de propriétés souhaitées pour les indicateurs statistiques.
Ceux-ci doivent :
§ Etre des résumés maniables ;
§ Etre des résumés faciles à utiliser ;
§ Etre les plus exhaustifs relativement à l’information contenue dans les données ;
§ Rassembler le plus d’information possible.
Nous allons en premier lieu introduire les indicateurs de tendance centrale et de position,
qui nous faciliteront la compréhension des indicateurs de dispersion, pour passer après aux
indicateurs de concentration.
Les indicateurs de tendance centrale et de position sont des indicateurs qui se situent au
milieu, ou qui indiquent où se positionne une série de données. C’est des indicateurs qui
représentent une valeur numérique, autour de laquelle les observations sont réparties. Ceux
de la tendance centrale mesurent par exemple le centre de la distribution d’une série de
données, nous pouvons citer à titre d’exemple, la moyenne.
Dans ce chapitre, nous introduirons la moyenne, le mode et la médiane, comme indicateurs
de tendance centrale et les quantiles, comme indicateurs de position.
1. La moyenne
Nous introduirons la moyenne arithmétique, la moyenne géométrique, la moyenne
harmonique et la moyenne quadratique.
1
(1) x= å xi
n i
1
(2) x= å ni xi
n i
x = å f i xi
i
Indicateurs statistiques 35
Notons que la formule (1) représente la formule pour calculer la moyenne arithmétique
simple et la formule (2) pour calculer la moyenne arithmétique pondérée.
Remarque : si les ni prennent des valeurs égales à 1, l’indicateur est simple et par
conséquent il est non pondéré. Si les ni prennent des valeurs différentes de 1, l’indicateur
est pondéré. Cette remarque est valable pour les autres types de la moyenne.
NB. Dans le cas d’une variable continue, xi représente le centre des classes dans la formule
(2) du calcul de la moyenne.
4
Les exercices corrigés permettront d’assimiler le calcul de la moyenne arithmétique et ses propriétés et les autres
indicateurs.
Indicateurs statistiques 36
n
G = n x1n1 ´ ... ´ x p p
Notons que la moyenne géométrique est applicable à des mesures de grandeurs dont la
croissance est géométrique ou exponentielle. Elle est toujours inférieure ou égale à la
moyenne arithmétique.
n 1
H= ou bien H =
å i i
n / x åi
f i / xi
i
Elle est principalement utilisée quand l’unité de la variable dont on cherche la moyenne est
un quotient (ex. km/h, Dirham/Dollar, prix/unité...).
Elle peut être ainsi utilisée lorsqu’il est possible d’attribuer un sens réel à l’inverse des
données.
1 k 1 k
Q = å ni xi2 ® Q =
2
å ni xi2
n i =1 n i =1
Elle est utilisée par exemple en physique, pour calculer l’énergie moyenne ou l'intensité
moyenne dans un circuit. Elle est aussi utilisée en mathématique pour calculer la superficie
moyenne d’un ensemble de parcelles par exemple.
2. Le mode
Le mode est la valeur de la variable la plus fréquemment observée. En d’autres termes,
c’est la modalité qui a l’effectif le plus élevé (ou la fréquence la plus élevée). Le mode
représente ainsi le xi correspondant au ni (ou fi) maximum.
Le mode peut être aussi défini comme une valeur qui domine les autres et qui lui confère le
statut d’indicateur de tendance centrale. Notons que le mode n’est pas influencé par les
valeurs extrêmes.
Si les données ont exactement deux modes, on note que les données sont bimodales. Si les
données ont plus de deux modes, on souligne que les données sont multimodales ou
plurimodales.
æ ( ni - ni -1 ) ö
Mo = bMo + çç ÷÷ ´ aMo
è ( ni - ni -1 ) + ( ni - ni + 1 ) ø
Si les classes ont des amplitudes inégales, il faut prendre en considération soit la densité
d’effectif (ni/ai) ou la densité de fréquence (fi/ai). La détermination de la classe modale se
ramène après au cas précédent. Le mode est calculé en appliquant la formule ci-dessus en
remplaçant ni par (ni/ai).
Notons que dans un cas particulier, où une classe est caractérisée à la fois par l’amplitude
la plus petite et l’effectif le plus élevé, dans ce cas elle a nécessairement la densité la plus
forte et le calcul des densités n’est pas nécessaire pour en déduire la classe modale.
Indicateurs statistiques 39
Nous pouvons aussi déterminer le mode graphiquement comme illustré dans le schéma
ci-dessous.
3. La médiane
La médiane (Me) est un centre de position lorsque les données sont rangées par ordre
croissant. Sa détermination est réalisée de façon différenciée en fonction de la parité (pair
ou impair) de la taille de l’échantillon (n).
§ Si n est impair, soit n = 2 p + 1 , alors (Me = x(p+1))
§ Si n est pair, soit n = 2 p, alors (Me = (x(p) + x (p+1)) / 2)
Notons que la médiane (Me) d’une série statistique est une valeur de la variable telle que 50%
des individus statistiques présentent une modalité inférieure à Me, et 50% présentent une
modalité supérieure ou égale à Me. Ainsi, en prenant en considération F comme une
fonction des fréquences cumulées, la médiane d’une série statistique sera la plus petite
valeur x telle que F(x) ≥ 0,5 ou bien F(x) ≥ 50%.
On peut ainsi déterminer graphiquement la médiane, dans la courbe de fréquence cumulée
(ou même dans la courbe d’effectif cumulé).
Indicateurs statistiques 40
Dans le cas d’une variable continue où les données sont groupées en classes, on doit définir
en premier lieu la classe médiane, qui contient la médiane. La valeur de la médiane est
déduite par la suite par interpolation linéaire selon la formule suivante :
é 50 - Fi -1 ù
Me = bi + êai ´ ú
ë Fi - Fi -1 û
4. Quantiles
Les quantiles (ou les percentiles) sont des indicateurs de position. Si nous considérons une
variable quantitative discrète ou continue, dont les modalités sont classées en ordre
croissant, le quantile d'ordre α (0 ≤ α ≤ 1) noté qα est la valeur de la variable telle que α%
(c’est-à-dire une proportion α) des individus ont une modalité inférieure à qα. En d’autres
termes, (100 - α)% des individus ont une valeur supérieure ou égale à qα.
Nous allons introduire dans les sections suivantes les quantiles les plus utilisés, à savoir, les
quartiles, les déciles et les centiles, avant de spécifier leur méthode de calcul.
Indicateurs statistiques 41
4.1 Quartiles
Les quartiles sont des indicateurs de position qui partagent les observations en 4 groupes
d’effectifs égaux.
Les quartiles sont les 3 valeurs q25, q50, q75. Ceci dit, 25%, 50%, 75% des individus ont une
valeur inférieure à q25, q50, q75 respectivement.
Les quartiles sont aussi notés : Q1, Q2, Q3 (Q pour Quartile). Notons que Q2 représente la
médiane, qui est aussi un indicateur de tendance centrale.
4.2 Déciles
Les déciles sont des indicateurs de position qui partagent les observations en 10 groupes
d’effectifs égaux. Les déciles sont les 9 valeurs q10, q20,…,q90.
Ceci dit, 10%, 20%,...90% des individus ont une valeur inférieure à q10, q20,...q90
respectivement.
Les déciles sont aussi notés : D1, D2….D9 (D pour Décile).
4.3 Centiles
Les centiles sont des indicateurs de position qui partagent les observations en 100 groupes
d’effectifs égaux. Les centiles sont les 99 valeurs q1, q2, q3,...,q99. Ceci dit, 1%, 2%, 3%
….99%, des individus ont une valeur inférieure à q1, q2, q3,...,q99 respectivement.
Les centiles sont aussi notés : C1, C2….C99 (C pour Centile).
La notation « q » a le mérite d’être identique pour tous les quantiles, car même si les
notations C1, Q1, D1, par exemple, ont l’avantage de nous indiquer le type de quantile, leur
inconvénient est de noter de manière différente des quantiles qui représentent la même
chose (exemple : D1 = C10, Q1 = C25, Q2 = D5 = C50).
Lorsqu’on dispose d’une variable quantitative continue, on peut déterminer les quantiles
graphiquement (dans la courbe des fréquences cumulées ou même dans la courbe des
effectifs cumulés), comme pour la médiane, ou selon la formule ci-dessous qui est aussi
Indicateurs statistiques 42
é F (qa ) - Fi -1 ù
qa = bi + êai ´ ú
ë Fi - Fi -1 û
ai : amplitude de la classe où se trouve le quantile.
bi : limite inférieure de la classe où se trouve le quantile.
Fi-1 : fréquence cumulée de la classe précédente à la classe où se trouve le quantile.
Fi : fréquence cumulée de la classe où se trouve le quantile.
F(qα ) peut-être égale à 25%, 10%, 3%, 71%....selon l’ordre souhaité.
Dans le cas d’une variable discrète ou d’une série statistique, la formule ci-dessus ne peut
pas être appliquée et les quantiles se calculent selon les 3 étapes suivantes :
Etape 1 : Mettre les données en ordre croissant.
Etape 2 : Calculer un indice i,
!
tel que i = "## × n ;
M0 = Mé = x
Distribution symétrique
Distribution asymétrique
Source : élaboré pour illustration
Indicateurs statistiques 44
La distribution peut être aussi oblique à droite (étalée vers la gauche) comme dans le
graphique ci-dessous. Le mode est supérieur strictement à la médiane qui est de même par
rapport à la moyenne arithmétique.
Distribution asymétrique
é Q3 + Q1 - 2Q2 ù
ê ú
ë Q3 - Q1 û
Q1, Q2, Q3 représentent les quartiles.
Le coefficient de Fisher peut être aussi utilisé pour déduire la forme de la distribution et il a
la même interprétation que celle de Yule et Kendall, afin de savoir si la distribution est
symétrique, ou étalée vers la droite ou vers la gauche.
Ce coefficient est égal à :
3
n n æ xi - x ö
´å ç
ç
÷
÷
(n - 1) ´ (n - 2) i =1 è s ø
1. Boîte à pattes
La boîte à pattes est utile pour visualiser la dispersion des données, pour faire des
comparaisons entre plusieurs échantillons ou populations et pour détecter les valeurs
aberrantes ou extrêmes. Elle est illustrée dans le graphique ci-dessous.
Tracer les pattes qui correspondent à deux lignes horizontales. Celle de la droite se
prolonge jusqu’à la plus grande valeur qui se situe directement avant la limite supérieure, et
celle de la gauche se prolonge jusqu’à la plus petite valeur qui se situe directement après la
limite inférieure.
Notons qu’une valeur qui dépasse les limites peut être une valeur aberrante ou une valeur
extrême (illustrée par l’étoile rouge dans le graphique). S’il n’existe aucune valeur qui
dépasse les limites, les pattes se prolongent jusqu’au minimum à gauche et jusqu’au
maximum à droite.
A partir de la boîte à pattes, nous pouvons noter l’écart (Q3 - Q1) et l’écart (Max - Min), le
rapport (Q3- Q1)/ Q2) par exemple, qui représentent des indicateurs de dispersion que nous
allons introduire dans cette section.
2. Etendue
L’étendue est la différence entre la plus grande valeur et la plus petite valeur des
observations. Sa formule est la suivante :
Etendue = X (max) - X (min)
L’étendue est très simple à calculer, mais il ne tient compte que des deux observations
extrêmes, susceptibles d’être parfois des données aberrantes.
Pour pallier cet inconvénient, une idée consiste à éliminer de la mesure de dispersion une
certaine proportion d’observations aux extrémités de la distribution (appelées queues de
distribution). Ceci nous amène à définir l’écart interdécile, l’écart intercentile et l’écart
interquartile.
L’écart intercentile (C99-C1) écarte 1% des observations les plus petites à gauche et 1% des
observations les plus grandes à droite. C’est aussi un indicateur de dispersion et il concerne
98% des observations centrales.
L’intervalle interquartile est l’intervalle [Q1 - Q3] et il contient 50% des observations.
Indicateurs statistiques 49
Notons qu’on utilise parfois l'écart semi-interquartile qui peut être calculé selon la formule
suivante : (Q3 -Q1)/2.
5. Ecart absolu
L’écart absolu moyen est par définition la moyenne arithmétique des valeurs absolues des
écarts de toutes les observations à la moyenne arithmétique.
Cet indicateur nous donne une vision sur la valeur moyenne qui écarte toutes les
observations par rapport à la moyenne.
L’écart absolu médian est la moyenne arithmétique des valeurs absolues des écarts de
toutes les observations à la médiane.
Sa formule est la suivante :
1
e' = å ni xi - M e
n i
La variance est un indicateur de dispersion qui utilise toutes les observations. Elle est la
moyenne arithmétique des carrés des écarts de toutes les observations à la moyenne
arithmétique.
Indicateurs statistiques 50
La variance est souvent notée s2 (dans le cas d’un échantillon) ou σ² (dans le cas d’une
population), ou tout simplement Var(x) et elle est calculée en utilisant la formule suivante :
å n (x )
k
2
i i -x
S2 = i =1
n
Notons que la variance d’un échantillon s2 peut être un estimateur de la variance de la
population. La formule peut être aussi rectifiée en remplaçant (n) par (n-1). Notons aussi
que les unités associées à la variance sont élevées au carré, ce qui rend difficile son
interprétation. L’interprétation que nous pouvons lui donner est que la population ou
l’échantillon qui a la plus grande variance a la plus grande dispersion. Ceci dit, il n’est pas
utile de chercher d’autres interprétations pour cet indicateur.
s = s²
S = S²
L’écart type est ainsi plus facilement comparable et interprétable que la variance, puisqu’il
est mesuré dans les mêmes unités que les données. Notons qu’il est aussi utilisé pour
calculer le coefficient d’asymétrie de Fisher introduit plus haut.
Nous avons défini l’étendue, l’écart interdécile, l’écart intercentile, l’écart interquartile,
l’écart absolu, la variance et l’écart type, qui représentent des indicateurs de dispersion
absolue. Nous présentons dans la section suivante les indicateurs de dispersion relative.
Pour ce faire, les indicateurs de dispersion relative (sans unité) peuvent être utilisés, comme
le coefficient de variation.
On peut aussi déduire d’autres indicateurs de dispersion relative en utilisant par exemple,
les quartiles, les déciles, ou l’écart absolu moyen. Ces indicateurs et leur formule de calcul
sont présentés ci-dessous.
Nous pouvons remarquer que ces indicateurs de dispersion relative sont sous forme d’un
ratio, qui représente le rapport entre un indicateur de dispersion et un indicateur de
tendance centrale.
Enfin, nous mettons en exergue que le choix d’un indicateur de dispersion est souvent lié
au choix des indicateurs de tendance centrale et de position. Ceci dit, si la position d’une
distribution a été résumée par des quantiles, la distribution est dans la plupart des cas,
quantifiée par les écarts absolus ou relatifs intequantiles. Si la moyenne arithmétique a été
privilégiée alors l’écart type est souvent l’indicateur de dispersion choisi.
Indicateurs statistiques 53
Ceci dit, une condition est nécessaire pour pouvoir utiliser et calculer les indicateurs de
concentration, qui requiert que la somme des observations ait un sens et les données bien
évidemment doivent être quantitatives. Ainsi pour une distribution de salaires, le résumé de
la répartition de la masse salariale fait appel à des méthodes distinctes de celles utilisées
pour résumer la répartition des salaires.
1. Courbe de Lorenz
Pour obtenir une représentation graphique mettant en évidence la concentration, l’idée est
de travailler avec les fréquences cumulées et les agrégats cumulés (selon la variable
étudiée). En portant en abscisse les fréquences cumulées et en ordonnée les agrégats
cumulés (qui varient de 0% à 100 %), nous obtenons une courbe de concentration, appelée
courbe de Lorenz. Cette courbe relie des points successifs : fréquence cumulée - agrégat
cumulé.
être égalitaire. Ceci suggère d’utiliser l’aire de concentration, comprise entre la courbe et la
bissectrice comme indicateur d’inégalité.
Courbe de Lorenz
Source : élaboré pour illustration
2. Indice de Gini
L’indice de Gini (IG) constitue un indicateur, ou une mesure synthétique de la concentration
des données.
Le calcul de cet indice repose sur la position de la courbe de Lorenz, c’est à dire plus la
courbe est proche de la diagonale, plus la répartition tend à être égalitaire.
Indicateurs statistiques 55
L’idée est donc de calculer l’aire de la surface (surface de concentration) située entre la
courbe de Lorenz et la bissectrice « A ».
L’indice de Gini (IG) est égal à deux fois l’aire de concentration. Cet indice est compris
entre 0 et 1 :
§ Plus il est proche de 0, plus la répartition tend à être égalitaire.
§ Plus il est proche de 1, plus la répartition tend à être inégalitaire.
En d’autres termes, l’indice de Gini (IG) est un indicateur de la concentration, plus il est
grand, plus la concentration est importante. Il existe plusieurs formules pour calculer cet
indice, on peut proposer de l’évaluer selon la formule suivante :
n
I G = 1 - å ( xi - xi - 1 )( yi + yi - 1 )
i =1
Les xi désignent les valeurs prises par la variable sur la part cumulée de la population
étudiée, et les yi désignent les valeurs prises par la variable sur la part cumulée de la masse
à répartir.
Les fi désignent les fréquences relatives concernant la variable et les F'i désignent les
fréquences relatives cumulées concernant la masse de la variable.
Indicateurs statistiques 56
Solution
• L’effectif total : n = 7
• Le total = 160+165+175+180+182+164+176 = 1202
• La moyenne est ainsi égale à :
1202
x= = 171,7 cm
7
Exercice 2
Soit une série statistique qui correspond aux prix des livres de gestion dans une librairie en
Dhs : 120, 150, 250, 210, 150.
Calculez la moyenne
Solution
• L’effectif total : n = 5
• Le total = 120 + 150 + 250 + 210 + 150 = 880
• La moyenne est ainsi égale à :
880
x= = 176
5 Dhs
Remarques :
o On peut vérifier que la somme des écarts à la moyenne est nulle en calculant :
§ (120-176) + (150-176) + (250-176) + (210-176) + (150-176) = 0
o On peut aussi vérifier que la moyenne est affectée par les changements de valeurs.
Nous pouvons remplacer juste la dernière valeur par 2000 Dhs, et noter que la
moyenne changera, elle sera ainsi égale à 552 Dhs.
Indicateurs statistiques 57
Exercice 3
On dispose ci-dessous de la répartition d’un échantillon de familles selon le nombre
d’enfants.
Répartition des familles selon le nombre d’enfants.
Nombre Nombre
d'enfants de familles
0 7
1 15
2 20
3 6
4 8
Source : exemple
Calculez la moyenne de cette variable quantitative discrète.
Solution
Répartition des familles selon le nombre d’enfants.
Nombre Nombre de xi × ni
d'enfants xi familles ni
0 7 0
1 15 15
2 20 40
3 6 18
4 8 32
Total 56 105
Source : exemple
105
x= = 1, 87
56 enfant !
Remarque :
La moyenne peut être un chiffre avec des décimales, même si les xi sont entiers par nature.
Indicateurs statistiques 58
Exercice 4
Supposant que les étudiants de la première année S1 sont répartis dans 3 amphithéâtres,
comme dans le tableau ci-dessous, qui représente la moyenne d’âge des étudiants et les
effectifs.
La moyenne d’âge et les effectifs des étudiants dans 3 amphithéâtres
Source : exemple
Solution
L’effectif total est de 2 500 étudiants.
On doit calculer la moyenne d’âge par groupe × l’effectif qui correspond à chaque groupe.
= (18,1 × 1000) + (500 × 19,5) + (18,3 × 1000)
= 18100 + 9750+ 18300
= 46 150.
La moyenne = 46150/2500 = 18,46 ans
Remarque
§ Il est important de noter que la moyenne d'un groupe qui est un ensemble d'autres
groupes n'est pas égale à la moyenne des moyennes que si tous les groupes ont le
même effectif. Dans ce sens, la moyenne d’âge de l’ensemble des étudiants n’est pas
égale à la moyenne des trois valeurs 18,1 ; 19,5 et 18,3 (18.63).
Indicateurs statistiques 59
Exercice 5
Le tableau ci-dessous représente le taux de variation du PIB en pourcentage de 2019 à 2023
dans un pays :
Taux de variation du PIB
Source : exemple
Solution
Il faut calculer dans ce cas la moyenne géométrique :
Exercice 6
De février à août, on dispose de l’indice mensuel de variation du prix d’un produit qui est
représenté dans le tableau ci-dessous :
Indices mensuels de variation du prix
Mois M2 M3 M4 M5 M6 M7 M8
Source : exemple
Solution
Il faut calculer dans ce cas la moyenne géométrique. Le tableau dans l’énoncé peut être
présenté comme ci-dessous :
Année M2 M3 M4 M5 M6 M7 M8
Indice en % - 2% 5% 9% 2% -3% 1% - 4%
Exercice 7
Une entreprise dispose d’un certain nombre de parcelles de terrains sous forme de carré
réparties dans le tableau ci-dessous.
Solution
Source : exemple
1 k 1980
Q = ∑ n i x 2i =
2
= 26.4
n i=1 75 (m2)
Exercice 8
Le taux de variation du CA d’une entreprise pendant une année (12 mois) est résumé dans
le tableau suivant :
Taux de variation du CA
Mois M1 M2 M3 M4 M5 M6 M7 du M8 au M12
Taux de 2%
3% 3% 5% 5% 5% -1% -1%
variation % (sur 5 mois)
Source : exemple
Solution
Dans cet exercice, il faut utiliser la moyenne géométrique. Suivant la même méthode qui a
été utilisée dans les exercices précédents, le taux de variation du CA de l'entreprise entre le
mois 12 (M12) et le mois M0 (le mois de décembre de l’année précédente) est égal à :
Bonus ! En remplaçant 2% pour le mois 8, 9, 10, 11 et 12 par 4%, nous trouverons que ce
taux de variation est égal à 3.23%.
Indicateurs statistiques 63
Exercice 9
Dans une entreprise le prix unitaire et la quantité renseignés dans des factures d’achat d’un
produit sont résumés dans le tableau ci-dessous :
Prix unitaire en Dhs et quantité achetée d’un produit
N° facture 1 2 3 4 Total
Prix unitaire (xi) 5.00 7.00 4.45 5.5 --
Quantité 1000 1250 800 950 4000
Source : exemple
Solution
Prix unitaire en Dhs et quantité achetée d’un produit
N° facture 1 2 3 4 Total
Prix unitaire (xi) 5.00 7.00 4.45 5.5 --
Quantité 1000 1250 800 950 4000
Montant de la facture (ni) 5000 8750 3560 5225 22535
Source : exemple
Exercice 10
Nous disposons de la répartition des consommateurs d’un produit Y selon l’âge comme
ci-dessous :
Age Effectif
[ 15 - 20 [ 130
[ 20 - 25 [ 343
[ 25 - 30 [ 107
[ 30 - 35 [ 33
[ 35 - 40 [ 54
Total 667
Source : exemple
Questions :
1. Calculez le mode.
2. Calculez l’écart absolu moyen et interprétez-le.
3. Calculez Q1, Q2, Q3 et interprétez-les.
4. Calculez l’écart interquartile.
5. Calculez la variance et l’écart-type et interprétez ce dernier.
6. Calculez le coefficient de variation.
7. Dessinez la boîte à pattes sachant que le maximum d’âge est de 38 ans, le minimum
d’âge est de 16 ans et on a une seule observation (32 ans) qui se place juste avant
33,5 ans.
Solution
1. Calcul du mode
• Dans ce cas nous sommes face à une répartition des consommateurs selon une
variable continue avec dans amplitudes égales, ainsi nous ne procèderons pas au
calcul des densités d’effectifs ou des densités des fréquences.
Indicateurs statistiques 65
• La classe modale est [ 20 - 25 [qui correspond au plus grand effectif (ni) qui est égal
à 343.
" (343−130) %
Mo = 20 + $ '× 5
# (343−130) + (343−107) &
la classe xi
[ 15 - 20 [ 130 17,5 2275,0 6,54 850,2 5560.31
[ 20 - 25 [ 343 22,5 7717,5 1,54 528,22 813.46
[ 25 - 30 [ 107 27,5 2942,5 3,46 370,22 1280.96
[ 30 - 35 [ 33 32,5 1072,5 8,46 279,18 2361.86
[ 35 - 40 [ 54 37,5 2025,0 13,46 726,84 9783.27
Total 667 -- 16032,5 2754,66 19799.86
Source : exemple
• Il faut tout d’abord calculer la moyenne qui est égale à : 16032.5/667 = 24.04 ans.
Indicateurs statistiques 66
• La moyenne sera ainsi utile pour calculer la valeur absolue de l’écart entre chaque
observation et la moyenne. En appliquant la formule, l’écart absolu moyen est égal à
(2754.66/667) = 4.13 ans
Interprétation : les âges des consommateurs s’écartent en moyenne de 4.13 ans de l'âge
moyen (24.04 ans).
# 25 −19 &
q25 = 20 + %5 × = 20, 57
$ 71−19 (' ans
# 50 −19 &
q50 = 20 + %5 × ( = 22, 98
$ 71−19 ' ans
# 75 − 71&
q75 = 25 + %5 × ( = 26, 25
$ 87 − 71' ans
4. Ecart interquartile :
Q3-Q1 = 26 - 21 = 5 ans
Indicateurs statistiques 67
6. Coefficient de variation
CV= (l’écart type/moyenne) 100 = (5,45 ans/24,04 ans) × 100 = 0,2267 × 100
= 22,67%.
Interprétation : la dispersion de cette variable (âge) peut être considérée comme
importante (Elle dépasse le seuil de 20%).
Exercice 11
Prix ni
[ 50 - 150 [ 10000
[ 150 - 200 [ 22000
[ 200 - 250 [ 47000
[ 250 - 300 [ 29000
[ 300 - 400 [ 54500
[ 400 - 600 [ 36000
[ 600 - 1000 [ 8000
[ 1000 - 2500 [ 500
Total 207000
Source : exemple
1. Interprétez l’effectif de 47000 dans le tableau.
2. Calculez le mode.
Solution
1. 47000 produits ont un prix entre 200 et 250 Dhs.
2. Pour calculer le mode, il faut en premier lieu déterminer la classe modale. Nous
sommes devant un cas avec des amplitudes inégales, dans ce cas nous prendrons en
considération les densités d’effectifs calculées dans la dernière colonne dans le
tableau ci-dessous afin de déterminer la classe modale. Dans la formule de calcul du
mode, nous remplaçons ni par ni /ai.
Répartition des prix d’un échantillon de produits
Prix ni ai xi fi ni /ai
[ 50 - 150 [ 10000 100 100 4,83 100,0
[ 150 - 200 [ 22000 50 175 10,63 440,0
[ 200 - 250 [ 47000 50 225 22,71 940,0
[ 250 - 300 [ 29000 50 275 14,01 580,0
[ 300 - 400 [ 54500 100 350 26,33 545,0
[ 400 - 600 [ 36000 200 500 17,39 180,0
[ 600 - 1000 [ 8000 400 800 3,86 20,0
[ 1000 - 2500 [ 500 1500 1750 0,24 0,3
Total 207000 --- ---- 1,00 --
Indicateurs statistiques 69
Exercice 12
Soit une série statistique qui correspond à la taille de 7 étudiants en cm :
160, 165, 175, 180, 182, 164, 176.
Calculez la médiane.
Solution
o On doit en premier lieu mettre les observations en ordre croissant :
160, 164, 165,175, 176, 180, 182.
o Puisque n = 7 un chiffre impair, n = 2 p + 1 donc p = 3.
Ceci dit : Me = X(p+1)
160, 164, 165, 175, 176, 180, 182.
o La médiane (Me = 175 Dhs).
Remarque :
On peut noter que la médiane ne prend pas en compte toutes les données.
Exercice 13
Soit une série statistique qui correspond aux prix des livres de gestion dans une librairie en
Dhs : 120, 150, 250, 210, 170, 290.
Calculez la médiane.
Indicateurs statistiques 70
Solution
o Si n est pair, soit n = 2 p, (Me) = (x(p) + x(p+1) )/2
o La série en ordre croissant : 120, 150, 170, 210, 250, 290.
o La médiane : Me = X(3) + X(4) )/2 = (170+210)/2 =190 Dhs
Remarque :
Notons que la médiane n’est pas sensible aux valeurs extrêmes de la série statistique qu’elle
résume. Supposant au lieu de 290 Dhs nous avons 2000 Dhs, la valeur de la médiane ne
changera pas.
Exercice 14
On dispose de la répartition d’un échantillon de familles selon le nombre d’enfants
présentée dans le tableau ci-dessous :
Nombre d’enfants Xi ni fi
1 3201 45,80%
2 2498 35,74%
3 919 13,15%
4 241 3,45%
5 130 1,86%
Total 6989 100,00%
Source : exemple
Calculez le mode et la médiane.
o Solution
o Le mode est égal à 1 (n1 est le plus élevé)
o La médiane est égale à 2 (F2(x) > = 50%).
Indicateurs statistiques 71
Exercice 15
On dispose de la répartition du CA de 2000 entreprises présentée dans le tableau
ci-dessous :
Répartition du CA des entreprises
CA en million ni
[ 10 - 20 [ 80
[ 20 - 40 [ 240
[ 40 - 60 [ 320
[ 60 - 70 [ 200
[ 70 - 120 [ 500
[ 120 - 180 [ 280
[ 180 - 300 [ 380
Total 2000
Source : exemple
Questions :
1. Calculez la moyenne.
2. Calculez le mode.
3. Calculez la médiane.
4. Comment est la forme de la distribution de la variable « CA des entreprises » ?
5. Calculez q10, q25, q71, q75, q90 et interprétez-les.
6. Calculez la variance, l’écart-type et le coefficient de variation.
Solution
1. Calculez la moyenne
Répartition du CA des entreprises
CA en million ni xi ni *xi
[ 10 - 20 [ 80 15 1200
[ 20 - 40 [ 240 30 7200
[ 40 - 60 [ 320 50 16000
[ 60 - 70 [ 200 65 13000
[ 70 - 120 [ 500 95 47500
[ 120 - 180 [ 280 150 42000
[ 180 - 300 [ 380 240 91200
Total 2000 --- 218100
Indicateurs statistiques 72
2. Calculez le mode
CA en million ni ai ni /ai
[ 10 - 20 [ 80 10 8,0
[ 20 - 40 [ 240 20 12,0
[ 40 - 60 [ 320 20 16,0
[ 60 - 70 [ 200 10 20,0
[ 70 - 120 [ 500 50 10,0
[ 120 - 180 [ 280 60 4,7
[ 180 - 300 [ 380 120 3,2
Total 2000 --
⎛ (20 −16) ⎞
Mo = 60 + ⎜ ⎟ × 10 = 62.86 Mdhs
⎝ (20 −16)+ (20 −10) ⎠
3. Calculez la médiane
CA en million ni ai fi Fi
[ 10 - 20 [ 80 10 4% 4%
[ 20 - 40 [ 240 20 12% 16%
[ 40 - 60 [ 320 20 16% 32%
[ 60 - 70 [ 200 10 10% 42%
[ 70 - 120 [ 500 50 25% 67%
[ 120 - 180 [ 280 60 14% 81%
[ 180 - 300 [ 380 120 19% 100%
Total 2000 100% --
é 50 - 42 ù
Me = 70 + ê 50 ´ = 86
ë 67 - 42 ú
û MDhs
(*) Q1 ou q25 :
é 25 - 16 ù
q25 = 40 + ê 20 ´ = 51,25
ë 32 - 16 úû Mdhs
25% des entreprises ont une valeur du CA inférieure à 51,25 MDhs, ou bien 75% des
entreprises ont une valeur du CA supérieure ou égale à 51,25 MDhs.
(*) D1 ou q10 :
é 10 - 4 ù
q10 = 20 + ê 20 ´ = 30
ë 16 - 4 ú
û Mdhs
(*) Q3 ou q75 :
é 75 - 67 ù
q75 = 120 + ê 60 ´ = 154,28
ë 81 - 67 ú
û Mdhs
Exercice 16 :
On dispose du salaire initial de 12 agents de sécurité en Dhs comme ci-dessous :
3310 3355 3450 3480 3480 3490 3520 3540 3550 3650
3730 3925
1. Calculez la médiane.
2. Calculez Q1 et Q3.
3. Dessinez la boîte à pattes.
4. Calculez le coefficient interquartile relatif.
5. Calculez le coefficient interdécile relatif.
6. Calculez l’écart absolu moyen et interprétez-le.
7. Calculez l’écart relatif moyen.
8. Calculez la variance
9. Calculez l’écart-type.
10. Calculez le coefficient de variation.
Solution
1. La médiane
Me = Q2 = (3490 +3520)/2 = 3505 Dhs
2. Q1 et Q3
On prend on considération la procédure introduite dans le chapitre :
Q1= (3450 +3480)/2 = 3465 Dhs
Q3= (3550 +3650)/2 = 3600 Dhs
Indicateurs statistiques 75
3. La boîte à pattes
Xi 3310 3355 3450 3480 3480 3490 3520 3540 3550 3650 3730 3925
Moyenne 3540 3540 3540 3540 3540 3540 3540 3540 3540 3540 3540 3540
Ecart -230 -185 -90 -60 -60 -50 -20 0 10 110 190 385
Ecart absolu 230 185 90 60 60 50 20 0 10 110 190 385
8. Calculez la variance
å (x - x )
n
2
i
301850
S2 = i =1
= = 25154,16
n 12 (Dhs)2
158,60
CV x = = 0,044
3540 ou bien 4,4%
Exercice 17
On dispose de la répartition des salariés d'une entreprise X selon le salaire mensuel. Le
tableau ci-dessous représente les fréquences cumulées des salariés et les fréquences
cumulées de la masse salariale.
Répartition des salariés d'une entreprise X selon le salaire mensuel
Solution
1. 10% des salariés qui reçoivent un salaire inférieur à 3500 Dhs se partagent 5% de la
masse salariale.
2. 78% des salariés qui reçoivent un salaire inférieur à 5000 Dhs se partagent 58% de
la masse salariale.
3. La médiane : 4000 + (500 × (50-30) / (55-30)) = 4400 Dhs.
4. La médiale : 4500 + (500 × (50-35) / (58-35)) = 4826 Dhs.
Interprétation : 4826 Dhs est la plus petite valeur telle que les salariés ayant un
salaire inférieur ou égal à cette valeur se partagent 50% de la masse salariale. Ou
bien 50% de la masse salariale (Budget destiné pour les salaires) est destinée pour
les employés qui ont un salaire supérieur ou égal à 4826 Dhs.
Exercice 18
On dispose de la répartition des exploitations agricoles selon la surface en hectares comme
dans le tableau ci-dessous :
Répartition des exploitations agricoles selon la surface en hectares
Surface en ha Effectif ni
[ 0 - 10 [ 500
[ 10 - 20 [ 1000
[ 20 - 30 [ 500
[ 30 - 40 [ 400
[ 40 - 60 [ 400
[ 60 - 80 [ 200
Total 3000
Source : exemple
Calculez l’indice de Gini et interprétez-le.
Indicateurs statistiques 78
Solution
Source : exemple
Nous rappelons la formule de calcul :
n
I G = 1− ∑ fi (F 'i + F 'i−1 )
i=1
Dans ce cas :
IG = 1 - 0,618 = 0,382
Interprétation :
La répartition de la superficie totale des exploitations agricoles tend à être égalitaire.
Exercice 19
On dispose de la répartition des entreprises selon le nombre de salariés comme dans le
tableau ci-dessous :
Répartition des entreprises selon le nombre de salariés
Nombre de salariés ni
[0-5[ 160
[ 5 - 20 [ 250
[ 20 - 50 [ 50
[ 50 - 100 [ 18
[ 100 - 200 [ 15
[ 200 -500 [ 5
[500 -1000 [ 2
Total 500
Source : exemple
Indicateurs statistiques 79
Solution
1. 160 entreprises ont moins de 5 salariés et 250 entreprises ont un nombre de
salariés entre 5 et 19 employés.
2. L’indice de Gini et son interprétation.
n
I G = 1 - å f i ( Fi' + Fi'-1 ) = 1 - 0,342 = 0,658
i =1
Interprétation :
Une concentration importante de la distribution des salariés au profit des petites entreprises.
La distribution des salariés tend vers l'inégalité.
Remarque :
o On peut dessiner la courbe de Lorenz (courbe de concentration) en prenant en
considération les points M (Fi, F'i).
o Les Fi sont représentées dans la cinquième colonne et F'i dans la septième colonne
dans le tableau ci-dessus.
Indicateurs statistiques 80
Exercice 20
On dispose de la répartition d’un échantillon d’entreprises selon le CA dans le tableau
ci-dessous :
Répartition des entreprises selon le CA
CA en million ni
[ 10 - 20 [ 80
[ 20 - 40 [ 240
[ 40 - 60 [ 320
[ 60 - 70 [ 200
[ 70 - 120 [ 500
[ 120 - 180 [ 280
[ 180 - 300 [ 380
Total 2000
Source : exemple
1. Calculez l’indice de Gini
2. Interprétez le résultat.
Solution
Chapitre 4.
Statistique descriptive bivariée
Chapitre 4.
Statistique descriptive bivariée
L’analyse d’une série bivariée consiste à étudier une série d'observations ou une série
statistique selon deux variables, d’où le concept de croisement de variables statistiques.
5
Il est important de souligner qu’un lien ne signifie pas une relation de cause à effet.
Statistique bivariée 83
2. Distribution conjointe
La répartition de toutes les observations (n) est appelée la distribution conjointe. On peut
noter que l’effectif nij est le nombre d’individus statistiques qui représente à la fois la
modalité Xi et la modalité Yj.
Les nij, tel que i=1,…,m et j=1,…n, représentent ainsi une distribution observée conjointe
du couple (X,Y), qui peut être notée :
{(xi, yj, nij , i =1,…m, j =1,…,n)} ;
tel que le total des observations est la somme des nij.
Les nij sont nommés les effectifs d’intersection.
Dans un tableau de contingence, si on calcule le total des colonnes, on obtient les effectifs :
n.1, n.2,…, n.j,…,n.n qui constituent la distribution marginale de la variable Y.
6
On peut noter m, n ou a, b…peu importe la notation, l’important est de la définir.
Statistique bivariée 84
De même, si on calcule le total des lignes, on obtient : n1. ,n2. ,…,ni. ,…, nm et qui constituent
la distribution marginale de la variable X.
Les deux distributions sont illustrées dans le tableau ci-dessous :
) ,
Ces deux distributions sont illustrées respectivement dans les deux tableaux ci-dessous :
7
On peut ainsi calculer les indicateurs de tendance centrale et de position, et les indicateurs de dispersion introduits
dans le chapitre précédent.
Statistique bivariée 86
On peut souligner que dans un tableau de contingence, au lieu des effectifs, nous pouvons
avoir des fréquences. Nous définirons ainsi les fréquences marginales, les fréquences
conditionnelles et les fréquences conjointes.
Statistique bivariée 87
Soit, une distribution conjointe {(xi, yj, nij , i =1,…m, j =1,…,n)}, pour i fixé entre 1 et m et j
fixé entre 1 et n, la fréquence conjointe est égale à : fij = nij / n..
Pour i fixé entre 1 et m, la fréquence marginale colonne est égale à (fi. = ni. / n..). Si on
calcule pour toutes les colonnes les fréquences nij/n.j tel que j =1,…,n ; on obtient les profils
colonnes des individus statistiques.
Pour j fixé entre 1 et n, la fréquence marginale ligne est égale à (f.j = n.j / n..). Si on calcule
pour toutes les lignes les fréquences nij/ni. tel que i =1…m ; on obtient les profils lignes des
individus statistiques.
Les profils lignes et les profils colonnes nous permettent de visualiser les fréquences
conditionnelles que nous introduirons dans la section suivante.
Pour k fixé entre 1 et m et l fixé entre 1 et n, la fréquence conditionnelle ligne est égale à :
(fj=l/i=k = nkl / nk.)
Etablir les profils lignes consiste de ce fait à calculer toutes ces fréquences.
Pour k fixé entre 1 et m et l fixé entre 1 et n, la fréquence conditionnelle colonne est égale
à : (fi=k/j=l = nkl / n.l)
Etablir les profils colonnes consiste à calculer toutes ces fréquences.
Statistique bivariée 88
Pour répondre à la première question, les données statistiques peuvent être présentées sous
forme d’un graphique, et plus précisément sous forme d’un nuage de point, car ce dernier :
o permet de voir si les deux variables ont globalement tendance à covarier, ou non
dans le même sens.
o permet de déterminer si les deux variables sont liées par une relation de dépendance
et d’identifier la forme de la relation quand elle existe.
En fait, un nuage de points est une présentation graphique de la relation entre deux
variables quantitatives, qui peut être traversée par la tendance, qui est une droite qui fournit
une approximation de la relation. Il permet donc d’infirmer ou confirmer « l’intuition » de
dépendance.
Dans le cas contraire, on peut déduire qu’il y a une forte présomption de dépendance entre
les deux variables.En prenant en considération ces deux définitions de l’indépendance,
nous pouvons souligner qu’elles sont applicables pour tous les types de variables,
puisqu’elles ne tiennent pas compte des modalités.
Maintenant, la question qui se pose est la suivante : quel est le moyen de quantifier les
écarts entre la situation théorique d’indépendance et la situation réelle ?
On peut répondre à cette question en introduisant l’indice de spécificité.
8. Indice de spécificité
Un indice de spécificité est égal au rapport entre la fréquence conditionnelle ligne (colonne)
et la fréquence marginale ligne (colonne) correspondante. Il est applicable, peu importe le
type des deux variables.
Statistique bivariée 90
Si cet indice :
• dépasse 100%, nous pouvons noter que par rapport à l’ensemble des unités
statistiques, il y a une surreprésentation d’un pourcentage p, qui représente un
dépassement.
• est moins de 100%, nous pouvons noter que par rapport à l’ensemble des unités
statistiques, il y a une sous-représentation d’un pourcentage p, qui sera déduit suite à
un calcul simple pour aboutir à 100%.
Lors d’un croisement de deux variables, on a souligné trois cas. Si les deux variables sont
quantitatives, on peut calculer bien évidemment des indicateurs comme la moyenne et
l’écart-type.
9. Covariance
A quoi sert la covariance ? La covariance sert tout simplement à quantifier la variabilité
conjointe de deux variables quantitatives, à titre d’exemple X et Y.
Dans un nuage de points qui est limité par deux droites qui passent par le centre de gravité
5, 7
qu’on note G(4 5), nous pouvons noter les cas suivants :
§ X et Y ont tendance à covarier dans le même sens, c’est-à-dire, qu’une augmentation
de X a tendance à s’accompagner d’une augmentation de Y par exemple (voir le
nuage de points A dans le schéma suivant).
§ X et Y ont tendance à covarier en sens contraire, c’est-à-dire, une augmentation de X
a tendance à s’accompagner d’une diminution de Y par exemple (voir le nuage de
points B dans le schéma suivant).
De ces deux cas, on peut comprendre l’idée derrière l’utilité de la covariance qui représente
un indicateur qui mesure la variabilité conjointe de deux variables.
Statistique bivariée 91
Pour le nuage de points C dans le schéma ci-dessous, il est de forme circulaire. Il est ainsi
difficile de dire si les deux variables covarient dans le même sens ou dans des sens inverses.
Néanmoins, on ne peut pas conclure de manière définitive l’indépendance entre les deux
variables, il n’est donc pas totalement exclu que les variables soient dépendantes.
Nous pouvons facilement déduire que la >?@ (x, x) = BCD (x ) et que >?@ (y, y) =
BCD (y).
Nous pouvons introduire une autre formule de calcul de la covariance qui est plus
économique en temps de calcul que la formule précédente.
Cette formule est la moyenne du produit XY moins le produit des moyennes de X et de Y :
"
+
!"# (&, () = -(&! (! ) − &/ (
/ = 0000
&( − /
&(/
,
!#$
Dans le cas d’une covariance positive, la plupart des points se trouvent dans le cadran I et
III. Comme dans le graphique ci-dessous où l'on peut remarquer une tendance linéaire8.
8
Nous pouvons aussi avoir une covariance positive avec une tendance exponentielle ou puissance par exemple.
Statistique bivariée 93
Si la covariance est négative, la plupart des points se trouvent dans le cadran II et IV,
comme dans le graphique ci-dessous :
Si les points du nuage se répartissent équitablement dans les quatre cadrans comme dans le
graphique ci-dessous, la covariance est nulle ou presque nulle.
* s’il n’y a pas de tendance croissante ou décroissance alors la covariance est nulle ou
presque nulle.
Il est important de souligner qu’une covariance nulle n’implique pas l’indépendance, mais
l’indépendance implique une covariance nulle.
Ce constat peut être prouvé en prenant en considération les deux nuages de points
ci-dessous où la covariance est nulle. Le nuage de points à droite illustre deux variables qui
peuvent être liées par une relation fonctionnelle, et celui de gauche illustre deux variables
qui sont indépendantes. Il faut ainsi distinguer entre le concept d’indépendance et la
covariance.
Notons que la covariance d’un couple de variables (X,Y) intervient dans la variance de la
somme de ces deux variables et dans la variance de leur différence, puisque nous pouvons
démontrer que :
:CD (4 + 7) = @CD (G) + @CD (H) + I J?@ (G, H)
:CD (4 − 7) = @CD (G) + @CD (H) − I J?@ (G, H)
Ainsi, si les deux variables sont indépendantes, la covariance est nulle, et par conséquent :
Comme pour la variance, la valeur numérique de la covariance dépend des unités, par
contre la corrélation en est indépendante.
10. Corrélation
Soit (X,Y) un couple de variables quantitatives, d’écarts types respectifs s xs y , le
Cov ( x , y )
r=
s xs y
Le coefficient de corrélation est aussi nommé, la corrélation tout simplement, ou le
coefficient de corrélation de Bravais-Pearson.
En résumé
* La covariance nous permet de savoir si les deux variables varient dans le même sens
ou en sens inverse. Sa valeur n’est pas importante lors de l’interprétation, vu que
c’est le signe qui est important et qu’on peut interpréter.
Statistique bivariée 96
* La corrélation est une mesure de l’intensité du lien linéaire entre deux variables
quantitatives, utilisée pour calculer le coefficient de détermination.
* Le coefficient de détermination nous permet d’en déduire si la qualité du modèle
linéaire estimée est bonne. Ce coefficient sera introduit dans la section suivante.
2%variables%quantitatives%
Coefficient%de%%
Covariance%% Corrélation%
détermination%%
Modéliser%la%%%%
relation%%
Dans ce dernier schéma, nous pouvons noter la modélisation de la relation entre deux
variables qui sera introduite dans le chapitre 5. Dans ce dernier, nous introduirons la
régression et plus précisément la régression linéaire simple, puisque nous allons nous
limiter à une relation linéaire entre deux variables. Notons que la régression linéaire
multiple existe et elle concerne la relation entre une variable dépendante et plusieurs
variables indépendantes.
NB. Les exercices corrigés de ce chapitre sont inclus avec ceux du chapitre 5.
Régression linéaire simple 98
Chapitre 5.
Régression linéaire simple
Méthodes d’ajustement
1. Méthode des Moindres Carrées Ordinaires MCO
2. Méthode des moyennes de Mayer
3. Méthode des points extrêmes
4. Méthode graphique
Exercices corrigés
Régression linéaire simple 99
Chapitre 5.
Régression linéaire simple
Coefficient%de%%
Covariance%% Corrélation%
détermination%%
Modéliser%la%%%%
relation%%
Estimation:% Méthodes%%%%%%%%%%
Prévisions%
Régression% d’ajustement%%
Ceci dit, pour modéliser une relation, nous pouvons utiliser la régression et estimer le
modèle de régression par des méthodes d’ajustement, en cherchant la meilleure relation
entre deux variables, c’est-à-dire la courbe qui passe le plus proche du nuage de points.
L’équation estimée de la régression peut être ainsi utilisée pour faire des prévisions. Dans
ce chapitre, nous introduirons les méthodes d’ajustement et nous nous concentrerons sur la
méthode des Moindres Carrées Ordinaires MCO, qui est la plus répandue.
• Méthodes d’ajustement
Nous introduirons quatre méthodes d’ajustement et nous commencerons par la méthode des
MCO.
Régression linéaire simple 100
La méthode des MCO est une procédure qui permet d’utiliser les données de l’échantillon
pour estimer l’équation de régression linéaire : K = LM + N.
O = P/ 4 + Q/ issue d’un
L’équation estimée de la régression linéaire est ainsi notée 7
modèle de régression linéaire 7 = P4 + Q + ℇ , tel que ℇ est une variable aléatoire qui
représente l’erreur, le résidu ou la différence entre la valeur observée et la valeur estimée.
Notons que :
!"#(%,')
o « a » est la pente telle que a =
)*+(%)
200
150
100
50
0
0 2 4 6 8 10 12 14 16 18 20 22 24 26 28
La méthode des MCO fournit ainsi une équation estimée de la régression qui minimise la
somme des écarts au carré entre les valeurs observées y- et les valeurs estimées yU- de la
variable dépendante. C’est-à-dire elle minimise : ∑1-&" (y- − yU- )0
Pourquoi les écarts au carré et non pas les écarts tout simplement ?
Parce que l’épaisseur du nuage représente la dispersion des observations, et dans ce cas en
faisant référence à la dispersion, nous mettons en exergue et nous utilisons la variance qui
est un indicateur de dispersion absolue.
Ceci dit, on prend en considération la variance du terme d’erreur (ou du résidu). Ainsi, nous
pouvons noter que la méthode des MCO minimise la variance s e2 , telle que la moyenne des
En d’autres termes, la méthode des MCO minimise la variance des résidus qui est égale à
$
s e2 = ∑"!#$ ((! − (
2! )% telle que KU$ est la valeur estimée de yi. Notons que la
"
$
variance de la variable Y, est égale à s y2 = ∑"!#$((! − (
/)% ; nous pouvons démontrer
"
$
que s y2 = s e2 + s exp
2
liquée tel que s expliquée =
2
∑"!#$ (( / )% .
2! − (
"
Ceci dit, plus les points s’ajustent sur la droite, plus la variance résiduelle (nommée aussi la
variance non expliquée) devient faible, et la variance expliquée est importante.
Notons que plus ce coefficient est proche de 1, plus la variance expliquée est grande et la
variance résiduelle est faible, donc plus la qualité du modèle estimé est bonne.
Régression linéaire simple 102
De r2 nous pouvons déduire r qui représente la corrélation. Mais la question qui peut être
posée est la suivante : Comment reconnaître le signe de la corrélation ?
Ci-dessous un schéma qui nous donne un aperçu sur trois types de régression, avec leur
fonction avant et après avoir pris le logarithme népérien pour transformer les deux
variables X et Y en X* et Y*. Cette transformation a pour objectif d’aboutir à une équation
linéaire pour pouvoir appliquer la méthode des MCO.
Nous aborderons dans ce qui suit d’autres méthodes d’ajustement dans le cas d’une
régression linéaire simple, à savoir la méthode des moyennes de Mayer, la méthode des
points extrêmes et la méthode graphique.
Cette méthode consiste à diviser une série en deux groupes égaux et calculer les points
moyens ou de gravité G1 ( X 1 , Y1 ) et G2 ( X 2 , Y 2 ) des deux nuages de points.
Si l’effectif total est impair, on divise la série en deux groupes, en prenant en considération
qu’un groupe aura un effectif plus grand d’une observation par rapport à l’autre.
Par la suite, on peut estimer l’équation de la droite y = ax + b par la résolution des deux
équations :
Y1 = a X 1 +b & Y 2 = a X 2 +b
Cette méthode consiste à tracer une droite qui passe par les points extrêmes de la série. Elle
reste néanmoins une méthode qui n’est pas précise.
4. La méthode graphique
Cette méthode consiste à tracer à main levée une droite qui passe le plus près des points du
nuage. Elle reste aussi une méthode non précise et dépassée.
Régression linéaire simple 104
5. Exercices corrigés
Exercice 1
On dispose de la répartition des consommateurs selon l’âge et la marque du Smartphone
utilisé. Cette répartition est présentée dans le tableau ci-dessous :
Source : exemple
1. Déterminez la distribution marginale de X.
2. Déterminez la distribution marginale de Y.
3. Déterminez les fréquences conditionnelles lignes.
4. Déterminez les fréquences conditionnelles colonnes.
5. Déterminez les fréquences conjointes.
Solution
1. La distribution marginale de X est présentée dans le tableau ci-dessous :
Répartition des victimes selon l'âge
Variable X Effectif
[ 15 - 20 [ 268
[ 20 - 30 [ 781
[ 30 - 40 [ 1895
[ 40 - 50 [ 631
Total 3575
Régression linéaire simple 105
Variable Y Effectif
A 101
B 164
C 403
D 445
E 727
F 1735
Total 3575
On peut noter que la somme des fréquences de chaque ligne est égale à 100% y compris
celle du total.
On peut noter aussi que la somme des fréquences de chaque colonne est égale à 100%, y
compris celle du total.
Régression linéaire simple 106
Exercice 2
On dispose de la répartition d’un échantillon selon l’appréciation pour la vitesse et le genre
dans le tableau ci-dessous :
Répartition de l’appréciation pour la vitesse selon le genre
Source : exemple
Est-ce que l’appréciation pour la vitesse est liée au genre ?
Solution
En appliquant la définition de l’indépendance entre deux variables, on calcule les
fréquences conditionnelles colonnes :
Les fréquences conditionnelles colonnes des hommes sont différentes des fréquences
conditionnelles colonnes des femmes et du total.
Ceci dit, il y a une présomption de dépendance entre les deux variables. On suppose ainsi
qu’un lien existe entre les deux variables. On ne peut être sure qu’on utilisant la loi de
Khi-deux.
NB. Si on avait obtenu des fréquences conditionnelles colonnes identiques comme dans le
tableau ci-dessous, on pourrait déduire que les deux variables sont indépendantes.
Exercice 3
On dispose de la répartition du montant des ventes d’un produit en milliers de Dhs selon le
nombre de spots publicitaires, comme ci-dessous :
Solution :
1. Représentez graphiquement les données
160
Montant
140
120
100
80
60
40
20
0
0 1 2 3 4 5 6 7 8
Nombre de spots publicitaires
3. Calculez la corrélation
Pour calculer la corrélation, on utilise sa formule :
Cov ( x , y )
r=
s xs y
Il faut ainsi calculer la covariance et l’écart-type de la variable X et de la variable Y.
On peut utiliser l’une des deux formules pour calculer la covariance :
$
(1) 456 (7, 8) = ∑&'#$(7 ' 8' ) − 70 80 = 0000
7 8 − 70 80
&
$
(2) 456 (7, 8) = ∑&'#$(7 ' − 70) (8' − 80)
&
Régression linéaire simple 109
Pour utiliser les deux formules, les calculs intermédiaires sont dans le tableau suivant :
Nombre de spots
1 2 3 4 5 7
publicitaires xi
Ventes yi 29 48 70 90 109 147
xi × yi 29 96 210 360 545 1029
#)
(!! − ! -2,67 -1,67 -0,67 0,33 1,33 3,33
#)
(%! − % -53,17 -34,17 -12,17 7,83 26,83 64,83
#)×(%! − %
(!! − ! #) 141,96 57,06 8,15 2,58 35,68 215,88
#) 2
(!! − ! 7.13 2.79 0.45 0.11 1.77 11.09
(%! − %#)2 2827.05 1167.59 148.11 61.31 719.85 4202.93
Ainsi :
o xS = 3,67
o yS = 82,17
o SSS
xy = 378,17
o Cov (x,y) = 378,17 – (3,67´82,17) = 76,60
4. Interprétation de la covariance
X et Y ont tendance à covarier dans le même sens.
Exercice 4
On dispose de la répartition des ventes d’un magasin en milliers de Dhs selon le nombre de
spots publicitaires lancé pendant dix semaines dans le tableau ci-dessous :
Source : exemple
1. Calculez la covariance
2. Calculez la corrélation
Solution
Semaine Nombre de spots Volume des /)
(&! − & /)
((! − ( (1) ´ (2)
publicitaires ventes (1) (2)
1 2 50 -1 -1 1
2 5 57 2 6 12
3 1 41 -2 -10 20
4 3 54 0 3 0
5 4 54 1 3 3
6 1 38 -2 -13 26
7 5 63 2 12 24
8 3 48 0 -3 0
9 4 59 1 8 8
10 2 46 -1 -5 5
Total 30 510 -- -- 99
Régression linéaire simple 111
1. La covariance entre x et y :
o xS = 3 (Moyenne de la variable X)
o yS = 51 (Moyenne de la variable Y)
o Cov (x,y) = (99/10) =9,9
Le signe de la covariance est positif, X et Y ont tendance à covarier dans le même sens.
2. Corrélation :
o Var (x) = 2,00 ; ainsi ℴ2 = 1,41
o Var (y) = 56,6 ainsi ℴ3 =7,52
o Ceci dit, la corrélation entre X et Y est : r = (9,9/ (1,41´7, 52)) = 0,93.
Il est important de souligner que nous avons une série statistique bivariée avec n..=10.
Exercice 5
Supposant qu’on dispose de la répartition du rendement de 7 parcelles et de la quantité
d’engrais utilisée dans chacune, présentée dans le tableau ci-dessous :
1 100 45
2 200 52
3 300 53
4 400 70
5 500 68
6 600 69
7 700 81
Source : exemple
Régression linéaire simple 112
Dans cet exercice, l’objectif est de déterminer si les variations du rendement sont
dépendantes de la quantité d’engrais utilisée.
1. Représentez les données par un nuage de points et déduisez le signe de la
covariance.
2. Si un lien existe entre les deux variables, comment peut-on qualifier son intensité ?
3. Modélisez la relation entre X et Y en utilisant la régression linéaire simple avec la
méthode des Moindres Carrés Ordinaires (MCO).
Solution
L’objectif est de déterminer si les variations du rendement sont dépendantes de la quantité
d’engrais utilisée. Ceci dit, le rendement est une variable dépendante ou expliquée et la
quantité d’engrais est une variable indépendante ou explicative.
On peut remarquer que tous les points se trouvent dans les deux cadrans ou le produit
(x- − xS).(y- − yS) est positif, ainsi la covariance est positive, et les deux variables covarient
dans le même sens. Ceci dit, il y a une forte présomption d’un lien positif entre les deux
variables.
2. Si un lien existe entre les deux variables, comment peut-on qualifier son intensité ?
Il faut dans ce cas calculer la corrélation entre les deux variables, pour savoir si la relation
est forte ou faible.
On peut ainsi avoir une équation de régression estimée comme ceci : Y = 0,056 X + 40,17.
On peut cependant utiliser cette équation pour des prévisions en replaçant X par une valeur
et calculer la valeur Y.
Régression linéaire simple 115
Exercice 6
On dispose de la répartition du nombre de pièces et la surface moyenne correspondante
dans 6 logements, résumée dans le tableau ci-dessous :
Source : exemple
Solution
1. Estimez l’équation de régression en utilisant la méthode des MCO.
On utilise la même méthode que les exercices précédents pour calculer « a » et « b » dans
l’équation Y = aX + b.
Dans ce cas, on suppose que plus le nombre de pièces augmente plus la surface moyenne
augmente. Ceci dit, Y est la surface moyenne, elle représente ainsi la variable dépendante et
Exercice 7
On dispose de la répartition de la note moyenne d'un examen et le nombre de jours moyens
de préparation pour cet examen dans le tableau ci-dessous :
Source : exemple
Solution
Nous estimons l’équation de régression Y = aX+b tel que X est le nombre de jours moyen
de préparation et Y est la note moyenne de statistique. X est ainsi la variable indépendante,
tel que le nombre de jours de préparation pour l’examen explique la note (Y).
Exercice 8
On dispose de la répartition d’une population des étudiants et les ventes mensuelles d’une
filiale qui gère des restaurants situés en face des universités, dans le tableau ci-dessous :
Répartition d’une population des étudiants et les ventes mensuelles de dix restaurants
Source : exemple
Solution
1. Calculez la corrélation entre les deux variables et donnez son interprétation :
Pour calculer la corrélation, on utilise sa formule :
Cov ( x , y )
r=
s xs y
Il faut calculer la covariance et l’écart-type de la variable X et de la variable Y. On peut
utiliser l’une des formules suivantes pour calculer la covariance.
$
(1) 456 (7, 8) = ∑&'#$(7 ' 8' ) − 70 80 = 7
0000
8 − 70 80
&
$
(2) 456 (7, 8) = ∑&'#$(7 ' − 70) (8' − 80)
&
Néanmoins, puisque dans cet exercice, nous devons calculer la variance des deux variables,
il est recommandé d’utiliser la formule (2).
o x0 = 14
o y0 = 130
o Cov (x,y) = 284
Le signe de la covariance est positif, X et Y ont tendance à covarier dans le même sens.
Régression linéaire simple 120
2. Estimez l’équation de régression linéaire entre les deux variables en utilisant la méthode
des MCO.
On doit estimer « a » et « b » de l’équation linéaire Y= aX+b, tel que :
Cov(x, y) 284
a= = =5
Var(x) 56,8
&
b = y − ax = 130 − (14 × 5) = 60
On peut ainsi avoir une équation de régression linéaire estimée comme ceci : Y=5 X + 60.
4. Estimez les ventes mensuelles dans le cas de 2000 étudiants, 6000 étudiants, et 22 000
étudiants :
o Pour 2000 étudiants, les ventes estimées sont de 70 000 Dhs, soit une erreur
d’estimation de 12,000 Dhs.
o Pour 6000 étudiants, les ventes estimées sont de 90 000 Dhs..
o Pour 22000 étudiants, les ventes estimées sont de 170 000 Dhs.
Chapitre 6.
Séries chronologiques
Chapitre 6.
Séries chronologiques
L’un des objectifs de la statistique est de comparer et mesurer l’évolution des données pour
créer de l’information et prendre des décisions. Mesurer l’évolution des données, consiste à
une comparaison qui porte sur la même variable statistique saisie à des dates différentes,
d’où l’analyse des séries chronologiques.
Une série chronologique décrit l’évolution d’un phénomène dans le temps. Elle est aussi
nommée série temporelle ou chronique.
En fait, l’analyse des séries chronologiques est fondée sur l’existence d’un lien de
corrélation entre la variable quantitative étudiée et le temps.
Cette analyse a pour objectif de décrire et prévoir un phénomène qui évolue dans le temps,
d’interpréter son évolution et de faire des prévisions.
Une série chronologique est une suite d’observations chiffrées d’une variable quantitative
Y, ordonnées dans le temps t. La valeur prise par la variable Y à la date t est notée yt.
Notons qu’en économie et en gestion les dates d’observations sont souvent équidistantes et
ordonnées dans le temps (jours, mois, trimestres, années) et sont représentées, par des
entiers naturels non nuls de 1 à n.
Une série chronologique peut être décomposée en plusieurs mouvements, afin de disposer
d’un outil pertinent pour analyser son évolution.
Séries chronologiques 124
On peut souligner que ces deux dernières composantes ne sont pas toujours distinguables10.
Les fluctuations cycliques sont souvent intégrées à la tendance et ne sont pas étudiées
indépendamment du trend.
9
Cette décomposition a été proposée par le statisticien Warren Person en 1919.
10
Pour pouvoir distinguer la tendance des fluctuations cycliques, il faut disposer de la série brute sur une très longue
période. Il est généralement très difficile de dissocier les deux.
Séries chronologiques 125
Notons que ces quatre composantes ne sont pas nécessairement présentes dans tous les cas
et leur existence peut notamment dépendre de l’intervalle de temps entre deux dates
d’observation successives.
Dans le graphique ci-dessous, nous illustrons les trois composantes (ft , St , ℇt).
Le mouvement saisonnier
Tendance
Variations accidentelles
Yt : variable observée
Saison
Temps (t)
En prenant en considération ces trois composantes, nous pouvons nous intéresser à leur
mode de composition. Trois types de situations coexistent :
Ce modèle est aussi appelé modèle multiplicatif complet. Il s’agit d’un modèle où la
tendance, la composante saisonnière et les variations accidentelles forment une
combinaison multiplicative.
Avant toute analyse, les données d’une série chronologique doivent être représentées par
une courbe exprimant une continuité de l’évolution de la variable étudiée. Ainsi, dans un
graphique, les points sont reliés par des segments pour traduire la chronologie. Le temps est
en général noté t et prend comme valeurs 1, 2…,n lorsqu’on dispose de n périodes, et les
modalités de la variable étudiée sont notées yt.
D’un tableau de contingence avec n lignes et p colonnes, nous pouvons représenter les
données d’une série chronologique sous plusieurs formes, comme dans le tableau
ci-dessous :
t yt
1 y1
2 y2
3 y3
n yn
Séries chronologiques 127
Exemple 1
Nous disposons dans le tableau ci-dessous de la répartition trimestrielle des ventes d’un
produit durant 3 années.
Cette série chronologique peut être représentée par plusieurs types de graphiques, comme
illustrés plus bas.
Avant de représenter ces données sous forme de graphique, nous pouvons les représenter
sous forme d’un tableau qui sera composé de n lignes tel que n =12, comme ci-dessous :
460 460
450
450
442
440 430 438
430 432 430 430
424
420 418
416
410
408
400
0 1 2 3 4 5 6 7 8 9 10 11 12 13
Source : exemple
Représentation superposée des données (Chronogramme parallèle) :
470
460 460
450 442 450
438
440 430
430
430 424 430
418
420
410 420 416
400 408
390
380
1er trimestre 2ème trimestre 3ème trimestre 4ème trimestre
Source : exemple
illustré ci-dessous.
Représentation des données dans un graphique « Radar » :
1er trimestre
3ème trimestre
Source : exemple
On peut noter qu’il existe trois méthodes pour choisir le modèle de décomposition d'une
série chronologique. Parmi celles-ci, deux méthodes sont graphiques et une méthode est
analytique. La méthode analytique est plus fiable, puisque les interprétations qu’on peut
déduire suite aux méthodes graphiques sont parfois imprécises ou approximatives.
Cette méthode graphique consiste à tracer deux droites, une qui passe le plus près par les
minimums et une qui passe le plus près par les maximums. Nous pouvons ainsi avoir deux
cas :
o Le cas où les deux droites sont à peu près parallèles, ce qui signifie que l’amplitude
des variations saisonnières reste plus au moins constante, et dans ce cas notre
modèle peut être un additif.
Séries chronologiques 130
o Sinon, les deux droites ne sont pas parallèles, et dans ce cas notre modèle peut être
un multiplicatif.
Ci-dessous nous avons respectivement un graphique qui représente un modèle additif, suivi
d’un autre qui représente un modèle multiplicatif.
Modèle additif
200
Les valeurs de la série statistique
150
Tendance
100
0
1
im e 2
im e 4
im e 2
4
Tr tre
Tr tre
Tr tre
Tr tre
Tr tre
Tr tre
Tr tre
Tr tre
Tr tre
Tr tre
Tr tre
Tr tre
t re
r
r
t
t
es
es
es
es
es
es
es
es
es
es
es
es
es
es
es
es
im
im
im
im
im
im
im
im
im
im
im
im
im
Tr
Tr
Tr
Tr
Source : élaboré pour illustration.
Modèle multiplicatif
200
150
100
50
0
1
im e 3
4
Tr tre
Tr tre
Tr tre
Tr tre
Tr tre
Tr tre
Tr tre
Tr tre
Tr tre
Tr tre
Tr tre
Tr tre
Tr tre
Tr tre
t re
t r
es
es
es
es
es
es
es
es
es
es
es
es
es
es
es
es
im
im
im
im
im
im
im
im
im
im
im
im
im
im
im
Tr
Tr
470
460 460
450 442 450
438
440 430
430
430 424 430
418
420
410 420 416
400 408
390
380
1er trimestre 2ème trimestre 3ème trimestre 4ème trimestre
2021 2022 2023
Source : exemple
7.3 Méthode de Buys et Ballot
Exemple 2
On considère dans le tableau ci-dessous une répartition du Chiffre d’Affaires (CA)
trimestriel d’une entreprise X en milliers de Dirhams, pendant quatre ans :
Afin d’utiliser la méthode de Buys et Ballot, nous devons en premier lieu calculer la
moyenne et l’écart-type qui correspond à chaque période.
Source : exemple
En utilisant la méthode des MCO nous obtenons a = 0.0162 qui est proche de 0. Nous
pouvons donc déduire que le modèle est additif.
Séries chronologiques 133
4.40
4.20 y = 0.0162 x + 1.5486
4.00 R² = 0.59271
3.80
Ecart type
3.60
3.40
3.20
3.00
100 110 120 130 140 150
Moyenne
Ce résultat peut être confirmé par une méthode graphique, telle que la méthode de la bande.
En traçant deux droites, l’une qui passe le plus près par les minimums et l’autre par les
maximums, nous pouvons remarquer qu’elles sont parallèles, comme dans le graphique
ci-dessous :
200
180
160
153 150
146
140 140 143
137
133 130
129 126
122
120 119
116 110 114
108
100
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
L’analyse d’une série chronologique consiste à isoler ses trois composantes afin de les
étudier. En d’autres termes, cette analyse se fonde sur la décomposition de l’évolution
d’une variable en plusieurs composantes.
Notons qu’une représentation graphique est parfois nécessaire afin d’avoir une idée sur les
composantes d’une série chronologique, pour l’analyser par la suite.
L’analyse d’une série chronologique porte dans un premier temps, sur la détermination de
la tendance, suivie d’une analyse de la composante saisonnière et par la suite de la
détermination de la composante résiduelle. Avant d’expliciter ces trois étapes, notons deux
concepts intéressants qui sont le « lissage » et le « filtrage ».
• Le lissage d’une série chronologique est une transformation qui limite l’amplitude
des oscillations de toutes ses composantes, y compris celles qui ne sont pas
périodiques. Ceci dit, le lissage permet d’éliminer ou d’amortir les mouvements
cycliques, saisonniers et accidentels.
Notons que la méthode des moyennes mobiles (une méthode qui sera détaillée plus
bas) lisse toujours une série chronologique, quel que soit l’ordre des moyennes.
• Le filtrage d’une série chronologique est une transformation qui a pour but
d’éliminer totalement les fluctuations périodiques sans avoir, à la mesure du
possible, une influence sur les composantes non périodiques de la série.
Comme pour le lissage, la méthode des moyennes mobiles filtre une série
chronologique, si celle-ci présente un mouvement périodique, de périodicité
constante, et si l’ordre des moyennes est égal à cette périodicité.
Séries chronologiques 135
Comme précisé auparavant, l’analyse d’une série chronologique porte en premier lieu sur
la détermination de la tendance. Cette dernière représente un lissage des « irrégularités ».
Trois méthodes peuvent être utilisées : la méthode graphique, la méthode analytique et la
méthode empirique.
o Méthode graphique
La détermination de la tendance peut être faite selon une approche exploratoire, en utilisant
la méthode des points moyens ou la méthode de Mayer présentée auparavant.
o Méthode analytique
Lorsque nous prenons en considération une série chronologique, nous pouvons noter que la
variable explicative est le temps (t) et la variable expliquée est yt.
Nous pouvons ainsi utiliser la méthode des MCO afin d’estimer une droite qui passera le
plus près possible par l’ensemble des observations. Nous estimons donc « a » et « b » dans
une équation sous forme de : yt = at+b, qui permet d’associer à chaque valeur t une valeur
de la tendance, notée yt.
En outre, « a » et « b » peuvent être estimées selon les deux formules ci-dessous :
Cov(T, Y)
a= vw b = yS − at̅
Var(T)
Application
160
y = 2.7353t + 106.5 153
150
150 R² = 0,8343 146
140
140 133
137 143
129
130 122
126 130
120 116
110 119
114
110
108
100
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
Si les fluctuations de la série autour de la tendance sont trop importantes, on pourra par la
suite les atténuer en utilisant des moyennes adaptées. Ceci dit, nous pouvons diminuer
l’amplitude des oscillations de toutes les composantes de la série, en calculant des
moyennes successives. Pour ce faire, il existe plusieurs méthodes qui sont présentées dans
la section qui aborde les méthodes empiriques.
Attention !
Notons que a = 2.7353 ; ne peut dans aucun cas être utilisé pour conclure que le modèle est
additif puisque a ≠ 0 ! . « a » représente la pente de la droite estimée du lien entre « yt » et
« t », et non pas entre la moyenne est l’écart-type de chaque période. D’autant plus que
dans cette étape, nous analysons la tendance, ceci dit l’application de la méthode de Buys et
Ballot n’a pas de sens dans ce cas.
o Méthodes empiriques
Les méthodes empiriques utilisent les moyennes arithmétiques pour procéder au lissage
d’une série chronologique. Nous pouvons noter la méthode des moyennes échelonnées, la
méthode des moyennes mobiles non centrées et la méthode des moyennes mobiles centrées.
Séries chronologiques 137
Afin de lisser les fluctuations, on peut remplacer des données périodiques par leur moyenne.
Ces moyennes ne subissent pas l’influence des variations saisonnières et ont l’avantage de
minimiser les extrêmes.
La méthode des moyennes échelonnées consiste ainsi à remplacer un certain nombre de
données consécutives par leur moyenne.
Si nous reprenant l’exemple 2, nous pouvons calculer la moyenne échelonnée pour chaque
période, qui représente la moyenne arithmétique de quatre trimestres de chaque année. Le
tableau ci-dessous représente les valeurs des moyennes échelonnées des quatre années.
Par la suite, nous pouvons tracer une droite qui passe par ces moyennes, sachant que
chacune a été affectée en abscisse au milieu correspondant à chaque année, comme dans le
graphique ci-dessous :
160
148
150
140 135
130 124
120 112
110
100
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
Cette méthode est simple à mettre en œuvre, mais elle a l’inconvénient de trop simplifier et
réduire la réalité. Ceci dit, nous perdons beaucoup d’information.
Pour pallier cet inconvénient, la méthode des moyennes mobiles est utilisée pour analyser
et déterminer la tendance d’une série chronologique.
La méthode des moyennes mobiles, non centrées d’ordre p à la date t (MMp(t) nc),
consiste à remplacer une valeur observée yt par la moyenne arithmétique des p valeurs
antérieures.
1 p
Ceci dit : MMp( t )nc = å yt
p t =1
1 p 1 p +1
On remplace ainsi yp par : å t p+1
p t =1
y et y par : å yt et ainsi de suite.
p t =2
Notons que les moyennes mobiles, non centrées « raccourcissent » la série, car aucune
moyenne mobile n’est affectée aux (p-1) premières dates.
Toutes les moyennes mobiles, non centrées d’ordre 4, correspondantes à t = 4,…,16 sont
Séries chronologiques 139
t yt MM4 (t) nc
1 116 --
2 110 --
3 108 --
4 114 112
5 129 115,25
6 122 118,25
7 119 121
8 126 124
9 140 126,75
10 133 129,5
11 130 132,25
12 137 135
13 153 138,25
14 146 141,5
15 143 144,75
16 150 148
Source : exemple
Le graphique ci-dessous nous permet de visualiser en même temps la série de données et le
lissage réalisé par les moyennes mobiles, non centrées d’ordre 4 Pourquoi 4 ? parce que
dans cet exemple nous avons une répartition par trimestre. L’ordre correspond
normalement au nombre de saisons.
160
150 148
144.75
141.5
140 138.25
135
132.25
130 129.5
126.75 MM4 (t) nc
124
120 121
118.25
115.25
112
110
100
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
La méthode des moyennes mobiles centrées, d’ordre p, consiste à remplacer une valeur
observée yt, par la moyenne arithmétique des p valeurs centrées autour de yt.
Une moyenne mobile centrée, d’ordre p à la date t (MMp(t)) est définie en prenant en
considération l’ordre p :
1 k
§ Si p est impair (p = 2k + 1) alors MMp( t ) = å yt + i
p i=- k
Puisque l’ordre est impair, affecter une valeur « t » à une moyenne mobile, centrée d’ordre
3 ou 5…ne pose pas de problème. Mais, que se passe-t-il pour les moyennes mobiles
d’ordre pair comme MM4(t) ?
En suivant la même logique, une moyenne mobile d’ordre p = 4 est calculée en utilisant 4
valeurs, par exemple (y1 + y2 + y3 + y4) / 4. Cette dernière doit être donc affectée à une
valeur « t » médiane qui correspondra à 2.5 mais qui n’existe pas dans la série.
La moyenne mobile calculée avec les quatre valeurs suivantes est égale à (y2 + y3 + y4 + y5)
/ 4. Elle doit être de même affectée à la date médiane de 3.5 et qui ne correspond à aucune
valeur « t » dans la série.
1 y1 + y 2 + y 3 + y 4 y 2 + y 3 + y 4 + y 5 y +y +y +y +y +y +y +y
( + )= 1 2 3 4 2 3 4 5
2 4 4 8
1 1
y1 + y 2 + y 3 + y 4 + y 5
=2 2
4
Ceci dit, pour former la première moyenne mobile, centrée d’ordre 4, on utilise les 5
premières observations dans une moyenne arithmétique pondérée, en affectant aux valeurs
extrêmes (la 1ère valeur et la 5ème valeur) le coefficient ½ et aux 3 valeurs centrales le
coefficient 1. Cette moyenne mobile centrée sera affectée à t = 3.
En général,
1 é k -1 1 1 ù
§ Lorsque p est pair (p = 2k), MMp( t ) = ê å y t + i + y t - k + y t + k ú
p ë i = - k +1 2 2 û
En calculant les MM4, nous pouvons remarquer qu’il manque deux valeurs au début et
deux valeurs à la fin de la série.
En d’autres termes, les moyennes mobiles, centrées « raccourcissent » la série, car aucune
moyenne mobile n’est affectée aux (k) premières dates et (k) dernières dates « t ».
Nous soulignons qu’une série des moyennes mobiles centrées comporte moins
d’observations que la série brute.
Enfin, notons que l’ordre des moyennes mobiles est choisi en prenant en considération la
périodicité des données. A titre d’exemple p=7 pour des données journalières (7j/semaine),
p = 4 pour des données trimestrielles (4 trimestres/année).
Séries chronologiques 142
Application :
Reprenant l’exemple 2,
Répartition du CA trimestriel en milliers de Dirhams
t yt MM3 (t) MM4 (t)
1 116 -- --
2 110 111,33 --
3 108 110,67 113,63
4 114 117,00 116,75
5 129 121,67 119,63
6 122 123,33 122,50
7 119 122,33 125,38
8 126 128,33 128,13
9 140 133,00 130,88
10 133 134,33 133,63
11 130 133,33 136,63
12 137 140,00 139,88
13 153 145,33 143,13
14 146 147,33 146,38
15 143 146,33 --
16 150 -- --
Source : exemple
160
150
140
Données brutes
130
MM3(t)
120 MM4(t)
110
100
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
L’estimation de la tendance par la méthode des moyennes mobiles centrées présente deux
inconvénients :
• Elle ne peut pas donner d’estimation pour les premières et les dernières dates
de la série.
• Si la périodicité du mouvement saisonnier est longue, par exemple 12 mois,
l’obligation de choisir une MM12 pour assurer le filtrage du mouvement
saisonnier entraîne un lissage qui risque d’être excessif.
Un moyen pour pallier ces deux inconvénients est de corriger les variations saisonnières en
utilisant la méthode des écarts saisonniers ou la méthode des rapports saisonniers, selon le
modèle de la série. On obtiendra ainsi, une série Corrigée des Variations Saisonnières CVS,
aussi nommée série désaisonnalisée, en éliminant les influences saisonnières.
La question qui peut être posée est la suivante : Quelles étapes peut-on suivre pour corriger
les variations saisonnières et obtenir une série CVS ?
Nous pouvons noter 6 Etapes qui sont explicitées ci-dessous.
Etape 1
La composante saisonnière st (écart saisonnier ou rapport saisonnier) est une fonction
périodique, déterminée par p coefficients saisonniers qui mesurent l’influence saisonnière,
notés S1, S2, S3…. Sp et qui vérifient que Si = Si+p.
o Dans un modèle additif, la composante saisonnière (écart saisonnier) est calculée
selon la formule suivante : st= yt - ft. Elle représente la différence entre l’observation
et la tendance.
Séries chronologiques 144
Etape 2
On calcule ensuite pour chaque saison, la moyenne arithmétique des écarts saisonniers, ou
des rapports saisonniers correspondant à cette saison (St) qui représente le coefficient
saisonnier.
Ceci dit :
• Dans le cas d’un modèle additif, pour que l’influence des variations
saisonnières soit neutre sur une période, la valeur moyenne des coefficients
saisonniers St doit être nulle, c’est-à-dire :
p
1
∑ Si = 0
p i=1
• Dans le cas d’un modèle multiplicatif, pour que l’influence des variations
saisonnières soit neutre sur une période, la valeur moyenne des coefficients
saisonniers St doit être égale à 1, c’est-à-dire :
p
1
∑ Si = 1
p i=1
Etape 3
Dans cette étape on s’assure du principe de neutralité de l’influence des variations
saisonnières.
Dans le cas d’un modèle additif, on vérifie que la valeur moyenne des coefficients
saisonniers est nulle, et dans le cas d’un modèle multiplicatif on vérifie que la valeur
moyenne des coefficients saisonniers est égale à 1. Si ce n’est pas le cas, on introduit alors
les coefficients saisonniers corrigés S't selon l’étape 4.
Etape 4
Dans le cas d’un modèle additif, on calcule les coefficients saisonniers corrigés S'i tels que
la somme de ces coefficients est égale à 0, c’est-à-dire :
p
∑S' i =0
i=1
Pour ce faire, il suffit de soustraire à chaque coefficient Si la valeur moyenne des Si qui
p
1
représente : SS = ∑Si ; tel que S'i = S i - zS
p i=1
Séries chronologiques 146
Dans le cas d’un modèle multiplicatif, il faut calculer les coefficients saisonniers corrigés
p p
1
S'i tel que S'i = Si / 5z , on aura alors ∑S'i = p ceci dit, ∑S'i = 1
i=1 p i=1
Par la suite, nous procèderons à la cinquième étape afin de calculer la série corrigée des
variations saisonnières CVS.
Etape 5
Rappelons que la série corrigée des variations saisonnières CVS est une série obtenue à
partir de la série brute en éliminant la composante saisonnière. Elle contient la tendance et
la composante accidentelle.
La série CVS exprime ce qu’aurait été la réalité du phénomène étudié s’il n’y avait pas de
variations saisonnières. En pratique, les économistes utilisent les séries CVS dans de
nombreux domaines, notamment en analyse conjoncturelle, pour éviter les erreurs
d’interprétation des évolutions d’une période à une autre.
On considère ci-dessous, le cas du modèle additif et le cas du modèle multiplicatif pour
déduire la série CVS.
Dans le cas du modèle additif, nous pouvons noter que Ycvs = Y - S, soit pour toute date
« t », i désigne la saison relative à la date « t » :
p
ycvs(t) = yt - Si dans le cas où ∑S i =0
i=1
p
ycvs(t) = yt - S'i dans le cas où ∑S i ≠0
i=1
Dans le cas du modèle multiplicatif, nous pouvons noter que Ycvs = Y/S, soit pour toute date
« t », i désigne la saison relative à la date « t » :
Séries chronologiques 147
p
1
ycvs(t) = yt/Si dans le cas où ∑Si = 1
p i=1
p
1
ycvs(t) = yt//S'i dans le cas où ∑Si ≠1
p i=1
Après le calcul de la série CVS, nous pouvons passer à la dernière étape pour calculer la
série ajustée.
Etape 6
La série ajustée est obtenue à partir de la tendance générale en intégrant la composante
saisonnière. Elle exprime l’évolution qu’aurait connue la variable si le mouvement
saisonnier avait été parfaitement régulier de période en période.
Notons que lorsque la tendance est déterminée par la méthode des MCO, la série ajustée
peut être utilisée pour effectuer des prévisions, car elle ajuste au mieux le nuage de points
en prenant en considération des variations saisonnières.
Pour restituer le mieux les variations de la variable étudiée, il faut prendre en compte les
variations saisonnières de celle-ci. On additionne ainsi la composante saisonnière à la
tendance.
Soit Yaj la variable associée à la série ajustée, alors Yaj = T + S. En pratique, pour
déterminer la série ajustée, il faut calculer les yt aj = f t + S'i , i étant la saison associée à la
date t.
Pour restituer le mieux les variations de la variable étudiée, il faut multiplier la composante
saisonnière par la tendance.
Soit Yaj la variable associée à la série ajustée, alors Yaj = G × S. En pratique, pour
Séries chronologiques 148
déterminer la série ajustée, il faut calculer les yt aj = f t ´ S'i , i étant la saison associée à la
date t.
A partir des valeurs ft et St, on peut déduire les valeurs résiduelles. Nous passons ainsi à la
section suivante qui concerne l’analyse de la composante accidentelle.
Pour analyser la composante accidentelle ℇt, nous distinguons entre le cas d’un modèle
additif et le cas d’un modèle multiplicatif.
Reprenant l’exemple 2, (cas d’un modèle additif), nous pouvons choisir d’utiliser la
méthode des MCO pour estimer la tendance, tel que ft = 2,74t + 106,5. Le tableau
ci-dessous nous explicite les calculs pour obtenir la série Corrigée des Variations
Saisonnières (CVS), la série ajustée et la composante accidentelle.
Source : exemple
Le tableau ci-dessous nous explicite les coefficients saisonniers.
Coefficients saisonniers
2020 2021 2022 2023 Moyenne
T1 6,76 8,80 8,84 10,88 8,82
T2 -1,98 -0,94 -0,90 1,14 -0,67
T3 -6,72 -6,68 -6,64 -4,60 -6,16
T4 -3,46 -2,42 -2,38 -0,34 -2,15
Séries chronologiques 150
9. Prévision
L’un des objectifs principaux de l’analyse d’une série chronologique est de faire des
prévisions. En fait, la prévision consiste à prévoir des valeurs futures à partir des valeurs
observées.
En d’autres termes, la prévision est une continuité du calcul en prenant en considération la
série ajustée.
Notons que la tendance et les coefficients saisonniers sont utilisés pour faire des prévisions.
Ceci dit, l’équation de la tendance peut être utilisée pour prévoir à une date « t » la variable
Yt. Nous soulignons la différence entre les deux cas :
O 4 = f t + S 'j
7
§ Dans le cas d’un modèle multiplicatif
O 4 = f t × S 'j
7
Application
En prenant l’exemple 2, pour calculer une prévision pour t = 23, nous pouvons utiliser la
formule :
ft = 2.7353t + 106.5 , ou bien avec un arrondi de la valeur de la pente : ft = 2.74t + 106.5
Source : exemple
Solution :
1. Quel est le modèle de décomposition de cette série chronologique ? Justifiez votre
choix en utilisant la méthode de Buys et Ballot.
On doit calculer la moyenne (m) et l’écart type (e) de chaque période (année) et estimer la
relation entre l’écart type et la moyenne en utilisant la méthode des MCO. Si la valeur de
« a » est différente de 0 le modèle est multiplicatif, sinon le modèle est additif.
Année 1er trimestre 2ème trimestre 3ème trimestre 4ème trimestre Moyenne Ecart type
2020 63 73 80 69 71.25 6.18
2021 61 66 72 64 65.75 4.02
2022 56 60 65 57 59.50 3.50
2023 52 56 59 54 55.25 2.59
En utilisant la méthode des MCO pour estimer la relation entre les deux indicateurs, nous
obtenons :
e = 0,208 m - 9,0207
Ceci dit a=0,208 ¹0 le modèle de décomposition est ainsi un modèle multiplicatif.
On a considéré l’ordre 4, puisque dans cet exercice le nombre de saisons (trimestres) est de
4 trimestres par période (année).
o On doit ensuite calculer le coefficient saisonnier (Si) pour chaque saison i (i=1…4),
(voir la 5ème colonne dans le tableau ci-dessous), en utilisant la formule suivante :
1 3 1
∑
4 k=0
Si+4k = (Si + Si+4 + Si+8 + Si+12 )
4
o Pour que l’influence des variations saisonnières soit neutre sur une période (année),
la valeur moyenne des coefficients saisonniers St doit être égale à 1, en procédant au
calcul :
1 4 1
∑
p i=1
Si = (0.905+ 0.998 +1.111+ 0.991) =1
p
o Puisqu’on s’est assuré du principe de neutralité de l’influence des variations
saisonnières, on ne calculera pas les coefficients saisonniers corrigés S'i .
t yt ft st Si ytCVS
1 63 -- -- 0,905 69,62
2 73 -- -- 0,998 73,12
3 80 71,00 1,127 1,111 71,99
4 69 69,88 0,987 0,991 69,60
56 66
61 66,38
68,00 0,994
0,897 0,998
0,905 66,11
67,41
7 72 65,13 1,106 1,111 64,79
8 64 63,75 1,004 0,991 64,56
9 56 62,13 0,901 0,905 61,88
10 60 60,38 0,994 0,998 60,10
11 65 59,00 1,102 1,111 58,49
12 57 58,00 0,983 0,991 57,50
13 52 56,75 0,916 0,905 57,46
14 56 55,63 1,007 0,998 56,10
15 59 -- -- 1,111 53,09
16 54 -- -- 0,991 54,47
Séries chronologiques 154
o On peut ainsi déduire la série CVS (ytCVS) à partir de la série brute en divisant la
série chronologique par la composante saisonnière : (yt/Si).
t yt ft st Si ytaj ℇt
1 63 -- -- 0,905 -- --
2 73 -- -- 0,998 -- --
3 80 71,00 1,127 1,111 71x1,111=78,88 1,014
4 69 69,88 0,987 0,991 69,25 0,996
5 61 68,00 0,897 0,905 61,54 0,991
6 66 66,38 0,994 0,998 66,25 0,996
7 72 65,13 1,106 1,111 72,36 0,995
8 64 63,75 1,004 0,991 63,18 1,013
9 56 62,13 0,901 0,905 56,23 0,996
10 60 60,38 0,994 0,998 60,26 0,996
11 65 59,00 1,102 1,111 65,55 0,992
12 57 58,00 0,983 0,991 57,48 0,992
13 52 56,75 0,916 0,905 51,36 1,012
14 56 55,63 1,007 0,998 55,52 1,009
15 59 -- -- 1,111 -- --
16 54 -- -- 0,991 -- --
6. Est-ce que c’est possible d’avoir une prévision du profit du 1er trimestre de
l’année 2027.
Séries chronologiques 155
Puisque la tendance n’a pas été déterminée par une méthode analytique, mais plutôt
empirique (MM4(t)), qui se base sur une estimation ponctuelle de chaque valeur, Il n’est
pas convenable d’évaluer la tendance pour une date future et d’effectuer des prévisions.
Remarque : Si on avait utilisé la méthode des MCO, on pourrait calculer des prévisions,
notamment pour le 1er trimestre de l’année 2027 (t = 29) en utilisant y29 = f29×S1
Indices simples & synthétiques 156
Chapitre 7.
Indices simples et synthétiques
Chapitre 7.
Indices simples et synthétiques
On distingue deux types d’indices : les indices simples portant sur une seule grandeur et les
indices synthétiques portant sur des grandeurs complexes de même nature (ex. indice des
prix regroupant un panier de biens). Si les grandeurs sont de natures différentes (ex. indice
boursier de Shanghai), les indices sont ainsi nommés indices composites.
Notons que les indices ont été conçus pour effectuer des comparaisons sur des variables
économiques mesurables. Ils synthétisent en un seul nombre les modifications affectant un
ensemble de variables, nous pouvons citer par exemple l’indice des prix à la
consommation.
En économie par exemple, chaque année, les consommateurs achètent des dizaines de
produits et de services à des prix et à des quantités variables. L’évolution, par exemple, du
prix de chacun de ces produits peut être mesurée par un indice simple de prix.
11
Il faut auparavant savoir comparer les données. On peut noter quatre principaux indicateurs qui sont utiles à cette
comparaison : les parts, les ratios qui sont des rapports jugés significatifs entre deux grandeurs, les écarts absolus et les
écarts relatifs.
Indices simples & synthétiques 158
Par contre, les indices synthétiques présentés dans cette section résument, par un seul
indicateur, une série d'indices de prix ou de quantités. Avant de définir les indices, nous
pouvons souligner qu’un indice évalue une variation. Il n’évalue pas un niveau. Il mesure
ainsi une variation en valeur relative et non pas en valeur absolue12.
La question qui peut être posée : quelle est la différence entre la variation absolue et la
variation relative ?
Nous allons ainsi définir la variation absolue, la variation relative et aussi le coefficient
multiplicateur13.
Notons que la variation absolue, la variation relative et les indices simples ou élémentaires
sont les principaux indicateurs qui permettent de mesurer l’évolution des données.
• Variation absolue
• Variation relative
∆| |5 − |6 |5
= = −-
|6 |6 |6
12
En 2023, un indice base 100 de 2022, du prix du pain est de 125 et celui du lait de 115 n’indique pas que le prix du
pain est supérieur à celui du lait, mais que le pain a augmenté de 25% entre 2022 et 2023 et le lait de 15% dans la
même période.
13
La moyenne géométrique est principalement utilisée pour calculer les coefficients multiplicateurs moyens pour
déduire les taux de variation.
14
La variation relative s’exprime souvent en pourcentage.
Indices simples & synthétiques 159
• Coefficient multiplicateur
Quand une grandeur passe de la valeur G0 à la valeur Gt, on peut calculer le coefficient
multiplicateur en utilisant la formule :
|5
}=
|6
Notons qu’un coefficient > 1 traduit une hausse, par contre un coefficient < 1 traduit une
baisse.
Il est aussi important de souligner que puisque les variations relatives ne sont pas additives,
ce fait conduit à la construction d’un indicateur très proche de la variation relative, mais qui
a des propriétés fort intéressantes. Cet indicateur est l’indice simple ou élémentaire qui est
explicité dans la section suivante.
Pour décrire les variations de grandeurs simples, on compare leurs valeurs dans le temps ou
dans l’espace en effectuant le rapport des valeurs de la grandeur considérée à deux dates
différentes (indice chronologique), ou dans des lieux différents (indice spatial).
Nous introduirons dans cette section un indice de base 1 et un indice de base 100.
• Indice de base 1
La date 0 est appelée la date de référence et la date t, la date courante15. Notons que
~6/6 (|) = -.
Comme précisé auparavant, les indices élémentaires possèdent des propriétés intéressantes
et qui manquent aux pourcentages.
Ces propriétés sont les suivantes :
o Les indices élémentaires sont transférables.
o Les indices élémentaires sont réversibles.
o Les indices élémentaires sont enchaînés.
o Les indices élémentaires se caractérisent par une circularité.
3. Indices synthétiques
L’un des défis majeurs concernant la mesure de l’évolution des données est celui de la
synthèse de l’évolution simultanée de plusieurs grandeurs. Par exemple, chaque année, les
consommateurs achètent des dizaines de produits et de services à des prix et dans des
quantités variables.
15
En économie, on utilise souvent l’année de base ou l’année de référence pour dénommer la date 0.
Indices simples & synthétiques 161
L’évolution, par exemple, du prix de chacun de ces produits peut être mesurée par un indice
simple de prix. Les indices synthétiques présentés dans cette section résument, par un seul
indicateur, une série d’indices de prix ou d’indices de quantités.
Avant d’introduire ces indices synthétiques, notons la définition d’un indice de la valeur.
Un indice de la valeur d’un panier de n produits à la date t, base 100 à la date 0 est égal à :
åP Q
i =1
i
t t
i
~4/6 (B) = n
× -
åP Q
i =1
i
o o
i
Cet indice n’est pas un indice de prix, il mesure à la fois l’évolution des prix et des
quantités consommées. D’où l’idée de calculer un indice de prix, et de fixer la structure de
consommation en fixant les quantités.
Dans cette section, nous allons introduire et définir les indices synthétiques de Laspeyres16
et de Paasche17 , indices de prix et de quantités. Ces indices respectent les principes
suivants :
o En calculant un indice de prix, seuls les prix varient, les quantités restent
constantes. Si les quantités sont celles de l’année de base, nous calculons
l’indice des prix de Laspeyres. Si les quantités sont celles de l’année courante t,
nous calculons l’indice des prix de Paasche.
o En calculant un indice de quantité, seules les quantités varient, les prix restent
fixes Si les prix sont ceux de l’année de base, nous calculons l’indice des
quantités de Laspeyres. Si les prix sont ceux de l’année courante t, nous
calculons l’indice des quantités de Paasche.
16
Laspeyres, économiste et statisticien allemand (1834-1913).
17
Paasche, économiste et statisticien allemand (1851-1925).
Indices simples & synthétiques 162
• Indices de Laspeyres
Nous allons définir les deux indices de Laspeyres, le premier relatif aux prix et le deuxième
relatif aux quantités.
On appelle indice des prix de Laspeyres, année t, base 100 l’année 0, l’indice suivant :
n
åQ
i =1
o
i Pi t
Ä4/6 (Å) = n
× -
åQ
i =1
o
i Pi o
L’indice des prix de Laspeyres est la moyenne arithmétique pondérée des indices
élémentaires de prix. Les coefficients de pondération sont relatifs à l’année de base.
On appelle indice des prix de Laspeyres, année t, base 100 l’année 0, l’indice suivant :
n
åP
i =1
i
o
Qit
Ä4/6 (Ç) = n
× -
åP
i =1
i
o
Q o
i
L’indice des quantités de Laspeyres est la moyenne arithmétique pondérée des indices
élémentaires de quantités. Les coefficients de pondération sont relatifs à l’année de base.
En tant que moyenne arithmétique, l’indice de Laspeyres (des prix ou des quantités)
présente la propriété d’agrégation. Cette propriété est très utile pour le calcul de l’Indice
des Prix à la Consommation (IPC), l’un des indices synthétiques les plus connus.
Indices simples & synthétiques 163
En effet, l’IPC est un instrument de mesure de l’inflation qui permet d’estimer des prix des
biens et des services consommés par les ménages. Le rôle de l’IPC est triple :
socio-économique, monétaire et financier et bien évidemment économique.
• Indices de Paasche
Nous allons définir les deux indices de Paasche, le premier relatif aux prix et le deuxième
relatif aux quantités.
On appelle indice des prix de Paasche, année t, base 100 l’année 0, l’indice suivant :
n
åQ P
i =1
t
i i
t
Å4/6 (Å) = n
× -
åQ P
i =1
t
i i
o
L’indice des prix de Paasche est la moyenne harmonique pondérée des indices élémentaires
de prix. Les coefficients de pondération sont relatifs à l’année courante.
On appelle indice des quantités de Paasche, année t, base 100 l’année 0, l’indice suivant :
n
åP Q
i =1
i
t t
i
Å4/6 (Ç) = n
× -
åP Q
i =1
i
t o
i
L’indice de Laspeyres est le plus couramment utilisé, car il permet de conserver la même
pondération pour toutes les années : celle de l’année de base. Cet avantage du point de vue
des calculs devient vite un inconvénient, car le panier « figé » s’éloigne de plus en plus de
la réalité économique.
Pour l’indice des prix par exemple, l’indice de Laspeyres pondère les différents articles
proportionnellement aux habitudes de consommation du passé, alors que celui de Paasche
prend en compte les habitudes de consommation actuelles.
L’incorporation inévitable dans les indices des prix d’articles dont la quantité produite a
nettement augmenté et dont le prix relatif a de ce fait souvent diminué, introduit des
disparités dans les résultats obtenus pour les indices de Paasche et de Laspeyres.
• Indice de Fisher
Le choix entre les deux indices présente un certain arbitraire, ainsi le statisticien Fisher18 a
proposé un indice idéal qui est la moyenne géométrique des deux indices.
L’indice synthétique de Fisher est défini comme étant la moyenne géométrique des indices
de Laspeyres et de Paasche.
18
Fisher, économiste, statisticien et mathématicien (1867-1947).
Indices simples & synthétiques 165
Il est important de souligner que l’indice de Fisher est toujours compris entre l’indice de
Paasche et l’indice de Laspeyres, car il représente leur moyenne géométrique.
4. Exercices corrigés
Exercice 1
On dispose de la répartition des dépenses pour quatre produits en Dhs pendant 3 ans :
1. Calculez les indices simples pour les années 2022 et 2023 des différents produits en
base 100, année 2021. Interprétez les résultats pour le produit A.
2. Quel est le taux de variation des dépenses totales entre 2021 et 2022 ?
3. Quel est le taux de variation des dépenses totales entre 2021 et 2023 ?
4. Quel est le taux de variation des dépenses totales entre 2022 et 2023 ?
Indices simples & synthétiques 166
Solution
1. Calculez les indices simples pour les années 2022 et 2023 des différents produits en
base 100, année 2021.
NB. Pour le produit A par exemple, on peut noter qu’on a une augmentation des dépenses
de 25% entre l’année 2021 et 2022 et de 38% entre 2021 et 2023.
3. Quel est le taux de variation des dépenses totales entre 2021 et 2023 ?
Les dépenses ont augmenté de 58% entre 2021 et 2023
4. Quel est le taux de variation des dépenses totales entre 2022 et 2023 ?
On peut noter que les dépenses totales ont augmenté de 20% entre 2022 et 2023 soit :
• en calculant 158/132 x 100 = 120% ; ou bien
• en calculant la variation relative ((1800-1500)/1500) x 100 = 20%.
Indices simples & synthétiques 167
Exercice 2
On dispose de la répartition des prix et des quantités consommées pour quatre produits en
Dhs en 2021 et 2022 comme dans le tableau ci-dessous :
Répartition des prix et des quantités
2021 2022
Produit/Année
P2021 Q2021 P2022 Q2022
A 4 100 5 100
B 3,5 100 2,5 160
C 15 10 20 12,5
D 40 6 40 8,75
Source : exemple
Calculez l’indice de la valeur des 4 produits à la date 2022, base 100 à la date 2021
Solution
En prenant en considération la formule de calcul de l’indice de la valeur :
n
åP Q
i =1
i
t t
i
åP Q
i =1
i
o o
i
tel que n=4, t=2022 et l’année de base 0 est 2021. Nous prenons ainsi les totaux dans le
tableau ci-dessous :
Exercice 3
On dispose de la répartition des prix et des quantités consommées pour 3 produits comme
dans le tableau ci-dessous :
Répartition des prix et des quantités consommées
selon les produits en 2022 et 2023
1. Calculez les indices des prix à la date 2023, base 100 à la date 2022, pour chacun
des 3 produits et interprétez-les.
2. Calculez les indices des quantités à la date 2023, base 100 à la date 2022, pour
chacun des 3 produits et interprétez-les.
3. Calculez l’indice de la valeur des 3 produits à la date 2023, base 100 à la date 2022
et interprétez-le.
4. Calculez les indices des prix et des quantités de Laspeyres et interprétez-les
5. Calculez les indices des prix et des quantités de Paasche et interprétez-les.
6. Calculez les indices des prix et des quantités de Fisher et interprétez-les.
7. Comparez les indices de Fisher avec les indices de Laspeyres et de Paasche
Indices simples & synthétiques 169
Solution
1. Les indices des prix à la date 2023, base 100 à la date 2022 (I2023/2022 (P)), pour
chacun des 3 produits :
2022 2023
Produit/Année I2023/2022 (P)
P2022 P2023
A 10 15 (15/10).100 = 150 %
B 8 9 (9/8).100 = 112,5 %
C 10 9 (9/10).100 = 90 %
2. Les indices des quantités à la date 2023, base 100 à la date 2022 (I2023/2022 (Q)), pour
chacun des 3 produits :
2022 2023
Produit/Année I2023/2022 (Q)
Q2022 Q2023
A 5 4 (4/5).100 = 80 %
B 3 4 (4/3).100 = 133,33 %
C 2 2 (2/2).100 = 100 %
o Pour le produit A, on remarque que les quantités consommées ont diminué de 20%.
o Pour le produit B, on remarque que les quantités consommées ont augmenté de
33,33%.
o Pour le produit C, on remarque que les quantités consommées sont restées stables.
3. L’indice de la valeur des 3 produits à la date 2023, base 100 à la date 2022 et son
interprétation :
Indices simples & synthétiques 170
2022 2023
Produit/Année
P2022 Q2022 P2022 x Q2022 P2023 Q2023 P2023 x Q2023
A 10 5 50 15 4 60
B 8 3 24 9 4 36
C 10 2 20 9 2 18
Total 94 114
L’indice des prix de Laspeyres, tel que n=3 et t=2023 et l’année de base 0 est 2022.
n
åQ
i =1
o
i Pi t
!"/$ (&) = n
× *$$
åQ
i =1
o
i Pio
Interprétation : Les prix selon l’indice de Laspeyres ont augmenté de 27,66% entre l’année
2022 et l’année 2023.
åP Q
i =1
i
o t
i
!"/$ (&) = n
× *$$
åP Q
i =1
i
o o
i
Interprétation : Les quantités selon l’indice de Laspeyres ont diminué de 2,13% entre
l’année 2022 et l’année 2023.
L’indice des prix de Paasche, tel que n=3 et t=2023 et l’année de base 0 est 2022.
n
åQ P
i =1
t
i i
t
åQ
i =1
t
i Pi o
Interprétation : Les prix selon l’indice de Paasche ont augmenté de 23,91% entre l’année
2022 et l’année 2023.
L’indice des quantités de Paasche
n
åP Q
i =1
i
t t
i
åP Q
i =1
i
t o
i
Interprétation : Les quantités selon l’indice de Paasche ont diminué de 5% entre l’année
2022 et l’année 2023.
Exercice 4
On dispose de la répartition des prix et des quantités consommées pour les produits A et B,
pour l’année 2020 et 2023 représentée dans le tableau ci-dessous :
2020 2023
Produit/Année
P2020 Q2020 P2023 Q2023
A 2 12 3 13
B 1,5 7 2 10
Source : exemple
Solution
Série 1
Exercice 1 :
Nous disposons de la répartition d'un échantillon de produits dans une grande surface au Maroc,
selon leur prix dans le tableau ci-dessous :
Source: exemple
* Pour les calculs intermédiaires, il faut prendre en considération quatre décimales après la
virgule.
2. Le mode :
(A) est égal à 256.52 Dhs.
(B) est égal à 300.43 Dhs.
(C) est égal à 343.48 Dhs.
(D) est égal à 348.00 Dhs.
(E) est égal à 350.69 Dhs.
5. En calculant le coefficient de Yule et Kendall, nous pouvons noter qu'il est égal à :
(A) 0.0 et ainsi la distribution est symétrique.
(B) 2.0 et ainsi la distribution est oblique gauche.
(C) 5.6 et ainsi la distribution est oblique gauche.
(D) 7.5 et ainsi la distribution est étalée vers la droite.
(E) - 2.8 et ainsi la distribution est étalée vers la gauche.
7. En supposant que nous multiplions tous les effectifs (ni) par deux (2), nous pouvons
noter que :
(A) les valeurs de la moyenne et de la variance changent.
(B) les valeurs de la moyenne et de la variance ne changent pas.
(C) la valeur de la moyenne change et celle de la variance ne change pas.
(D) la valeur de la moyenne ne change pas et celle de la variance change.
(E) Aucune des solutions proposées n'est correcte.
8. L'indice de Gini :
(A) est égal à 0.04, la répartition des produits tend à être égalitaire.
(B) est égal à 0.20, la répartition des produits tend à être égalitaire.
(C) est égal à 0.80, la répartition des produits tend à être inégalitaire.
(D) est égal à 1.00, la répartition des produits tend à être inégalitaire.
(E) est égal à 0.20, avec une forte concentration de la distribution des prix.
9. En supposant que nous multiplions tous les effectifs (ni) par trois (3), nous pouvons
noter que :
(A) les valeurs de l'indice de Gini et des quartiles changent.
(B) les valeurs de l'indice de Gini et des quartiles ne changent pas.
(C) la valeur de l'indice de Gini ne change pas et celles des quartiles changent.
(D) la valeur de l'indice de Gini change et celles des quartiles ne changent pas.
(E) Aucune des solutions proposées n'est correcte.
QCM corrigées 177
10. A l'international, nous disposons d’un autre échantillon de produits dans une grande
surface, tel que sa variance est de 11025 $2, et son coefficient de variation est de 20%,
on peut dans ce cas déduire :
(A) que la moyenne des prix de cet échantillon de produits est de 525 $.
(B) que la moyenne des prix de cet échantillon de produits est de 55125 $.
(C) que la moyenne des prix de cet échantillon de produits est de 551.25 $.
(D) que les produits au Maroc sont plus chers que les produits à l'international.
(E) que l’échantillon des produits à l'international est plus dispersé que l'échantillon des
produits au Maroc.
Exercice 2 :
Nous disposons de la répartition des ventes trimestrielles de l'un de ces produits en milliers de
Dirhams et de son évolution pendant les 4 dernières années, ainsi que la moyenne et l'écart-type de
chaque période dans le tableau ci-dessous :
Année 1er trimestre 2ème trimestre 3er trimestre 4ème trimestre Moyenne Ecart type
2013 126 146 160 138 142.50 12.36
2014 122 132 144 128 131.50 8.05
2015 112 120 130 114 119.00 7.00
2016 104 112 118 108 110.50 5.17
Source: exemple
* Pour les calculs intermédiaires, il faut prendre en considération deux décimales après la
virgule.
13. Afin d’analyser cette série chronologique et pour déterminer la tendance, on utilise la
méthode des Moindres Carrés Ordinaires (MCO). On estime « a » et « b » dans
l'équation de régression yt = at + b et on trouve :
(A) a = - 2.39 ; b = 146.20
(B) a = 2.39 ; b = 105.57
(C) a = - 3.41 ; b = 154.88
(D) a = 11.00 ; b = 32.34
(E) a = - 11.00 ; b = 219.42
14. En calculant la corrélation (r) entre yt et t ; et sachant que la Var (yt) = 221.23; on
trouve que :
(A) r = - 0.74 ; ainsi la relation entre yt et t est forte.
(B) r = 0.74 ; ainsi la relation entre yt et t est forte.
(C) r = - 0.23 ; ainsi la relation entre yt et t est forte.
(D) r = 0.23 ; ainsi la relation entre yt et t est très faible.
(E) r = - 0.01 ; ainsi une relation de cause à effet entre yt et t ne peut pas être vérifiée.
16. En supposant que les coefficients saisonniers corrigés des quatre trimestres sont
respectivement : S'1 = 0.90 ; S'2 = 1.00 ; S'3 = 1.10 ; S'4 = 1.00 ; la prévision des ventes du
quatrième trimestre de l’année 2018 est de :
(A) 74.04
(B) 88.84
(C) 89.84
(D) 136.64
(E) 203.56
17. En supposant que les coefficients saisonniers corrigés des quatre trimestres sont
respectivement : S'1 = 0.90 ; S'2 = 1.00 ; S'3 = 1.10 ; S'4 = 1.00 ; la prévision des ventes du
premier trimestre de l’année 2020 est de :
(A) 56.89
(B) 69.20
(C) 77.79
(D) 129.43
(E) 193.96
QCM corrigées 179
Exercice 3 :
Nous disposons de la répartition des prix et des quantités consommées pour trois catégories de
produits pendant l’année 2016 et 2017, comme illustrée dans le tableau ci-dessous :
Source: exemple
* Pour les calculs intermédiaires, il faut prendre en considération quatre décimales après la
virgule.
18. L’indice de valeur des trois produits à la date 2017, base 100 à la date 2016 est égal à :
(A) 86.57% , soit une diminution des dépenses de 13.43%.
(B) 87.08% , soit une diminution des dépenses de 12.92%.
(C) 114.84% , soit une augmentation des dépenses de 14.84%.
(D) 115.52% , soit une augmentation des dépenses de 15.52%.
(E) 132.53% , soit une augmentation des dépenses de 32.53%.
19. L’indice des quantités du produit Bio à la date 2017, base 100 à la date 2016 est égal à :
(A) 85.71% , il représente un indice simple.
(B) 109.67% , il représente un indice simple.
(C) 116.67% , il représente un indice simple.
(D) 116.67% , il représente un indice synthétique.
(E) 175.00% , soit une augmentation des quantités consommées de 75 %.
Série 2
Exercice 1 :
Nous disposons de la répartition d'un échantillon de consommateurs marocains selon leur poids
dans le tableau ci-dessous :
Source: exemple
* Pour les calculs intermédiaires, il faut prendre en considération quatre décimales après la
virgule.
6. Sachant que la variance est égale à 4284.69 kg2, on peut noter que la dispersion autour
de la moyenne est égale à :
(A) 65.13 kg.
(B) 65.46 kg.
(C) 65.46 kg2.
(D) 4284.69 kg.
(E) Aucune des solutions proposées n'est correcte.
7. En supposant que nous multiplions tous les effectifs (ni) par deux (2), nous pouvons
noter que :
(A) le coefficient de Yule et Kendall et le coefficient de variation changent.
(B) le coefficient de Yule et Kendall et le coefficient de variation ne changent pas.
(C) le coefficient de Yule et Kendall ne change pas et celle du coefficient de variation.
change.
(D) le coefficient de Yule et Kendall change et celle du coefficient de variation ne change
pas.
(E) Aucune des solutions proposées n'est correcte.
8. L'indice de Gini :
(A) ne doit pas être calculé dans ce cas.
(B) est égal à 0.07, la répartition des poids tend à être égalitaire.
(C) est égal à 0.02, la répartition des poids tend à être inégalitaire.
(D) est égal à 0.98, la répartition des poids tend à être inégalitaire.
(E) Aucune des solutions proposées n'est correcte.
Exercice 2 :
Nous disposons de la répartition des ventes trimestrielles d'un produit en milliers de Dirhams et de
son évolution pendant les 3 dernières années, ainsi que la moyenne et l'écart-type de chaque
période dans le tableau ci-dessous :
Année 1er trimestre 2ème trimestre 3ème trimestre 4ème trimestre Moyenne (m) Ecart type (e)
2019 168 180 192 162 175.50 3.84
2020 210 228 246 210 223.50 4.97
2021 174 270 300 180 231.00 18.36
Source: exemple
* Pour les calculs intermédiaires, il faut prendre en considération deux décimales après la
virgule.
12. En calculant la Cov (yt , t) nous pouvons noter qu'elle est égale à :
(A) 76.50 ; la relation entre les deux variables (yt) et (t) est forte.
(B) 7.65 ; les deux variables (yt) et (t) covarient dans le même sens.
(C) 76.50 ; les deux variables (yt) et (t) covarient dans le même sens.
(D) - 76.50 ; les deux variables (yt) et (t) covarient dans des sens opposés.
(E) Aucune des solutions proposées n'est correcte.
QCM corrigées 183
13. Sachant que la var (yt) = 1734 et la var (t) = 11.92 nous pouvons noter que le coefficient
de détermination (R2) est égal à :
(A) 0.28
(B) 0.48
(C) 0.53
(D) 0.56
(E) Aucune des solutions proposées n'est correcte.
14. Afin d'analyser cette série chronologique et pour déterminer la tendance, on utilise la
méthode des Moindres Carrés Ordinaires. On estime a et b dans l'équation de
régression yt = at + b et on trouve :
(A) a = 6.42 ; b = 168.27
(B) a = 6.42 ; b = 251.73
(C) a = 0.04 ; b = 209.71
(D) a = - 6.42 ; b = 253.73
(E) a = - 0.64 ; b = 214.16
15. Sachant que les coefficients saisonniers corrigés des trois premiers trimestres T1, T2 et
T3 sont respectivement : S'1 = 0.93 ; S'2 = 1.09 et S'3 = 1.14 ; le coefficient saisonnier
corrigé (S'4) du 4ème trimestre est égal à :
(A) 0.96
(B) 4.00
(C) - 2.16
(D) - 3.16
(E) Aucune des solutions proposées n'est correcte.
17. Nous pouvons noter que la prévision des ventes (en milliers de Dirhams) du 4ème
trimestre de l'année 2023 est de :
(A) 104.61
(B) 162.92
(C) 249.20
(D) 296.67
(E) 297.51
QCM corrigées 184
Exercice 3 :
Nous disposons de la répartition des prix et des quantités consommées pour deux catégories de
produits en 2020 et 2021 dans le tableau ci-dessous :
Source: exemple
* Pour les calculs intermédiaires, il faut prendre en considération deux décimales après la
virgule.
18. L'indice de valeur des deux produits à la date 2021, base 100 à la date 2020 est égal à :
(A) 80.00 % , soit une diminution de 20.00 %
(B) 120.00 % , soit une augmentation de 20.00 %
(C) 114.29 % , soit une augmentation de 14.29 %
(D) 125.00 % , soit une augmentation de 25.00 %
(E) Aucune des solutions proposées n'est correcte
20. Sachant que l'indice des quantités de Fisher est égal à 108.58 %, nous pouvons déduire
que l'indice des quantités de Paasche est égal à :
(A) 71.43 %
(B) 76.00 %
(C) 105.26 %
(D) 117.89 %
(E) Aucune des solutions proposées n'est correcte.
QCM corrigées 185
Série 3
Exercice 1 :
Nous disposons de la répartition d’un échantillon d’employés d’une multinationale au Maroc selon
leur salaire dans le tableau ci-dessous :
* Pour les calculs intermédiaires, il faut prendre en considération quatre décimales après la
virgule.
7. Sachant que le coefficient de variation est égal 17.6550% ; on peut noter que la
dispersion autour de la moyenne :
(A) est égale à 928.65 Dhs.
(B) est égale à 8827.5 Dhs
(C) est égale à 92865.0 Dhs
(D) est égale à 8624400 Dhs2
(E) ne peut pas être calculée car on manque de données.
9. L'indice de Gini :
(A) est égal à 0.10 ; la répartition des salaires tend à être égalitaire.
(B) est égal à 0.25 ; la répartition des salaires tend à être égalitaire.
(C) est égal à 0.90 ; la répartition des salaires tend à être égalitaire.
(D) est égal à 0.75 ; la répartition des salaires tend à être inégalitaire.
(E) ne doit pas être calculé dans ce cas, puisque la somme des observations n'a aucun sens.
10. Supposant que nous disposons d'un deuxième échantillon d’employés marocains d’un
effectif égal à n2 tel que la moyenne des salaires est égale à 6500 Dhs. Sachant que la
moyenne des salaires de l'ensemble des employés (dans les 2 échantillons) est égale à
5725 Dhs, nous pouvons noter que n2 :
(A) est égal à 200.
(B) est égal à 300.
(C) est égal à 400.
(D) ne peut être calculé dans ce cas, car on manque de données.
(E) Aucune des solutions proposées n'est correcte.
QCM corrigées 187
Exercice 2 :
Nous disposons de la répartition des ventes trimestrielles de l'un de ces produits en milliers de
Dirhams et de son évolution pendant les 4 dernières années, ainsi que la moyenne de chaque
période dans le tableau ci-dessous :
Année 1er trimestre 2ème trimestre 3er trimestre 4ème trimestre Moyenne
2019 126 146 160 138 142.50
2020 122 132 144 128 131.50
2021 112 120 130 114 119.00
2022 104 112 118 108 110.50
Source: exemple
* Pour les calculs intermédiaires, il faut prendre en considération deux décimales après la
virgule.
13. Afin d’analyser cette série chronologique et pour déterminer la tendance, on utilise la
méthode des Moindres Carrés Ordinaires (MCO). On estime « a » et « b » dans
l'équation de régression yt = at + b et on trouve :
(A) a = - 3.41 ; b = 154.9
(B) a = - 2.39 ; b = 154.9
(C) a = - 2.39 ; b = 146.2
(D) a = - 0.74 ; b = 132.2
(E) a = 2.39 ; b = 146.2
QCM corrigées 188
15. En supposant que les coefficients saisonniers corrigés des trois premiers trimestres sont
respectivement : S'1 = 0.90 ; S'2 = 1.00 ; S'3 = 1.10 ; la prévision des ventes du quatrième
trimestre en milliers de dirhams pour l’année 2024 est de :
(A) 74.04
(B) 80.84
(C) 88.84
(D) 89.84
(E) 203.56
16. La moyenne mobile (centrée) d'ordre 4 à l'instant t = 3 est égale à :
(A) 113.6
(B) 142.0
(C) 189.3
(D) ne peut pas être calculée dans ce cas.
(E) Aucune des solutions proposées n'est correcte.
Exercice 3 :
Nous disposons de la répartition des prix et des quantités consommées pour deux catégories de
produits pendant l’année 2021 et 2022, comme illustrée dans le tableau ci-dessous :
2021 2022
P2021 Q2021 P2022 Q2022
Produit de base 10 60 A calculer 75
Produit de luxe 125 50 200 30
Source: exemple
* Pour les calculs intermédiaires, il faut prendre en considération deux décimales après la
virgule.
QCM corrigées 189
18. Sachant que l’indice des prix du produit de base à la date 2022, base 100 à la date 2021
est égal à 170,00 %, son prix en 2022 (P2022) est égal à:
(A) 7.00
(B) 10.00
(C) 17.00
(D) 70.00
(E) Aucune des solutions proposées n’est correcte.
19. L'indice de valeur des deux produits à la date 2022, base 100 à la date 2021 est égal à :
(A) 94.16%
(B) 106.20%
(C) 153.43%
(D) 160.74.%.
(E) Aucune des solutions proposées n’est correcte.
20. Nous pouvons noter que l’indice des quantités de Laspeyres est égal à :
(A) 65.69% ; c’est un indice synthétique.
(B) 66.02% ; c’est un indice simple.
(C) 66.02% ; c’est un indice synthétique.
(D) 160.88% ; c’est un indice synthétique.
(E) Aucune des solutions proposées n’est correcte.
QCM corrigées 190
Série 4
Exercice 1 :
Nous disposons de la répartition des employés d'une entreprise selon leur salaire dans le tableau
ci-dessous :
Pour les calculs intermédiaires, il faut prendre en considération quatre décimales après la
virgule.
3. Le mode :
(A) est égal à 5000.55 Dhs.
(B) est égal à 5496.45 Dhs.
(C) est égal à 5545.45 Dhs.
(D) est égal à 6636.36 Dhs.
(E) ne peut pas être calculé puisque la classe modale n'existe pas.
QCM corrigées 191
9. L'indice de Gini :
(A) est égal à 0.13
(B) est égal à 0.30
(C) est égal à 0.70
(D) est égal à 0.87
(E) ne peut pas être calculé, puisque la somme des observations n'a aucun sens.
QCM corrigées 192
Exercice 2 :
Nous disposons de la répartition des profits trimestriels de cette entreprise en milliers de Dirhams
et de son évolution pendant les 3 dernières années, ainsi que la moyenne et l'écart-type de chaque
période dans le tableau ci-dessous :
Année 1er trimestre 2ème trimestre 3er trimestre 4ème trimestre Moyenne (m) Ecart type (e)
2018 42 44 50 51 46.75 3.83
2019 71 64 75 77 71.75 4.97
2020 80 84 86 90 85.00 3.61
Source: exemple
o Pour les calculs intermédiaires, il faut prendre en considération quatre décimales après
la virgule.
13. Afin d'analyser cette série chronologique et pour déterminer la tendance, on utilise
la méthode des Moindres Carrés Ordinaires. On estime « a » et « b » dans
l'équation de régression : yt = at + b et on trouve (a = 4.61) et :
(A) b = 61.53
(B) b = 37.87
(C) b = 97.79
(D) b = 171.24
(E) b = - 35.58
16. Sachant que les coefficients saisonniers corrigés des trois premiers trimestres T1,
T2 et T3 sont respectivement : S'1 = 3.42 ; S'2 = -1.53 ; S'3 = 0.19 ; le coefficient
saisonnier corrigé (S'4) du 4ème trimestre est égal à
(A) -2.08
(B) 1.00
(C) 1.29
(D) 1.92
(E) Aucune des solutions proposées n'est correcte.
17. Supposant que yt = 4.61 t + 37.87 nous pouvons noter que la prévision des ventes
(en milliers de Dirhams) du 3ème trimestre de l'année 2021 est de :
(A) 51.89
(B) 106.83
(C) 107.02
(D) 107.21
(E) Aucune des solutions proposées n'est correcte.
QCM corrigées 194
Exercice 3 :
Nous disposons de la répartition des prix et des quantités consommées pour deux catégories de
produits pendant l'année 2019 et 2020, comme illustrée dans le tableau suivant :
Répartition des prix et des quantités consommées
2019 2020
P2019 Q2019 P2020 Q2020
Produit de base 10 60 12 75
Produit de luxe 125 50 200 30
Source: exemple
o Pour les calculs intermédiaires, il faut prendre en considération deux décimales après la
virgule.
18. L'indice de valeur des deux produits à la date 2020, base 100 à la date 2019 est égal à :
(A) 95.45% , soit une diminution des dépenses de 4.55%.
(B) 99.28% , soit une diminution des dépenses de 0.72%.
(C) 100.73% , soit une augmentation des dépenses de 0.73%.
(D) 149.90% , soit une augmentation des dépenses de 49.90%.
(E) 157.04% , soit une augmentation des dépenses de 57.04%.
19. L'indice des prix du produit de base à la date 2020, base 100 à la date 2019 est égal à :
(A) 83.33% , il représente un indice simple.
(B) 120.00% , il représente un indice simple.
(C) 150.00% , il représente un indice de valeur.
(D) 120.00% , il représente un indice synthétique.
(E) 83.33% , soit une augmentation des prix de 16.67 %.
20. Sachant que l'indice des prix de Laspeyres est égal à 156.50% et l'indice des prix de
Paasche est égal à 153.33% ; l'indice des prix de Fisher est égal à :
(A) 65.03% ; c'est un indice simple.
(B) 65.03% ; c'est un indice synthétique.
(C) 153.33% ; c'est un indice synthétique.
(D) 154.91% ; c'est un indice synthétique.
(E) 156.50% ; c'est une moyenne harmonique des indices des prix de Laspeyres et de
Paasche.
QCM corrigées 195
Série 1 corrigée
1. E
2. C
3. D
4. C
5. A
6. B
7. B
8. B
9. B
10. A
11. D
12. C
13. A
14. A
15. C
16. B
17. B
18. D
19. C
20. C
QCM corrigées 196
Série 2 corrigée
1. D
2. D
3. B
4. A
5. D
6. B
7. B
8. A
9. C
10. D
11. C
12. C
13. A
14. A
15. E
16. B
17. C
18. A
19. D
20. C
QCM corrigées 197
Série 3 corrigée
1. B
2. D
3. C
4. C
5. D
6. D
7. A
8. B
9. A
10. B
11. D
12. C
13. C
14. B
15. C
16. B
17. D
18. C
19. B
20. A
QCM corrigées 198
Série 4 corrigée
1. B
2. B
3. C
4. C
5. C
6. C
7. B
8. B
9. A
10. B
11. B
12. A
13. B
14. B
15. D
16. A
17. D
18. C
19. B
20. D
Glossaire 199
GLOSSAIRE
Les statistiques : des résumés d’un ensemble de données sous forme de tableaux, de
graphiques, ou sous forme numérique.
Une campagne de mesures : la période de recueil des données brutes. Les données brutes
sont les données disponibles à la fin de la collecte des données.
Population : un ensemble d’éléments (au sens mathématique) considéré dans une étude
particulière.
Variable qualitative : si ses modalités ne sont pas des nombres et s'expriment de façon
littérale ou par un codage sur lequel les opérations arithmétiques n'ont pas de sens. On
distingue deux types : une variable nominale, s’il n’est pas possible de classer ses modalités
suivant un ordre qui a du sens et une variable ordinale, s’il est possible de classer ses
modalités suivant un ordre qui a du sens.
Variable quantitative : si ses modalités sont des nombres et ses valeurs sont des nombres
sur lesquels des opérations arithmétiques ont un sens. On distingue deux types : une
variable discrète, si la valeur de ses modalités relève d’un comptage (si l’ensemble de ses
modalités est dénombrable) et une variable continue, si la valeur de ses modalités relève
d’une mesure (ne relève pas d’un comptage) et si l’ensemble de ses modalités est non
dénombrable.
Classes : Pour une variable quantitative continue, toutes les valeurs des modalités peuvent
appartenir à un intervalle réel. Ces valeurs sont regroupées dans des intervalles de valeurs
numériques appelés classes. Les classes sont notées : [ ei ; ei+1 [ sachant que ei est la borne
inférieure et ei+1 est la borne supérieure.
Histogramme : il est formé d’un ensemble de rectangles dont la base est déterminée par les
extrémités de la classe et dont la surface doit être proportionnelle à l’effectif (ou à la
fréquence) de la classe.
Indicateurs : les nombres qui résument une base de données selon des règles et des
pratiques. On les appelle aussi des « paramètres » ou des « caractéristiques ».
Moyenne géométrique : la racine nième du produit des valeurs observées. Elle est
principalement utilisée pour calculer les coefficients multiplicateurs moyens dont sont
déduits les taux de variation.
Moyenne harmonique : Elle est égale à l'inverse de la moyenne arithmétique des inverses
des valeurs.
Moyenne quadratique : Elle est égale à la racine carrée de la moyenne arithmétique des
carrés des valeurs.
aussi défini comme la valeur qui domine les autres et qui lui confère le statut d’indicateur
de tendance centrale.
La médiane : un centre de position lorsque les données sont rangées par ordre croissant. Sa
détermination est réalisée de façon différenciée en fonction de la parité de la taille de
l’échantillon (n) (pair ou impair).
Quantiles (ou les percentiles) : des indicateurs de position. Si nous considérons une
variable quantitative discrète ou continue, dont les modalités sont classées en ordre
croissant, le quantile d'ordre α (0 ≤ α ≤ 1) noté qα est la valeur de la variable telle que α%,
c’est-à-dire une proportion α des individus ait une valeur du caractère ou de la modalité
inférieure ou égale à qα. En d’autres termes (100 - α)% des individus ont une valeur
supérieure ou égale à qα.
Déciles : des indicateurs de position qui partagent les observations en 10 groupes d’effectifs
égaux. Les déciles sont les 9 valeurs q10, q20,….. q90. Ceci dit, 10%, 20%,...90% des
individus ont une valeur de la variable inférieure à q10, q20,...q90 respectivement. Les déciles
sont aussi notés : D1, D2….D9 (D pour Décile).
Centiles : des indicateurs de position qui partagent les observations en 100 groupes
d’effectifs égaux. Les centiles sont les 99 valeurs q1, q2, q3….. q99. Ceci dit, 1%, 2%, 3%
….99%, des individus ont une valeur de la variable inférieure à q1, q2, q3….. q99
respectivement. Les centiles sont aussi notés : C1, C2….C99 (C pour Centile).
Boîte à pattes (Box plots, Boîte de Tukey, Boîte à moustaches) : est utile pour visualiser la
dispersion d’une série statistique, pour des comparaisons et pour détecter des valeurs
aberrantes. En obtenant les quartiles Q1, Q2, Q3 et en y ajoutant le minimum et le maximum
des observations, nous obtenons un résumé en 5 chiffres. Ces 5 chiffres (Q1, Q2, Q3, Min,
Max) seront utiles pour illustrer la Boîte-à-pattes.
Etendue : est la différence entre la plus grande valeur et la plus petite des valeurs
observées. Sa formule est la suivante : Etendue = X (max)-X (min).
Ecart interdécile (D9-D1) : un indicateur qui écarte les 10% des observations les plus
petites et les 10% les des observations les plus grandes des deux extrémités de la
distribution. C’est un indicateur de dispersion qui concerne 80% des observations centrales.
Un écart relatif peut aussi être calculé à partir de ces deux déciles, sous la forme de (D9/D1).
Glossaire 203
Ecart inter centile (C99-C1) : un indicateur qui écarte 1% des observations à gauche et à
droite. C’est un indicateur de dispersion et qui concerne les 98% des observations centrales.
Ecart Interquartile (EIQ) : un indicateur de dispersion, qui peut être visualisé dans la
boîte à pattes, et qui n’est pas dépendant des valeurs extrêmes. Sa formule est la suivante :
EIQ = Q3 -Q1.
Ecart absolu moyen : la moyenne arithmétique des valeurs absolues des écarts à la
moyenne arithmétique. Il nous donne une vision sur la valeur moyenne dont les
observations s’écartent de la moyenne.
Ecart absolu médian : la moyenne arithmétique des valeurs absolues des écarts à la
médiane.
Variance : elle est basée sur la différence entre chaque observation et la moyenne
arithmétique (écart par rapport à la moyenne). Elle est souvent utile comme une mesure
pour comparer le degré de dispersion de plusieurs variables.
Ecart type : il correspond à la racine carrée de la variance, il est ainsi plus facilement
comparable et interprétable que la variance, puisqu’il est mesuré dans les mêmes unités que
les données.
Analyse d’une série bivariée : consiste à étudier une série d'observations ou une série
statistique selon deux variables.
Effectifs d’intersection : effectif noté nij représentant le nombre d’individus qui représente
à la fois la modalité Xi et la modalité Yj.
Distribution observée conjointe du couple (X,Y) : Les nij, tel que i = 1…m et j = 1…n, et
qui peut être notée : {(xi, yj, nij , i=1…m, j=1…n)}.
Indice de spécificité : un indice de spécificité d’un couple de modalités est égal au rapport
entre la fréquence conditionnelle ligne (colonne) et la fréquence marginale ligne (colonne)
correspondante. Il est applicable, peu importe le type des deux variables.
valeur n’est pas importante lors de l’interprétation, vu que c’est son signe intéressant et
interprétable.
)
-
89: (4, 7) = &(4$ − 5 5)
4) (7$ − 7
%
$&+
Corrélation : une mesure de l’intensité du lien linéaire entre deux variables quantitatives.
Soit (X, Y) un couple de variables quantitatives, d’écarts types respectifs s xs y , la
corrélation ou le coefficient de corrélation linéaire du couple (X, Y) est défini par :
Cov ( x , y )
r=
s xs y
Coefficient de détermination : un coefficient qui nous permet d’en déduire si la qualité du
modèle est bonne, il le carré du coefficient de corrélation linéaire du couple (X,Y).
2
æ Cov( x , y ) ö
r =ç
2 ÷
ç s s ÷
è x y ø
Méthode des Moindres Carrés Ordinaires (MCO) : une procédure qui permet d’utiliser
les données de l’échantillon pour estimer l’équation de régression linéaire.
Méthode des moyennes de Mayer : elle consiste à diviser une série en deux groupes
égaux et calculer les points moyens ou de gravité des deux nuages de points, pour estimer
l’équation de régression linéaire.
Série chronologique : elle décrit l’évolution d’un phénomène dans le temps. Elle est aussi
nommée série temporelle ou chronique. Son premier caractère est le temps et le deuxième
est quantitatif.
Variation relative : une variation relative d’une Grandeur G de la date 0 à la date t est le
rapport entre la variation absolue et la valeur initiale de cette grandeur. Le terme de
variation relative est synonyme au taux de variation et au taux de croissance qui peut
éventuellement être positif ou négatif.
Indice de base 100 : un indice élémentaire de la grandeur simple G, à la date t, base 100 à
la date 0, est le rapport noté :
|5
~4/6 (|) = ( ) × -
|6
Glossaire 207
åP Q
i =1
i
t t
i
~4/6 (B) = n
× -
åP Q
i =1
i
o o
i
Cet indice n’est pas un indice de prix, il mesure à la fois l’évolution des prix et des
quantités consommées
Indice des prix de Laspeyres et de Paasche : dans un indice de prix, seuls les prix varient,
les quantités restent constantes (si les quantités sont celles de l’année de base, nous
calculons ainsi l’indice des prix de Laspeyres et si les quantités sont celles de l’année
courante t, nous calculons l’indice des prix de Paasche).
Indice des quantités de Laspeyres et de Paasche : Dans un indice de quantité, seules les
quantités varient, les prix restent fixes (Si les prix sont ceux de l’année de base, nous
calculons l’indice des quantités de Laspeyres et si les prix sont ceux de l’année courante t,
nous calculons l’indice des quantités de Paasche).
Indice des prix de Laspeyres : On appelle indice des prix de Laspeyres, année t, base 100
l’année 0, l’indice suivant :
n
åQ
i =1
o
i Pi t
Ä4/6 (Å) = n
× -
åQ
i =1
o
i Pio
Il est obtenu en fixant les quantités à l’année de base. L’indice des prix de Laspeyres est la
moyenne arithmétique pondérée des indices élémentaires de prix des biens composant le
panier. Les coefficients de pondération sont relatifs à l’année de base.
Indice des quantités de Laspeyres : On appelle indice des prix de Laspeyres, année t,
base 100 l’année 0, l’indice suivant :
n
åP
i =1
i
o
Qit
Ä4/6 (Ç) = n
× -
åP
i =1
i
o
Q o
i
Il est obtenu en fixant les prix à l’année de base. L’indice des quantités de Laspeyres est la
moyenne arithmétique pondérée des indices élémentaires de quantités des biens composant
Glossaire 208
Indice des prix Paasche : On appelle indice des prix de Paasche, année t, base 100 l’année
0, l’indice suivant :
n
åQ P
i =1
t
i i
t
Å4/6 (Å) = n
× -
åQ P
i =1
t
i i
o
Il est obtenu en fixant les quantités à l’année courante. L’indice des prix de Paasche est la
moyenne harmonique pondérée des indices élémentaires de prix des biens composant le
panier. Les coefficients de pondération sont relatifs à l’année courante.
Indice des quantités de Paasche : On appelle indice des quantités de Paasche, année t,
base 100 l’année 0, l’indice suivant :
n
åP Q
i =1
i
t t
i
Å4/6 (Ç) = n
× -
åP Q
i =1
i
t o
i
Il est obtenu en fixant les prix à l’année courante. L’indice des quantités de Paasche est la
moyenne harmonique pondérée des indices élémentaires de quantités des biens composant
le panier. Les coefficients de pondération sont relatifs à l’année courante.
Indice de Fisher : il est défini comme étant la moyenne géométrique des indices de
Laspeyres et de Paasche.
L’indice de Fisher est toujours compris entre l’indice de Paasche et celui de Laspeyres,
puisqu’il est leur moyenne géométrique.
.
Statistique pour économistes et gestionnaires
Cet ouvrage est disponible gratuitement sur la plateforme Classroom avec le code : l4yyrnw sur
la plateforme Moodle de l’université Ibn Tofail et dans ResearchGate.