Statisticsbook IlhamELHARAOUI

Statistique pour Economistes et Gestionnaires
Avec exercices et QCM corrigés
Ilham EL HARAOUI
Université Ibn Tofail – Faculté d’Economie et de Gestion
Dépôt légal 2023MO3477
Bibliothèque Nationale du Royaume du Maroc BNRM - Rabat
ISBN 978-9920-42-145-4
Septembre 2023
1ère édition
Cover designed by Aya Amira Irgui

To my students
Trying to make it simple and enjoyable
Ilham EL haraoui
Préface
L’objectif de cet ouvrage est de donner aux étudiants inscrits en licence fondamentale,
Sciences Economiques et Gestion-SEG, une introduction conceptuelle à la statistique descriptive et
à son application. Ainsi, son contenu est conçu de façon à permettre aux étudiants d'acquérir une
bonne base en statistique pour pouvoir comprendre d’autres cours, pour avoir les capacités
d'analyser, de résumer et d'interpréter les données, et pour pouvoir utiliser la statistique dans
d'autres matières, notamment dans les projets de fin d’études et les rapports.
Dans ce sens, les objectifs escomptés de cet ouvrage sont les suivants : assimiler les méthodes
tabulaires et graphiques pour présenter les données, assimiler l’utilité des indicateurs statistiques,
leurs calculs et leurs applications, pouvoir croiser deux variables statistiques et établir un tableau
de contingence, savoir modéliser une relation linéaire entre deux variables quantitatives, assimiler
la régression linéaire simple et interpréter ses résultats, comparer et mesurer l’évolution des
données, notamment dans le temps, en analysant une série chronologique, et enfin calculer les
indices simples et synthétiques.
Le contenu de cet ouvrage est divisé en 7 chapitres, le chapitre 1 est une introduction et des
concepts de base de la statistique descriptive. Le chapitre 2 concerne la présentation des données
sous forme de tableaux et de graphiques. Le chapitre 3 traite les indicateurs statistiques. Le
chapitre 4 concerne la statistique descriptive bivariée. Le chapitre 5 aborde la régression linéaire
simple. Le chapitre 6 présente les étapes d’analyse d’une série chronologique. Le dernier chapitre
concerne les indices simples et synthétiques.
Cet ouvrage1 offre aussi des exercices corrigés à la fin de chaque chapitre, des séries de 3
exercices de 20 questions sous forme de QCM qui couvrent les 7 chapitres et un glossaire, afin que
les étudiants puissent assimiler facilement les connaissances présentées.
Ilham EL HARAOUI
Septembre 2023
1
Cet ouvrage est disponible gratuitement sur la plateforme Classroom avec le code : l4yyrnw, sur la plateforme Moodle de
l’université Ibn Tofail et dans ResearchGate.
SOMMAIRE
Chapitre 1 : Introduction et concepts de base de la statistique descriptive 1
Chapitre 2 : Présentation des données sous forme de tableaux et de graphiques 11
Chapitre 3 : Indicateurs statistiques 32
Chapitre 4 : Statistique descriptive bivariée 81
Chapitre 5 : Régression linéaire simple 98
Chapitre 6 : Séries chronologiques 122
Chapitre 7 : Indices simples et synthétiques 156
Questions à Choix Multiples QCM corrigées 175
Glossaire 199
Introduction & concepts de base 1
Chapitre 1.
Introduction et concepts de base de la statistique descriptive
1. A quoi peut servir la statistique descriptive ?

2. Définition de la statistique et des statistiques
3. Domaines d’application de la statistique
4. Etapes d’une étude statistique
5. Vocabulaire du statisticien
6. Variables qualitatives et variables quantitatives
Chapitre 1.
Introduction et concepts de base de la statistique descriptive
1. A quoi peut servir la statistique descriptive ?

La statistique peut servir à :
o Analyser et résumer une base de données.
o Prendre des décisions et les justifier en chiffres.
o Décrire les caractéristiques principales d’un ensemble de données.
o Faire une analyse de données, établir des rapports et des résultats pour prendre
des décisions.
o Fabriquer l’information.
o Entamer une étude statistique.
2. Définition de la statistique et des statistiques

Plusieurs définitions de la statistique et des statistiques peuvent être repérées à travers la
littérature. Bien évidemment, il y a une différence entre « la statistique » et « les
statistiques », que nous pouvons résumer comme suit :
§ La statistique est un ensemble de techniques qui a pour objet de décrire,
numériquement et graphiquement des populations ou des échantillons.
§ Les statistiques sont des résumés d’un ensemble de données sous forme de tableaux
ou de graphiques, ou sous forme numérique.
La statistique est en effet un art et une science permettant de collecter, d’analyser, de
présenter et d’interpréter des statistiques.
3. Domaines d’application de la statistique

La statistique est appliquée dans plusieurs domaines, notamment en sciences exactes, en
sciences économiques, en science de gestion, en sciences juridiques, en médecine, etc.
4. Etapes d’une étude statistique

Une étude statistique naît d’un besoin d’information pour prendre des décisions. Elle peut
comprendre six étapes à suivre pour la mener à terme. Ces six étapes sont décrites
ci-dessous :
4.1 Problématique et objectifs

Pour préparer et réaliser une étude statistique, il faut tout d’abord définir le problème et la
problématique. Par la suite, il est nécessaire de savoir quels types de décisions le
responsable de l’étude a l’intention de prendre. C'est-à-dire qu’il faut :
§ Préciser le problème et la problématique.
§ Les raisons de l’étude.
§ Les objectifs escomptés.
§ La population ou l’échantillon à prendre en considération.
§ Quelles variables statistiques (caractères) peuvent être considérées dans l’étude ?
A la fin de cette première étape, le responsable de l’étude doit disposer de suffisamment
d’informations pour mettre en place une liste des données à collecter pour passer à la
seconde étape.
4.2 Planning de l’étude

Cette étape répond à la question suivante, comment recueillir les données ? Nous pouvons
noter que les données peuvent être collectées en utilisant par exemple :
• L’expérimentation.
• L’observation.
• La réunion de groupe.
• Les données de seconde main.
• L’enquête.
Cette étape doit aussi répondre à deux autres questions, « Dans quelle période peut-on
recueillir les données ? » et « combien d’individus faut-il choisir ? », avant de passer à la
troisième étape.
4.3 Collecte de données

Il faut noter la période de recueil des données brutes. Ces derniers ne sont en effet que les
données disponibles à la fin de la phase de la collecte des données.
4.4 Analyse des données

La question qui se pose à cette étape est la suivante : comment peut-on traiter les données
pour en extraire de l’information utile à la prise de décision ?
Pour répondre à cette question, il faut :
§ Analyser les données.
§ Présenter les données.
§ Résumer les données.
En d’autres termes, cette étape du traitement des données consiste à analyser, résumer,
comparer, et mesurer les données pour créer de l’information.
4.5 Présentation des résultats

La présentation des résultats peut être sous forme de rapports chiffrés avec des tableaux
et/ou des graphiques.
4.6 Prise de décision

Aucune étude statistique ne produit directement des décisions ou d’actions correctives. Ces
décisions sont souvent d’ordre stratégique ou politique et l’étude statistique reste un outil
d’aide à la décision.
5. Vocabulaire du statisticien
La maîtrise du vocabulaire technique de la statistique est indispensable. Plusieurs concepts
peuvent être introduits2 :
2
Le glossaire introduit tous les concepts.
o Population : un ensemble d’éléments (au sens mathématique) considéré dans une

étude particulière.
o Individus ou unités statistiques : les éléments de la population.
o Taille de la population (effectif total) : le nombre d’individus ou d’unités statistiques
appartenant à la population.
o Une variable statistique ou un caractère : une caractéristique des éléments à laquelle
on s’intéresse.
o Modalités : les valeurs que peut prendre une variable statistique.
o Effectif : nombre d’individus qui représentent une modalité de la variable statistique.
o Echantillon : un sous-ensemble de la population.
o Un recensement : un processus de collecte de données relatives à la population
entière.
o Une observation : un ensemble de mesures obtenues pour un élément.
o Enquêtes d’échantillonnage : des enquêtes visant à collecter des données relatives à
un échantillon.
o Inférence statistique : un processus d’utilisation des données d’un échantillon pour
estimer ou tester des hypothèses concernant les caractéristiques d’une population.
Nous mettons en exergue les points suivants qui suscitent la confusion chez les étudiants :
o Il ne faut pas confondre entre la population et les unités statistiques. La population
représente l’ensemble des éléments observés, et ces éléments portent le nom d’unités
statistiques.
o La population est un ensemble bien délimité, sa définition doit être parfaitement
claire et précise.
o La population n’est jamais un nombre, c’est un ensemble. Exemples : des pièces
fabriquées par une machine, les véhicules dans un stationnement, les étudiants dans
une faculté…
o Les unités statistiques peuvent être des êtres humains, des objets, des entités
géographiques...Ce sont des éléments de la population.
o Il ne faut pas confondre entre unités statistiques et modalités. Les deux concepts
sont distincts. De même, il ne faut pas confondre entre une variable statistique (ou
caractère) et une modalité.
La variable statistique est un aspect particulier des unités statistiques (ou individus),
auquel on s’intéresse, une caractéristique qui peut varier d’un individu à l’autre. La
variable porte aussi le nom de caractère. L’ensemble des observations d’une
variable statistique forme l’ensemble des modalités de ce caractère.
o A chaque individu (unité statistique) doit être associée une modalité unique.
C’est-à-dire « au moins une » et « au plus une ».
* Au plus une : il ne doit pas être possible d’associer à un même individu deux
modalités. Les modalités sont incompatibles (parfaitement distinctes les unes des
autres).
* Au moins une : il ne doit pas être possible qu’un individu ne soit associé à aucune
modalité. Tous les aspects de la variable doivent être présents dans la liste des
modalités.
6. Variables qualitatives et variables quantitatives

On distingue deux types de variables statistiques :
§ une variable qualitative, si ses modalités ne sont pas des nombres ou bien elles sont
des nombres qui n'ont pas de sens ;
§ une variable quantitative, si ses modalités sont des nombres qui ont un sens.
Pour une variable qualitative, on distingue deux types :

§ Une variable nominale, s’il n’est pas possible de classer ses modalités suivant un
ordre qui a du sens.
Nous pouvons prendre, par exemple, la situation matrimoniale ou la couleur des
yeux. Ce type de variable peut être codé pour faciliter la saisie des données.
§ Une variable ordinale, s’il est possible de classer ses modalités suivant un ordre qui
a du sens.
Nous pouvons prendre, par exemple, une évaluation des opinions ou la satisfaction des
consommateurs vis-à-vis d’un produit.
Les modalités ou les valeurs de la variable qualitative peuvent être notées : m1, m2…mk , en
prenant en considération k modalités.
Pour une variable quantitative, on distingue deux types :

§ Une variable discrète, si la valeur de ses modalités relève d’un comptage (si
l’ensemble de ses modalités est dénombrable).
A titre d’exemple, nous pouvons considérer le nombre d’enfants, le nombre de
consommateurs en ligne, ou le nombre de pièces d’un logement.
§ Une variable continue, si la valeur de ses modalités relève d’une mesure (ne relève
pas d’un comptage) et si l’ensemble de ses modalités est non dénombrable.
Ainsi la variable prend n’importe quelle valeur numérique dans un intervalle. Par
exemple, la taille, le poids, le revenu, le chiffre d’affaires (CA) des entreprises…
§ Les modalités ou les valeurs de la variable quantitative peuvent être notées : X1,
X2…Xk , en prenant en considération k modalités.
En résumé, on peut schématiser les types et les sous-types des variables statistiques comme
ci-dessous.
Variable
statistique
Qualitative Quantitative
Nominale Discrète
Ordinale Continue
7. Exercices corrigés
Exercice 1
On dispose de la production de voitures d’une entreprise X dans un mois destinée pour
l’exportation qui est répartie dans le tableau ci-dessous :
Répartition des voitures par modèle

Modèle Effectif
A 1.500.000
B 1.400.000
C 5.440.000
D 698.000
E 2.331.000
Total 11.369.000
Source3: exemple
Il s’agit de définir :
1. La population étudiée.
2. La taille de la population.
3. Les unités statistiques.
4. La variable statistique.
5. Les modalités.
6. L’effectif de la modalité “C”.
Solution
1. La population étudiée : les voitures produites durant un mois destinées à l’export.
2. La taille de la population : 11.369.000 voitures.
3. L’unité statistique : voiture.
3
Un tableau statistique doit toujours avoir un titre et une source. Un tableau sans source n’a aucun sens. Nous
utilisons dans cet ouvrage comme source : exemple, puisque les exemples présentés ne sont pas issus de données réels.
4. La variable statistique (caractère) : le modèle (qualitative nominale).

5. Les modalités du caractère : A, B, C, D et E.
6. L’effectif de la modalité “C” : 5.440.000 voitures.
Exercice 2
La faculté d’économie et de gestion veut entamer une étude statistique concernant les
étudiants inscrits en première année. Cette étude concerne les options du BAC des étudiants.
Répartition des étudiants selon l’option du BAC
Option du Bac Nombre d’étudiants

Sciences économiques 1140
Sciences expérimentales 505
Sciences mathématiques 45
Lettres 26
Total 1716
Source : exemple
Il s’agit d’identifier :
§ la population étudiée ;
§ la taille de la population ;
§ les unités statistiques ou les individus ;
§ la variable statistique et les modalités ;
§ l’effectif de la modalité “sciences expérimentales” et l’effectif des deux dernières
modalités.
Solution
§ La population étudiée : les étudiants inscrits en première année à la faculté
d’économie et de gestion.
§ La taille de la population : 1716.
§ Les unités statistiques ou individus : étudiants.

§ L’unité statistique : étudiant.
§ La variable statistique : cette population est étudiée selon la variable statistique ou le
caractère « option du BAC »
§ Les modalités du caractère : 1. sciences expérimentales, 2. sciences mathématiques,
3. sciences économiques, 4. lettres, avec les effectifs 1140, 505, 45, 26
respectivement.
§ L’effectif de la modalité “sciences expérimentales” = 505 étudiants.
§ L’effectif des deux dernières modalités = 71 (45+26) étudiants.
Présentation des données 11
Chapitre 2.
Présentation des données sous forme de tableaux et de graphiques
1. Effectif, effectif total & fréquence

2. Présentation des données qualitatives
3. Présentation des données quantitatives
4. Exercice corrigé
Chapitre 2.
Présentation des données sous forme de tableaux et de graphiques
Pour présenter et résumer des données (qualitatives ou quantitatives) sous forme de

tableaux ou de graphiques, nous allons en premier lieu définir l’effectif, l’effectif total et la
fréquence.
1. Effectif, effectif total & fréquence

1.1 Effectif & effectif total
Le nombre d’individus qui représente une modalité est l’effectif. On souligne que l’effectif
d’une modalité « i » est noté ni .
Si on dispose de k modalités d’une variable discrète, nominale ou ordinale, les effectifs
sont notés : n1 , n2 ,…., nk
La somme des effectifs est l’effectif total, il est ainsi égal au nombre total d’individus :
k
n1 + n2 +…………….+ nk = ∑ ni = n
i=1
1.2 Fréquence
La fréquence (fi) associée à une modalité « i » telle que i=1, 2, …k, ou à un ensemble de
modalités qui peuvent être aussi regroupées en classes, indique la proportion d’individus
présentant cette modalité, ou cet ensemble de modalités par rapport à l’ensemble des
individus.
ni
La fréquence d’une modalité « i » : fi =
n
k
La somme des fréquences : ∑ fi = 1
i=1
Nous soulignons que la fréquence est un nombre qui est toujours compris entre 0 et 1
(fréquence relative) ou entre 0% et 100% (fréquence en pourcentage).
Nous pouvons aussi souligner que :
La fréquence relative *100 = fréquence en pourcentage
Notons que parfois la fréquence absolue (ou tout simplement fréquence) est utilisée pour
désigner l’effectif, surtout dans des livres anglo-saxons traduits en français.
Rappelons que nous utiliserons l’effectif, l’effectif total et la fréquence pour présenter les
données. Ces données peuvent être présentées sous forme de tableaux ou de graphiques. Il
est ainsi important de savoir les calculer et les interpréter.
Ainsi, nous utiliserons dans le chapitre suivant des exemples afin de comprendre
l’importance des présentations sous forme de tableaux et de graphiques et savoir comment
les interpréter.
Nous ferons aussi la distinction entre la présentation des données qualitatives et la
présentation des données quantitatives.
2. Présentation des données qualitatives
Exemple 1
On considère la répartition de l’effectif des employés d’une entreprise X selon leur niveau
d’éducation.
Il faut calculer la fréquence relative, la fréquence en pourcentage, et présenter les données
sous forme de graphiques. Le tableau initial contient l’effectif seulement qui est inclus dans
la solution 1.
Solution 1
Présentation des données sous forme de tableau
Répartition des employés d’une entreprise X

selon leur niveau d’éducation
Fréquence Fréquence en
Niveau Effectif
relative pourcentage
Doctorat 56 0,0075 0,75 %
Master 109 0,0145 1,45 %
Licence 500 0,0665 6,65 %
Bac 1 450 0,1929 19,29 %
Etudes secondaires ou moins 5 400 0,7186 71,86 %
Total 7 515 1,0000 100,00 %
Source : exemple
Présentation des données sous forme de graphiques

Notons qu’un graphique permet de mieux mettre en évidence certaines informations. Pour
des variables qualitatives, un diagramme à barres ou un digramme à secteurs circulaires
sont les graphiques les plus utilisés. Nous présentons brièvement ces deux graphiques.
§ Un diagramme à barres (à bandes/à tuyaux d’orgue) associe une bande verticale à

chaque modalité et la distance entre chaque bande doit être constante. La largeur de
chacune des bandes est la même et la hauteur est égale à l’effectif ou à la fréquence
de la modalité correspondante.
§ Un diagramme à secteurs circulaire (diagramme circulaire) est un graphique qui

divise un cercle en secteurs angulaires, et dont les angles aux centres sont
proportionnels aux effectifs ou aux fréquences de chaque modalité. L’angle au centre
est égal à fi ×360.
6 000
5 400
5 000
4 000
3 000
Effectif
2 000 1 450
1 000 500
56 109
0
Doctorat Master Licence Bac Etudes
secondaires
ou moins

Source : exemple
Exemples de commentaires sur les données du graphique :
§ 1950 employés de l’entreprise X ont un bac ou une licence et 165 ont un doctorat
et un master.
§ Les employés ayant un niveau d’éducation « études secondaires ou moins »
constituent le plus grand effectif parmi l’ensemble des employés.
§ Les employés ayant un niveau d’éducation « Doctorat » constituent le plus petit
effectif parmi l’ensemble des employés.
Fréquence en
80,00% pourcentage 71,86%
70,00%
60,00%
50,00%
40,00%
19,29%
30,00%
20,00% 6,65%
0,75% 1,45%
10,00%
0,00%
Doctorat Master Licence Bac Etudes
secondaires
ou moins

Source : exemple
Exemples de commentaires sur les données :

§ 71,86% des employés de l’entreprise X ont un niveau d’études du secondaire ou
moins.
§ 6,65% des employés de l’entreprise X ont une licence.
§ 8.10% des employés de l’entreprise X ont un master ou une licence.
NB. Dans les manuels de la statistique, le titre d’un graphique se situe en général en bas,
contrairement au titre d’un tableau.
56; 0,75% 109; 1,45% 500; 6,65%
1 450; 19,29%
Doctorat
Master
Licence
Bac
Etudes secondaires ou moins
5 400; 71,86%

Source : exemple
Exemple 2
On considère la répartition des consommateurs selon leur appréciation d’un produit X. Il
faut calculer l’effectif de la modalité « mauvais » sachant que nous disposons de l’effectif
total et les effectifs des autres modalités.
Il faut aussi calculer la fréquence relative, la fréquence en pourcentage, la fréquence
cumulée et présenter les données sous forme de graphiques.
Le tableau initial contient seulement les effectifs qui sont inclus dans la solution 2
ci-dessous.
Solution 2
Répartition des consommateurs
selon leur appréciation d’un produit X
Appréciation d’un Fréquence Fréquence Fréquence

Effectif
produit X relative en % cumulée en %
Très mauvais 20 0,054 5,41% 5,41%
Mauvais 45 0,122 12,16% 17,57%
Moyen 201 0,543 54,32% 71,89%
Bon 101 0,273 27,30% 99,19%
Très Bon 3 0,008 0,81% 100,00%
Total 370 1,000 100,0% ---
Source : exemple
Nous soulignons, les erreurs commises par certains étudiants et nous mettons en exergue
les points suivants :
o Le total des fréquences relatives est toujours égal à 1.00, il ne peut pas être égal à
0.9999 ; sinon il faut essayer d’arrondir les valeurs des fréquences relatives.
o La même remarque est valable pour la somme des fréquences en pourcentage, elle
ne peut pas être égale à 99,99% ou à 108%, soit il faut arrondir les valeurs en
prenant en considération le nombre de décimales adéquat, soit il faut revoir les
calculs.
o Il faut veiller à ce que le nombre de décimales après la virgule soit le même pour
toutes les valeurs, sinon, il aura une probabilité de commettre des erreurs.
o Le total des fréquences cumulées en pourcentage n’existe pas.
Présentation des données sous forme de graphiques
54,32%
60,00%
50,00%
Fréquence en
40,00% pourcentage
27,30%
30,00%
12,16%
20,00%
5,41%
0,81%
10,00%
0,00%
Très Mauvais Moyen Bon Très Bon
mauvais

Source : exemple
0,81%
5,41%
27,30% 12,16%
Très mauvais
Mauvais
Moyen
Bon
Très Bon
54,32%

Source : exemple
Notons que nous pouvons avoir d’autres types de diagrammes pour présenter les données,
comme le diagramme à cumul interne, le diagramme figuratif, ou d’autres histogrammes
de comparaison (diagrammes en barres multiples).
Nous présentons ci-dessous quelques graphiques à titre d’exemple. Les données ont été
simplifiées et changées pour les illustrer.
Diagrammes en barres multiples :
151"
160"
140" 120"
120"
89"
100" 83"
64" 66"
80" Hommes&
60" 45" Femmes&

36"
28"
40" 20"
20"
0"
Doctorat" Master" Licence" Bac" Etudes"
secondaires"ou"
moins"

Source : exemple
Diagramme à cumul interne :
100%#
80%#
60%#
Femmes%
40%# 70%# Hommes%
59%# 59%#
20%# 36%# 37%#
0%#
Doctorat# Master# Licence# Bac# Etudes#
secondaires#
ou#moins#

Source : exemple
59
60
50 45
40 33
30 25
23 19
20 12
10
10 3
0
2021 2022 2023
Sciences Economiques Sciences Experimentales Sciences Mathématiques
Répartition des nouveaux étudiants inscrits

par option du baccalauréat en 2021, 2022 et 2023
Source : exemple
59
60
50 45
40 33
30 25
23 19
20 12
10
10 3
0
Sciences Economiques Sciences Sciences
Experimentales Mathématiques
2021 2022 2023
Répartition des nouveaux étudiants inscrits

par option du baccalauréat en 2021, 2022 et 2023
Source : exemple
En résumé, nous pouvons présenter des données qualitatives (nominales ou ordinales) sous
forme de tableaux et de graphiques que nous avons résumés dans le schéma ci-dessous :
Base de données
Données qualitatives Données quantitatives
Méthodes tabulaires Méthodes graphiques
1. Effectif 1. Diagramme en barres

2. Effectif total 2. Diagramme circulaire
3. Fréquence relative 3. Diagramme figuratif
4. Fréquence en pourcentage
5. Fréquence cumulée
(cas des variables ordinales).
3. Présentation des données quantitatives

3.1 Variable quantitative continue
Pour une variable quantitative continue, nous pouvons noter que les valeurs des modalités
appartiennent à des intervalles réels. Ainsi, ces valeurs sont regroupées dans des intervalles
de valeurs numériques appelés classes.
Nous soulignons que le regroupement en classes se justifie par l’existence d’un grand
nombre de modalités, ainsi la présentation des données s’en trouve simplifiée.
Comment peut-on alors définir et concevoir ces classes ou ces intervalles ?
Nous mettons en exergue trois étapes pour établir des classes à savoir :
1. Déterminer le nombre de classes
§ Il est recommandé d’utiliser entre 5 et 15 classes.
§ En pratique, le nombre est déterminé par un processus “essai-erreur”.
2. Déterminer la largeur de la classe. La largeur est égale à :
Valeur la plus élevée - Valeur la plus faible

Nombre de classes
Notons qu’une détermination de la même largeur pour toutes les classes réduit énormément
les erreurs d’interprétation.
3. Déterminer les limites de la classe

Les classes sont notées à titre d’exemple : [ ei ; ei+1 [ , sachant que ei est la borne inférieure
et ei+1 est la borne supérieure.
Pour chaque classe il faut aussi définir l’amplitude et le centre :
Amplitude de la classe : ai = ei+1 - ei
ei+1 + ei
Centre de la classe : xi =
2
Nous pouvons schématiser ces concepts comme ci-dessous :
Borne inférieure xi Borne supérieure
ai
Exemple 1
On prend on considération un tableau qui nous donne la répartition des consommateurs
d’un produit Y selon l’âge. Le tableau initial inclut les effectifs seulement qui sont intégrés
dans la solution 1. Il faut calculer l’amplitude de chaque classe, son centre et la fréquence
en pourcentage. Nous pouvons noter que cet exemple concerne un cas avec des amplitudes
égales.
Nous avons repris le même exemple avec des amplitudes inégales (solution 2 ci-dessous),
afin de présenter les données sous forme de graphique et assimiler la méthode et
comprendre les erreurs à éviter.
Avant de présenter les deux solutions, il est important de noter qu’un histogramme peut être
utilisé pour présenter des données quantitatives continues.
Un histogramme est formé d’un ensemble de rectangles, tel que la base de chaque
rectangle est déterminée par les extrémités de la classe correspondante, et dont la
surface doit être proportionnelle à l’effectif (ou à la fréquence) qui représente cette
classe.
Si toutes les classes ont la même amplitude, il suffit pour réaliser l’histogramme de porter
en ordonnée les effectifs ou les fréquences. Si elles n’ont pas la même amplitude, on porte
en abscisse les extrémités de chaque classe, et en ordonnée les effectifs par unité
d’amplitude ni/ai , appelés densités d’effectifs, ou les fréquences par unité d’amplitude fi/ai ,
nommées densités de fréquences (voir l’application dans la solution 2).
Solution 1
Cas d’amplitudes égales.
d’un produit Y selon l’âge
Amplitude de Centre de la Fréquence en

Age Effectif
la classe ai classe xi pourcentage fi
[ 15 - 20 [ 130 5 17,5 19,49%
[ 20 - 25 [ 343 5 22,5 51,42%
[ 25 - 30 [ 107 5 27,5 16,04%
[ 30 - 35 [ 33 5 32,5 4,95%
[ 35 - 40 [ 54 5 37,5 8,10%
Total 667 --- ---- 100,00%
Source : exemple
Solution 2
(Le même cas avec des amplitudes inégales)

Amplitude de Fréquence en
Age Effectif fi /ai
la classe ai pourcentage fi
[ 15 - 20 [ 130 5 19,49% 3,9
[ 20 - 35 [ 343 15 51,42% 3,4
[ 35 - 40 [ 107 5 16,04% 3,2
[ 40 - 50 [ 33 10 4,95% 0,5
[ 50 - 55 [ 54 5 8,10% 1,6
Total 667 --- 100,00% ----
Source : exemple
Afin de présenter les données sous forme d’histogramme, et puisque dans la solution 2, les
amplitudes des classes sont inégales, nous utiliserons les densités de fréquences (fi/ai), tel
que fi représente les fréquences en pourcentage.
Notons qu’une représentation des données dans un graphique, comme dans le graphique
ci-dessous, qui représente la répartition des consommateurs d’un produit Y selon l’âge, sans
prendre en considération que les amplitudes sont inégales est une représentation appropriée.
Mais, elle peut conduire certains étudiants à des erreurs d’interprétation, tel que l’intervalle
[20 -35 [contient une plus grande concentration de consommateurs.
Ce qui n’est pas correct. En prenant en considération les densités des fréquences par
exemple, on peut noter que c’est l’intervalle [15 -20 [. Nous pouvons aussi noter que la
classe modale n’est pas [20 - 35[, comme il peut paraître dans le premier graphique en bleu,
mais [15 - 20 [.
Effectif(
343
700
600
500
400
300 130 107
54
200
33
100
0
5 10 15 20 25 30 35 40 45 50 55 Age(

Source : exemple
Le graphique qui prend en considération les densités des fréquences est illustré
ci-dessous.
(fi/ai)*100*
3,9!
↓
4,0 3,4!
3,2!
3,5
3,0
2,5
2,0 1,6!
1,5
1,0 0,5!
0,5
0
5 10 15 20 25 30 35 40 45 50 55
Age$

Source : exemple
Nous pouvons ajouter au dernier graphique, le polygone des fréquences qui peut être
construit en joignant les milieux de chaque sommet des rectangles.
Ceci dit, le polygone des fréquences passera par les centres des classes au sommet de
chaque rectangle.
Nous pouvons aussi dessiner la courbe cumulative ou la courbe des fréquences, en prenant
en considération par exemple le cas d’amplitudes égales.
Cette courbe cumulative est une représentation graphique des fréquences cumulées. Ces
fréquences cumulées sont des fréquences cumulées ascendantes comme il est illustré dans
le graphique ci-dessous :
Fréquences**
cumulées* 100,00%*
100 91,90%*
86,96%*
80
70,91%*
60
40
19,49%*
20
0
Age*
10 15 20 25 30 35 40 45
Répartition des consommateurs d’un produit

Y selon l’âge
Source : exemple
Nous pouvons aussi dessiner une ogive. Cette dernière est un graphique d’une distribution
cumulée qui représente sur l’axe horizontal, les valeurs des observations et sur l’axe
vertical, les valeurs des effectifs cumulés (fréquences absolues cumulées). L’ogive est
construite en indiquant par un point précis la fréquence absolue cumulée de chaque classe,
comme dans le graphique suivant :
Effectifs
800" cumulés
667"
700" 613"
580"
600"
473"
500"
400"
300"
200" 130"
100"
0"
0"
Age" ["15""/"20""[" ["20""/"25""[" ["25""/"30""[" ["30""/"35""[" ["35""/"40""["
Répartition des consommateurs d’un produit Y

selon l’âge
Source : exemple
3.2 Variable quantitative discrète
Exemple 3
Nous analysons la répartition des consommateurs selon le nombre de fois d’achats en ligne.
Il s’agit de calculer la fréquence en pourcentage et la fréquence cumulée, et présenter les
données sous forme de diagramme en bâtons et sous forme de diagramme cumulatif. Le
tableau initial inclut seulement les effectifs.
Solution 3
Répartition des consommateurs selon le nombre
de fois d’achats en ligne
Nombre de fois Effectif Fréquence en Fréquence cumulée en

d’achats en ligne pourcentage pourcentage
0 150 73,17% 73,17%
1 34 16,59% 89,76%
2 16 7,80% 97,56%
3 3 1,46% 99,02%
4 2 0,98% 100,00%
Total 205 100,00% ---
Source : exemple
Pour présenter les données sous forme de graphiques, nous utiliserons un diagramme en
bâtons. Ce dernier est appelé aussi un diagramme différentiel, puisqu’il représente les
différentes modalités de la variable discrète. C’est aussi un diagramme à barres, sauf que
les barres sont plus fines.
Effectif
160 150
140
120
100
80
60
34
40
20 16
0 3
2
0
1
2
3
4

Nombre de fois d’achatselon
en le nombre
ligne
Source : exemple
Nous pouvons aussi utiliser un diagramme cumulatif qui est également appelé diagramme
intégral au sens de l’intégration mathématique. Il représente des fréquences cumulées
comme illustrées dans le graphique ci-dessous, en prenant en considération les données de
l’exemple 3.
Fréquences cumulées
99,02% 100,00%
100 97,56%
95
90
89,76%
85
80
75
73,17%
0 1 2 3 4
Nombre de fois d’achat en ligne
Répartition des consommateurs selon le nombre

Source : exemple
Nous mettons en exergue qu’il y a d’autres diagrammes que nous pouvons utiliser, comme
le diagramme de points, ou le diagramme Stem and Leaf. L’exercice à la fin de ce chapitre
concerne ces deux diagrammes.
Nous pouvons ainsi résumer la présentation des données quantitatives (discrètes ou

continues) sous forme de tableaux et de graphiques dans le schéma ci-dessous :
Base de données
Données qualitatives Données quantitatives
Méthodes tabulaires Méthodes graphiques
1. L’effectif 1. Histogramme (variable continue)

2. L’effectif total 2. Diagramme en barres (en
3. La fréquence relative bâtons/en tuyaux d’orgue)
4. La fréquence en pourcentage 3. Le polygone des fréquences
5. La fréquence cumulée 4. Ogive (distribution cumulée)
5. Courbe des fréquences
6. Diagramme intégral (cumulatif)
7. Diagramme à cumul interne
8. Diagramme de points
9. Diagramme Stem & Leaf
Considérons les données ci-dessous qui nous informent sur le nombre de jours consacrés
par des étudiants pour la préparation des examens.
12 14 19 18
15 15 18 17
20 27 22 23
22 21 33 28
14 18 16 13
1. Suivez les étapes introduites dans le chapitre pour déterminer les classes/intervalles.
2. Présentez ces données sous forme d’un diagramme Stem and leaf ou « Branche et
feuille ».
Solution
1. Pour déterminer les classes, il faut :
§ Déterminer le nombre de classes : on peut prendre une décision d’avoir 3 classes.
§ Déterminer l’amplitude de la classe :
(Max-Min)/ nombre de classes = (33 - 12)/3 = 7
Décision : « 7 jours » représente l’amplitude des classes.
§ Déterminer les limites des classes :
Le minimum est de 12 qui sera la borne inférieure de la première classe. Le
maximum est le chiffre 33 ans qui sera la borne supérieure de la dernière classe.
§ Définir les intervalles :
Les intervalles : [12 – 19 [ , [19 – 26 [ , [26 - 25 [ , [25 – 33 ]
NB. Cet exercice est juste un exemple illustratif avec 20 observations seulement.
Normalement, l’effectif doit être plus grand, d’où l’objectif de cette méthode.
On pourrait avoir d’autres propositions d’intervalles et ceci dépendra du nombre de classes
choisies dans l’étape 1.
2. Le diagramme Stem and Leaf ou « Branche et feuille » représente les

modalités comme ci-dessous :
Le diagramme Steam and Leaf peut aussi représenter les modalités et les effectifs, si ces
derniers ne dépassent pas 2 ou 3, sinon il ne sera pas présentable.
Indicateurs statistiques 32
Chapitre 3.
Indicateurs statistiques
1. Indicateurs de tendance centrale et de position

2. Indicateurs de dispersion
3. Indicateurs de concentration
Chapitre 3.
Indicateurs statistiques
En statistique, les tableaux présentent l’information recueillie d’une variable et les

graphiques fournissent un portrait pour appréhender plus facilement la globalité de
l’information. Pour caractériser la représentation visuelle par des éléments synthétiques, on
peut utiliser des indicateurs.
Nous appelons « Indicateurs », les nombres qui résument une base de données selon des
règles et des pratiques. On les appelle aussi des « paramètres » ou des « caractéristiques ».
Yule, a souligné un certain nombre de propriétés souhaitées pour les indicateurs statistiques.
Ceux-ci doivent :
§ Etre des résumés maniables ;
§ Etre des résumés faciles à utiliser ;
§ Etre les plus exhaustifs relativement à l’information contenue dans les données ;
§ Rassembler le plus d’information possible.
Selon Yule, un indicateur statistique doit être une valeur :

1. Définie de façon objective ;
2. Dépendante de toutes les observations ;
3. Significative pour être comprise par les non-spécialistes ;
4. Simple à calculer ;
5. Peu sensible aux fluctuations d’échantillonnage ;
6. Qui se calcule selon des opérations mathématiques classiques.
Nous allons en premier lieu introduire les indicateurs de tendance centrale et de position,
qui nous faciliteront la compréhension des indicateurs de dispersion, pour passer après aux
indicateurs de concentration.
I. Indicateurs de tendance centrale et de position
Les indicateurs de tendance centrale et de position sont des indicateurs qui se situent au
milieu, ou qui indiquent où se positionne une série de données. C’est des indicateurs qui
représentent une valeur numérique, autour de laquelle les observations sont réparties. Ceux
de la tendance centrale mesurent par exemple le centre de la distribution d’une série de
données, nous pouvons citer à titre d’exemple, la moyenne.
Dans ce chapitre, nous introduirons la moyenne, le mode et la médiane, comme indicateurs
de tendance centrale et les quantiles, comme indicateurs de position.
1. La moyenne
Nous introduirons la moyenne arithmétique, la moyenne géométrique, la moyenne
harmonique et la moyenne quadratique.
1.1 Moyenne arithmétique

La moyenne arithmétique est un indicateur de tendance centrale qui concerne uniquement
les variables quantitatives. La moyenne d’une série statistique est définie par la somme des
valeurs de xi divisée par l’effectif total.
Sa formule est la suivante :
1
(1) x= å xi
n i
1
(2) x= å ni xi
n i
x = å f i xi
i
xi : désigne les valeurs de la variable,

ni : les effectifs correspondants,
fi : les fréquences correspondantes
n : l’effectif total.
Notons que la formule (1) représente la formule pour calculer la moyenne arithmétique
simple et la formule (2) pour calculer la moyenne arithmétique pondérée.
Remarque : si les ni prennent des valeurs égales à 1, l’indicateur est simple et par
conséquent il est non pondéré. Si les ni prennent des valeurs différentes de 1, l’indicateur
est pondéré. Cette remarque est valable pour les autres types de la moyenne.
Nous mettons en exergue que la moyenne arithmétique a des propriétés et des

caractéristiques intéressantes4 que nous explicitons ci-dessous :
1. La moyenne est le centre de la distribution d’une série statistique.
2. La somme des écarts des observations par rapport à la moyenne est toujours nulle.
3. La moyenne est affectée par le changement de valeurs.
4. La moyenne est sensible aux valeurs extrêmes.
5. La moyenne d'un groupe qui est un ensemble d'autres groupes n'est égale à la
moyenne des moyennes que si tous les groupes ont le même effectif.
6. La moyenne de l'échantillon peut être un estimateur de la moyenne de la population.
7. La moyenne peut être un chiffre avec des décimales, même si les xi sont entiers par
nature.
8. La moyenne prend en compte l’ensemble des valeurs (contrairement au mode).
NB. Dans le cas d’une variable continue, xi représente le centre des classes dans la formule
(2) du calcul de la moyenne.
4
Les exercices corrigés permettront d’assimiler le calcul de la moyenne arithmétique et ses propriétés et les autres
indicateurs.
1.2 Moyenne géométrique

La moyenne géométrique d’une variable statistique avec des valeurs positives est la racine
nième du produit des valeurs observées.
Sa formule peut être écrite de plusieurs façons, en utilisant le logarithme, en utilisant la
notation Pi du produit (π), ou comme ci-dessous :
n
G = n x1n1 ´ ... ´ x p p
La moyenne géométrique est principalement utilisée pour calculer les coefficients

multiplicateurs moyens dont sont déduits les taux de variation. A titre d’exemples, les taux
de variation annuels, les taux de variation semestriels, les taux de variation mensuels…
Notons que la moyenne géométrique est applicable à des mesures de grandeurs dont la
croissance est géométrique ou exponentielle. Elle est toujours inférieure ou égale à la
moyenne arithmétique.
1.3 Moyenne harmonique

La moyenne harmonique d'une série statistique dont les valeurs sont positives est égale à
l'inverse de la moyenne arithmétique des inverses des valeurs. Sa formule est la suivante :
n 1
H= ou bien H =
å i i
n / x åi
f i / xi
i
Elle est principalement utilisée quand l’unité de la variable dont on cherche la moyenne est
un quotient (ex. km/h, Dirham/Dollar, prix/unité...).
Elle peut être ainsi utilisée lorsqu’il est possible d’attribuer un sens réel à l’inverse des
données.
Nous mettons en exergue une comparaison intéressante entre les 3 moyennes :

H≤G≤ x
1.4 Moyenne quadratique

La moyenne quadratique est la racine carrée de la moyenne arithmétique des carrés des
valeurs. Sa formule est la suivante :
1 k 1 k
Q = å ni xi2 ® Q =
2
å ni xi2
n i =1 n i =1
Elle est utilisée par exemple en physique, pour calculer l’énergie moyenne ou l'intensité
moyenne dans un circuit. Elle est aussi utilisée en mathématique pour calculer la superficie
moyenne d’un ensemble de parcelles par exemple.
2. Le mode
Le mode est la valeur de la variable la plus fréquemment observée. En d’autres termes,
c’est la modalité qui a l’effectif le plus élevé (ou la fréquence la plus élevée). Le mode
représente ainsi le xi correspondant au ni (ou fi) maximum.
Le mode peut être aussi défini comme une valeur qui domine les autres et qui lui confère le
statut d’indicateur de tendance centrale. Notons que le mode n’est pas influencé par les
valeurs extrêmes.
Si les données ont exactement deux modes, on note que les données sont bimodales. Si les
données ont plus de deux modes, on souligne que les données sont multimodales ou
plurimodales.
2.1 Cas d’une variable discrète

Le mode est facilement repérable, c'est la valeur xi qui a la fréquence est la plus élevée. Le
mode d’une distribution est la modalité de la variable dont l’effectif est le plus important (le
plus élevé).
Dans un diagramme en bâtons, c’est la valeur de la variable qui correspond au bâton le plus
haut.
2.2 Cas d’une variable continue

Puisque les données sont groupées en classes, on doit définir en premier lieu la classe
modale. Cette dernière est la classe ayant la plus forte densité de fréquence. Notons que
nous pouvons avoir des classes avec des amplitudes égales ou inégales.
2.2.1 Cas d’amplitudes égales

La classe modale est celle qui correspond à la fréquence la plus élevée, ou l’effectif le plus
élevé. Il est important de noter qu’on retient comme une valeur modale ou le mode, le
centre de la classe modale, dans un cas particulier : si l’effectif de la classe précédente à la
classe modale (ni-1) est égal à l’effectif de la classe suivante à la classe modale (ni+1); sinon
le mode doit être calculé selon la formule suivante :
æ ( ni - ni -1 ) ö
Mo = bMo + çç ÷÷ ´ aMo
è ( ni - ni -1 ) + ( ni - ni + 1 ) ø
bMo : la borne inférieure de la classe modale.

aMo : l’amplitude de la classe modale.
ni : l’effectif de la classe modale.
ni+1 : l’effectif de la classe suivante à la classe modale.
ni-1 : l’effectif de la classe précédente à la classe modale.
2.2.2 Cas d’amplitudes inégales
Si les classes ont des amplitudes inégales, il faut prendre en considération soit la densité
d’effectif (ni/ai) ou la densité de fréquence (fi/ai). La détermination de la classe modale se
ramène après au cas précédent. Le mode est calculé en appliquant la formule ci-dessus en
remplaçant ni par (ni/ai).
Notons que dans un cas particulier, où une classe est caractérisée à la fois par l’amplitude
la plus petite et l’effectif le plus élevé, dans ce cas elle a nécessairement la densité la plus
forte et le calcul des densités n’est pas nécessaire pour en déduire la classe modale.
Nous pouvons aussi déterminer le mode graphiquement comme illustré dans le schéma
ci-dessous.
Détermination du mode graphiquement
Source : élaboré pour illustration
3. La médiane
La médiane (Me) est un centre de position lorsque les données sont rangées par ordre
croissant. Sa détermination est réalisée de façon différenciée en fonction de la parité (pair
ou impair) de la taille de l’échantillon (n).
§ Si n est impair, soit n = 2 p + 1 , alors (Me = x(p+1))
§ Si n est pair, soit n = 2 p, alors (Me = (x(p) + x (p+1)) / 2)
Notons que la médiane (Me) d’une série statistique est une valeur de la variable telle que 50%
des individus statistiques présentent une modalité inférieure à Me, et 50% présentent une
modalité supérieure ou égale à Me. Ainsi, en prenant en considération F comme une
fonction des fréquences cumulées, la médiane d’une série statistique sera la plus petite
valeur x telle que F(x) ≥ 0,5 ou bien F(x) ≥ 50%.
On peut ainsi déterminer graphiquement la médiane, dans la courbe de fréquence cumulée
(ou même dans la courbe d’effectif cumulé).
Dans le cas d’une variable continue où les données sont groupées en classes, on doit définir
en premier lieu la classe médiane, qui contient la médiane. La valeur de la médiane est
déduite par la suite par interpolation linéaire selon la formule suivante :
é 50 - Fi -1 ù
Me = bi + êai ´ ú
ë Fi - Fi -1 û
ai : amplitude de la classe médiane.

bi : limite inférieure de la classe médiane.
Fi-1 : fréquence cumulée de la classe précédente à la classe médiane.
Fi : fréquence cumulée de la classe médiane.
Il est important de souligner que :

§ Dans la formule de calcul de la médiane, on se base sur la fréquence cumulée et non
pas sur la fréquence relative.
§ Contrairement au mode, dans le cas d’amplitudes inégales, on ne procède pas à
l’utilisation de la densité d’effectif ou de la densité de fréquence.
§ La médiane ne doit pas être confondue avec la médiale qui se calcule aussi avec des
fréquences cumulées, sauf que celles-ci se basent sur les (xi × ni).
§ La médiane est un indicateur dit robuste, car de nombreuses observations peuvent
varier sans que la médiane ne soit modifiée.
4. Quantiles
Les quantiles (ou les percentiles) sont des indicateurs de position. Si nous considérons une
variable quantitative discrète ou continue, dont les modalités sont classées en ordre
croissant, le quantile d'ordre α (0 ≤ α ≤ 1) noté qα est la valeur de la variable telle que α%
(c’est-à-dire une proportion α) des individus ont une modalité inférieure à qα. En d’autres
termes, (100 - α)% des individus ont une valeur supérieure ou égale à qα.
Nous allons introduire dans les sections suivantes les quantiles les plus utilisés, à savoir, les
quartiles, les déciles et les centiles, avant de spécifier leur méthode de calcul.
4.1 Quartiles
Les quartiles sont des indicateurs de position qui partagent les observations en 4 groupes
d’effectifs égaux.
Les quartiles sont les 3 valeurs q25, q50, q75. Ceci dit, 25%, 50%, 75% des individus ont une
valeur inférieure à q25, q50, q75 respectivement.
Les quartiles sont aussi notés : Q1, Q2, Q3 (Q pour Quartile). Notons que Q2 représente la
médiane, qui est aussi un indicateur de tendance centrale.
4.2 Déciles
Les déciles sont des indicateurs de position qui partagent les observations en 10 groupes
d’effectifs égaux. Les déciles sont les 9 valeurs q10, q20,…,q90.
Ceci dit, 10%, 20%,...90% des individus ont une valeur inférieure à q10, q20,...q90
respectivement.
Les déciles sont aussi notés : D1, D2….D9 (D pour Décile).
4.3 Centiles
Les centiles sont des indicateurs de position qui partagent les observations en 100 groupes
d’effectifs égaux. Les centiles sont les 99 valeurs q1, q2, q3,...,q99. Ceci dit, 1%, 2%, 3%
….99%, des individus ont une valeur inférieure à q1, q2, q3,...,q99 respectivement.
Les centiles sont aussi notés : C1, C2….C99 (C pour Centile).
La notation « q » a le mérite d’être identique pour tous les quantiles, car même si les
notations C1, Q1, D1, par exemple, ont l’avantage de nous indiquer le type de quantile, leur
inconvénient est de noter de manière différente des quantiles qui représentent la même
chose (exemple : D1 = C10, Q1 = C25, Q2 = D5 = C50).
Lorsqu’on dispose d’une variable quantitative continue, on peut déterminer les quantiles
graphiquement (dans la courbe des fréquences cumulées ou même dans la courbe des
effectifs cumulés), comme pour la médiane, ou selon la formule ci-dessous qui est aussi
utilisée pour calculer la médiane en remplaçant F(qα ) par 50%.
é F (qa ) - Fi -1 ù
qa = bi + êai ´ ú
ë Fi - Fi -1 û
ai : amplitude de la classe où se trouve le quantile.
bi : limite inférieure de la classe où se trouve le quantile.
Fi-1 : fréquence cumulée de la classe précédente à la classe où se trouve le quantile.
Fi : fréquence cumulée de la classe où se trouve le quantile.
F(qα ) peut-être égale à 25%, 10%, 3%, 71%....selon l’ordre souhaité.
Dans le cas d’une variable discrète ou d’une série statistique, la formule ci-dessus ne peut
pas être appliquée et les quantiles se calculent selon les 3 étapes suivantes :
Etape 1 : Mettre les données en ordre croissant.
Etape 2 : Calculer un indice i,
!
tel que i = "## × n ;
α représente l’ordre du quantile et n l’effectif total.

Etape 3 :
Si l’indice i est un nombre entier, la valeur du quantile correspond à la
moyenne des valeurs des deux observations du rang i et i +1. Elle est ainsi
égale à (Xi + Xi+1 )/2
Si l’indice i n’est pas un nombre entier, il faut l’arrondir (troncature à l’unité).
La valeur du quantile est celle de l’observation du rang (i+1) après la
troncature et elle est égale à (Xi+1).
5. Caractéristiques et formes d’une série statistique

La moyenne, le mode et la médiane comme indicateurs de tendance centrale nous
renseignent sur l’ordre de grandeur d’une série statistique et sur la forme qu’elle prend.
Statistiquement, une distribution peut être symétrique ou asymétrique (oblique).
5.1 Distribution symétrique

Dans le cas d’une distribution symétrique, la moyenne, le mode et la médiane ont les
mêmes valeurs, et les observations sont également dispersées par rapport à ces valeurs
centrales. Sa forme est représentée comme ci-dessous :
M0 = Mé = x
Distribution symétrique

5.2 Distribution asymétrique
Si la distribution n’est pas symétrique, elle est asymétrique ou oblique. L’obliquité ou
l’inclinaison se repère du côté de la décroissance la plus forte. La distribution peut être
oblique à gauche (étalée vers la droite) comme dans le graphique ci-dessous. Dans ce cas,
le mode est inférieur strictement à la médiane qui est de même par rapport à la moyenne
arithmétique.
Distribution asymétrique
La distribution peut être aussi oblique à droite (étalée vers la gauche) comme dans le
graphique ci-dessous. Le mode est supérieur strictement à la médiane qui est de même par
rapport à la moyenne arithmétique.
Distribution asymétrique
5.3 Coefficient d’asymétrie.

Au lieu de dessiner la courbe qui représente les fréquences relatives afin d'en déduire si la
distribution est symétrique, oblique à droite ou oblique à gauche, nous pouvons calculer le
coefficient de Yule et Kendall. Ce dernier est égal à :
é Q3 + Q1 - 2Q2 ù
ê ú
ë Q3 - Q1 û
Q1, Q2, Q3 représentent les quartiles.
Le coefficient de Yule et Kendall est compris entre -1 et 1, son interprétation est la

suivante :
§ 0 : la distribution est symétrique.
§ > 0 : la distribution est étalée vers la droite.
§ < 0 : la distribution est étalée vers la gauche.
Le coefficient de Fisher peut être aussi utilisé pour déduire la forme de la distribution et il a
la même interprétation que celle de Yule et Kendall, afin de savoir si la distribution est
symétrique, ou étalée vers la droite ou vers la gauche.
Ce coefficient est égal à :
3
n n æ xi - x ö
´å ç
ç
÷
÷
(n - 1) ´ (n - 2) i =1 è s ø
« s » représente l’écart-type, un indicateur de dispersion qui sera introduit dans la section

suivante.
II. Indicateurs de dispersion
En obtenant les quartiles Q1, Q2, Q3 et en y ajoutant le minimum et le maximum des

observations, nous obtenons un résumé en 5 chiffres. Ces 5 chiffres (Q1, Q2, Q3, Min, Max)
seront utiles pour illustrer la Boîte à pattes (Box plots). Elle est aussi appelée Boîte de
Tukey.
1. Boîte à pattes
La boîte à pattes est utile pour visualiser la dispersion des données, pour faire des
comparaisons entre plusieurs échantillons ou populations et pour détecter les valeurs
aberrantes ou extrêmes. Elle est illustrée dans le graphique ci-dessous.
Boîte à pattes (Boîte de Tukey)

Source : élaboré pour illustration.
Comment la construire ?
1. Dessiner la boîte avec deux limites : Q1 et Q3.
2. Dessiner une ligne verticale qui correspond à la valeur de Q2.
3. Fixer les limites :
§ la limite inférieure est égale à (Q1 – (1.5 × (Q3- Q1)))
§ la limite supérieure est égale à (Q3 + (1.5 × (Q3- Q1))).
Tracer les pattes qui correspondent à deux lignes horizontales. Celle de la droite se
prolonge jusqu’à la plus grande valeur qui se situe directement avant la limite supérieure, et
celle de la gauche se prolonge jusqu’à la plus petite valeur qui se situe directement après la
limite inférieure.
Notons qu’une valeur qui dépasse les limites peut être une valeur aberrante ou une valeur
extrême (illustrée par l’étoile rouge dans le graphique). S’il n’existe aucune valeur qui
dépasse les limites, les pattes se prolongent jusqu’au minimum à gauche et jusqu’au
maximum à droite.
A partir de la boîte à pattes, nous pouvons noter l’écart (Q3 - Q1) et l’écart (Max - Min), le
rapport (Q3- Q1)/ Q2) par exemple, qui représentent des indicateurs de dispersion que nous
allons introduire dans cette section.
Les indicateurs de dispersion caractérisent numériquement la manière dont les observations

s’écartent les unes des autres. Ces indicateurs nous indiquent comment les observations
s’écartent d’une valeur de référence ou d’un indicateur de tendance centrale. Leur utilité se
concrétise surtout lorsqu’on a deux distributions qui peuvent être différentes, tout en ayant
des caractéristiques de tendance centrale proches.
Nous allons introduire dans cette section les indicateurs suivants :

§ L’étendue.
§ L’écart interdécile et l’écart intercentile.
§ L’écart interquartile.
§ L’écart absolu.
§ La variance et l’écart-type.
§ Les paramètres de dispersion relative.
2. Etendue
L’étendue est la différence entre la plus grande valeur et la plus petite valeur des
observations. Sa formule est la suivante :
Etendue = X (max) - X (min)
L’étendue est très simple à calculer, mais il ne tient compte que des deux observations
extrêmes, susceptibles d’être parfois des données aberrantes.
Pour pallier cet inconvénient, une idée consiste à éliminer de la mesure de dispersion une
certaine proportion d’observations aux extrémités de la distribution (appelées queues de
distribution). Ceci nous amène à définir l’écart interdécile, l’écart intercentile et l’écart
interquartile.
3. Ecart interdécile & Ecart intercentile

L’écart interdécile (D9 - D1) écarte 10% des observations les plus petites et 10% des
observations les plus grandes des deux extrémités de la distribution. C’est un indicateur de
dispersion qui concerne 80% des observations centrales.
Un écart relatif peut être aussi calculé à partir de ces deux déciles en utilisant (D9/D1).
L’écart intercentile (C99-C1) écarte 1% des observations les plus petites à gauche et 1% des
observations les plus grandes à droite. C’est aussi un indicateur de dispersion et il concerne
98% des observations centrales.
4. Ecart Interquartile (EIQ)

L’écart interquartile (EIQ) est un indicateur de dispersion, qui peut être utilisé pour illustrer
la boîte à pattes, et qui n’est pas dépendant des valeurs extrêmes. Sa formule est la
suivante :
EIQ = Q3 -Q1
L’intervalle interquartile est l’intervalle [Q1 - Q3] et il contient 50% des observations.
Notons qu’on utilise parfois l'écart semi-interquartile qui peut être calculé selon la formule
suivante : (Q3 -Q1)/2.
5. Ecart absolu
L’écart absolu moyen est par définition la moyenne arithmétique des valeurs absolues des
écarts de toutes les observations à la moyenne arithmétique.
Cet indicateur nous donne une vision sur la valeur moyenne qui écarte toutes les
observations par rapport à la moyenne.

1
e= å ni x i - x
n i
L’écart absolu médian est la moyenne arithmétique des valeurs absolues des écarts de
toutes les observations à la médiane.
1
e' = å ni xi - M e
n i
6. Variance & écart-type

La variance est un indicateur qui se base sur la différence entre chaque observation et la
moyenne arithmétique (écart par rapport à la moyenne).
Elle est utile comme une mesure pour comparer le degré de dispersion de plusieurs
populations/échantillons selon la même variable exprimée dans la même unité.
La variance est un indicateur de dispersion qui utilise toutes les observations. Elle est la
moyenne arithmétique des carrés des écarts de toutes les observations à la moyenne
arithmétique.
La variance est souvent notée s2 (dans le cas d’un échantillon) ou σ² (dans le cas d’une
population), ou tout simplement Var(x) et elle est calculée en utilisant la formule suivante :
å n (x )
k
2
i i -x
S2 = i =1
n
Notons que la variance d’un échantillon s2 peut être un estimateur de la variance de la
population. La formule peut être aussi rectifiée en remplaçant (n) par (n-1). Notons aussi
que les unités associées à la variance sont élevées au carré, ce qui rend difficile son
interprétation. L’interprétation que nous pouvons lui donner est que la population ou
l’échantillon qui a la plus grande variance a la plus grande dispersion. Ceci dit, il n’est pas
utile de chercher d’autres interprétations pour cet indicateur.
Pour obtenir un indicateur de dispersion absolue, l’écart-type est calculé en utilisant la

variance. L'écart-type est noté σ ou s et il correspond à la racine carrée de la variance,
comme dans les deux formules ci-dessous.
s = s²
S = S²
L’écart type est ainsi plus facilement comparable et interprétable que la variance, puisqu’il
est mesuré dans les mêmes unités que les données. Notons qu’il est aussi utilisé pour
calculer le coefficient d’asymétrie de Fisher introduit plus haut.
Nous avons défini l’étendue, l’écart interdécile, l’écart intercentile, l’écart interquartile,
l’écart absolu, la variance et l’écart type, qui représentent des indicateurs de dispersion
absolue. Nous présentons dans la section suivante les indicateurs de dispersion relative.
7. Indicateurs de dispersion relative

La question qui peut se poser maintenant est la suivante : comment peut-on comparer la
dispersion de deux échantillons en prenant en considération la même variable qui a des
unités différentes (Yen et Dirham par exemple) ?
Pour ce faire, les indicateurs de dispersion relative (sans unité) peuvent être utilisés, comme
le coefficient de variation.
7.1 Coefficient de variation

Le coefficient de variation (CV) mesure l’écart type relatif à la moyenne. C’est un
indicateur utile pour comparer les dispersions de variables ayant des unités différentes. Le
CV est calculé selon la formule suivante :
sx
CV x = ´ 100
x
En d’autres termes, le coefficient de variation permet de comparer les dispersions de
distributions, en prenant en considération la même variable, mais qui n’est pas exprimée
dans la même unité. Nous pouvons souligner que la distribution (population ou échantillon)
qui a le coefficient de variation le plus élevé a la plus grande dispersion autour de la
moyenne.
On peut aussi déduire d’autres indicateurs de dispersion relative en utilisant par exemple,
les quartiles, les déciles, ou l’écart absolu moyen. Ces indicateurs et leur formule de calcul
sont présentés ci-dessous.
7.2 Coefficient interquartile relatif

Le coefficient interquartile relatif peut être défini par la formule suivante :
Q3 - Q1
Q2
7.3 Coefficient interdécile relatif

Le coefficient interdécile relatif peut être défini par la formule suivante :
D9 - D1
D5
7.4 Ecart relatif moyen
L’écart relatif moyen peut être défini par la formule suivante :
Ecart absolu moyen / Moyenne
Nous pouvons remarquer que ces indicateurs de dispersion relative sont sous forme d’un
ratio, qui représente le rapport entre un indicateur de dispersion et un indicateur de
tendance centrale.
Enfin, nous mettons en exergue que le choix d’un indicateur de dispersion est souvent lié
au choix des indicateurs de tendance centrale et de position. Ceci dit, si la position d’une
distribution a été résumée par des quantiles, la distribution est dans la plupart des cas,
quantifiée par les écarts absolus ou relatifs intequantiles. Si la moyenne arithmétique a été
privilégiée alors l’écart type est souvent l’indicateur de dispersion choisi.
III. Indicateurs de concentration
En complément des indicateurs de tendance centrale et de position et des indicateurs de

dispersion, il est parfois intéressant de calculer les indicateurs de concentration.
En fait, les indicateurs de concentration sont des indicateurs qui mesurent le degré
d’inégalité dans la répartition de la somme des observations.
Ceci dit, une condition est nécessaire pour pouvoir utiliser et calculer les indicateurs de
concentration, qui requiert que la somme des observations ait un sens et les données bien
évidemment doivent être quantitatives. Ainsi pour une distribution de salaires, le résumé de
la répartition de la masse salariale fait appel à des méthodes distinctes de celles utilisées
pour résumer la répartition des salaires.
En d’autres termes, la concentration concerne l’intensité du groupement des données. Elle

ne s’applique qu’à des variables continues à valeurs positives susceptibles d’addition.
La concentration peut se caractériser soit par un procédé graphique (courbe de Lorenz), soit
par le calcul d’un indice (Indice de Gini). Il est important de noter que la concentration
n’est pas l’inverse de la dispersion.
1. Courbe de Lorenz
Pour obtenir une représentation graphique mettant en évidence la concentration, l’idée est
de travailler avec les fréquences cumulées et les agrégats cumulés (selon la variable
étudiée). En portant en abscisse les fréquences cumulées et en ordonnée les agrégats
cumulés (qui varient de 0% à 100 %), nous obtenons une courbe de concentration, appelée
courbe de Lorenz. Cette courbe relie des points successifs : fréquence cumulée - agrégat
cumulé.
La courbe de Lorenz est toujours en dessous de la bissectrice, comme illustrée dans le

graphique plus bas. Si cette courbe s’en éloigne, l’inégalité s’accroît. En d’autres termes,
plus la courbe est proche de la diagonale, plus la répartition de la variable étudiée tend à
être égalitaire. Ceci suggère d’utiliser l’aire de concentration, comprise entre la courbe et la
bissectrice comme indicateur d’inégalité.
La courbe de Lorenz illustrée ci-dessous est un exemple qui concerne la part ou la

proportion cumulée d’une population par rapport à celle du revenu. « A » désigne l’air de
concentration.
Courbe de Lorenz
Nous pouvons souligner qu’en prenant en considération la courbe de Lorenz, on peut

comparer la concentration de deux populations ou plus, selon la même variable en
représentant sur le même graphique leur courbe de Lorenz. On peut aussi comparer la
concentration de deux variables, par rapport à la même population.
2. Indice de Gini
L’indice de Gini (IG) constitue un indicateur, ou une mesure synthétique de la concentration
des données.
Le calcul de cet indice repose sur la position de la courbe de Lorenz, c’est à dire plus la
courbe est proche de la diagonale, plus la répartition tend à être égalitaire.
L’idée est donc de calculer l’aire de la surface (surface de concentration) située entre la
courbe de Lorenz et la bissectrice « A ».
L’indice de Gini (IG) est égal à deux fois l’aire de concentration. Cet indice est compris
entre 0 et 1 :
§ Plus il est proche de 0, plus la répartition tend à être égalitaire.
§ Plus il est proche de 1, plus la répartition tend à être inégalitaire.
En d’autres termes, l’indice de Gini (IG) est un indicateur de la concentration, plus il est
grand, plus la concentration est importante. Il existe plusieurs formules pour calculer cet
indice, on peut proposer de l’évaluer selon la formule suivante :
n
I G = 1 - å ( xi - xi - 1 )( yi + yi - 1 )
i =1
Les xi désignent les valeurs prises par la variable sur la part cumulée de la population
étudiée, et les yi désignent les valeurs prises par la variable sur la part cumulée de la masse
à répartir.
Une autre formule plus simple :

n
I G = 1 - å f i ( Fi' + Fi'-1 )
i =1
Les fi désignent les fréquences relatives concernant la variable et les F'i désignent les
fréquences relatives cumulées concernant la masse de la variable.
IV. Exercices corrigés

Exercice 1
Soit une série statistique qui correspond à la taille d’un groupe d’étudiants en cm :
160, 165, 175,180, 182, 164, 176.
Calculez la moyenne
Solution
• L’effectif total : n = 7
• Le total = 160+165+175+180+182+164+176 = 1202
• La moyenne est ainsi égale à :
1202
x= = 171,7 cm
7
Exercice 2
Soit une série statistique qui correspond aux prix des livres de gestion dans une librairie en
Dhs : 120, 150, 250, 210, 150.
Calculez la moyenne
Solution
• L’effectif total : n = 5
• Le total = 120 + 150 + 250 + 210 + 150 = 880
• La moyenne est ainsi égale à :
880
x= = 176
5 Dhs
Remarques :
o On peut vérifier que la somme des écarts à la moyenne est nulle en calculant :
§ (120-176) + (150-176) + (250-176) + (210-176) + (150-176) = 0
o On peut aussi vérifier que la moyenne est affectée par les changements de valeurs.
Nous pouvons remplacer juste la dernière valeur par 2000 Dhs, et noter que la
moyenne changera, elle sera ainsi égale à 552 Dhs.
Exercice 3
On dispose ci-dessous de la répartition d’un échantillon de familles selon le nombre
d’enfants.
Répartition des familles selon le nombre d’enfants.
Nombre Nombre
d'enfants de familles
0 7
1 15
2 20
3 6
4 8
Source : exemple
Calculez la moyenne de cette variable quantitative discrète.
Solution
Répartition des familles selon le nombre d’enfants.
Nombre Nombre de xi × ni
d'enfants xi familles ni
0 7 0
1 15 15
2 20 40
3 6 18
4 8 32
Total 56 105
Source : exemple
105
x= = 1, 87
56 enfant !
Remarque :
La moyenne peut être un chiffre avec des décimales, même si les xi sont entiers par nature.
Exercice 4
Supposant que les étudiants de la première année S1 sont répartis dans 3 amphithéâtres,
comme dans le tableau ci-dessous, qui représente la moyenne d’âge des étudiants et les
effectifs.
La moyenne d’âge et les effectifs des étudiants dans 3 amphithéâtres
Amphi Effectif Moyenne d’âge

Amphi A 1000 18,1
Amphi B 500 19,5
Amphi C 1000 18,3
Source : exemple
Quelle est la moyenne d’âge de l’ensemble des étudiants ?
Solution
L’effectif total est de 2 500 étudiants.
On doit calculer la moyenne d’âge par groupe × l’effectif qui correspond à chaque groupe.
= (18,1 × 1000) + (500 × 19,5) + (18,3 × 1000)
= 18100 + 9750+ 18300
= 46 150.
La moyenne = 46150/2500 = 18,46 ans
Remarque
§ Il est important de noter que la moyenne d'un groupe qui est un ensemble d'autres
groupes n'est pas égale à la moyenne des moyennes que si tous les groupes ont le
même effectif. Dans ce sens, la moyenne d’âge de l’ensemble des étudiants n’est pas
égale à la moyenne des trois valeurs 18,1 ; 19,5 et 18,3 (18.63).
Exercice 5
Le tableau ci-dessous représente le taux de variation du PIB en pourcentage de 2019 à 2023
dans un pays :
Taux de variation du PIB
Année 2019 2020 2021 2022 2023

Taux de 1,0% 1,1% 2,5% 1,7% 2,0%
variation % (0,01) (0,011) (0,025) (0,017) (0,02)
Source : exemple
Quel est le taux de variation moyen du PIB ?
Solution
Il faut calculer dans ce cas la moyenne géométrique :
G = (1,010 ×1,011×1,025×1,017 ×1,020)1/5 = 1, 0166

Le taux de variation du PIB en moyenne chaque année de 2019 à 2023 est de 1,66%.
Notons que la moyenne arithmétique n’est pas applicable dans ce cas.
Bonus ! Pour l’année 2023, en remplaçant 2% par 4%, nous trouverons que ce taux de
variation sera égal à 2.05%.
Exercice 6
De février à août, on dispose de l’indice mensuel de variation du prix d’un produit qui est
représenté dans le tableau ci-dessous :
Indices mensuels de variation du prix
Mois M2 M3 M4 M5 M6 M7 M8
Indice 0,98 1,05 1,09 1,02 0,97 1,01 0,96
Source : exemple
Quel est l’indice moyen d’augmentation du prix sur les 7 mois ?

Solution
Il faut calculer dans ce cas la moyenne géométrique. Le tableau dans l’énoncé peut être
présenté comme ci-dessous :
Année M2 M3 M4 M5 M6 M7 M8
Indice en % - 2% 5% 9% 2% -3% 1% - 4%
Donc nous aurons :
G = (0,98 ×1,05 ×1,09 ×1,02 × 0,97 ×1,01× 0,96)1/7 = 1, 0105
L’indice moyen d'augmentation du prix est de 1,05%.

Notons aussi que la moyenne arithmétique n’est pas applicable dans ce cas, puisque nous
avons des taux de variation.
Exercice 7
Une entreprise dispose d’un certain nombre de parcelles de terrains sous forme de carré
réparties dans le tableau ci-dessous.
Répartition des parcelles
Nombre de parcelles Côté de chacune

50 5
10 7
15 4
Source : exemple
Les gestionnaires veulent savoir le côté moyen de la parcelle moyenne.

Calculez le côté moyen de la parcelle moyenne.
Solution
Répartition des parcelles
Nombre de parcelles ni Côté de chacune xi2 Surface = ni × xi2

50 5 1250
10 7 490
15 4 240
75 -- 1980
Source : exemple
o Il faut en premier lieu calculer la surface moyenne des parcelles :
1 k 1980
Q = ∑ n i x 2i =
2
= 26.4
n i=1 75 (m2)
o Donc le côté moyen est :
Q = 26.4 = 5.14 (m)
Exercice 8
Le taux de variation du CA d’une entreprise pendant une année (12 mois) est résumé dans
le tableau suivant :
Taux de variation du CA
Mois M1 M2 M3 M4 M5 M6 M7 du M8 au M12
Taux de 2%
3% 3% 5% 5% 5% -1% -1%
variation % (sur 5 mois)
Source : exemple
Quel est le taux de variation mensuel moyen du CA ?

Solution
Dans cet exercice, il faut utiliser la moyenne géométrique. Suivant la même méthode qui a
été utilisée dans les exercices précédents, le taux de variation du CA de l'entreprise entre le
mois 12 (M12) et le mois M0 (le mois de décembre de l’année précédente) est égal à :
CAM12 = 1,329 CAM0
G = (1,329) 1/12 = 1,024
Le taux de variation mensuel moyen du CA est ainsi égal à : 2,4%.
Bonus ! En remplaçant 2% pour le mois 8, 9, 10, 11 et 12 par 4%, nous trouverons que ce
taux de variation est égal à 3.23%.
Exercice 9
Dans une entreprise le prix unitaire et la quantité renseignés dans des factures d’achat d’un
produit sont résumés dans le tableau ci-dessous :
Prix unitaire en Dhs et quantité achetée d’un produit
N° facture 1 2 3 4 Total
Prix unitaire (xi) 5.00 7.00 4.45 5.5 --
Quantité 1000 1250 800 950 4000
Source : exemple
Calculer le prix moyen d’achat du produit ?
Solution
Prix unitaire en Dhs et quantité achetée d’un produit
N° facture 1 2 3 4 Total
Prix unitaire (xi) 5.00 7.00 4.45 5.5 --
Quantité 1000 1250 800 950 4000
Montant de la facture (ni) 5000 8750 3560 5225 22535
Source : exemple
o Il faut dans ce cas calculer la moyenne harmonique :
5000 + 8750 + 3560 + 5225

= 5,6338
5000 8750 3560 5225
+ + +
5 7 4, 45 5, 5
o Le prix moyen d’achat du produit est de 5,6338 Dhs/unité.
Bonus ! En remplaçant dans la facture 3 et 4 les prix unitaires par 6 et 9 respectivement,

nous trouverons que la moyenne sera égale à 6.78 Dhs/unité.
Exercice 10
Nous disposons de la répartition des consommateurs d’un produit Y selon l’âge comme
ci-dessous :
Répartition des consommateurs d’un produit Y selon l’âge
Age Effectif
[ 15 - 20 [ 130
[ 20 - 25 [ 343
[ 25 - 30 [ 107
[ 30 - 35 [ 33
[ 35 - 40 [ 54
Total 667
Source : exemple
Questions :
1. Calculez le mode.
2. Calculez l’écart absolu moyen et interprétez-le.
3. Calculez Q1, Q2, Q3 et interprétez-les.
4. Calculez l’écart interquartile.
5. Calculez la variance et l’écart-type et interprétez ce dernier.
6. Calculez le coefficient de variation.
7. Dessinez la boîte à pattes sachant que le maximum d’âge est de 38 ans, le minimum
d’âge est de 16 ans et on a une seule observation (32 ans) qui se place juste avant
33,5 ans.
Solution
1. Calcul du mode
• Dans ce cas nous sommes face à une répartition des consommateurs selon une
variable continue avec dans amplitudes égales, ainsi nous ne procèderons pas au
calcul des densités d’effectifs ou des densités des fréquences.
• La classe modale est [ 20 - 25 [qui correspond au plus grand effectif (ni) qui est égal
à 343.
Age Effectif Amplitude de la

classe ai
[ 15 - 20 [ 130 5
[ 20 - 25 [ 343 5
[ 25 - 30 [ 107 5
[ 30 - 35 [ 33 5
[ 35 - 40 [ 54 5
Total 667 --
Source : exemple
Pour calculer le mode, il faut utiliser la formule ci-dessous :
" (343−130) %
Mo = 20 + $ '× 5
# (343−130) + (343−107) &
Le mode est ainsi égal à 22,37 ans.
Age Effectif Centre de ni ×xi xi - x ni . xi − x (

ni . xi − x )
2
la classe xi
[ 15 - 20 [ 130 17,5 2275,0 6,54 850,2 5560.31
[ 20 - 25 [ 343 22,5 7717,5 1,54 528,22 813.46
[ 25 - 30 [ 107 27,5 2942,5 3,46 370,22 1280.96
[ 30 - 35 [ 33 32,5 1072,5 8,46 279,18 2361.86
[ 35 - 40 [ 54 37,5 2025,0 13,46 726,84 9783.27
Total 667 -- 16032,5 2754,66 19799.86
Source : exemple
• Il faut tout d’abord calculer la moyenne qui est égale à : 16032.5/667 = 24.04 ans.
• La moyenne sera ainsi utile pour calculer la valeur absolue de l’écart entre chaque
observation et la moyenne. En appliquant la formule, l’écart absolu moyen est égal à
(2754.66/667) = 4.13 ans
Interprétation : les âges des consommateurs s’écartent en moyenne de 4.13 ans de l'âge
moyen (24.04 ans).
3. Calculez Q1, Q2, Q3
Le premier quartile Q1 ou q25 :
# 25 −19 &
q25 = 20 + %5 × = 20, 57
$ 71−19 (' ans
Interprétation : 25% des consommateurs ont un âge inférieur à 21 ans (en

arrondissant le chiffre), ou bien 75% des consommateurs ont un âge supérieur ou égal à
21 ans.
Le deuxième quartile Q2 ou q50
# 50 −19 &
q50 = 20 + %5 × ( = 22, 98
$ 71−19 ' ans
Interprétation : 50% des consommateurs ont un âge supérieur ou égal à 23 ans.
Le troisième quartile Q3 ou q75
# 75 − 71&
q75 = 25 + %5 × ( = 26, 25
$ 87 − 71' ans
Interprétation : 75% des consommateurs ont un âge inférieur à 26 ans.
4. Ecart interquartile :
Q3-Q1 = 26 - 21 = 5 ans
5. Variance et écart type

La variance = S2 = Var (x) = (19799,9/667) = 29,7 ans2
L’écart type = S = 5,45 ans
Interprétation : la dispersion autour de la moyenne est de 5,45 ans.
6. Coefficient de variation
CV= (l’écart type/moyenne) 100 = (5,45 ans/24,04 ans) × 100 = 0,2267 × 100
= 22,67%.
Interprétation : la dispersion de cette variable (âge) peut être considérée comme
importante (Elle dépasse le seuil de 20%).
7. Dessinez la boîte à pattes sachant que :

o Le maximum d’âge est de 38.
o Le minimum d’âge est de 16 ans
o Supposant que nous disposons d’une seule observation qui correspond à
« 32 ans » qui se place juste avant 33,5 ans.
Illustration de la boîte à pattes :

Exercice 11
On dispose de la répartition des prix d’un échantillon de produits dans le tableau

ci-dessous :
Répartition des prix d’un échantillon de produits
Prix ni
[ 50 - 150 [ 10000
[ 150 - 200 [ 22000
[ 200 - 250 [ 47000
[ 250 - 300 [ 29000
[ 300 - 400 [ 54500
[ 400 - 600 [ 36000
[ 600 - 1000 [ 8000
[ 1000 - 2500 [ 500
Total 207000
Source : exemple
1. Interprétez l’effectif de 47000 dans le tableau.
Solution
1. 47000 produits ont un prix entre 200 et 250 Dhs.
2. Pour calculer le mode, il faut en premier lieu déterminer la classe modale. Nous
sommes devant un cas avec des amplitudes inégales, dans ce cas nous prendrons en
considération les densités d’effectifs calculées dans la dernière colonne dans le
tableau ci-dessous afin de déterminer la classe modale. Dans la formule de calcul du
mode, nous remplaçons ni par ni /ai.
Répartition des prix d’un échantillon de produits
Prix ni ai xi fi ni /ai
[ 50 - 150 [ 10000 100 100 4,83 100,0
[ 150 - 200 [ 22000 50 175 10,63 440,0
[ 200 - 250 [ 47000 50 225 22,71 940,0
[ 250 - 300 [ 29000 50 275 14,01 580,0
[ 300 - 400 [ 54500 100 350 26,33 545,0
[ 400 - 600 [ 36000 200 500 17,39 180,0
[ 600 - 1000 [ 8000 400 800 3,86 20,0
[ 1000 - 2500 [ 500 1500 1750 0,24 0,3
Total 207000 --- ---- 1,00 --
La classe modale est [ 200 - 250 [

Le mode :
" (940 − 440) %
Mo = 200 + $ ' × 50 = 229,07 Dhs
# (940 − 440) + (940 − 580) &
Le mode est ainsi égal à 229,07 Dhs.
Exercice 12
Soit une série statistique qui correspond à la taille de 7 étudiants en cm :
160, 165, 175, 180, 182, 164, 176.
Calculez la médiane.
Solution
o On doit en premier lieu mettre les observations en ordre croissant :
160, 164, 165,175, 176, 180, 182.
o Puisque n = 7 un chiffre impair, n = 2 p + 1 donc p = 3.
Ceci dit : Me = X(p+1)
160, 164, 165, 175, 176, 180, 182.
o La médiane (Me = 175 Dhs).
Remarque :
On peut noter que la médiane ne prend pas en compte toutes les données.
Exercice 13
Soit une série statistique qui correspond aux prix des livres de gestion dans une librairie en
Dhs : 120, 150, 250, 210, 170, 290.
Calculez la médiane.
Solution
o Si n est pair, soit n = 2 p, (Me) = (x(p) + x(p+1) )/2
o La série en ordre croissant : 120, 150, 170, 210, 250, 290.
o La médiane : Me = X(3) + X(4) )/2 = (170+210)/2 =190 Dhs
Remarque :
Notons que la médiane n’est pas sensible aux valeurs extrêmes de la série statistique qu’elle
résume. Supposant au lieu de 290 Dhs nous avons 2000 Dhs, la valeur de la médiane ne
changera pas.
Exercice 14
On dispose de la répartition d’un échantillon de familles selon le nombre d’enfants
présentée dans le tableau ci-dessous :
Répartition des familles selon le nombre d’enfants
Nombre d’enfants Xi ni fi
1 3201 45,80%
2 2498 35,74%
3 919 13,15%
4 241 3,45%
5 130 1,86%
Total 6989 100,00%
Source : exemple
Calculez le mode et la médiane.
o Solution
o Le mode est égal à 1 (n1 est le plus élevé)
o La médiane est égale à 2 (F2(x) > = 50%).
Exercice 15
On dispose de la répartition du CA de 2000 entreprises présentée dans le tableau
ci-dessous :
Répartition du CA des entreprises
CA en million ni
[ 10 - 20 [ 80
[ 20 - 40 [ 240
[ 40 - 60 [ 320
[ 60 - 70 [ 200
[ 70 - 120 [ 500
[ 120 - 180 [ 280
[ 180 - 300 [ 380
Total 2000
Source : exemple
Questions :
1. Calculez la moyenne.
3. Calculez la médiane.
4. Comment est la forme de la distribution de la variable « CA des entreprises » ?
5. Calculez q10, q25, q71, q75, q90 et interprétez-les.
6. Calculez la variance, l’écart-type et le coefficient de variation.
Solution
1. Calculez la moyenne
Répartition du CA des entreprises
CA en million ni xi ni *xi
[ 10 - 20 [ 80 15 1200
[ 20 - 40 [ 240 30 7200
[ 40 - 60 [ 320 50 16000
[ 60 - 70 [ 200 65 13000
[ 70 - 120 [ 500 95 47500
[ 120 - 180 [ 280 150 42000
[ 180 - 300 [ 380 240 91200
Total 2000 --- 218100
Moyenne = (218100/2000) =109.05 MDhs.
2. Calculez le mode
CA en million ni ai ni /ai
[ 10 - 20 [ 80 10 8,0
[ 20 - 40 [ 240 20 12,0
[ 40 - 60 [ 320 20 16,0
[ 60 - 70 [ 200 10 20,0
[ 70 - 120 [ 500 50 10,0
[ 120 - 180 [ 280 60 4,7
[ 180 - 300 [ 380 120 3,2
Total 2000 --
⎛ (20 −16) ⎞
Mo = 60 + ⎜ ⎟ × 10 = 62.86 Mdhs
⎝ (20 −16)+ (20 −10) ⎠
3. Calculez la médiane
CA en million ni ai fi Fi
[ 10 - 20 [ 80 10 4% 4%
[ 20 - 40 [ 240 20 12% 16%
[ 40 - 60 [ 320 20 16% 32%
[ 60 - 70 [ 200 10 10% 42%
[ 70 - 120 [ 500 50 25% 67%
[ 120 - 180 [ 280 60 14% 81%
[ 180 - 300 [ 380 120 19% 100%
Total 2000 100% --
é 50 - 42 ù
Me = 70 + ê 50 ´ = 86
ë 67 - 42 ú
û MDhs
4. Comment est la forme de la distribution de la variable « CA des entreprises » ?
Nous avons obtenu les résultats suivants :

• Mode = 62.86 Mdhs
• Médiane = 86 Mdhs
• Moyenne= 109.05 Mdhs
Ceci dit : le mode < la médiane < la moyenne
Ainsi la distribution du CA des entreprises est oblique à gauche et étalée vers la droite.
5. Calculez q10, q25, q71, q75, q90 et interprétez-les.
(*) Q1 ou q25 :
é 25 - 16 ù
q25 = 40 + ê 20 ´ = 51,25
ë 32 - 16 úû Mdhs
25% des entreprises ont une valeur du CA inférieure à 51,25 MDhs, ou bien 75% des
entreprises ont une valeur du CA supérieure ou égale à 51,25 MDhs.
(*) D1 ou q10 :
é 10 - 4 ù
q10 = 20 + ê 20 ´ = 30
ë 16 - 4 ú
û Mdhs
10% des entreprises ont une valeur du CA inférieure à 30 MDhs.
(*) C71 ou q71 :

é 71 - 67 ù
q71 = 120 + ê60 ´ = 137,14
ë 81 - 67 ú
û Mdhs
71% des entreprises ont une valeur du CA inférieure à 137,14 MDhs
(*) Q3 ou q75 :
é 75 - 67 ù
q75 = 120 + ê 60 ´ = 154,28
ë 81 - 67 ú
û Mdhs
75% des entreprises ont une valeur du CA inférieure à 154,28 MDhs.
(*) C90 ou q90 :

# 90 − 81 &
q90 = 180 + %120 × ( = 236, 84
$ 100 − 81' Mdhs
90% des entreprises ont une valeur du CA inférieure à 236,84 M MDhs.
6. Calculez la variance, l’écart-type et le coefficient de variation.
Variance = 5397,85 (Mdhs)2.

Ecart type = 73,47 Mdhs
CV = 0,6737 ou bien CV = 67,37%.
NB. Il est important de rappeler que le CV est sans unité.
Exercice 16 :
On dispose du salaire initial de 12 agents de sécurité en Dhs comme ci-dessous :
3310 3355 3450 3480 3480 3490 3520 3540 3550 3650
3730 3925
1. Calculez la médiane.
2. Calculez Q1 et Q3.
3. Dessinez la boîte à pattes.
4. Calculez le coefficient interquartile relatif.
5. Calculez le coefficient interdécile relatif.
7. Calculez l’écart relatif moyen.
8. Calculez la variance
9. Calculez l’écart-type.
10. Calculez le coefficient de variation.
Solution
1. La médiane
Me = Q2 = (3490 +3520)/2 = 3505 Dhs
2. Q1 et Q3
On prend on considération la procédure introduite dans le chapitre :
Q1= (3450 +3480)/2 = 3465 Dhs
Q3= (3550 +3650)/2 = 3600 Dhs
3. La boîte à pattes
Etendue = Max - Min
4. Le coefficient interquartile relatif
( Q3 - Q1 ) / Q2 = 135 / 3505 = 0.0385
5. Le coefficient interdécile relatif
( D9 - D1 ) / D5 = (3730 - 3355) / 3505 = 0.1069
6. L’écart absolu moyen
Xi 3310 3355 3450 3480 3480 3490 3520 3540 3550 3650 3730 3925
Moyenne 3540 3540 3540 3540 3540 3540 3540 3540 3540 3540 3540 3540
Ecart -230 -185 -90 -60 -60 -50 -20 0 10 110 190 385
Ecart absolu 230 185 90 60 60 50 20 0 10 110 190 385
L’écart absolu moyen = 1390/12 = 115,83 = 116 Dhs

Interprétation : les salaires des agents de sécurité s’écartent en moyenne de 116 Dhs du
salaire moyen qui est de 3540 Dhs.
7. L’écart relatif moyen :
Ecart absolu moyen 116

= = 0, 032
Moyenne 3540
Il est important de noter que le coefficient interquartile relatif, le coefficient interdécile

relatif et l’écart relatif moyen sont des indicateurs de dispersion relatifs, ceci dit ces trois
indicateurs n'ont pas d'unité.
8. Calculez la variance
å (x - x )
n
2
i
301850
S2 = i =1
= = 25154,16
n 12 (Dhs)2
9. Calculez l’écart type
S = S ² = 25154,16 = 158,60 (Dhs)
Interprétation : la dispersion autour de la moyenne est de 158,60 Dhs (ou en arrondissant

le chiffre :159 Dhs).
10. Calculez le coefficient de variation
158,60
CV x = = 0,044
3540 ou bien 4,4%
Exercice 17
On dispose de la répartition des salariés d'une entreprise X selon le salaire mensuel. Le
tableau ci-dessous représente les fréquences cumulées des salariés et les fréquences
cumulées de la masse salariale.
Répartition des salariés d'une entreprise X selon le salaire mensuel
Salaire Fréquence cumulée Fréquence cumulée de la masse

des salariés « Fi » totale des salaires « F'i »
[ 3000 - 3500 [ 10% 5%
[ 3500 - 4000 [ 30% 17.5%
[ 4000 - 4500 [ 55% 35%
[ 4500 - 5000 [ 78% 58%
[ 5000 - 10000 [ 100% 100%
Total --- ---
Source : exemple
1. Interprétez la première ligne (10% et 5%)

2. Interprétez la quatrième ligne (78% et 58%)
3. Calculez la médiane
4. Calculez la médiale et interprétez-la.
Solution
1. 10% des salariés qui reçoivent un salaire inférieur à 3500 Dhs se partagent 5% de la
masse salariale.
2. 78% des salariés qui reçoivent un salaire inférieur à 5000 Dhs se partagent 58% de
la masse salariale.
3. La médiane : 4000 + (500 × (50-30) / (55-30)) = 4400 Dhs.
4. La médiale : 4500 + (500 × (50-35) / (58-35)) = 4826 Dhs.
Interprétation : 4826 Dhs est la plus petite valeur telle que les salariés ayant un
salaire inférieur ou égal à cette valeur se partagent 50% de la masse salariale. Ou
bien 50% de la masse salariale (Budget destiné pour les salaires) est destinée pour
les employés qui ont un salaire supérieur ou égal à 4826 Dhs.
Exercice 18
On dispose de la répartition des exploitations agricoles selon la surface en hectares comme
dans le tableau ci-dessous :
Répartition des exploitations agricoles selon la surface en hectares
Surface en ha Effectif ni
[ 0 - 10 [ 500
[ 10 - 20 [ 1000
[ 20 - 30 [ 500
[ 30 - 40 [ 400
[ 40 - 60 [ 400
[ 60 - 80 [ 200
Total 3000
Source : exemple
Calculez l’indice de Gini et interprétez-le.
Solution
Source : exemple
Nous rappelons la formule de calcul :
n
I G = 1− ∑ fi (F 'i + F 'i−1 )
i=1
Dans ce cas :
IG = 1 - 0,618 = 0,382
Interprétation :
La répartition de la superficie totale des exploitations agricoles tend à être égalitaire.
Exercice 19
On dispose de la répartition des entreprises selon le nombre de salariés comme dans le
tableau ci-dessous :
Répartition des entreprises selon le nombre de salariés
Nombre de salariés ni
[0-5[ 160
[ 5 - 20 [ 250
[ 20 - 50 [ 50
[ 50 - 100 [ 18
[ 100 - 200 [ 15
[ 200 -500 [ 5
[500 -1000 [ 2
Total 500
Source : exemple
1. Interprétez 160 et 250 dans les deux premières lignes.

2. Calculez l’indice de Gini et interprétez-le.
Solution
1. 160 entreprises ont moins de 5 salariés et 250 entreprises ont un nombre de
salariés entre 5 et 19 employés.
2. L’indice de Gini et son interprétation.
n
I G = 1 - å f i ( Fi' + Fi'-1 ) = 1 - 0,342 = 0,658
i =1
Interprétation :
Une concentration importante de la distribution des salariés au profit des petites entreprises.
La distribution des salariés tend vers l'inégalité.
Remarque :
o On peut dessiner la courbe de Lorenz (courbe de concentration) en prenant en
considération les points M (Fi, F'i).
o Les Fi sont représentées dans la cinquième colonne et F'i dans la septième colonne
dans le tableau ci-dessus.
Exercice 20
On dispose de la répartition d’un échantillon d’entreprises selon le CA dans le tableau
ci-dessous :
Répartition des entreprises selon le CA
CA en million ni
[ 10 - 20 [ 80
[ 20 - 40 [ 240
[ 40 - 60 [ 320
[ 60 - 70 [ 200
[ 70 - 120 [ 500
[ 120 - 180 [ 280
[ 180 - 300 [ 380
Total 2000
Source : exemple
1. Calculez l’indice de Gini
2. Interprétez le résultat.
Solution
1. L’indice de Gini = 1 - 0,635 = 0,375

2. Interprétation : La répartition des individus statistiques tend à être égalitaire.
Statistique bivariée 81
Chapitre 4.
Statistique descriptive bivariée
1. Présentation des données

2. Distribution conjointe
3. Distribution marginale et conditionnelle
4. Fréquence conjointe, marginale et conditionnelle
5. Comment commenter un tableau de contingence ?
6. Recherche d’un lien entre deux variables
7. Indépendance de deux variables
8. Indice de spécificité
9. Covariance
10. Corrélation
Chapitre 4.
Statistique descriptive bivariée
L’analyse d’une série bivariée consiste à étudier une série d'observations ou une série
statistique selon deux variables, d’où le concept de croisement de variables statistiques.
En effet, le croisement de variables statistiques consiste à relever pour le même individu la

valeur prise par deux variables. Ce croisement a pour objectifs :
• de rechercher l’existence d’un lien de dépendance entre les deux variables5 ;
• d’étudier la corrélation et de dégager des tendances ;
• de modéliser le lien (si ce lien existe).
On peut avoir 3 cas lors d’un croisement de deux variables statistiques :

• Le cas de croisement de deux variables qualitatives.
• Le cas de croisement d’une variable quantitative et d’une variable qualitative.
• Le cas de croisement de deux variables quantitatives. Ce dernier cas fera l’objet de
l’analyse de régression linéaire simple qui sera introduite par la suite.
1. Présentation des données

La présentation d’une série bivariée peut être sous forme d’un tableau de contingence, qui
peut être défini comme :
§ un tableau à double entré ou à deux dimensions ;
§ un tableau avec deux variables X et Y, tel que les m modalités de X sont
désignées par X1, X2,…Xi…Xm et les n modalités de Y sont désignées par Y1,
Y2,…. Yj,…Yn.
5
Il est important de souligner qu’un lien ne signifie pas une relation de cause à effet.
§ un tableau avec m lignes et n colonnes comme illustré dans le tableau

ci-dessous, tel que m et n sont les nombres de modalités de la variable X et de
la variable Y respectivement ou le nombre d’intervalles si la variable est
continue6.
Tableau de contingence
2. Distribution conjointe
La répartition de toutes les observations (n) est appelée la distribution conjointe. On peut
noter que l’effectif nij est le nombre d’individus statistiques qui représente à la fois la
modalité Xi et la modalité Yj.
Les nij, tel que i=1,…,m et j=1,…n, représentent ainsi une distribution observée conjointe
du couple (X,Y), qui peut être notée :
{(xi, yj, nij , i =1,…m, j =1,…,n)} ;
tel que le total des observations est la somme des nij.
Les nij sont nommés les effectifs d’intersection.
3. Distribution marginale et conditionnelle

3.1 Distribution marginale
Dans un tableau de contingence, si on calcule le total des colonnes, on obtient les effectifs :
n.1, n.2,…, n.j,…,n.n qui constituent la distribution marginale de la variable Y.
6
On peut noter m, n ou a, b…peu importe la notation, l’important est de la définir.
De même, si on calcule le total des lignes, on obtient : n1. ,n2. ,…,ni. ,…, nm et qui constituent
la distribution marginale de la variable X.
Les deux distributions sont illustrées dans le tableau ci-dessous :
Tableau de contingence avec la distribution

marginale de X et la distribution marginale de Y
• ni. est le nombre d’observations de la modalité Xi de la variable X quelle que soit la

modalité de la variable Y.
• n.j est le nombre d’observations de la modalité Yj de la variable Y quelle que soit la
modalité de la variable X.
• n.. est le nombre total d’observations quelle que soit les modalités de X et de Y, il est
parfois noté n++.
On note ainsi les formules de calcul de ni. , n.j et n.. qui sont explicitées ci-dessous :
)
%$.& & %'( tel que , = - … /

*&+
%.*& & %'( tel que 0 = - … %

$&+
) ,
& %.( = & %'. = %..

*&+ $&+
• La distribution marginale de la variable Y est donc une distribution univariée7. C’est

la distribution de la variable Y seule, dont les modalités sont en marge supérieure et
les effectifs en marges inférieure dans un tableau de contingence.
• La distribution marginale de la variable X est aussi une distribution univariée. C’est

la distribution de la variable X seule, dont les modalités sont en marge gauche et les
effectifs en marge droite dans un tableau de contingence.
Ces deux distributions sont illustrées respectivement dans les deux tableaux ci-dessous :
• Distribution marginale de la variable Y
• Distribution marginale de la variable X
3.2 Distribution conditionnelle
Dans un tableau de contingence, si on fixe Xi et on garde toutes les modalités de la variable

Y, on obtient une distribution conditionnelle, qui est la distribution de la variable Y, tel que
la modalité de la variable X est égale à Xi.
7
On peut ainsi calculer les indicateurs de tendance centrale et de position, et les indicateurs de dispersion introduits
dans le chapitre précédent.
De même, si on fixe Yj et on garde toutes les modalités de la variable X, on obtient une

distribution conditionnelle, qui est la distribution de la variable X, tel que la modalité de la
variable Y est égale à Yj.
Nous illustrons ces deux distributions respectivement dans les deux tableaux ci-dessous :
o Distribution de la variable Y, tel que la modalité de la variable X est égale à X -
o Distribution de la variable X, tel que la modalité de la variable Y est égale à Y.
On peut souligner que dans un tableau de contingence, au lieu des effectifs, nous pouvons
avoir des fréquences. Nous définirons ainsi les fréquences marginales, les fréquences
conditionnelles et les fréquences conjointes.
4. Fréquence conjointe, marginale et conditionnelle

4.1 Fréquence conjointe
Soit, une distribution conjointe {(xi, yj, nij , i =1,…m, j =1,…,n)}, pour i fixé entre 1 et m et j
fixé entre 1 et n, la fréquence conjointe est égale à : fij = nij / n..
4.2 Fréquence marginale
Pour i fixé entre 1 et m, la fréquence marginale colonne est égale à (fi. = ni. / n..). Si on
calcule pour toutes les colonnes les fréquences nij/n.j tel que j =1,…,n ; on obtient les profils
colonnes des individus statistiques.
Pour j fixé entre 1 et n, la fréquence marginale ligne est égale à (f.j = n.j / n..). Si on calcule
pour toutes les lignes les fréquences nij/ni. tel que i =1…m ; on obtient les profils lignes des
individus statistiques.
Les profils lignes et les profils colonnes nous permettent de visualiser les fréquences
conditionnelles que nous introduirons dans la section suivante.
4.3 Fréquence conditionnelle
Pour k fixé entre 1 et m et l fixé entre 1 et n, la fréquence conditionnelle ligne est égale à :
(fj=l/i=k = nkl / nk.)
Etablir les profils lignes consiste de ce fait à calculer toutes ces fréquences.
Pour k fixé entre 1 et m et l fixé entre 1 et n, la fréquence conditionnelle colonne est égale
à : (fi=k/j=l = nkl / n.l)
Etablir les profils colonnes consiste à calculer toutes ces fréquences.
5. Comment commenter un tableau de contingence ?

Après l’introduction d’un tableau de contingence, on peut se poser la question : comment
peut-on commenter ses données ?
On peut utiliser le résumé des marges, le résumé des colonnes et le résumé des lignes et
ceci en prenant en considération les effectifs (ou les fréquences) les plus élevés ou les plus
bas, selon la problématique traitée dans notre étude statistique.
6. Recherche d’un lien entre deux variables

Rappelons que l’objectif de croisement de variable est la recherche d’un lien de
dépendance qui peut exister entre les variables. Ainsi, on peut se poser les questions
suivantes :
• Est-ce que ce lien existe ?
• S’il existe, peut-on évaluer son intensité et sa nature ?
• S’il existe, peut-on le modéliser ?
Pour répondre à la première question, les données statistiques peuvent être présentées sous
forme d’un graphique, et plus précisément sous forme d’un nuage de point, car ce dernier :
o permet de voir si les deux variables ont globalement tendance à covarier, ou non
dans le même sens.
o permet de déterminer si les deux variables sont liées par une relation de dépendance
et d’identifier la forme de la relation quand elle existe.
En fait, un nuage de points est une présentation graphique de la relation entre deux
variables quantitatives, qui peut être traversée par la tendance, qui est une droite qui fournit
une approximation de la relation. Il permet donc d’infirmer ou confirmer « l’intuition » de
dépendance.
Mais comment peut-on définir la dépendance ou l’indépendance de deux variables ?

7. Indépendance de deux variables

Nous pouvons mettre en exergue deux définitions qui concernent l’indépendance de deux
variables statistiques.
La première :
Deux variables X et Y sont statistiquement indépendantes si toutes les distributions
conditionnelles en colonnes (respectivement en lignes) sont identiques à la
distribution marginale colonne (respectivement ligne) de l’ensemble. Ceci dit, si pour
tout i et pour tout j on a :
fj=l/i=k = f.j & fi=k/j=l = fi.
La deuxième :
Deux variables X et Y sont statistiquement indépendantes si la distribution des
fréquences conjointes est égale au produit des distributions des fréquences marginales.
Ceci dit, si pour tout i et pour tout j on a :
fij = fi. × f.j équivalant à nij = (ni. × n.j )/n..
Dans le cas contraire, on peut déduire qu’il y a une forte présomption de dépendance entre
les deux variables.En prenant en considération ces deux définitions de l’indépendance,
nous pouvons souligner qu’elles sont applicables pour tous les types de variables,
puisqu’elles ne tiennent pas compte des modalités.
Maintenant, la question qui se pose est la suivante : quel est le moyen de quantifier les
écarts entre la situation théorique d’indépendance et la situation réelle ?
On peut répondre à cette question en introduisant l’indice de spécificité.
8. Indice de spécificité
Un indice de spécificité est égal au rapport entre la fréquence conditionnelle ligne (colonne)
et la fréquence marginale ligne (colonne) correspondante. Il est applicable, peu importe le
type des deux variables.
Si cet indice :
• dépasse 100%, nous pouvons noter que par rapport à l’ensemble des unités
statistiques, il y a une surreprésentation d’un pourcentage p, qui représente un
dépassement.
• est moins de 100%, nous pouvons noter que par rapport à l’ensemble des unités
statistiques, il y a une sous-représentation d’un pourcentage p, qui sera déduit suite à
un calcul simple pour aboutir à 100%.
Lors d’un croisement de deux variables, on a souligné trois cas. Si les deux variables sont
quantitatives, on peut calculer bien évidemment des indicateurs comme la moyenne et
l’écart-type.
Ces différents calculs permettent d’aborder autrement la question de l’indépendance. Nous

introduirons ainsi la corrélation. Mais avant d’introduire cette dernière, nous devons en
premier lieu introduire la covariance. Par la suite, nous pouvons calculer la corrélation et en
déduire le coefficient de détermination.
9. Covariance
A quoi sert la covariance ? La covariance sert tout simplement à quantifier la variabilité
conjointe de deux variables quantitatives, à titre d’exemple X et Y.
Dans un nuage de points qui est limité par deux droites qui passent par le centre de gravité
5, 7
qu’on note G(4 5), nous pouvons noter les cas suivants :
§ X et Y ont tendance à covarier dans le même sens, c’est-à-dire, qu’une augmentation
de X a tendance à s’accompagner d’une augmentation de Y par exemple (voir le
nuage de points A dans le schéma suivant).
§ X et Y ont tendance à covarier en sens contraire, c’est-à-dire, une augmentation de X
a tendance à s’accompagner d’une diminution de Y par exemple (voir le nuage de
points B dans le schéma suivant).
De ces deux cas, on peut comprendre l’idée derrière l’utilité de la covariance qui représente
un indicateur qui mesure la variabilité conjointe de deux variables.
Pour le nuage de points C dans le schéma ci-dessous, il est de forme circulaire. Il est ainsi
difficile de dire si les deux variables covarient dans le même sens ou dans des sens inverses.
Néanmoins, on ne peut pas conclure de manière définitive l’indépendance entre les deux
variables, il n’est donc pas totalement exclu que les variables soient dépendantes.
Maintenant la question qui se pose : comment calculer la covariance ?

5 et 7
§ Soit X et Y deux variables quantitatives, de moyennes respectives 4 5 pour n
observations, la covariance du couple (X, Y) est définie par :
)
-
89: (4, 7) = &(4$ − 5 5)
4) (7$ − 7
%
$&+
Nous pouvons facilement déduire que la >?@ (x, x) = BCD (x ) et que >?@ (y, y) =
BCD (y).
Nous pouvons introduire une autre formule de calcul de la covariance qui est plus
économique en temps de calcul que la formule précédente.
Cette formule est la moyenne du produit XY moins le produit des moyennes de X et de Y :
"
+
!"# (&, () = -(&! (! ) − &/ (
/ = 0000
&( − /
&(/
,
!#$
Bien évidemment les deux formules doivent aboutir au même résultat.

Comment interpréter la covariance ?

La covariance peut être positive ou négative. Elle est positive dans le cas du nuage de
points A par exemple, négative dans le cas du nuage de points B et nulle ou proche de 0
dans le cas du nuage de points C.
Si on prend en considération le nuage de points ci-dessous :
Dans le cas d’une covariance positive, la plupart des points se trouvent dans le cadran I et
III. Comme dans le graphique ci-dessous où l'on peut remarquer une tendance linéaire8.
8
Nous pouvons aussi avoir une covariance positive avec une tendance exponentielle ou puissance par exemple.
Si la covariance est négative, la plupart des points se trouvent dans le cadran II et IV,
comme dans le graphique ci-dessous :
Si les points du nuage se répartissent équitablement dans les quatre cadrans comme dans le
graphique ci-dessous, la covariance est nulle ou presque nulle.
En résumé, nous pouvons noter que :

* la covariance est un indicateur global de tendance, ce n’est pas un indicateur
d’indépendance.
* si X et Y varient dans le même sens alors la covariance est positive.
* si X et Y varient en sens contraire alors la covariance est négative.
* s’il n’y a pas de tendance croissante ou décroissance alors la covariance est nulle ou
presque nulle.
Il est important de souligner qu’une covariance nulle n’implique pas l’indépendance, mais
l’indépendance implique une covariance nulle.
Ce constat peut être prouvé en prenant en considération les deux nuages de points
ci-dessous où la covariance est nulle. Le nuage de points à droite illustre deux variables qui
peuvent être liées par une relation fonctionnelle, et celui de gauche illustre deux variables
qui sont indépendantes. Il faut ainsi distinguer entre le concept d’indépendance et la
covariance.
Notons que la covariance d’un couple de variables (X,Y) intervient dans la variance de la
somme de ces deux variables et dans la variance de leur différence, puisque nous pouvons
démontrer que :
:CD (4 + 7) = @CD (G) + @CD (H) + I J?@ (G, H)
:CD (4 − 7) = @CD (G) + @CD (H) − I J?@ (G, H)
Ainsi, si les deux variables sont indépendantes, la covariance est nulle, et par conséquent :
:CD (4 + 7) = @CD (G − H) = @CD (G) + @CD (H)

Comme pour la variance, la valeur numérique de la covariance dépend des unités, par
contre la corrélation en est indépendante.
Que représente la corrélation ?
10. Corrélation
Soit (X,Y) un couple de variables quantitatives, d’écarts types respectifs s xs y , le
coefficient de corrélation linéaire du couple (X, Y) est défini par :
Cov ( x , y )
r=
s xs y
Le coefficient de corrélation est aussi nommé, la corrélation tout simplement, ou le
coefficient de corrélation de Bravais-Pearson.
Nous pouvons souligner que :

§ Le coefficient de corrélation linéaire (r) est du même signe que la Cov (x,y).
§ r est toujours compris entre -1 et 1 (-1≤ r ≤1).
§ Si r = 1 ou r = -1 les observations du couple (X, Y) sont parfaitement alignées.
§ Le coefficient de corrélation est une mesure de l’intensité du lien linéaire unissant
deux variables X et Y.
§ Le coefficient de corrélation prend 1 lorsque les points du nuage se positionnent tous
parfaitement le long d’une droite ascendante.
§ Le coefficient de corrélation prend -1 lorsque les points du nuage se trouvent tous
sur une droite de pente négative.
En résumé
* La covariance nous permet de savoir si les deux variables varient dans le même sens
ou en sens inverse. Sa valeur n’est pas importante lors de l’interprétation, vu que
c’est le signe qui est important et qu’on peut interpréter.
* La corrélation est une mesure de l’intensité du lien linéaire entre deux variables
quantitatives, utilisée pour calculer le coefficient de détermination.
* Le coefficient de détermination nous permet d’en déduire si la qualité du modèle
linéaire estimée est bonne. Ce coefficient sera introduit dans la section suivante.
11. Coefficient de détermination

Le coefficient de détermination est le carré du coefficient de corrélation linéaire du couple
(X,Y). Il peut être calculé selon la formule suivante :
2
æ Cov( x , y ) ö
r =ç
2 ÷
ç s s ÷
è x y ø
Notons que :
o Le coefficient de détermination est compris entre 0 et 1.
o Lorsque ce coefficient est élevé, la qualité du modèle linéaire estimé tend à être
bonne. Néanmoins, ceci dépend des disciplines, en sciences de gestion par
exemple, un coefficient de détermination égal à 0.45 peut être considéré comme
satisfaisant, tandis qu’en sciences exactes il doit être plus élevé pour porter le
même jugement.
o Ce coefficient de détermination r 2 peut être interprété comme suit : le modèle
linéaire qui utilise comme variable indépendante ou explicative Y « explique » p%
de la dispersion de la variable dépendante ou expliquée X. Ce p% est tout
simplement le r 2 x 100%.
Il est important de noter que lorsque nous utilisons « explique », c’est dans un
sens purement géométrique, et ce terme ne nous donne dans aucun cas une
preuve d'une relation de cause à effet.
Une autre formule d’interprétation peut être aussi utilisée : p% de la variation de
la variable Y peut s’expliquer par une relation linéaire entre les deux variables.
Nous schématisons ce chapitre dans le schéma ci-dessous :
2%variables%quantitatives%
Variable%X% Lien%?% Variable%Y%
Coefficient%de%%
Covariance%% Corrélation%
détermination%%
Modéliser%la%%%%
relation%%
Dans ce dernier schéma, nous pouvons noter la modélisation de la relation entre deux
variables qui sera introduite dans le chapitre 5. Dans ce dernier, nous introduirons la
régression et plus précisément la régression linéaire simple, puisque nous allons nous
limiter à une relation linéaire entre deux variables. Notons que la régression linéaire
multiple existe et elle concerne la relation entre une variable dépendante et plusieurs
variables indépendantes.
NB. Les exercices corrigés de ce chapitre sont inclus avec ceux du chapitre 5.
Régression linéaire simple 98
Chapitre 5.
Régression linéaire simple
Méthodes d’ajustement
1. Méthode des Moindres Carrées Ordinaires MCO
2. Méthode des moyennes de Mayer
3. Méthode des points extrêmes
4. Méthode graphique
Exercices corrigés
Chapitre 5.
Régression linéaire simple
Pour comprendre l’enchainement de ce chapitre, le schéma introduit à la fin du chapitre

précédent peut être complété comme ci-dessous :
2%variables%quantitatives%
Variable%X% Lien%?% Variable%Y%
Coefficient%de%%
Covariance%% Corrélation%
détermination%%
Modéliser%la%%%%
relation%%
Estimation:% Méthodes%%%%%%%%%%
Prévisions%
Régression% d’ajustement%%
Ceci dit, pour modéliser une relation, nous pouvons utiliser la régression et estimer le
modèle de régression par des méthodes d’ajustement, en cherchant la meilleure relation
entre deux variables, c’est-à-dire la courbe qui passe le plus proche du nuage de points.
L’équation estimée de la régression peut être ainsi utilisée pour faire des prévisions. Dans
ce chapitre, nous introduirons les méthodes d’ajustement et nous nous concentrerons sur la
méthode des Moindres Carrées Ordinaires MCO, qui est la plus répandue.
• Méthodes d’ajustement
Nous introduirons quatre méthodes d’ajustement et nous commencerons par la méthode des
MCO.
1. Méthode des MCO
La méthode des MCO est une procédure qui permet d’utiliser les données de l’échantillon
pour estimer l’équation de régression linéaire : K = LM + N.
O = P/ 4 + Q/ issue d’un
L’équation estimée de la régression linéaire est ainsi notée 7
modèle de régression linéaire 7 = P4 + Q + ℇ , tel que ℇ est une variable aléatoire qui
représente l’erreur, le résidu ou la différence entre la valeur observée et la valeur estimée.
Notons que :
!"#(%,')
o « a » est la pente telle que a =
)*+(%)
o « b » est l’ordonnée à l’origine tel que b = (HS − aGS)
Il est important de souligner que les formules de calcul de « a » et « b » minimisent les

O$ d’où
écarts au carré entre les valeurs observées 7$ et les valeurs estimées 7
l’appellation : la méthode des Moindres Carrées Ordinaires L’équation estimée de la
régression linéaire est ainsi utilisée pour faire des prévisions, en replaçant 4 par une valeur
précise et en déduisant y.
Le graphique ci-dessous nous illustre la différence entre une valeur observée y- et une
5.
valeur estimée yU- et 7
250
200
150
100
50
0
0 2 4 6 8 10 12 14 16 18 20 22 24 26 28

La méthode des MCO fournit ainsi une équation estimée de la régression qui minimise la
somme des écarts au carré entre les valeurs observées y- et les valeurs estimées yU- de la
variable dépendante. C’est-à-dire elle minimise : ∑1-&" (y- − yU- )0
Pourquoi les écarts au carré et non pas les écarts tout simplement ?
Parce que l’épaisseur du nuage représente la dispersion des observations, et dans ce cas en
faisant référence à la dispersion, nous mettons en exergue et nous utilisons la variance qui
est un indicateur de dispersion absolue.
Ceci dit, on prend en considération la variance du terme d’erreur (ou du résidu). Ainsi, nous
pouvons noter que la méthode des MCO minimise la variance s e2 , telle que la moyenne des
résidus est nulle ( e = 0 ).
En d’autres termes, la méthode des MCO minimise la variance des résidus qui est égale à
$
s e2 = ∑"!#$ ((! − (
2! )% telle que KU$ est la valeur estimée de yi. Notons que la
"
$
variance de la variable Y, est égale à s y2 = ∑"!#$((! − (
/)% ; nous pouvons démontrer
"
$
que s y2 = s e2 + s exp
2
liquée tel que s expliquée =
2
∑"!#$ (( / )% .
2! − (
"
Ceci dit, plus les points s’ajustent sur la droite, plus la variance résiduelle (nommée aussi la
variance non expliquée) devient faible, et la variance expliquée est importante.
Par conséquent, nous pouvons réintroduire le coefficient de détermination comme

s exp
2
liquée
ceci r 2 = , avec bien évidement les mêmes interprétations.
s y2
Notons que plus ce coefficient est proche de 1, plus la variance expliquée est grande et la
variance résiduelle est faible, donc plus la qualité du modèle estimé est bonne.
De r2 nous pouvons déduire r qui représente la corrélation. Mais la question qui peut être
posée est la suivante : Comment reconnaître le signe de la corrélation ?
La corrélation peut être calculée selon la formule ci-dessous :
r = (signe de a) √coefficient de détermination = (signe de a) √a 0 ,

tel que « a » correspond à la pente de l’équation estimée de la régression.
Il est important de souligner que :

§ La corrélation est utilisée dans le cas d’une relation linéaire, par contre le coefficient
de détermination a un champ plus large et peut être utilisé dans d’autres types de
relation.
§ La méthode des MCO peut être utilisée pour ajuster des nuages de points par des
fonctions non linéaires, en utilisant des changements de variables adéquats.
Ci-dessous un schéma qui nous donne un aperçu sur trois types de régression, avec leur
fonction avant et après avoir pris le logarithme népérien pour transformer les deux
variables X et Y en X* et Y*. Cette transformation a pour objectif d’aboutir à une équation
linéaire pour pouvoir appliquer la méthode des MCO.
Aperçu sur trois autres types de régression

Nous aborderons dans ce qui suit d’autres méthodes d’ajustement dans le cas d’une
régression linéaire simple, à savoir la méthode des moyennes de Mayer, la méthode des
points extrêmes et la méthode graphique.
2. La méthode des moyennes de Mayer
Cette méthode consiste à diviser une série en deux groupes égaux et calculer les points
moyens ou de gravité G1 ( X 1 , Y1 ) et G2 ( X 2 , Y 2 ) des deux nuages de points.
Si l’effectif total est impair, on divise la série en deux groupes, en prenant en considération
qu’un groupe aura un effectif plus grand d’une observation par rapport à l’autre.
Par la suite, on peut estimer l’équation de la droite y = ax + b par la résolution des deux
équations :
Y1 = a X 1 +b & Y 2 = a X 2 +b
sachant que a et b sont inconnues.
3. La méthode des points extrêmes
Cette méthode consiste à tracer une droite qui passe par les points extrêmes de la série. Elle
reste néanmoins une méthode qui n’est pas précise.
4. La méthode graphique
Cette méthode consiste à tracer à main levée une droite qui passe le plus près des points du
nuage. Elle reste aussi une méthode non précise et dépassée.
Exercice 1
On dispose de la répartition des consommateurs selon l’âge et la marque du Smartphone
utilisé. Cette répartition est présentée dans le tableau ci-dessous :
Répartition des consommateurs selon l’âge et la marque

du Smartphone utilisé
Var X (Age)
A B C D E F Total
/VarY (Marque)
[ 15 - 20 [ 13 62 39 12 136 6 268
[ 20 - 30 [ 3 34 23 97 195 429 781
[ 30 - 40 [ 50 60 163 332 267 1023 1895
[ 40 - 50 [ 35 8 178 4 129 277 631
Total 101 164 403 445 727 1735 3575
Source : exemple
1. Déterminez la distribution marginale de X.
2. Déterminez la distribution marginale de Y.
3. Déterminez les fréquences conditionnelles lignes.
4. Déterminez les fréquences conditionnelles colonnes.
5. Déterminez les fréquences conjointes.
Solution
1. La distribution marginale de X est présentée dans le tableau ci-dessous :
Répartition des victimes selon l'âge
Variable X Effectif
[ 15 - 20 [ 268
[ 20 - 30 [ 781
[ 30 - 40 [ 1895
[ 40 - 50 [ 631
Total 3575
2. La distribution marginale de Y est présentée dans le tableau ci-dessous :
Répartition des victimes selon la marque du smart phone utilisée
Variable Y Effectif
A 101
B 164
C 403
D 445
E 727
F 1735
Total 3575
3. Les fréquences conditionnelles lignes :
Var X\VarY A B C D E F Total

[ 15 - 20 [ 5% 23% 15% 4% 51% 2% 100%
[ 20 - 30 [ 0% 4% 3% 13% 25% 55% 100%
[ 30 - 40 [ 3% 3% 9% 18% 14% 53% 100%
[ 40 - 50 [ 6% 1% 28% 1% 20% 44% 100%
Total 3% 5% 11% 12% 20% 49% 100%
On peut noter que la somme des fréquences de chaque ligne est égale à 100% y compris
celle du total.
4. Les fréquences conditionnelles colonnes :

[ 15 - 20 [ 13% 38% 10% 2% 19% 0% 7%
[ 20 - 30 [ 2% 21% 6% 22% 27% 25% 22%
[ 30 - 40 [ 50% 37% 40% 75% 37% 59% 53%
[ 40 - 50 [ 35% 4% 44% 1% 17% 16% 18%
Total 100% 100% 100% 100% 100% 100% 100%
On peut noter aussi que la somme des fréquences de chaque colonne est égale à 100%, y
compris celle du total.
5. Les fréquences conjointes :

[ 15 - 20 [ 0.4% 1.7% 1.1% 0.3% 3.8% 0.2% 7.5%
[ 20 - 30 [ 0.1% 1.0% 0.6% 2.7% 5.4% 12.0% 21.8%
[ 30 - 40 [ 1.4% 1.7% 4.6% 9.3% 7.5% 28.6% 53.1%
[ 40 - 50 [ 1.0% 0.2% 5.0% 0.1% 3.6% 7.7% 17.6%
Total 2.9% 4.6% 11.3% 12.4% 20.3% 48.5% 100.0%
Exercice 2
On dispose de la répartition d’un échantillon selon l’appréciation pour la vitesse et le genre
Répartition de l’appréciation pour la vitesse selon le genre
Var X /VarY Hommes Femmes Total

Faible 150 107 257
Moyen 180 96 276
Fort 320 122 442
Total 650 325 975
Source : exemple
Est-ce que l’appréciation pour la vitesse est liée au genre ?
Solution
En appliquant la définition de l’indépendance entre deux variables, on calcule les
fréquences conditionnelles colonnes :

Faible 23,08% 32,92% 26,36%
Moyen 27,69% 29,54% 28,31%
Fort 49,23% 37,54% 45,33%
Total 100% 100% 100%
Les fréquences conditionnelles colonnes des hommes sont différentes des fréquences
conditionnelles colonnes des femmes et du total.
Ceci dit, il y a une présomption de dépendance entre les deux variables. On suppose ainsi
qu’un lien existe entre les deux variables. On ne peut être sure qu’on utilisant la loi de
Khi-deux.
NB. Si on avait obtenu des fréquences conditionnelles colonnes identiques comme dans le
tableau ci-dessous, on pourrait déduire que les deux variables sont indépendantes.

Faible 23% 23% 23%
Moyen 28% 28% 28%
Fort 49% 49% 49%
Total 100% 100% 100%
Exercice 3
On dispose de la répartition du montant des ventes d’un produit en milliers de Dhs selon le
nombre de spots publicitaires, comme ci-dessous :
Répartition des ventes d’un produit selon le nombre de spots publicitaires
Nombre de spots publicitaires 1 2 3 4 5 7

Montant des ventes 29 48 70 90 109 147
Source : exemple
1. Représentez graphiquement les données.

2. Que peut-on déduire ?
3. Calculez la corrélation.
4. Comment peut-on interpréter le résultat ?
Solution :
1. Représentez graphiquement les données
160
Montant
140
120
100
80
60
40
20
0
0 1 2 3 4 5 6 7 8
Nombre de spots publicitaires
2. Que peut-on déduire ?

Une augmentation des spots publicitaires a tendance à s’accompagner d’une augmentation
du montant des ventes. La variable X représente le nombre de spots publicitaires et la
variable Y représente les ventes.
3. Calculez la corrélation
Pour calculer la corrélation, on utilise sa formule :
Cov ( x , y )
r=
s xs y
Il faut ainsi calculer la covariance et l’écart-type de la variable X et de la variable Y.
On peut utiliser l’une des deux formules pour calculer la covariance :
$
(1) 456 (7, 8) = ∑&'#$(7 ' 8' ) − 70 80 = 0000
7 8 − 70 80
&
$
(2) 456 (7, 8) = ∑&'#$(7 ' − 70) (8' − 80)
&
Pour utiliser les deux formules, les calculs intermédiaires sont dans le tableau suivant :
Nombre de spots
1 2 3 4 5 7
publicitaires xi
Ventes yi 29 48 70 90 109 147
xi × yi 29 96 210 360 545 1029
#)
(!! − ! -2,67 -1,67 -0,67 0,33 1,33 3,33
#)
(%! − % -53,17 -34,17 -12,17 7,83 26,83 64,83
#)×(%! − %
(!! − ! #) 141,96 57,06 8,15 2,58 35,68 215,88
#) 2
(!! − ! 7.13 2.79 0.45 0.11 1.77 11.09
(%! − %#)2 2827.05 1167.59 148.11 61.31 719.85 4202.93
Ainsi :
o xS = 3,67
o yS = 82,17
o SSS
xy = 378,17
o Cov (x,y) = 378,17 – (3,67´82,17) = 76,60
4. Interprétation de la covariance
X et Y ont tendance à covarier dans le même sens.
On peut aussi calculer la covariance selon la formule (2) :

o Cov (x,y) = 461,31/6 = 76,89
NB. la différence entre les deux méthodes est due aux décimales.
En calculant la variance de X et la variance de Y, nous trouvons :
o Var (x) = 3,89 ; ainsi ℴ2 = 1,972

o Var (y) = 1521,14 ainsi ℴ3 = 39,002
Ceci dit, la corrélation entre X et Y est :

r = (76,60/(1,972´39,002)) = (76,60/(76,912)) = 0,996.
On peut ainsi déduire que la relation entre X et Y est très forte.
Exercice 4
On dispose de la répartition des ventes d’un magasin en milliers de Dhs selon le nombre de
spots publicitaires lancé pendant dix semaines dans le tableau ci-dessous :
Répartition des ventes selon le nombre de spots publicitaires
Semaine Nombre de spots Volume des ventes

publicitaires
1 2 50
2 5 57
3 1 41
4 3 54
5 4 54
6 1 38
7 5 63
8 3 48
9 4 59
10 2 46
Source : exemple
1. Calculez la covariance
2. Calculez la corrélation
Solution
Semaine Nombre de spots Volume des /)
(&! − & /)
((! − ( (1) ´ (2)
publicitaires ventes (1) (2)
1 2 50 -1 -1 1
2 5 57 2 6 12
3 1 41 -2 -10 20
4 3 54 0 3 0
5 4 54 1 3 3
6 1 38 -2 -13 26
7 5 63 2 12 24
8 3 48 0 -3 0
9 4 59 1 8 8
10 2 46 -1 -5 5
Total 30 510 -- -- 99
1. La covariance entre x et y :
o xS = 3 (Moyenne de la variable X)
o yS = 51 (Moyenne de la variable Y)
o Cov (x,y) = (99/10) =9,9
Le signe de la covariance est positif, X et Y ont tendance à covarier dans le même sens.
2. Corrélation :
o Var (x) = 2,00 ; ainsi ℴ2 = 1,41
o Var (y) = 56,6 ainsi ℴ3 =7,52
o Ceci dit, la corrélation entre X et Y est : r = (9,9/ (1,41´7, 52)) = 0,93.
On peut qualifier la relation entre X et Y comme une relation très forte.
Il est important de souligner que nous avons une série statistique bivariée avec n..=10.
Exercice 5
Supposant qu’on dispose de la répartition du rendement de 7 parcelles et de la quantité
d’engrais utilisée dans chacune, présentée dans le tableau ci-dessous :
Répartition du rendement et la quantité d’engrais utilisée

Parcelle Engrais Xi (Kg/ha) Rendement Yi (q/ha)
1 100 45
2 200 52
3 300 53
4 400 70
5 500 68
6 600 69
7 700 81
Source : exemple
Dans cet exercice, l’objectif est de déterminer si les variations du rendement sont
dépendantes de la quantité d’engrais utilisée.
1. Représentez les données par un nuage de points et déduisez le signe de la
covariance.
2. Si un lien existe entre les deux variables, comment peut-on qualifier son intensité ?
3. Modélisez la relation entre X et Y en utilisant la régression linéaire simple avec la
méthode des Moindres Carrés Ordinaires (MCO).
Solution
L’objectif est de déterminer si les variations du rendement sont dépendantes de la quantité
d’engrais utilisée. Ceci dit, le rendement est une variable dépendante ou expliquée et la
quantité d’engrais est une variable indépendante ou explicative.
1. Représentez les données par un nuage de points et déduisez le signe de la

covariance.
On peut calculer dans un premier temps la moyenne de la variable de X et de la variable Y

5, 7
pour avoir un centre de gravité G (4 5)
Parcelle Engrais Xi (Kg/ha) Rendement Yi (q/ha) xi . yi

1 100 45 4500
2 200 52 10400
3 300 53 15900
4 400 70 28000
5 500 68 34000
6 600 69 41400
7 700 81 56700
Moyenne / =400
& / =62.57
& 0000 =27271.43
&(
On peut remarquer que tous les points se trouvent dans les deux cadrans ou le produit
(x- − xS).(y- − yS) est positif, ainsi la covariance est positive, et les deux variables covarient
dans le même sens. Ceci dit, il y a une forte présomption d’un lien positif entre les deux
variables.
2. Si un lien existe entre les deux variables, comment peut-on qualifier son intensité ?
Il faut dans ce cas calculer la corrélation entre les deux variables, pour savoir si la relation
est forte ou faible.
En utilisant la même méthode que l’exercices précédent :

o xS = 400
o yS = 62,57
o SSS
xy = 27271,43
o Cov (x,y) = 2243,43
On confirme ainsi la réponse à la question 1 ; le signe de la covariance est positif et X et Y
ont tendance à covarier dans le même sens.
o Var (x) = 40000 ; ainsi ℴ2 = 200

o Var (y) = 139,67 ainsi ℴ3 = 11,82
Ainsi, la corrélation entre X et Y est : r = (2243,43/ (200´11,82)) = 0,95.

On peut qualifier la relation entre X et Y comme une relation très forte. En d’autres termes,
la variable dépendante « rendement » et la variable indépendante « quantité d'engrais » sont
fortement corrélées et covarient dans le même sens.
3. Modélisez la relation entre X et Y en utilisant la régression linéaire simple avec la

méthode des Moindres Carrés Ordinaires (MCO).
Dans ce cas, nous devons estimer la droite linéaire qui passe le plus près possible par les
points du nuage.
La droite est Y = aX+b, tel que :

! Cov(x, y) $ ! 2243, 43 $
a =# 2 &=# & = 0, 056
" σ x % " 40000 %
&
b = Y − 0, 056X = 62, 57 − (0, 056 × 400) = 40,17
On peut ainsi avoir une équation de régression estimée comme ceci : Y = 0,056 X + 40,17.
On peut cependant utiliser cette équation pour des prévisions en replaçant X par une valeur
et calculer la valeur Y.
Exercice 6
On dispose de la répartition du nombre de pièces et la surface moyenne correspondante
dans 6 logements, résumée dans le tableau ci-dessous :
Répartition du nombre de pièces et la surface moyenne
Nombre de pièces Surface moyenne

1 29
2 48
3 70
4 90
5 109
6 147
Source : exemple
1. Estimez l’équation de régression en utilisant la méthode des MCO.

2. Comment est la qualité du modèle estimé ?
3. Evaluez la surface moyenne d’un logement de 10 pièces
Solution
1. Estimez l’équation de régression en utilisant la méthode des MCO.
On utilise la même méthode que les exercices précédents pour calculer « a » et « b » dans
l’équation Y = aX + b.
Dans ce cas, on suppose que plus le nombre de pièces augmente plus la surface moyenne
augmente. Ceci dit, Y est la surface moyenne, elle représente ainsi la variable dépendante et
X représente la variable indépendante qui est le nombre de pièces.

o xS = 3,50
o yS = 82,17
o Cov (x,y) = 66,08
o Var (x) = 2,92
o Y= aX+b, a = 22,630 et b = 2,965

L’équation de régression estimée : Y = 22,630 X + 2,965
2. Comment est la qualité du modèle estimé ?

Pour répondre à cette question, on doit calculer le coefficient de détermination.
o Var (x) = 2,92 ; ainsi ℴ2 = 1,71
o Var (y) = 1521,14 ainsi ℴ3 = 39,00
o Cov (x,y) = 66,08
o R = 0,9908
o R2 = 0,9816
La qualité du modèle est bonne en prenant en considération la valeur de R2, qui est proche
de 1.
3. Evaluez la surface moyenne d’un logement de 10 pièces.

Puisque la qualité du modèle est bonne, nous pouvons ainsi faire des estimations en
remplaçant X dans l’équation Y = 22,630 X + 2,965.
Pour 10 pièces la surface moyenne est de 229,265 m2.
Exercice 7
On dispose de la répartition de la note moyenne d'un examen et le nombre de jours moyens
de préparation pour cet examen dans le tableau ci-dessous :
Répartition de la note moyenne et le nombre de jours moyens de préparation
Nombre de jours moyen Note moyenne

0 0
1 3
2 8
4 10
6 13
8 15
10 17
15 19
Source : exemple
Estimez la note moyenne dans le cas d’une semaine de préparation.
Solution
Nous estimons l’équation de régression Y = aX+b tel que X est le nombre de jours moyen
de préparation et Y est la note moyenne de statistique. X est ainsi la variable indépendante,
tel que le nombre de jours de préparation pour l’examen explique la note (Y).
o En utilisant la méthode des MCO pour estimer « a » et « b » nous obtenons :

Y = 1,23 X + 3,55.
o Le coefficient de détermination est R2 = 0,8748, ainsi la qualité du modèle est bonne,
nous pouvons procéder aux prévisions.
o Si on remplace X par 7 jours, on peut déduire l’estimation de la note moyenne, qui
sera égale à : 1,23*7+3,55 = 12,16 points.
Exercice 8
On dispose de la répartition d’une population des étudiants et les ventes mensuelles d’une
filiale qui gère des restaurants situés en face des universités, dans le tableau ci-dessous :
Répartition d’une population des étudiants et les ventes mensuelles de dix restaurants
Population des Ventes

Restaurant
étudiants (en milliers) (en milliers de Dhs)
1 2 58
2 6 105
3 8 88
4 8 118
5 12 117
6 16 137
7 20 157
8 20 169
9 22 149
10 26 202
Source : exemple
1. Calculez la corrélation entre les deux variables et donnez son interprétation.

2. Estimez l’équation de régression linéaire entre les deux variables en utilisant la
méthode des MCO.
3. Calculez le coefficient de détermination et interprétez-le
4. Estimez les ventes mensuelles dans le cas de 2000 étudiants, 6000 étudiants, et
22 000 étudiants.
5. En supposant que le gestionnaire de cette filiale de restaurants décide d’ouvrir un
11ème restaurant en face d’une université en cours de construction (sans aucun
étudiant) quelle est l’estimation de ses ventes ?
6. En supposant que le gestionnaire de cette filiale de restaurants décide d’ouvrir un
12ème restaurant en face d’une université avec 7000 étudiants, quelle est l’estimation
de ses ventes ?
Solution
1. Calculez la corrélation entre les deux variables et donnez son interprétation :
Pour calculer la corrélation, on utilise sa formule :
Cov ( x , y )
r=
s xs y
Il faut calculer la covariance et l’écart-type de la variable X et de la variable Y. On peut
utiliser l’une des formules suivantes pour calculer la covariance.
$
(1) 456 (7, 8) = ∑&'#$(7 ' 8' ) − 70 80 = 7
0000
8 − 70 80
&
$
(2) 456 (7, 8) = ∑&'#$(7 ' − 70) (8' − 80)
&
Néanmoins, puisque dans cet exercice, nous devons calculer la variance des deux variables,
il est recommandé d’utiliser la formule (2).
Les calculs intermédiaires sont dans le tableau suivant :

Population des Ventes /)
(&! − & /)
((! − (
Restaurant étudiants (en milliers XixYi (1) ´ (2)
(en milliers) de Dhs) (1) (2)
1 2 58 116 -12 -72 864
2 6 105 630 -8 -25 200
3 8 88 704 -6 -42 252
4 8 118 944 -6 -12 72
5 12 117 1404 -2 -13 26
6 16 137 2192 2 7 14
7 20 157 3140 6 27 162
8 20 169 3380 6 39 234
9 22 149 3278 8 19 152
10 26 202 5252 12 72 864
Total 140 1300 21040 2840
o x0 = 14
o y0 = 130
o Cov (x,y) = 284
Le signe de la covariance est positif, X et Y ont tendance à covarier dans le même sens.
o Var (x) = 56,8 ; ainsi ℴ2 = 7,5366

o Var (y) = 1573 ainsi ℴ3 = 39,6610
o Ceci dit, la corrélation entre X et Y est : r = (284 / (7,5366 ´39,6610)) = 0,9501.
On peut qualifier la relation entre X et Y comme une relation très forte.
2. Estimez l’équation de régression linéaire entre les deux variables en utilisant la méthode
des MCO.
On doit estimer « a » et « b » de l’équation linéaire Y= aX+b, tel que :
Cov(x, y) 284
a= = =5
Var(x) 56,8
&
b = y − ax = 130 − (14 × 5) = 60
On peut ainsi avoir une équation de régression linéaire estimée comme ceci : Y=5 X + 60.
3. Calculez le coefficient de détermination et interprétez-le :

Le coefficient de détermination = R2 = (0,9501)2 = 0,9027.
o Ceci dit, 90,27% de la variation des ventes peut s’expliquer par une relation
linéaire entre la taille de la population des étudiants et les ventes.
o Nous pouvons aussi noter que le modèle linéaire qui utilise comme variable
indépendante la « population d’étudiants » explique 90,27% la dispersion « des
ventes ».
o La qualité du modèle est bonne, car R2 est proche de 1.
Dans des cas réels en sciences économiques et en sciences de gestion le R2 est rarement
proche de 1.
4. Estimez les ventes mensuelles dans le cas de 2000 étudiants, 6000 étudiants, et 22 000
étudiants :
o Pour 2000 étudiants, les ventes estimées sont de 70 000 Dhs, soit une erreur
d’estimation de 12,000 Dhs.
o Pour 6000 étudiants, les ventes estimées sont de 90 000 Dhs..
o Pour 22000 étudiants, les ventes estimées sont de 170 000 Dhs.
5. En supposant que le gestionnaire de cette filiale de restaurants décide d’ouvrir un 11ème

restaurant en face d’une université en cours de construction (sans aucun étudiant)
qu’elle est l’estimation de ses ventes ?
o L’estimation des ventes est de 60 000 Dhs.
o
6. En supposant que le gestionnaire de cette filiale de restaurants décide d’ouvrir un 12ème
restaurant en face d’une université avec 7000 étudiants, quelle est l’estimation de ses
ventes ?
o L’estimation des ventes est de (7 x 5) + 60 = 95 soit 95 000 Dhs.
Séries chronologiques 122
Chapitre 6.
Séries chronologiques
1. Présentation d’une série chronologique

2. Choix du modèle de décomposition : modèle additif ou multiplicatif ?
3. Analyse d’une série chronologique
- Analyse et détermination de la tendance
- Analyse de la composante saisonnière
- Analyse de la composante accidentelle
4. Prévision
Chapitre 6.
Séries chronologiques
L’un des objectifs de la statistique est de comparer et mesurer l’évolution des données pour
créer de l’information et prendre des décisions. Mesurer l’évolution des données, consiste à
une comparaison qui porte sur la même variable statistique saisie à des dates différentes,
d’où l’analyse des séries chronologiques.
Une série chronologique décrit l’évolution d’un phénomène dans le temps. Elle est aussi
nommée série temporelle ou chronique.
En fait, l’analyse des séries chronologiques est fondée sur l’existence d’un lien de
corrélation entre la variable quantitative étudiée et le temps.
Cette analyse a pour objectif de décrire et prévoir un phénomène qui évolue dans le temps,
d’interpréter son évolution et de faire des prévisions.
En d’autres termes, l’objectif de l’analyse d’une série chronologique est de mettre en

évidence l’évolution passée d’une variable statistique, et sous certaines conditions
d’extrapoler cette évolution afin d’effectuer des prévisions à court terme.
Une série chronologique est une suite d’observations chiffrées d’une variable quantitative
Y, ordonnées dans le temps t. La valeur prise par la variable Y à la date t est notée yt.
Notons qu’en économie et en gestion les dates d’observations sont souvent équidistantes et
ordonnées dans le temps (jours, mois, trimestres, années) et sont représentées, par des
entiers naturels non nuls de 1 à n.
Une série chronologique peut être décomposée en plusieurs mouvements, afin de disposer
d’un outil pertinent pour analyser son évolution.
Quatre composantes sont habituellement retenues pour la décrire9 :

• La tendance, notée (ft) (également appelée trend, mouvement de tendance générale
ou composante générale) est une évolution durable, régulière et en général lente du
phénomène étudié. C’est une orientation générale qui exprime une tendance durable
à la croissance ou à la décroissance. La tendance est matérialisée par une courbe qui
est souvent une droite et qui résume le phénomène. Elle ajuste ainsi l’ensemble des
points du nuage et lisse la série.
• Les fluctuations cycliques, notées (Ct) (également appelées fluctuations

conjoncturelles, ou mouvement cyclique), sont des oscillations autour de la tendance,
irrégulières en amplitude et en durée. Le cycle économique « prospérité, dépression,
récession et reprise » est un exemple de fluctuation cyclique.
On peut souligner que ces deux dernières composantes ne sont pas toujours distinguables10.
Les fluctuations cycliques sont souvent intégrées à la tendance et ne sont pas étudiées
indépendamment du trend.
• Le mouvement saisonnier, noté (st), (également appelé mouvement périodique ou

composante saisonnière) est périodique autour de la tendance, ses oscillations sont
donc d’amplitudes similaires et leur périodicité est inférieure ou égale à la période
étudiée. C’est des variations qui résultent de répétitions d’événements plus au moins
réguliers dont les causes peuvent être diverses.
• Les variations accidentelles, notées (ℇt), (également appelées mouvement résiduel

ou composante résiduelle) sont des fluctuations ponctuelles de forte amplitude dues
à des facteurs exceptionnels, imprévisibles, ou à des fluctuations irrégulières de la
série (grèves, intempéries, krachs, etc.). Ces variations sont celles qui ne peuvent
être expliquées ni par la tendance ni par les variations saisonnières.
9
Cette décomposition a été proposée par le statisticien Warren Person en 1919.
10
Pour pouvoir distinguer la tendance des fluctuations cycliques, il faut disposer de la série brute sur une très longue
période. Il est généralement très difficile de dissocier les deux.
Notons que ces quatre composantes ne sont pas nécessairement présentes dans tous les cas
et leur existence peut notamment dépendre de l’intervalle de temps entre deux dates
d’observation successives.
Dans le graphique ci-dessous, nous illustrons les trois composantes (ft , St , ℇt).
Le mouvement saisonnier
Tendance
Variations accidentelles
Yt : variable observée
Saison
Temps (t)
En prenant en considération ces trois composantes, nous pouvons nous intéresser à leur
mode de composition. Trois types de situations coexistent :
• Modèle additif (yt = ft + st +ℇt)

Dans le cas d’un modèle additif, les fluctuations sont d’amplitude constante autour de la
tendance. Ceci se traduit par un nuage de points limité par deux droites parallèles.
Il s’agit d’un modèle où la tendance, la composante saisonnière et les variations
accidentelles sont additives.
• Modèle multiplicatif (yt = ft ×st × ℇt)

Dans le cas d’un modèle multiplicatif, les fluctuations sont d’amplitudes liées à la valeur de
la tendance. Ceci se traduit par un nuage de points situé entre deux droites concourantes.
Ce modèle est aussi appelé modèle multiplicatif complet. Il s’agit d’un modèle où la
tendance, la composante saisonnière et les variations accidentelles forment une
combinaison multiplicative.
• Modèle mixte : yt = (ft ×st ) + ℇt

Il s’agit d’un modèle où l’addition et la multiplication sont utilisées. La composante
saisonnière agit dans ce modèle de façon multiplicative, tandis que les variations
accidentelles sont additives. Ce modèle est aussi appelé modèle multiplicatif.
6. Présentation d’une série chronologique
Avant toute analyse, les données d’une série chronologique doivent être représentées par
une courbe exprimant une continuité de l’évolution de la variable étudiée. Ainsi, dans un
graphique, les points sont reliés par des segments pour traduire la chronologie. Le temps est
en général noté t et prend comme valeurs 1, 2…,n lorsqu’on dispose de n périodes, et les
modalités de la variable étudiée sont notées yt.
D’un tableau de contingence avec n lignes et p colonnes, nous pouvons représenter les
données d’une série chronologique sous plusieurs formes, comme dans le tableau
ci-dessous :
t yt
1 y1
2 y2
3 y3
n yn
Exemple 1
Nous disposons dans le tableau ci-dessous de la répartition trimestrielle des ventes d’un
produit durant 3 années.
Répartition des ventes d’un produit en milliers de Dirhams

Année 1er trimestre 2ème trimestre 3ème trimestre 4ème trimestre
2021 432 416 408 430
2022 430 424 418 450
2023 442 438 430 460
Source : exemple
Cette série chronologique peut être représentée par plusieurs types de graphiques, comme
illustrés plus bas.
Avant de représenter ces données sous forme de graphique, nous pouvons les représenter
sous forme d’un tableau qui sera composé de n lignes tel que n =12, comme ci-dessous :

t yt
1 432
2 416
3 408
4 430
5 430
6 424
7 418
8 450
9 442
10 438
11 430
12 460
Source : exemple
Représentation sous forme de graphique :

Yt
470
460 460
450
450
442
440 430 438
430 432 430 430
424
420 418
416
410
408
400
0 1 2 3 4 5 6 7 8 9 10 11 12 13
Source : exemple
Représentation superposée des données (Chronogramme parallèle) :
470
460 460
450 442 450
438
440 430
430
430 424 430
418
420
410 420 416
400 408
390
380
1er trimestre 2ème trimestre 3ème trimestre 4ème trimestre
2021 2022 2023
Source : exemple
Ce dernier graphique permet de mettre en évidence une éventuelle variation trimestrielle et

le caractère propre de chaque trimestre.
Ces données peuvent être aussi représentées sous forme d’un graphique « Radar » comme
illustré ci-dessous.
Représentation des données dans un graphique « Radar » :
1er trimestre
4ème trimestre 2ème trimestre
3ème trimestre
2021 2022 2023
Source : exemple
7. Choix du modèle de décomposition : modèle additif ou multiplicatif ?
On peut noter qu’il existe trois méthodes pour choisir le modèle de décomposition d'une
série chronologique. Parmi celles-ci, deux méthodes sont graphiques et une méthode est
analytique. La méthode analytique est plus fiable, puisque les interprétations qu’on peut
déduire suite aux méthodes graphiques sont parfois imprécises ou approximatives.
7.1 Méthode de la bande
Cette méthode graphique consiste à tracer deux droites, une qui passe le plus près par les
minimums et une qui passe le plus près par les maximums. Nous pouvons ainsi avoir deux
cas :
o Le cas où les deux droites sont à peu près parallèles, ce qui signifie que l’amplitude
des variations saisonnières reste plus au moins constante, et dans ce cas notre
modèle peut être un additif.
o Sinon, les deux droites ne sont pas parallèles, et dans ce cas notre modèle peut être
un multiplicatif.
Ci-dessous nous avons respectivement un graphique qui représente un modèle additif, suivi
d’un autre qui représente un modèle multiplicatif.
Modèle additif
200
Les valeurs de la série statistique
La droite qui passe par les maximums
150
Tendance
100
Saison La droite qui passe par les minimums

50
0
1
im e 2
im e 4
im e 2
4
Tr tre
Tr tre
Tr tre
Tr tre
Tr tre
Tr tre
Tr tre
Tr tre
Tr tre
Tr tre
Tr tre
Tr tre
t re
r
r
t
t
es
es
es
es
es
es
es
es
es
es
es
es
es
es
es
es
im
im
im
im
im
im
im
im
im
im
im
im
im
Tr
Tr
Tr
Tr
Modèle multiplicatif
MODELE DE TYPE MULTIPLICATIF - METHODE DE LA BANDE

250
200
150
100
50
0
1
im e 3
4
Tr tre
Tr tre
Tr tre
Tr tre
Tr tre
Tr tre
Tr tre
Tr tre
Tr tre
Tr tre
Tr tre
Tr tre
Tr tre
Tr tre
t re
t r
es
es
es
es
es
es
es
es
es
es
es
es
es
es
es
es
im
im
im
im
im
im
im
im
im
im
im
im
im
im
im
Tr
Tr

7.2 Méthode du profil
Cette méthode consiste à utiliser le graphique des courbes superposées. Le chronogramme

parallèle nous permet de superposer les saisons et ainsi vérifier si elles sont parallèles ou
non. Nous pouvons remarquer deux cas :
o Le cas où les différentes courbes qui caractérisent les saisons sont à peu près
parallèles, dans ce cas notre modèle peut être un additif.
o Le cas où les différentes courbes ne sont pas parallèles, dans ce cas notre modèle
peut être un multiplicatif.
Ci-dessous nous avons un exemple (avec des chiffres différents de l’exemple 1) d’un
graphique qui représente un modèle additif.
470
460 460
450 442 450
438
440 430
430
430 424 430
418
420
410 420 416
400 408
390
380
1er trimestre 2ème trimestre 3ème trimestre 4ème trimestre
2021 2022 2023
Source : exemple
7.3 Méthode de Buys et Ballot
A partir de la série de données brutes, la méthode de Buys et Ballot consiste à calculer la

moyenne et l’écart-type pour chacune des périodes considérées, puis à vérifier le lien ou la
relation entre ces deux indicateurs en utilisant la méthode des MCO.
Nous pouvons ainsi avoir deux cas :
o Lorsque l’écart-type n’est pas en fonction de la moyenne, c’est-à-dire que la
pente de la droite estimée est très proche de zéro (a ≈ o) ou égale à zéro (a = o),
le modèle est additif.
o Si l'écart-type est en fonction de la moyenne, c’est-à-dire que la pente de la

droite estimée est différente de zéro (a ≠ 0), le modèle est multiplicatif.
Exemple 2
On considère dans le tableau ci-dessous une répartition du Chiffre d’Affaires (CA)
trimestriel d’une entreprise X en milliers de Dirhams, pendant quatre ans :
Répartition du CA trimestriel en milliers de Dirhams

2020 116 110 108 114
2021 129 122 119 126
2022 140 133 130 137
2023 153 146 143 150
Source : exemple
Afin d’utiliser la méthode de Buys et Ballot, nous devons en premier lieu calculer la
moyenne et l’écart-type qui correspond à chaque période.

1er 2ème 3ème 4ème
Année Moyenne Ecart type
trimestre trimestre trimestre trimestre
2020 116 110 108 114 112 3.1623
2021 129 122 119 126 124 3.8079
2022 140 133 130 137 135 3.8079
2023 153 146 143 150 148 3.8079
Source : exemple
En utilisant la méthode des MCO nous obtenons a = 0.0162 qui est proche de 0. Nous
pouvons donc déduire que le modèle est additif.
Le graphique ci-dessous représente le lien entre la moyenne et l’écart-type.
4.40
4.20 y = 0.0162 x + 1.5486
4.00 R² = 0.59271
3.80
Ecart type
3.60
3.40
3.20
3.00
100 110 120 130 140 150
Moyenne
Relation entre la moyenne et l’écart type de chaque période

Source : exemple
Ce résultat peut être confirmé par une méthode graphique, telle que la méthode de la bande.
En traçant deux droites, l’une qui passe le plus près par les minimums et l’autre par les
maximums, nous pouvons remarquer qu’elles sont parallèles, comme dans le graphique
ci-dessous :
200
180
160
153 150
146
140 140 143
137
133 130
129 126
122
120 119
116 110 114
108
100
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16

Source : exemple
8. Analyse d’une série chronologique
L’analyse d’une série chronologique consiste à isoler ses trois composantes afin de les
étudier. En d’autres termes, cette analyse se fonde sur la décomposition de l’évolution
d’une variable en plusieurs composantes.
Notons qu’une représentation graphique est parfois nécessaire afin d’avoir une idée sur les
composantes d’une série chronologique, pour l’analyser par la suite.
L’analyse d’une série chronologique porte dans un premier temps, sur la détermination de
la tendance, suivie d’une analyse de la composante saisonnière et par la suite de la
détermination de la composante résiduelle. Avant d’expliciter ces trois étapes, notons deux
concepts intéressants qui sont le « lissage » et le « filtrage ».
• Le lissage d’une série chronologique est une transformation qui limite l’amplitude
des oscillations de toutes ses composantes, y compris celles qui ne sont pas
périodiques. Ceci dit, le lissage permet d’éliminer ou d’amortir les mouvements
cycliques, saisonniers et accidentels.
Notons que la méthode des moyennes mobiles (une méthode qui sera détaillée plus
bas) lisse toujours une série chronologique, quel que soit l’ordre des moyennes.
• Le filtrage d’une série chronologique est une transformation qui a pour but
d’éliminer totalement les fluctuations périodiques sans avoir, à la mesure du
possible, une influence sur les composantes non périodiques de la série.
Comme pour le lissage, la méthode des moyennes mobiles filtre une série
chronologique, si celle-ci présente un mouvement périodique, de périodicité
constante, et si l’ordre des moyennes est égal à cette périodicité.
3.1 Analyse et détermination de la tendance
Comme précisé auparavant, l’analyse d’une série chronologique porte en premier lieu sur
la détermination de la tendance. Cette dernière représente un lissage des « irrégularités ».
Trois méthodes peuvent être utilisées : la méthode graphique, la méthode analytique et la
méthode empirique.
o Méthode graphique
La détermination de la tendance peut être faite selon une approche exploratoire, en utilisant
la méthode des points moyens ou la méthode de Mayer présentée auparavant.
o Méthode analytique
Lorsque nous prenons en considération une série chronologique, nous pouvons noter que la
variable explicative est le temps (t) et la variable expliquée est yt.
Nous pouvons ainsi utiliser la méthode des MCO afin d’estimer une droite qui passera le
plus près possible par l’ensemble des observations. Nous estimons donc « a » et « b » dans
une équation sous forme de : yt = at+b, qui permet d’associer à chaque valeur t une valeur
de la tendance, notée yt.
En outre, « a » et « b » peuvent être estimées selon les deux formules ci-dessous :
Cov(T, Y)
a= vw b = yS − at̅
Var(T)
Application
En prenant en considération l’exemple 2, nous pouvons calculer « a » et « b » et estimer la

droite de régression, qui représente le lien linéaire entre la variable étudiée et le temps,
comme présentée dans le graphique suivant.
160
y = 2.7353t + 106.5 153
150
150 R² = 0,8343 146
140
140 133
137 143
129
130 122
126 130
120 116
110 119
114
110
108
100
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16

Source : exemple
Si les fluctuations de la série autour de la tendance sont trop importantes, on pourra par la
suite les atténuer en utilisant des moyennes adaptées. Ceci dit, nous pouvons diminuer
l’amplitude des oscillations de toutes les composantes de la série, en calculant des
moyennes successives. Pour ce faire, il existe plusieurs méthodes qui sont présentées dans
la section qui aborde les méthodes empiriques.
Attention !
Notons que a = 2.7353 ; ne peut dans aucun cas être utilisé pour conclure que le modèle est
additif puisque a ≠ 0 ! . « a » représente la pente de la droite estimée du lien entre « yt » et
« t », et non pas entre la moyenne est l’écart-type de chaque période. D’autant plus que
dans cette étape, nous analysons la tendance, ceci dit l’application de la méthode de Buys et
Ballot n’a pas de sens dans ce cas.
o Méthodes empiriques
Les méthodes empiriques utilisent les moyennes arithmétiques pour procéder au lissage
d’une série chronologique. Nous pouvons noter la méthode des moyennes échelonnées, la
méthode des moyennes mobiles non centrées et la méthode des moyennes mobiles centrées.
o Méthode des moyennes échelonnées
Afin de lisser les fluctuations, on peut remplacer des données périodiques par leur moyenne.
Ces moyennes ne subissent pas l’influence des variations saisonnières et ont l’avantage de
minimiser les extrêmes.
La méthode des moyennes échelonnées consiste ainsi à remplacer un certain nombre de
données consécutives par leur moyenne.
Si nous reprenant l’exemple 2, nous pouvons calculer la moyenne échelonnée pour chaque
période, qui représente la moyenne arithmétique de quatre trimestres de chaque année. Le
tableau ci-dessous représente les valeurs des moyennes échelonnées des quatre années.
Moyennes échelonnées des quatre années
Année Moyenne échelonnée

2020 112
2021 124
2022 135
2023 148
Source : exemple
Par la suite, nous pouvons tracer une droite qui passe par ces moyennes, sachant que
chacune a été affectée en abscisse au milieu correspondant à chaque année, comme dans le
graphique ci-dessous :
160
148
150
140 135
130 124
120 112
110
100
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
Représentation des moyennes échelonnées

Source : exemple
Cette méthode est simple à mettre en œuvre, mais elle a l’inconvénient de trop simplifier et
réduire la réalité. Ceci dit, nous perdons beaucoup d’information.
Pour pallier cet inconvénient, la méthode des moyennes mobiles est utilisée pour analyser
et déterminer la tendance d’une série chronologique.
Cette méthode permet de suivre le phénomène étudié par chevauchement, et on distingue

deux méthodes : la méthode des moyennes mobiles, non centrées et la méthode des
moyennes mobiles, centrées.
o Méthode des moyennes mobiles, non centrées
La méthode des moyennes mobiles, non centrées d’ordre p à la date t (MMp(t) nc),
consiste à remplacer une valeur observée yt par la moyenne arithmétique des p valeurs
antérieures.
1 p
Ceci dit : MMp( t )nc = å yt
p t =1
1 p 1 p +1
On remplace ainsi yp par : å t p+1
p t =1
y et y par : å yt et ainsi de suite.
p t =2
Notons que les moyennes mobiles, non centrées « raccourcissent » la série, car aucune
moyenne mobile n’est affectée aux (p-1) premières dates.
Si nous reprenant l’exemple 2, nous pouvons calculer par exemple :
1 4 116 + 110 + 108 + 114

MM 4(4)nc = å
4 t =1
yt =
4
= 112
1 5 110 + 108 + 114 + 129

MM 4(5)nc = å yt = = 115,25
4 t =2 4
Toutes les moyennes mobiles, non centrées d’ordre 4, correspondantes à t = 4,…,16 sont
présentées dans le tableau ci-dessous.
Moyennes mobiles, non centrées d’ordre 4
t yt MM4 (t) nc
1 116 --
2 110 --
3 108 --
4 114 112
5 129 115,25
6 122 118,25
7 119 121
8 126 124
9 140 126,75
10 133 129,5
11 130 132,25
12 137 135
13 153 138,25
14 146 141,5
15 143 144,75
16 150 148
Source : exemple
Le graphique ci-dessous nous permet de visualiser en même temps la série de données et le
lissage réalisé par les moyennes mobiles, non centrées d’ordre 4 Pourquoi 4 ? parce que
dans cet exemple nous avons une répartition par trimestre. L’ordre correspond
normalement au nombre de saisons.
160
150 148
144.75
141.5
140 138.25
135
132.25
130 129.5
126.75 MM4 (t) nc
124
120 121
118.25
115.25
112
110
100
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
Représentation des moyennes mobiles non centrées d’ordre 4

Source : exemple
o Méthode des moyennes mobiles, centrées
La méthode des moyennes mobiles centrées, d’ordre p, consiste à remplacer une valeur
observée yt, par la moyenne arithmétique des p valeurs centrées autour de yt.
Une moyenne mobile centrée, d’ordre p à la date t (MMp(t)) est définie en prenant en
considération l’ordre p :
1 k
§ Si p est impair (p = 2k + 1) alors MMp( t ) = å yt + i
p i=- k
A titre d’exemple, la moyenne mobile, centrée d’ordre 3, représente la moyenne de trois

valeurs centrées autour de la période choisie, y compris la valeur elle-même.
Les moyennes mobiles, centrées d’ordre 3, sont notées MM3(t). En calculant ces moyennes,
nous pouvons remarquer qu’il manque une valeur au début et une valeur à la fin de la série.
Notons que la valeur de « t » affectée à une moyenne mobile, d’ordre 3 est en effet la
médiane des trois valeurs de « t » utilisées.
Puisque l’ordre est impair, affecter une valeur « t » à une moyenne mobile, centrée d’ordre
3 ou 5…ne pose pas de problème. Mais, que se passe-t-il pour les moyennes mobiles
d’ordre pair comme MM4(t) ?
En suivant la même logique, une moyenne mobile d’ordre p = 4 est calculée en utilisant 4
valeurs, par exemple (y1 + y2 + y3 + y4) / 4. Cette dernière doit être donc affectée à une
valeur « t » médiane qui correspondra à 2.5 mais qui n’existe pas dans la série.
La moyenne mobile calculée avec les quatre valeurs suivantes est égale à (y2 + y3 + y4 + y5)
/ 4. Elle doit être de même affectée à la date médiane de 3.5 et qui ne correspond à aucune
valeur « t » dans la série.
Pour pallier ce problème, on prend en considération la moyenne des deux moyennes

(ci-dessus) qui prend en compte les valeurs y1 , y2 , y3 , y4 et y5 , pour pouvoir lui affecter
une valeur t = 3.
Ainsi nous obtenons la moyenne mobile centrée d’ordre 4 égale à :
1 y1 + y 2 + y 3 + y 4 y 2 + y 3 + y 4 + y 5 y +y +y +y +y +y +y +y
( + )= 1 2 3 4 2 3 4 5
2 4 4 8
1 1
y1 + y 2 + y 3 + y 4 + y 5
=2 2
4
Ceci dit, pour former la première moyenne mobile, centrée d’ordre 4, on utilise les 5
premières observations dans une moyenne arithmétique pondérée, en affectant aux valeurs
extrêmes (la 1ère valeur et la 5ème valeur) le coefficient ½ et aux 3 valeurs centrales le
coefficient 1. Cette moyenne mobile centrée sera affectée à t = 3.
En général,
1 é k -1 1 1 ù
§ Lorsque p est pair (p = 2k), MMp( t ) = ê å y t + i + y t - k + y t + k ú
p ë i = - k +1 2 2 û
En calculant les MM4, nous pouvons remarquer qu’il manque deux valeurs au début et
deux valeurs à la fin de la série.
En d’autres termes, les moyennes mobiles, centrées « raccourcissent » la série, car aucune
moyenne mobile n’est affectée aux (k) premières dates et (k) dernières dates « t ».
Nous soulignons qu’une série des moyennes mobiles centrées comporte moins
d’observations que la série brute.
Enfin, notons que l’ordre des moyennes mobiles est choisi en prenant en considération la
périodicité des données. A titre d’exemple p=7 pour des données journalières (7j/semaine),
p = 4 pour des données trimestrielles (4 trimestres/année).
Application :
Reprenant l’exemple 2,
t yt MM3 (t) MM4 (t)
1 116 -- --
2 110 111,33 --
3 108 110,67 113,63
4 114 117,00 116,75
5 129 121,67 119,63
6 122 123,33 122,50
7 119 122,33 125,38
8 126 128,33 128,13
9 140 133,00 130,88
10 133 134,33 133,63
11 130 133,33 136,63
12 137 140,00 139,88
13 153 145,33 143,13
14 146 147,33 146,38
15 143 146,33 --
16 150 -- --
Source : exemple
La représentation graphique ci-dessous montre le lissage réalisé par la courbe des

moyennes mobiles centrées, d’ordre 3 et d’ordre 4.
160
150
140
Données brutes
130
MM3(t)
120 MM4(t)
110
100
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16

Source : exemple
3.2 Analyse de la composante saisonnière

Série Corrigée des Variations Saisonnières (CVS) & série ajustée
L’estimation de la tendance par la méthode des moyennes mobiles centrées présente deux
inconvénients :
• Elle ne peut pas donner d’estimation pour les premières et les dernières dates
de la série.
• Si la périodicité du mouvement saisonnier est longue, par exemple 12 mois,
l’obligation de choisir une MM12 pour assurer le filtrage du mouvement
saisonnier entraîne un lissage qui risque d’être excessif.
Un moyen pour pallier ces deux inconvénients est de corriger les variations saisonnières en
utilisant la méthode des écarts saisonniers ou la méthode des rapports saisonniers, selon le
modèle de la série. On obtiendra ainsi, une série Corrigée des Variations Saisonnières CVS,
aussi nommée série désaisonnalisée, en éliminant les influences saisonnières.
La question qui peut être posée est la suivante : Quelles étapes peut-on suivre pour corriger
les variations saisonnières et obtenir une série CVS ?
Nous pouvons noter 6 Etapes qui sont explicitées ci-dessous.
Etape 1
La composante saisonnière st (écart saisonnier ou rapport saisonnier) est une fonction
périodique, déterminée par p coefficients saisonniers qui mesurent l’influence saisonnière,
notés S1, S2, S3…. Sp et qui vérifient que Si = Si+p.
o Dans un modèle additif, la composante saisonnière (écart saisonnier) est calculée
selon la formule suivante : st= yt - ft. Elle représente la différence entre l’observation
et la tendance.
o Dans un modèle multiplicatif, cette composante saisonnière (rapport saisonnier) est

calculée selon la formule suivante : st = yt / ft. Elle représente ainsi le rapport entre
l’observation et la tendance.
Etape 2
On calcule ensuite pour chaque saison, la moyenne arithmétique des écarts saisonniers, ou
des rapports saisonniers correspondant à cette saison (St) qui représente le coefficient
saisonnier.
o Notons que si on dispose de données sur n périodes, c’est-à-dire np dates « t », le

coefficient saisonnier St correspondant à la saison i (i=1,….,p) sera égal à :
n -1
1
Si =
n ås
k =0
i + kp
Si on dispose par exemple, de données mensuelles sur 3 années, on obtiendra le coefficient

1 2
1
saisonnier de janvier i=1 égal à : S1 =
3 ås
k =0
1+ k 12 = ( s + s13 + s25 )
3 1
Il est important de souligner deux principes fondamentaux qui sont à la base de la

détermination des coefficients saisonniers dans un modèle théorique.
§ La répétition à l’identique : on suppose que toute variation saisonnière se répète
identiquement à chaque période qui représente un ensemble de saisons. Ceci dit, Si
le nombre de saisons d’une série chronologique est p, on déterminera p coefficient
saisonnier.
§ La neutralité de l’influence de la variation saisonnière sur chaque période : on
suppose que la composante saisonnière est parfaitement périodique, qu’à l’intérieur
d’une période le phénomène saisonnier est neutre, et les variations saisonnières se
compensent.
Ceci dit :
• Dans le cas d’un modèle additif, pour que l’influence des variations
saisonnières soit neutre sur une période, la valeur moyenne des coefficients
saisonniers St doit être nulle, c’est-à-dire :
p
1
∑ Si = 0
p i=1
• Dans le cas d’un modèle multiplicatif, pour que l’influence des variations
saisonnières soit neutre sur une période, la valeur moyenne des coefficients
saisonniers St doit être égale à 1, c’est-à-dire :
p
1
∑ Si = 1
p i=1
Etape 3
Dans cette étape on s’assure du principe de neutralité de l’influence des variations
saisonnières.
Dans le cas d’un modèle additif, on vérifie que la valeur moyenne des coefficients
saisonniers est nulle, et dans le cas d’un modèle multiplicatif on vérifie que la valeur
moyenne des coefficients saisonniers est égale à 1. Si ce n’est pas le cas, on introduit alors
les coefficients saisonniers corrigés S't selon l’étape 4.
Etape 4
Dans le cas d’un modèle additif, on calcule les coefficients saisonniers corrigés S'i tels que
la somme de ces coefficients est égale à 0, c’est-à-dire :
p
∑S' i =0
i=1
Pour ce faire, il suffit de soustraire à chaque coefficient Si la valeur moyenne des Si qui
p
1
représente : SS = ∑Si ; tel que S'i = S i - zS
p i=1
Dans le cas d’un modèle multiplicatif, il faut calculer les coefficients saisonniers corrigés
p p
1
S'i tel que S'i = Si / 5z , on aura alors ∑S'i = p ceci dit, ∑S'i = 1
i=1 p i=1
Par la suite, nous procèderons à la cinquième étape afin de calculer la série corrigée des
variations saisonnières CVS.
Etape 5
Rappelons que la série corrigée des variations saisonnières CVS est une série obtenue à
partir de la série brute en éliminant la composante saisonnière. Elle contient la tendance et
la composante accidentelle.
La série CVS exprime ce qu’aurait été la réalité du phénomène étudié s’il n’y avait pas de
variations saisonnières. En pratique, les économistes utilisent les séries CVS dans de
nombreux domaines, notamment en analyse conjoncturelle, pour éviter les erreurs
d’interprétation des évolutions d’une période à une autre.
On considère ci-dessous, le cas du modèle additif et le cas du modèle multiplicatif pour
déduire la série CVS.
• Cas d’un modèle additif
Dans le cas du modèle additif, nous pouvons noter que Ycvs = Y - S, soit pour toute date
« t », i désigne la saison relative à la date « t » :
p
ycvs(t) = yt - Si dans le cas où ∑S i =0
i=1
p
ycvs(t) = yt - S'i dans le cas où ∑S i ≠0
i=1
• Cas d’un modèle multiplicatif
Dans le cas du modèle multiplicatif, nous pouvons noter que Ycvs = Y/S, soit pour toute date
« t », i désigne la saison relative à la date « t » :
p
1
ycvs(t) = yt/Si dans le cas où ∑Si = 1
p i=1
p
1
ycvs(t) = yt//S'i dans le cas où ∑Si ≠1
p i=1
Après le calcul de la série CVS, nous pouvons passer à la dernière étape pour calculer la
série ajustée.
Etape 6
La série ajustée est obtenue à partir de la tendance générale en intégrant la composante
saisonnière. Elle exprime l’évolution qu’aurait connue la variable si le mouvement
saisonnier avait été parfaitement régulier de période en période.
Notons que lorsque la tendance est déterminée par la méthode des MCO, la série ajustée
peut être utilisée pour effectuer des prévisions, car elle ajuste au mieux le nuage de points
en prenant en considération des variations saisonnières.
§ Cas d’un modèle additif
Pour restituer le mieux les variations de la variable étudiée, il faut prendre en compte les
variations saisonnières de celle-ci. On additionne ainsi la composante saisonnière à la
tendance.
Soit Yaj la variable associée à la série ajustée, alors Yaj = T + S. En pratique, pour
déterminer la série ajustée, il faut calculer les yt aj = f t + S'i , i étant la saison associée à la
date t.
§ Cas d’un modèle multiplicatif
Pour restituer le mieux les variations de la variable étudiée, il faut multiplier la composante
saisonnière par la tendance.
Soit Yaj la variable associée à la série ajustée, alors Yaj = G × S. En pratique, pour
déterminer la série ajustée, il faut calculer les yt aj = f t ´ S'i , i étant la saison associée à la
date t.
A partir des valeurs ft et St, on peut déduire les valeurs résiduelles. Nous passons ainsi à la
section suivante qui concerne l’analyse de la composante accidentelle.
3.3 Analyse de la composante accidentelle
Pour analyser la composante accidentelle ℇt, nous distinguons entre le cas d’un modèle
additif et le cas d’un modèle multiplicatif.
§ Dans le cas d’un modèle additif

ℇt = yt - (ft +S'i) = yt - yt aj
§ Dans le cas d’un modèle multiplicatif

ℇt = yt / yt aj
3.4 Application (section 3.2 & section 3.3)
Reprenant l’exemple 2, (cas d’un modèle additif), nous pouvons choisir d’utiliser la
méthode des MCO pour estimer la tendance, tel que ft = 2,74t + 106,5. Le tableau
ci-dessous nous explicite les calculs pour obtenir la série Corrigée des Variations
Saisonnières (CVS), la série ajustée et la composante accidentelle.
t yt ft st St S't ytcvs yt ajusté ℇt

1 116 109,24 6,76 8,82 8,86 107,14 118,10 -2,10
2 110 111,98 -1,98 -0,67 -0,63 110,63 111,35 -1,35
3 108 114,72 -6,72 -6,16 -6,12 114,12 108,60 -0,60
4 114 117,46 -3,46 -2,15 -2,11 116,11 115,35 -1,35
5 129 120,2 8,80 8,82 8,86 120,14 129,06 -0,06
6 122 122,94 -0,94 -0,67 -0,63 122,63 122,31 -0,31
7 119 125,68 -6,68 -6,16 -6,12 125,12 119,56 -0,56
8 126 128,42 -2,42 -2,15 -2,11 128,11 126,31 -0,31
9 140 131,16 8,84 8,82 8,86 131,14 140,02 -0,02
10 133 133,9 -0,90 -0,67 -0,63 133,63 133,27 -0,27
11 130 136,64 -6,64 -6,16 -6,12 136,12 130,52 -0,52
12 137 139,38 -2,38 -2,15 -2,11 139,11 137,27 -0,27
13 153 142,12 10,88 8,82 8,86 144,14 150,98 2,02
14 146 144,86 1,14 -0,67 -0,63 146,63 144,23 1,77
15 143 147,6 -4,60 -6,16 -6,12 149,12 141,48 1,52
16 150 150,34 -0,34 -2,15 -2,11 152,11 148,23 1,77
Source : exemple
Le tableau ci-dessous nous explicite les coefficients saisonniers.
Coefficients saisonniers
2020 2021 2022 2023 Moyenne
T1 6,76 8,80 8,84 10,88 8,82
T2 -1,98 -0,94 -0,90 1,14 -0,67
T3 -6,72 -6,68 -6,64 -4,60 -6,16
T4 -3,46 -2,42 -2,38 -0,34 -2,15
9. Prévision
L’un des objectifs principaux de l’analyse d’une série chronologique est de faire des
prévisions. En fait, la prévision consiste à prévoir des valeurs futures à partir des valeurs
observées.
En d’autres termes, la prévision est une continuité du calcul en prenant en considération la
série ajustée.
Notons que la tendance et les coefficients saisonniers sont utilisés pour faire des prévisions.
Ceci dit, l’équation de la tendance peut être utilisée pour prévoir à une date « t » la variable
Yt. Nous soulignons la différence entre les deux cas :
§ Dans le cas d’un modèle additif
O 4 = f t + S 'j
7
§ Dans le cas d’un modèle multiplicatif
O 4 = f t × S 'j
7
Application
En prenant l’exemple 2, pour calculer une prévision pour t = 23, nous pouvons utiliser la
formule :
ft = 2.7353t + 106.5 , ou bien avec un arrondi de la valeur de la pente : ft = 2.74t + 106.5
Puisque le modèle est additif, on utilise :

O4 = ft + S 'j = ( 2.74t + 106.5 ) + S 'j
7
= ( 2.74 × (23) + 106.5) + (-6.16)
= 163.36 milliers de Dirhams.
Notons que la tendance observée antérieurement se poursuit, si les variations saisonnières
continuent de se produire de la même façon et bien évidemment si aucun incident ne
perturbe l’activité de l’entreprise, son CA pourrait être proche de 163.36 milliers de
Dirhams au 3ème trimestre de 2025 (t = 23).
On dispose de l’évolution du profit d’une petite entreprise en milliers de Dirhams pendant

quatre ans :
Evolution du profit d’une petite entreprise

2020 63 73 80 69
2021 61 66 72 64
2022 56 60 65 57
2023 52 56 59 54
Source : exemple
Analysez cette série chronologique :

1) Quel est le modèle de décomposition de cette série chronologique ? Justifiez votre choix
en utilisant la méthode de Buys et Ballot.
2) Déterminez la tendance en utilisant la méthode des moyennes mobiles centrées d’ordre
p=4.
3) Déterminez la série Corrigée des Variations Saisonnières CVS.
4) Déterminez la série ajustée.
5) Déterminez la composante accidentelle.
6) Est-ce que c’est possible d’avoir une prévision du profit du 1er trimestre de l’année
2027 en utilisant la méthode des moyennes mobiles centrées ?
Solution :
1. Quel est le modèle de décomposition de cette série chronologique ? Justifiez votre
choix en utilisant la méthode de Buys et Ballot.
On doit calculer la moyenne (m) et l’écart type (e) de chaque période (année) et estimer la
relation entre l’écart type et la moyenne en utilisant la méthode des MCO. Si la valeur de
« a » est différente de 0 le modèle est multiplicatif, sinon le modèle est additif.
Année 1er trimestre 2ème trimestre 3ème trimestre 4ème trimestre Moyenne Ecart type
2020 63 73 80 69 71.25 6.18
2021 61 66 72 64 65.75 4.02
2022 56 60 65 57 59.50 3.50
2023 52 56 59 54 55.25 2.59
En utilisant la méthode des MCO pour estimer la relation entre les deux indicateurs, nous
obtenons :
e = 0,208 m - 9,0207
Ceci dit a=0,208 ¹0 le modèle de décomposition est ainsi un modèle multiplicatif.
2. Déterminez la tendance en utilisant la méthode des moyennes mobiles centrées

d’ordre p=4 ; MM4(t).
t yt MM4(t)
1 63 --
2 73 --
3 80 71,00
4 69 69,88
5 61 68,00
6 66 66,38
7 72 65,13
8 64 63,75
9 56 62,13
10 60 60,38
11 65 59,00
12 57 58,00
13 52 56,75
14 56 55,63
15 59 --
16 54 --
On a considéré l’ordre 4, puisque dans cet exercice le nombre de saisons (trimestres) est de
4 trimestres par période (année).
3. Déterminez la série Corrigée des Variations Saisonnières CVS.
o On doit en premier lieu calculer la composante saisonnière en utilisant la formule :

st = yt /ft (voir la 4ème colonne dans le tableau ci-dessous).
o On doit ensuite calculer le coefficient saisonnier (Si) pour chaque saison i (i=1…4),
(voir la 5ème colonne dans le tableau ci-dessous), en utilisant la formule suivante :
1 3 1
∑
4 k=0
Si+4k = (Si + Si+4 + Si+8 + Si+12 )
4
o Pour que l’influence des variations saisonnières soit neutre sur une période (année),
la valeur moyenne des coefficients saisonniers St doit être égale à 1, en procédant au
calcul :
1 4 1
∑
p i=1
Si = (0.905+ 0.998 +1.111+ 0.991) =1
p
o Puisqu’on s’est assuré du principe de neutralité de l’influence des variations
saisonnières, on ne calculera pas les coefficients saisonniers corrigés S'i .
t yt ft st Si ytCVS
1 63 -- -- 0,905 69,62
2 73 -- -- 0,998 73,12
3 80 71,00 1,127 1,111 71,99
4 69 69,88 0,987 0,991 69,60
56 66
61 66,38
68,00 0,994
0,897 0,998
0,905 66,11
67,41
7 72 65,13 1,106 1,111 64,79
8 64 63,75 1,004 0,991 64,56
9 56 62,13 0,901 0,905 61,88
10 60 60,38 0,994 0,998 60,10
11 65 59,00 1,102 1,111 58,49
12 57 58,00 0,983 0,991 57,50
13 52 56,75 0,916 0,905 57,46
14 56 55,63 1,007 0,998 56,10
15 59 -- -- 1,111 53,09
16 54 -- -- 0,991 54,47
o On peut ainsi déduire la série CVS (ytCVS) à partir de la série brute en divisant la
série chronologique par la composante saisonnière : (yt/Si).
4. Déterminez la série ajustée.

On peut obtenir la série ajustée (ytaj) à partir de la tendance générale en multipliant
la composante saisonnière par la tendance (ytaj =ft x Si) comme dans le tableau
ci-dessous.
t yt ft st Si ytaj ℇt
1 63 -- -- 0,905 -- --
2 73 -- -- 0,998 -- --
3 80 71,00 1,127 1,111 71x1,111=78,88 1,014
4 69 69,88 0,987 0,991 69,25 0,996
5 61 68,00 0,897 0,905 61,54 0,991
6 66 66,38 0,994 0,998 66,25 0,996
7 72 65,13 1,106 1,111 72,36 0,995
8 64 63,75 1,004 0,991 63,18 1,013
9 56 62,13 0,901 0,905 56,23 0,996
10 60 60,38 0,994 0,998 60,26 0,996
11 65 59,00 1,102 1,111 65,55 0,992
12 57 58,00 0,983 0,991 57,48 0,992
13 52 56,75 0,916 0,905 51,36 1,012
14 56 55,63 1,007 0,998 55,52 1,009
15 59 -- -- 1,111 -- --
16 54 -- -- 0,991 -- --
5. Déterminez la composante accidentelle.

De la série ajustée, on peut déduire la composante accidentelle ou résiduelle en divisant yt
par ytaj tel que ℇt= yt/ytaj (Voir la dernière colonne du tableau ci-dessus).
6. Est-ce que c’est possible d’avoir une prévision du profit du 1er trimestre de
l’année 2027.
Puisque la tendance n’a pas été déterminée par une méthode analytique, mais plutôt
empirique (MM4(t)), qui se base sur une estimation ponctuelle de chaque valeur, Il n’est
pas convenable d’évaluer la tendance pour une date future et d’effectuer des prévisions.
Remarque : Si on avait utilisé la méthode des MCO, on pourrait calculer des prévisions,
notamment pour le 1er trimestre de l’année 2027 (t = 29) en utilisant y29 = f29×S1
Indices simples & synthétiques 156
Chapitre 7.
Indices simples et synthétiques
1. Variation et Coefficient multiplicateur

2. Indices simples ou élémentaires
3. Indices synthétiques
- Indices de Laspeyres
- Indices de Paasche
- Indice de Fisher
Chapitre 7.
Indices simples et synthétiques
Dans plusieurs domaines, il faut savoir décrire et analyser l’évolution temporelle de

différentes grandeurs et de synthétiser leur évolution simultanée11. L’indicateur fondamental
de l’évolution des variables économiques et sociales est l’indice.
On distingue deux types d’indices : les indices simples portant sur une seule grandeur et les
indices synthétiques portant sur des grandeurs complexes de même nature (ex. indice des
prix regroupant un panier de biens). Si les grandeurs sont de natures différentes (ex. indice
boursier de Shanghai), les indices sont ainsi nommés indices composites.
En d’autres termes, un indice synthétique, est un indicateur de tendance centrale d’une

distribution d’indices simples. Les indices synthétiques sont souvent des moyennes
d’indices simples, comme la moyenne arithmétique pour l’indice de Laspeyres, et la
moyenne harmonique pour l’indice de Paasche (deux indices qui seront introduits dans ce
chapitre).
Notons que les indices ont été conçus pour effectuer des comparaisons sur des variables
économiques mesurables. Ils synthétisent en un seul nombre les modifications affectant un
ensemble de variables, nous pouvons citer par exemple l’indice des prix à la
consommation.
En économie par exemple, chaque année, les consommateurs achètent des dizaines de
produits et de services à des prix et à des quantités variables. L’évolution, par exemple, du
prix de chacun de ces produits peut être mesurée par un indice simple de prix.
11
Il faut auparavant savoir comparer les données. On peut noter quatre principaux indicateurs qui sont utiles à cette
comparaison : les parts, les ratios qui sont des rapports jugés significatifs entre deux grandeurs, les écarts absolus et les
écarts relatifs.
Par contre, les indices synthétiques présentés dans cette section résument, par un seul
indicateur, une série d'indices de prix ou de quantités. Avant de définir les indices, nous
pouvons souligner qu’un indice évalue une variation. Il n’évalue pas un niveau. Il mesure
ainsi une variation en valeur relative et non pas en valeur absolue12.
La question qui peut être posée : quelle est la différence entre la variation absolue et la
variation relative ?
Nous allons ainsi définir la variation absolue, la variation relative et aussi le coefficient
multiplicateur13.
Notons que la variation absolue, la variation relative et les indices simples ou élémentaires
sont les principaux indicateurs qui permettent de mesurer l’évolution des données.
1. Variation et Coefficient multiplicateur
• Variation absolue
La variation absolue d’une Grandeur G de la date 0 à la date t est la différence entre la

valeur finale et la valeur initiale. Cette variation absolue est ainsi notée :
∆| = |5 − |6
Notons qu’une variation absolue positive implique une augmentation et une variation
négative indique une baisse.
• Variation relative
La variation relative d’une Grandeur G de la date 0 à la date t est le rapport entre la

variation absolue et la valeur initiale de cette grandeur. Cette variation relative14 est notée :
∆| |5 − |6 |5
= = −-
|6 |6 |6
12
En 2023, un indice base 100 de 2022, du prix du pain est de 125 et celui du lait de 115 n’indique pas que le prix du
pain est supérieur à celui du lait, mais que le pain a augmenté de 25% entre 2022 et 2023 et le lait de 15% dans la
même période.
13
La moyenne géométrique est principalement utilisée pour calculer les coefficients multiplicateurs moyens pour
déduire les taux de variation.
14
La variation relative s’exprime souvent en pourcentage.
Le terme de variation relative est synonyme au taux de variation et au taux de croissance

qui peut éventuellement être positif ou négatif.
• Coefficient multiplicateur
Quand une grandeur passe de la valeur G0 à la valeur Gt, on peut calculer le coefficient
multiplicateur en utilisant la formule :
|5
}=
|6
Notons qu’un coefficient > 1 traduit une hausse, par contre un coefficient < 1 traduit une
baisse.
Il est aussi important de souligner que puisque les variations relatives ne sont pas additives,
ce fait conduit à la construction d’un indicateur très proche de la variation relative, mais qui
a des propriétés fort intéressantes. Cet indicateur est l’indice simple ou élémentaire qui est
explicité dans la section suivante.
2. Indices simples ou élémentaires
Pour décrire les variations de grandeurs simples, on compare leurs valeurs dans le temps ou
dans l’espace en effectuant le rapport des valeurs de la grandeur considérée à deux dates
différentes (indice chronologique), ou dans des lieux différents (indice spatial).
Nous introduirons dans cette section un indice de base 1 et un indice de base 100.
• Indice de base 1
On appelle indice simple ou élémentaire de la grandeur simple G (variable), à la date t, base

1 à la date 0, le rapport noté :
|5
~4/6 (|) =
|6
La date 0 est appelée la date de référence et la date t, la date courante15. Notons que
~6/6 (|) = -.
• Indice de base 100
On appelle indice élémentaire de la grandeur simple G, à la date t, base 100 à la date 0, le

rapport noté :
|5
~4/6 (|) = ( ) × -
|6
Notons que ~6/6 (|) = -.
Il est important de souligner les points suivants :
o Un indice ne possède pas d’unité.
o Un indice supérieur à 100 représente une hausse.
o Un indice inférieur à 100 représente une baisse.
o Les bases 1 ou 100 n’apparaissent pas dans la notation.
Comme précisé auparavant, les indices élémentaires possèdent des propriétés intéressantes
et qui manquent aux pourcentages.
Ces propriétés sont les suivantes :
o Les indices élémentaires sont transférables.
o Les indices élémentaires sont réversibles.
o Les indices élémentaires sont enchaînés.
o Les indices élémentaires se caractérisent par une circularité.
3. Indices synthétiques
L’un des défis majeurs concernant la mesure de l’évolution des données est celui de la
synthèse de l’évolution simultanée de plusieurs grandeurs. Par exemple, chaque année, les
consommateurs achètent des dizaines de produits et de services à des prix et dans des
quantités variables.
15
En économie, on utilise souvent l’année de base ou l’année de référence pour dénommer la date 0.
L’évolution, par exemple, du prix de chacun de ces produits peut être mesurée par un indice
simple de prix. Les indices synthétiques présentés dans cette section résument, par un seul
indicateur, une série d’indices de prix ou d’indices de quantités.
Avant d’introduire ces indices synthétiques, notons la définition d’un indice de la valeur.
Un indice de la valeur d’un panier de n produits à la date t, base 100 à la date 0 est égal à :
åP Q
i =1
i
t t
i
~4/6 (B) = n
× -
åP Q
i =1
i
o o
i
Cet indice n’est pas un indice de prix, il mesure à la fois l’évolution des prix et des
quantités consommées. D’où l’idée de calculer un indice de prix, et de fixer la structure de
consommation en fixant les quantités.
Dans cette section, nous allons introduire et définir les indices synthétiques de Laspeyres16
et de Paasche17 , indices de prix et de quantités. Ces indices respectent les principes
suivants :
o En calculant un indice de prix, seuls les prix varient, les quantités restent
constantes. Si les quantités sont celles de l’année de base, nous calculons
l’indice des prix de Laspeyres. Si les quantités sont celles de l’année courante t,
nous calculons l’indice des prix de Paasche.
o En calculant un indice de quantité, seules les quantités varient, les prix restent
fixes Si les prix sont ceux de l’année de base, nous calculons l’indice des
quantités de Laspeyres. Si les prix sont ceux de l’année courante t, nous
calculons l’indice des quantités de Paasche.
16
Laspeyres, économiste et statisticien allemand (1834-1913).
17
Paasche, économiste et statisticien allemand (1851-1925).
• Indices de Laspeyres
Nous allons définir les deux indices de Laspeyres, le premier relatif aux prix et le deuxième
relatif aux quantités.
o Indice des prix de Laspeyres
On appelle indice des prix de Laspeyres, année t, base 100 l’année 0, l’indice suivant :
n
åQ
i =1
o
i Pi t
Ä4/6 (Å) = n
× -
åQ
i =1
o
i Pi o
Il est obtenu en fixant les quantités à l’année de base.
L’indice des prix de Laspeyres est la moyenne arithmétique pondérée des indices
élémentaires de prix. Les coefficients de pondération sont relatifs à l’année de base.
o Indice des quantités de Laspeyres
On appelle indice des prix de Laspeyres, année t, base 100 l’année 0, l’indice suivant :
n
åP
i =1
i
o
Qit
Ä4/6 (Ç) = n
× -
åP
i =1
i
o
Q o
i
Il est obtenu en fixant les prix à l’année de base.
L’indice des quantités de Laspeyres est la moyenne arithmétique pondérée des indices
élémentaires de quantités. Les coefficients de pondération sont relatifs à l’année de base.
En tant que moyenne arithmétique, l’indice de Laspeyres (des prix ou des quantités)
présente la propriété d’agrégation. Cette propriété est très utile pour le calcul de l’Indice
des Prix à la Consommation (IPC), l’un des indices synthétiques les plus connus.
En effet, l’IPC est un instrument de mesure de l’inflation qui permet d’estimer des prix des
biens et des services consommés par les ménages. Le rôle de l’IPC est triple :
socio-économique, monétaire et financier et bien évidemment économique.
• Indices de Paasche
Nous allons définir les deux indices de Paasche, le premier relatif aux prix et le deuxième
relatif aux quantités.
o Indice des prix de Paasche
On appelle indice des prix de Paasche, année t, base 100 l’année 0, l’indice suivant :
n
åQ P
i =1
t
i i
t
Å4/6 (Å) = n
× -
åQ P
i =1
t
i i
o
Il est obtenu en fixant les quantités à l’année courante.
L’indice des prix de Paasche est la moyenne harmonique pondérée des indices élémentaires
de prix. Les coefficients de pondération sont relatifs à l’année courante.
o Indice des quantités de Paasche
On appelle indice des quantités de Paasche, année t, base 100 l’année 0, l’indice suivant :
n
åP Q
i =1
i
t t
i
Å4/6 (Ç) = n
× -
åP Q
i =1
i
t o
i
Il est obtenu en fixant les prix à l’année courante.

L’indice des quantités de Paasche est la moyenne harmonique pondérée des indices
élémentaires de quantités. Les coefficients de pondération sont relatifs à l’année courante.
• Comparaison et utilisation des indices de Laspeyres et de Paasche
L’indice de Laspeyres est le plus couramment utilisé, car il permet de conserver la même
pondération pour toutes les années : celle de l’année de base. Cet avantage du point de vue
des calculs devient vite un inconvénient, car le panier « figé » s’éloigne de plus en plus de
la réalité économique.
Pour l’indice des prix par exemple, l’indice de Laspeyres pondère les différents articles
proportionnellement aux habitudes de consommation du passé, alors que celui de Paasche
prend en compte les habitudes de consommation actuelles.
L’incorporation inévitable dans les indices des prix d’articles dont la quantité produite a
nettement augmenté et dont le prix relatif a de ce fait souvent diminué, introduit des
disparités dans les résultats obtenus pour les indices de Paasche et de Laspeyres.
On peut démontrer que la moyenne harmonique est inférieure ou égale à la moyenne

arithmétique. L’indice de Laspeyres étant une moyenne arithmétique des indices
élémentaires et l’indice de Paasche une moyenne harmonique, normalement, l’indice de
Paasche est inférieur ou égale à l’indice de Laspeyres.
Cependant, il faut prendre en compte que la situation est plus complexe. Les coefficients de
pondération étant différents peuvent influer sur la tendance de l’indice de Laspeyres à
surestimer les variations et sur celle de l’indice de Paasche à les sous-estimer.
• Indice de Fisher
Le choix entre les deux indices présente un certain arbitraire, ainsi le statisticien Fisher18 a
proposé un indice idéal qui est la moyenne géométrique des deux indices.
L’indice synthétique de Fisher est défini comme étant la moyenne géométrique des indices
de Laspeyres et de Paasche.
* Pour les prix : Ft / 0 ( P ) = Lt / o ( P ) ´ Pt / o ( P )
18
Fisher, économiste, statisticien et mathématicien (1867-1947).
* Pour les quantités : Ft / 0 (Q ) = Lt / o (Q ) ´ Pt / o (Q )
Il est important de souligner que l’indice de Fisher est toujours compris entre l’indice de
Paasche et l’indice de Laspeyres, car il représente leur moyenne géométrique.
Exercice 1
On dispose de la répartition des dépenses pour quatre produits en Dhs pendant 3 ans :
Répartition des dépenses selon les produits en Dhs
Produit/Année 2021 2022 2023

A 400 500 550
B 350 400 450
C 150 250 300
D 240 350 500
Total 1140 1500 1800
Source : exemple
1. Calculez les indices simples pour les années 2022 et 2023 des différents produits en
base 100, année 2021. Interprétez les résultats pour le produit A.
2. Quel est le taux de variation des dépenses totales entre 2021 et 2022 ?
Solution
1. Calculez les indices simples pour les années 2022 et 2023 des différents produits en
base 100, année 2021.
Les indices simples des 4 produits sont dans le tableau suivant :
Produit/Année 2021 2022 2023

A 100% 125% 138%
B 100% 114% 129%
C 100% 167% 200%
D 100% 146% 208%
Total 100% 132% 158%
NB. Pour le produit A par exemple, on peut noter qu’on a une augmentation des dépenses
de 25% entre l’année 2021 et 2022 et de 38% entre 2021 et 2023.
2. Quel est le taux de variation des dépenses entre 2021 et 2022 ?

Les dépenses ont augmenté de 32% entre 2021 et 2022.
Les dépenses ont augmenté de 58% entre 2021 et 2023
On peut noter que les dépenses totales ont augmenté de 20% entre 2022 et 2023 soit :
• en calculant 158/132 x 100 = 120% ; ou bien
• en calculant la variation relative ((1800-1500)/1500) x 100 = 20%.
Exercice 2
On dispose de la répartition des prix et des quantités consommées pour quatre produits en
Dhs en 2021 et 2022 comme dans le tableau ci-dessous :
Répartition des prix et des quantités
2021 2022
Produit/Année
P2021 Q2021 P2022 Q2022
A 4 100 5 100
B 3,5 100 2,5 160
C 15 10 20 12,5
D 40 6 40 8,75
Source : exemple
Calculez l’indice de la valeur des 4 produits à la date 2022, base 100 à la date 2021
Solution
En prenant en considération la formule de calcul de l’indice de la valeur :
n
åP Q
i =1
i
t t
i
!"/$ (&) = × *$$

n
åP Q
i =1
i
o o
i
tel que n=4, t=2022 et l’année de base 0 est 2021. Nous prenons ainsi les totaux dans le
tableau ci-dessous :
Produit/Année 2021 2022

P2021 Q2021 P2021 x Q2021 P2022 Q2022 P2022 x Q2022
A 4 100 400 5 100 500
B 3,5 100 350 2,5 160 400
C 15 10 150 20 12,5 250
D 40 6 240 40 8,75 350
Total 1140 1500
L’indice de la valeur est égal à :

I2022/2021 (V) = (1500/1140) x 100 = 131.6 %
o Cet indice de la valeur d’un panier de 4 produits (A, B, C, D) à la date 2022,

base 100 à la date 2021 est égal à 131.6% (ou bien 132%).
o Cet indice de la valeur mesure à la fois l’évolution des prix et des quantités
consommées, dans ce cas l’évolution est de 31,6%.
Exercice 3
On dispose de la répartition des prix et des quantités consommées pour 3 produits comme
Répartition des prix et des quantités consommées
selon les produits en 2022 et 2023
Produit/Année 2022 2023

P2022 Q2022 P2023 Q2023
A 10 5 15 4
B 8 3 9 4
C 10 2 9 2
Source : exemple
1. Calculez les indices des prix à la date 2023, base 100 à la date 2022, pour chacun
des 3 produits et interprétez-les.
2. Calculez les indices des quantités à la date 2023, base 100 à la date 2022, pour
chacun des 3 produits et interprétez-les.
3. Calculez l’indice de la valeur des 3 produits à la date 2023, base 100 à la date 2022
et interprétez-le.
4. Calculez les indices des prix et des quantités de Laspeyres et interprétez-les
5. Calculez les indices des prix et des quantités de Paasche et interprétez-les.
6. Calculez les indices des prix et des quantités de Fisher et interprétez-les.
7. Comparez les indices de Fisher avec les indices de Laspeyres et de Paasche
Solution
1. Les indices des prix à la date 2023, base 100 à la date 2022 (I2023/2022 (P)), pour
chacun des 3 produits :
2022 2023
Produit/Année I2023/2022 (P)
P2022 P2023
A 10 15 (15/10).100 = 150 %
B 8 9 (9/8).100 = 112,5 %
C 10 9 (9/10).100 = 90 %
o Pour le produit A, on remarque que le prix a augmenté de 50%.

o Pour le produit B, on remarque que le prix a augmenté de 12,5%.
o Pour le produit C, on remarque que le prix a diminué de 10%.
2. Les indices des quantités à la date 2023, base 100 à la date 2022 (I2023/2022 (Q)), pour
chacun des 3 produits :
2022 2023
Produit/Année I2023/2022 (Q)
Q2022 Q2023
A 5 4 (4/5).100 = 80 %
B 3 4 (4/3).100 = 133,33 %
C 2 2 (2/2).100 = 100 %
o Pour le produit A, on remarque que les quantités consommées ont diminué de 20%.
o Pour le produit B, on remarque que les quantités consommées ont augmenté de
33,33%.
o Pour le produit C, on remarque que les quantités consommées sont restées stables.
3. L’indice de la valeur des 3 produits à la date 2023, base 100 à la date 2022 et son
interprétation :
2022 2023
Produit/Année
P2022 Q2022 P2022 x Q2022 P2023 Q2023 P2023 x Q2023
A 10 5 50 15 4 60
B 8 3 24 9 4 36
C 10 2 20 9 2 18
Total 94 114
I2023/2022 (V) = (114/94) x 100 = 121,28 %.

o L’indice de la valeur démontre une augmentation de 21,28%, ceci dit les dépenses
(Prix x quantités) ont augmenté de 21,28%.
4. Calculez les indices des prix et des quantités de Laspeyres et interprétez-les.
L’indice des prix de Laspeyres, tel que n=3 et t=2023 et l’année de base 0 est 2022.
n
åQ
i =1
o
i Pi t
!"/$ (&) = n
× *$$
åQ
i =1
o
i Pio
L2023/2022 (P) = ((5x15) + (3x9) + (2x9)) /((5x10) + (3x8) + (2x10)) x 100

L2023/2022 (P) = (120/94) x 100 = 127,66 %
Interprétation : Les prix selon l’indice de Laspeyres ont augmenté de 27,66% entre l’année
2022 et l’année 2023.
L’indice des quantités de Laspeyres

n
åP Q
i =1
i
o t
i
!"/$ (&) = n
× *$$
åP Q
i =1
i
o o
i
L2023/2022 (Q) = ((4x10) + (4x8) + (2x10)) /((5x10) + (3x8) + (2x10)) x 100

L2023/2022 ( Q) = (92/94) x 100 = 97,87 %
Interprétation : Les quantités selon l’indice de Laspeyres ont diminué de 2,13% entre
l’année 2022 et l’année 2023.
L’indice des prix de Paasche, tel que n=3 et t=2023 et l’année de base 0 est 2022.
n
åQ P
i =1
t
i i
t
!"/$ (!) = × )$$

n
åQ
i =1
t
i Pi o
P2023/2022 (P) = ((4x15) + (4x9) + (2x9)) /((4x10) + (4x8) + (2x10)) x 100

P2023/2022 (P) = (114/92) x 100 = 123,91 %
Interprétation : Les prix selon l’indice de Paasche ont augmenté de 23,91% entre l’année
2022 et l’année 2023.
L’indice des quantités de Paasche
n
åP Q
i =1
i
t t
i
!"/$ (&) = × *$$

n
åP Q
i =1
i
t o
i
P2023/2022 (Q) = ((4x15) + (4x9) + (2x9)) /((5x15) + (3x9) + (2x9)) x 100

P2023/2022 ( Q) = (114/120) x 100 = 95,00 %
Interprétation : Les quantités selon l’indice de Paasche ont diminué de 5% entre l’année
2022 et l’année 2023.

Les indices des prix et des quantités de Fisher, tel que n=3 et t=2023 et l’année de base 0
est 2022 sont :
L’indice des Prix de Fisher :

o F2023/2022 (P) = 127, 66 ×123, 91 = 125,77%
o Interprétation : Les prix selon l’indice de Fisher ont augmenté de 25,77%
entre l’année 2022 et l’année 2023.
L’indice des quantités de Fisher :
o F2023/2022 (Q) = 97,87 × 95, 00 = 96,46%
o Interprétation : Les quantités selon l’indice de Fisher ont diminué de 3,54%
7. Comparez les indices de Fisher avec les indices de Laspeyres et de Paasche.

Soit pour les indices des prix ou des quantités on peut noter que :
Les indices Paasche < Les indices de Fisher < Les indices de Laspeyres
P2023/2022 (P) < F2023/2022 (P) < L2023/2022 (P)
P2023/2022 (Q) < F2023/2022 (Q) < L2023/2022 (Q)
Exercice 4
On dispose de la répartition des prix et des quantités consommées pour les produits A et B,
pour l’année 2020 et 2023 représentée dans le tableau ci-dessous :

selon le produit A et B en 2020 et 2023
2020 2023
Produit/Année
P2020 Q2020 P2023 Q2023
A 2 12 3 13
B 1,5 7 2 10
Source : exemple

4. Comparez les 3 types d’indices.
Solution

Indice des prix de Laspeyres :
L2020/2023 (P) = ((3x12) + (2x7)) / ((2x12) + (1,5x7)) x 100

L2020/2023 (P) = (50/34,5) x 100 = 144,9 %.
Interprétation : Les prix selon l’indice de Laspeyres ont augmenté de 44,9% entre l’année
2020 et l’année 2023.
Indice des quantités de Laspeyres :
L2020/2023 (Q) = ((2x13) + (1,5x10)) /((2x12) + (1,5x7)) x 100

L2020/2023 (Q) = ( 41/34,5) x 100 = 118,84 %.
Interprétation : Les quantités selon l’indice de Laspeyres ont augmenté de 18,84% entre

Indice des prix de Paasche :
P2020/2023 (P) = ((3x13) + (2x10)) / ((2x13) + (1,5x10)) x 100

P2020/2023 (P) = (59/41) x 100 = 143,9 %.
Interprétation : Les prix selon l’indice de Paasche ont augmenté de 43,9% entre l’année
2020 et 2023.
Indice des quantités de Paasche
P2020/2023 (Q) = ((3x13) + (2x10))/((3x12) + (2x7)) x 100

P2020/2023 (Q) = (59/50) x 100 =118 %.
Interprétation : Les quantités selon l’indice de Paasche ont augmenté de 18% entre l’année
2020 et l’année 2023.
3. Calculez les indices des prix et des quantités de Fisher.

L’indice des Prix de Fisher :
o F2020/2023 (P) = 144, 9 ×143, 9 = 144,4%
o Interprétation : Les prix selon l’indice de Fisher ont augmenté de 44,4% entre
L’indice des quantités de Fisher :
o F2020/2023 (Q) = 118,84 ×118, 00 = 118,42%
o Interprétation : Les quantités selon l’indice de Fisher ont diminué de 18,42%
4. Comparez les indices de Fisher avec les indices de Laspeyres et de Paasche.

P2020/2023 (P) < F2020/2023 (P) < L2020/2023 (P)
P2020/2023 (Q) < F2020/2023 (Q) < L2020/2023 (Q)
QCM corrigées 175
Questions à choix multiples

QCM corrigées
S
Série 1
Exercice 1 :
Nous disposons de la répartition d'un échantillon de produits dans une grande surface au Maroc,
selon leur prix dans le tableau ci-dessous :
Répartition des produits selon le prix

Prix en Dhs Effectif (ni)
[ 100 - 200 [ 50
[ 200 - 300 [ 100
[ 300 - 400 [ 120
[ 400 - 500 [ 94
[ 500 - 700 [ 36
Source: exemple
* Pour les calculs intermédiaires, il faut prendre en considération quatre décimales après la
virgule.
1. Les modalités de la variable étudiée sont :

(A) les 5 intervalles.
(B) les grandes surfaces.
(C) les produits qui forment la population étudiée.
(D) 5 modalités de la variable quantitative continue.
(E) Aucune des solutions proposées n'est correcte.
2. Le mode :
(A) est égal à 256.52 Dhs.
(B) est égal à 300.43 Dhs.
(C) est égal à 343.48 Dhs.
(D) est égal à 348.00 Dhs.
(E) est égal à 350.69 Dhs.
3. En calculant la médiane Me ou Q2 , on peut conclure que :

(A) 50% des produits ont un prix inférieur à 246.81 Dhs.
(B) 50% des produits ont un prix inférieur à 258.33 Dhs.
(C) 50% des produits ont un prix supérieur ou égal à 300.42 Dhs.
(D) 50% des produits ont un prix supérieur ou égal à 341.67 Dhs.
(E) 50% des produits ont un prix supérieur ou égal à 383.33 Dhs.
QCM corrigées 176
4. En prenant en considération le premier quartile Q1 , on peut conclure que :

(A) 25% des produits ont un prix inférieur à 150 Dhs.
(B) 75% des produits ont un prix inférieur à 200.50 Dhs.
(C) 75% des produits ont un prix supérieur ou égal à 250 Dhs.
(D) 75% des produits ont un prix supérieur ou égal à 275 Dhs.
5. En calculant le coefficient de Yule et Kendall, nous pouvons noter qu'il est égal à :
(A) 0.0 et ainsi la distribution est symétrique.
(B) 2.0 et ainsi la distribution est oblique gauche.
(C) 5.6 et ainsi la distribution est oblique gauche.
(D) 7.5 et ainsi la distribution est étalée vers la droite.
(E) - 2.8 et ainsi la distribution est étalée vers la gauche.
6. En calculant l'écart-type, on peut conclure que la dispersion autour de la moyenne est

de :
(A) 17.53 Dhs et le coefficient de variation est égal à 5.07 %.
(B) 124.33 Dhs et le coefficient de variation est égal à 35.93%.
(C) 124.33 Dhs2 et le coefficient de variation est égal à 35.93%.
(D) 156.83 Dhs et le coefficient de variation est égal à 45.33%.
(E) 156.83 Dhs2 et le coefficient de variation est égal à 45.33%.
7. En supposant que nous multiplions tous les effectifs (ni) par deux (2), nous pouvons
noter que :
(A) les valeurs de la moyenne et de la variance changent.
(B) les valeurs de la moyenne et de la variance ne changent pas.
(C) la valeur de la moyenne change et celle de la variance ne change pas.
(D) la valeur de la moyenne ne change pas et celle de la variance change.
8. L'indice de Gini :
(A) est égal à 0.04, la répartition des produits tend à être égalitaire.
(B) est égal à 0.20, la répartition des produits tend à être égalitaire.
(C) est égal à 0.80, la répartition des produits tend à être inégalitaire.
(D) est égal à 1.00, la répartition des produits tend à être inégalitaire.
(E) est égal à 0.20, avec une forte concentration de la distribution des prix.
9. En supposant que nous multiplions tous les effectifs (ni) par trois (3), nous pouvons
noter que :
(A) les valeurs de l'indice de Gini et des quartiles changent.
(B) les valeurs de l'indice de Gini et des quartiles ne changent pas.
(C) la valeur de l'indice de Gini ne change pas et celles des quartiles changent.
(D) la valeur de l'indice de Gini change et celles des quartiles ne changent pas.
QCM corrigées 177
10. A l'international, nous disposons d’un autre échantillon de produits dans une grande
surface, tel que sa variance est de 11025 $2, et son coefficient de variation est de 20%,
on peut dans ce cas déduire :
(A) que la moyenne des prix de cet échantillon de produits est de 525 $.
(B) que la moyenne des prix de cet échantillon de produits est de 55125 $.
(C) que la moyenne des prix de cet échantillon de produits est de 551.25 $.
(D) que les produits au Maroc sont plus chers que les produits à l'international.
(E) que l’échantillon des produits à l'international est plus dispersé que l'échantillon des
produits au Maroc.
Exercice 2 :
Nous disposons de la répartition des ventes trimestrielles de l'un de ces produits en milliers de
Dirhams et de son évolution pendant les 4 dernières années, ainsi que la moyenne et l'écart-type de
chaque période dans le tableau ci-dessous :
Répartition des ventes par trimestre
Année 1er trimestre 2ème trimestre 3er trimestre 4ème trimestre Moyenne Ecart type
2013 126 146 160 138 142.50 12.36
2014 122 132 144 128 131.50 8.05
2015 112 120 130 114 119.00 7.00
2016 104 112 118 108 110.50 5.17
Source: exemple
* Pour les calculs intermédiaires, il faut prendre en considération deux décimales après la
virgule.
11. Le modèle de décomposition de cette série chronologique :

(A) est un modèle mixte.
(B) est un modèle additif.
(C) est un modèle linéaire.
(D) est un modèle multiplicatif.
12. En calculant la Cov(yt, t) nous pouvons déduire que :

(A) les deux variables (yt) et (t) sont indépendantes.
(B) les deux variables (yt) et (t) covarient dans le même sens.
(C) les deux variables (yt) et (t) covarient dans des sens opposés.
(D) les deux variables (yt) et (t) sont liées par une relation parabolique.
QCM corrigées 178
13. Afin d’analyser cette série chronologique et pour déterminer la tendance, on utilise la
méthode des Moindres Carrés Ordinaires (MCO). On estime « a » et « b » dans
l'équation de régression yt = at + b et on trouve :
(A) a = - 2.39 ; b = 146.20
(B) a = 2.39 ; b = 105.57
(C) a = - 3.41 ; b = 154.88
(D) a = 11.00 ; b = 32.34
(E) a = - 11.00 ; b = 219.42
14. En calculant la corrélation (r) entre yt et t ; et sachant que la Var (yt) = 221.23; on
trouve que :
(A) r = - 0.74 ; ainsi la relation entre yt et t est forte.
(B) r = 0.74 ; ainsi la relation entre yt et t est forte.
(C) r = - 0.23 ; ainsi la relation entre yt et t est forte.
(D) r = 0.23 ; ainsi la relation entre yt et t est très faible.
(E) r = - 0.01 ; ainsi une relation de cause à effet entre yt et t ne peut pas être vérifiée.
15. En calculant le coefficient de détermination, on peut conclure que :

(A) 0.01% de la variation des ventes peut s’expliquer par une relation linéaire avec t.
(B) 5.29% de la variation des ventes peut s’expliquer par une relation linéaire avec t.
(C) 54.76% de la variation des ventes peut s’expliquer par une relation linéaire avec t.
(D) 86.02% de la variation des ventes peut s’expliquer par une relation linéaire avec t.
(E) 5.29% de la variation des ventes peut s’expliquer par une relation non linéaire avec t.
16. En supposant que les coefficients saisonniers corrigés des quatre trimestres sont
respectivement : S'1 = 0.90 ; S'2 = 1.00 ; S'3 = 1.10 ; S'4 = 1.00 ; la prévision des ventes du
quatrième trimestre de l’année 2018 est de :
(A) 74.04
(B) 88.84
(C) 89.84
(D) 136.64
(E) 203.56
17. En supposant que les coefficients saisonniers corrigés des quatre trimestres sont
respectivement : S'1 = 0.90 ; S'2 = 1.00 ; S'3 = 1.10 ; S'4 = 1.00 ; la prévision des ventes du
premier trimestre de l’année 2020 est de :
(A) 56.89
(B) 69.20
(C) 77.79
(D) 129.43
(E) 193.96
QCM corrigées 179
Exercice 3 :
Nous disposons de la répartition des prix et des quantités consommées pour trois catégories de
produits pendant l’année 2016 et 2017, comme illustrée dans le tableau ci-dessous :

2016 2017
P2016 Q2016 P2017 Q2017
Produit Bio 50 150 47 175
Produit de base 10 270 9 310
Produit de luxe 250 15 300 17
Source: exemple
virgule.
18. L’indice de valeur des trois produits à la date 2017, base 100 à la date 2016 est égal à :
(A) 86.57% , soit une diminution des dépenses de 13.43%.
(B) 87.08% , soit une diminution des dépenses de 12.92%.
(C) 114.84% , soit une augmentation des dépenses de 14.84%.
(D) 115.52% , soit une augmentation des dépenses de 15.52%.
(E) 132.53% , soit une augmentation des dépenses de 32.53%.
19. L’indice des quantités du produit Bio à la date 2017, base 100 à la date 2016 est égal à :
(A) 85.71% , il représente un indice simple.
(B) 109.67% , il représente un indice simple.
(C) 116.67% , il représente un indice simple.
(D) 116.67% , il représente un indice synthétique.
(E) 175.00% , soit une augmentation des quantités consommées de 75 %.
20. L’indice des quantités de Fisher est égal à :

(A) 86.65% ; c’est un indice simple.
(B) 86.65% ; c’est un indice synthétique.
(C) 115.34% ; c’est un indice synthétique.
(D) 133.04% ; c’est un indice synthétique.
(E) 100.15% ; c’est une moyenne géométrique des indices des quantités de Laspeyres et de
Paasche.
QCM corrigées 180
Série 2
Exercice 1 :
Nous disposons de la répartition d'un échantillon de consommateurs marocains selon leur poids
Répartition des consommateurs selon le poids

Poids (Kg) Effectif (ni) Fréquence cumulée (Fi)
[ 50 - 55 [ 25 12.50%
[ 55 - 65 [ 50 37.50%
[ 65 - 70 [ 70 72.50%
[ 70 - 75 [ 55 100.00%
Source: exemple
virgule.
1. L'effectif des consommateurs qui ont une modalité = 60 Kg :

(A) est égal 10.
(B) est égal 20.
(C) est égal 25.
(D) ne peut pas être déduit dans ce cas.
2. Le mode est égal à :

(A) 61.25 kg
(B) 65.75 kg
(C) 67.86 kg.
(D) 68.75 kg.
3. En calculant la médiane Me ou Q2 , on peut conclure que 50% des consommateurs

ont un poids :
(A) inférieur à 65.36 kg.
(B) inférieur à 66.79 kg.
(C) supérieur à 63.21 kg.
(D) supérieur ou égal à 68.98 kg.
QCM corrigées 181
4. En prenant en considération le premier quartile Q1 on peut conclure que :

(A) 25% des consommateurs ont un poids inférieur à 60.00 kg.
(B) 25% des consommateurs ont un poids inférieur à 57.50 kg.
(C) 25% des consommateurs ont un poids supérieur ou égal à 55.50 kg.
(D) 75% des consommateurs ont un poids supérieur ou égal à 57.50 kg.
5. Sachant que l'EIQ = 10.45 kg ; le coefficient de Yule et Kendall est égal à :

(A) 2.02 ; la distribution est étalée vers la droite.
(B) 25.25 ; la distribution est étalée vers la droite.
(C) 18.87 ; la distribution est étalée vers la gauche.
(D) - 0.30 ; la distribution est étalée vers la gauche.
(E) - 11.78 ; la distribution est étalée vers la gauche.
6. Sachant que la variance est égale à 4284.69 kg2, on peut noter que la dispersion autour
de la moyenne est égale à :
(A) 65.13 kg.
(B) 65.46 kg.
(C) 65.46 kg2.
(D) 4284.69 kg.
7. En supposant que nous multiplions tous les effectifs (ni) par deux (2), nous pouvons
noter que :
(A) le coefficient de Yule et Kendall et le coefficient de variation changent.
(B) le coefficient de Yule et Kendall et le coefficient de variation ne changent pas.
(C) le coefficient de Yule et Kendall ne change pas et celle du coefficient de variation.
change.
(D) le coefficient de Yule et Kendall change et celle du coefficient de variation ne change
pas.
(A) ne doit pas être calculé dans ce cas.
(B) est égal à 0.07, la répartition des poids tend à être égalitaire.
(C) est égal à 0.02, la répartition des poids tend à être inégalitaire.
(D) est égal à 0.98, la répartition des poids tend à être inégalitaire.
9. A l'international, nous disposons de la répartition d'un autre échantillon de

consommateurs japonais selon le poids, tel que sa variance est égale à 2047 kg2. On
peut dans ce cas noter :
(A) qu'on ne peut pas comparer la dispersion des deux échantillons.
(B) que la répartition de l'échantillon japonais tend à être égalitaire.
(C) que l'échantillon marocain est plus dispersé que l'échantillon japonais.
(D) que l'échantillon japonais est plus dispersé que l'échantillon marocain.
QCM corrigées 182
10. Supposant que nous disposons d'un deuxième échantillon de consommateurs

marocains, tel que son effectif est égal à 100 et la moyenne du poids est égale à 55.00
kg. Nous pouvons conclure que la moyenne du poids de l'ensemble des
consommateurs marocains (dans les 2 échantillons) est égale à :
(A) 60.06 kg.
(B) 65.13 kg.
(C) 67.15 kg.
(D) 61.75 kg.
Exercice 2 :
Nous disposons de la répartition des ventes trimestrielles d'un produit en milliers de Dirhams et de
son évolution pendant les 3 dernières années, ainsi que la moyenne et l'écart-type de chaque
période dans le tableau ci-dessous :
Année 1er trimestre 2ème trimestre 3ème trimestre 4ème trimestre Moyenne (m) Ecart type (e)
2019 168 180 192 162 175.50 3.84
2020 210 228 246 210 223.50 4.97
2021 174 270 300 180 231.00 18.36
Source: exemple
virgule.
11. Sachant que b = - 28.02 dans l'équation e = am + b ; le modèle de décomposition de cette

série chronologique :
(A) un modèle additif.
(B) un modèle linéaire.
(C) un modèle multiplicatif.
(D) ne peut pas être déduit dans ce cas.
12. En calculant la Cov (yt , t) nous pouvons noter qu'elle est égale à :
(A) 76.50 ; la relation entre les deux variables (yt) et (t) est forte.
(B) 7.65 ; les deux variables (yt) et (t) covarient dans le même sens.
(C) 76.50 ; les deux variables (yt) et (t) covarient dans le même sens.
(D) - 76.50 ; les deux variables (yt) et (t) covarient dans des sens opposés.
QCM corrigées 183
13. Sachant que la var (yt) = 1734 et la var (t) = 11.92 nous pouvons noter que le coefficient
de détermination (R2) est égal à :
(A) 0.28
(B) 0.48
(C) 0.53
(D) 0.56
14. Afin d'analyser cette série chronologique et pour déterminer la tendance, on utilise la
méthode des Moindres Carrés Ordinaires. On estime a et b dans l'équation de
régression yt = at + b et on trouve :
(A) a = 6.42 ; b = 168.27
(B) a = 6.42 ; b = 251.73
(C) a = 0.04 ; b = 209.71
(D) a = - 6.42 ; b = 253.73
(E) a = - 0.64 ; b = 214.16
15. Sachant que les coefficients saisonniers corrigés des trois premiers trimestres T1, T2 et
T3 sont respectivement : S'1 = 0.93 ; S'2 = 1.09 et S'3 = 1.14 ; le coefficient saisonnier
corrigé (S'4) du 4ème trimestre est égal à :
(A) 0.96
(B) 4.00
(C) - 2.16
(D) - 3.16
16. La moyenne mobile (non-centrée) d'ordre 4 à l'instant t = 4 :

(A) est égale à 162.00
(B) est égale à 175.50
(C) est égale à 183.00
(D) ne peut pas être calculée dans ce cas.
17. Nous pouvons noter que la prévision des ventes (en milliers de Dirhams) du 4ème
trimestre de l'année 2023 est de :
(A) 104.61
(B) 162.92
(C) 249.20
(D) 296.67
(E) 297.51
QCM corrigées 184
Exercice 3 :
Nous disposons de la répartition des prix et des quantités consommées pour deux catégories de
produits en 2020 et 2021 dans le tableau ci-dessous :

2020 2021
P2020 Q2020 P2021 Q2021
Produit bio 25 10 35 10
Produit naturel 15 25 5 30
Source: exemple
virgule.
18. L'indice de valeur des deux produits à la date 2021, base 100 à la date 2020 est égal à :
(A) 80.00 % , soit une diminution de 20.00 %
(B) 120.00 % , soit une augmentation de 20.00 %
(C) 114.29 % , soit une augmentation de 14.29 %
(D) 125.00 % , soit une augmentation de 25.00 %
(E) Aucune des solutions proposées n'est correcte
19. L'indice des quantités de Laspeyres est égal à :

(A) 71.43 %
(B) 76.00 %
(C) 105.26 %
(D) 112.00 %
20. Sachant que l'indice des quantités de Fisher est égal à 108.58 %, nous pouvons déduire
que l'indice des quantités de Paasche est égal à :
(A) 71.43 %
(B) 76.00 %
(C) 105.26 %
(D) 117.89 %
QCM corrigées 185
Série 3
Exercice 1 :
Nous disposons de la répartition d’un échantillon d’employés d’une multinationale au Maroc selon
leur salaire dans le tableau ci-dessous :
Répartition des employés selon le salaire

Salaire en Dhs Effectif (ni) Fréquence (fi) Fréquence de la masse salariale (f'i)
[ 3000 - 4000 [ 70 0.14 0.09
[ 4000 - 5000 [ 80 0.16 0.14
[ 5000 - 6000 [ 250 A calculer 0.52
[ 6000 - 7000 [ 100 0.20 A calculer
Source: exemple
virgule.
1. La variable étudiée est :

(A) le salaire une variable qualitative continue.
(B) le salaire, une variable quantitative continue.
(C) l'entreprise, une variable qualitative ordinale.
(D) l'employé, une variable quantitative continue.
2. Le mode est égal à :

(A) 4468.75 Dhs.
(B) 5000.53 Dhs.
(C) 5008.50 Dhs.
(D) 5531.25 Dhs.
3. La moyenne des salaires est égale à :

(A) 4000.00 Dhs.
(B) 5620.00Dhs.
(C) 5260.00 Dhs.
(D) 5545.45 Dhs.
4. En calculant la médiane Me ou Q2 , on peut noter que :

(A) 50% des employés ont un salaire inférieur à 4600.00 Dhs.
(B) 50% des employés ont un salaire inférieur à 5000.40 Dhs.
(C) 50% des employés ont un salaire supérieur ou égal à 5400.00 Dhs.
(D) 50% des employés ont un salaire supérieur ou égal à 5727.27 Dhs.
QCM corrigées 186
5. Nous pouvons démontrer que la distribution est :

(A) normale.
(B) symétrique.
(C) étalée vers la droite.
(D) étalée vers la gauche.
6. En prenant en considération le premier décile D1 , on peut noter que :

(B) 90% des employés ont un salaire inférieur à 3000.71 Dhs.
7. Sachant que le coefficient de variation est égal 17.6550% ; on peut noter que la
dispersion autour de la moyenne :
(A) est égale à 928.65 Dhs.
(B) est égale à 8827.5 Dhs
(C) est égale à 92865.0 Dhs
(D) est égale à 8624400 Dhs2
(E) ne peut pas être calculée car on manque de données.
8. A l’international nous disposons de la répartition des employés d’une filiale de cette

multinationale selon leur salaire tel que variance des salaires est de 202500 $2 et la
moyenne est de 1500$ on peut dans ce cas déduire :
(A) que l'échantillon marocain est plus dispersé que l'échantillon étranger.
(B) que l'échantillon étranger est plus dispersé que l'échantillon marocain.
(C) que l'échantillon marocain et l'échantillon étranger ont la même dispersion.
(D) que les unités sont différentes et dans ce cas, on ne peut pas comparer leur dispersion.
(A) est égal à 0.10 ; la répartition des salaires tend à être égalitaire.
(B) est égal à 0.25 ; la répartition des salaires tend à être égalitaire.
(C) est égal à 0.90 ; la répartition des salaires tend à être égalitaire.
(D) est égal à 0.75 ; la répartition des salaires tend à être inégalitaire.
(E) ne doit pas être calculé dans ce cas, puisque la somme des observations n'a aucun sens.
10. Supposant que nous disposons d'un deuxième échantillon d’employés marocains d’un
effectif égal à n2 tel que la moyenne des salaires est égale à 6500 Dhs. Sachant que la
moyenne des salaires de l'ensemble des employés (dans les 2 échantillons) est égale à
5725 Dhs, nous pouvons noter que n2 :
(A) est égal à 200.
(B) est égal à 300.
(C) est égal à 400.
(D) ne peut être calculé dans ce cas, car on manque de données.
QCM corrigées 187
Exercice 2 :
Nous disposons de la répartition des ventes trimestrielles de l'un de ces produits en milliers de
Dirhams et de son évolution pendant les 4 dernières années, ainsi que la moyenne de chaque
Année 1er trimestre 2ème trimestre 3er trimestre 4ème trimestre Moyenne
2019 126 146 160 138 142.50
2020 122 132 144 128 131.50
2021 112 120 130 114 119.00
2022 104 112 118 108 110.50
Source: exemple
virgule.
11. Le modèle de décomposition de cette série chronologique :

(C) est un modèle linéaire.
(D) est un modèle multiplicatif.
12. En calculant la Cov(yt, t) nous pouvons déduire qu’elle est égale à :

(A) 50.7 les deux variables (yt) et (t) covarient dans le même sens.
(B) - 30.1 les deux variables (yt) et (t) covarient dans des sens opposés.
(C) - 50.7 les deux variables (yt) et (t) covarient dans des sens opposés.
(D) - 60.6 les deux variables (yt) et (t) covarient dans des sens opposés.
13. Afin d’analyser cette série chronologique et pour déterminer la tendance, on utilise la
méthode des Moindres Carrés Ordinaires (MCO). On estime « a » et « b » dans
l'équation de régression yt = at + b et on trouve :
(A) a = - 3.41 ; b = 154.9
(B) a = - 2.39 ; b = 154.9
(C) a = - 2.39 ; b = 146.2
(D) a = - 0.74 ; b = 132.2
(E) a = 2.39 ; b = 146.2
QCM corrigées 188
14. En calculant la corrélation (r) entre yt et t on trouve que :

(A) r = - 0.26 ; ainsi la relation entre yt et t est forte.
(B) r = - 0.74 ; ainsi la relation entre yt et t est forte.
(C) r = 0.74 ; ainsi la relation entre yt et t est forte.
(D) r = - 0.23 ; ainsi la relation entre yt et t est très faible.
(E) r = - 0.01 ; ainsi une relation de cause à effet entre yt et t ne peut pas être vérifiée.
15. En supposant que les coefficients saisonniers corrigés des trois premiers trimestres sont
respectivement : S'1 = 0.90 ; S'2 = 1.00 ; S'3 = 1.10 ; la prévision des ventes du quatrième
trimestre en milliers de dirhams pour l’année 2024 est de :
(A) 74.04
(B) 80.84
(C) 88.84
(D) 89.84
(E) 203.56
16. La moyenne mobile (centrée) d'ordre 4 à l'instant t = 3 est égale à :
(A) 113.6
(B) 142.0
(C) 189.3
17. La moyenne mobile (non centrée) d'ordre 4 à l'instant t = 3 est égale à :

(A) 144.0
(B) 142.5
(C) 432.0
Exercice 3 :
produits pendant l’année 2021 et 2022, comme illustrée dans le tableau ci-dessous :
2021 2022
P2021 Q2021 P2022 Q2022
Produit de base 10 60 A calculer 75
Source: exemple
virgule.
QCM corrigées 189
18. Sachant que l’indice des prix du produit de base à la date 2022, base 100 à la date 2021
est égal à 170,00 %, son prix en 2022 (P2022) est égal à:
(A) 7.00
(B) 10.00
(C) 17.00
(D) 70.00
(E) Aucune des solutions proposées n’est correcte.
(A) 94.16%
(B) 106.20%
(C) 153.43%
(D) 160.74.%.
20. Nous pouvons noter que l’indice des quantités de Laspeyres est égal à :
(A) 65.69% ; c’est un indice synthétique.
(B) 66.02% ; c’est un indice simple.
(C) 66.02% ; c’est un indice synthétique.
(D) 160.88% ; c’est un indice synthétique.
QCM corrigées 190
Série 4
Exercice 1 :
Nous disposons de la répartition des employés d'une entreprise selon leur salaire dans le tableau
ci-dessous :
Répartition des employés selon le salaire
Salaire en Effectif Fréquence Fréquence Centre de

ni x ci F'i + F'i-1*
Dhs (ni) (fi) cumulée (Fi) classe (ci)
[ 3000 - 4000 [ 45 0.1125 11.25% 3500 157500 0.0678
[ 4000 - 5000 [ 80 0.2000 31.25% 4500 360000 0.2906
[ 5000 - 6000 [ 95 0.2375 55.00% 5500 522500 0.6706
[ 6000 - 8000 [ 165 0.4125 96.25% 7000 1155000 1.3929
[ 8000 - 9000 [ 15 0.0375 100.00% 8500 127500 1.9451
Source: exemple
* F'i : Fréquence cumulée de la masse salariale
Pour les calculs intermédiaires, il faut prendre en considération quatre décimales après la
virgule.
1. La variable étudiée est :

(A) le salaire une variable qualitative continue.
(B) le salaire, une variable quantitative continue.
(C) l'employé, une variable quantitative continue.
(D) l'entreprise, une variable quantitative continue.
2. Le centre de la classe modale :

(E) ne peut pas être calculé puisque la classe modale n'existe pas.
3. Le mode :
(E) ne peut pas être calculé puisque la classe modale n'existe pas.
QCM corrigées 191
4. En calculant la médiane Me ou Q2 , on peut conclure que :

(A) 50% des employés ont un salaire supérieur ou égal à 4210.53 Dhs.
(B) 50% des employés ont un salaire inférieur ou égal à 5000.79 Dhs.
(D) 75% des employés ont un salaire inférieur ou égal à 5942.03 Dhs.
(E) 50% des employés ont un salaire supérieur ou égal à 5942.03 Dhs.
5. En comparant le mode, la médiane et la moyenne, nous pouvons noter que la

distribution est :
(A) symétrique.
(B) oblique à droite.
(C) oblique à gauche.
(D) étalée vers la gauche.
6. En prenant en considération le troisième quartile Q3 qui est égal à 6969.70 Dhs

on peut conclure que :
(B) 75% des employés ont un salaire supérieur à 6969.70 Dhs.
(C) 75% des employés ont un salaire inférieur ou égal à 6969.70 Dhs.
7. Sachant que l'écart-type est égal à 1349.75, on peut noter :

(A) que le coefficient de variation est égal à 2.42 %.
(B) que le coefficient de variation est égal à 23.25%.
(C) que le coefficient de variation est égal à 39.22%.
(D) que le coefficient de variation est égal à 68.46%.
(E) qu'on manque de données pour calculer le coefficient de variation.
8. A l'international, nous disposons d'un échantillon d'employés étrangers tel que la

moyenne de leur salaire est de 1000 $ et la variance est de 202500 $2, on peut dans
ce cas déduire :
(A) que l'échantillon marocain est plus dispersé que l'échantillon étranger.
(B) que l'échantillon étranger est plus dispersé que l'échantillon marocain.
(C) que l'échantillon marocain et l'échantillon étranger ont la même dispersion.
(D) que la distribution de l'échantillon étranger est oblique à droite et étalée vers la gauche.
(E) que les unités sont différentes et par conséquent, on ne peut pas comparer leur
dispersion.
(A) est égal à 0.13
(B) est égal à 0.30
(C) est égal à 0.70
(D) est égal à 0.87
(E) ne peut pas être calculé, puisque la somme des observations n'a aucun sens.
QCM corrigées 192
10. Nous pouvons déduire que la répartition des employés :

(A) tend à être égalitaire avec une forte concentration de la distribution des salaires.
(B) tend à être égalitaire avec une faible concentration de la distribution des salaires.
(C) tend à être inégalitaire avec une forte concentration de la distribution des salaires.
(D) tend à être inégalitaire avec une faible concentration de la distribution des salaires.
(E) ne peut être égalitaire ou inégalitaire puisqu'on ne peut pas utiliser les indices de
concentration.
Exercice 2 :
Nous disposons de la répartition des profits trimestriels de cette entreprise en milliers de Dirhams
et de son évolution pendant les 3 dernières années, ainsi que la moyenne et l'écart-type de chaque
Répartition des profits par trimestre
Année 1er trimestre 2ème trimestre 3er trimestre 4ème trimestre Moyenne (m) Ecart type (e)
2018 42 44 50 51 46.75 3.83
2019 71 64 75 77 71.75 4.97
2020 80 84 86 90 85.00 3.61
Source: exemple
o Pour les calculs intermédiaires, il faut prendre en considération quatre décimales après
la virgule.
11. Sachant que (e = 0.0009m + 4.075), le modèle de décomposition de cette série

chronologique :
(C) est un modèle multiplicatif.
(D) ne peut être déduit puisqu'on manque de données.
12. Sachant que la Cov(yt , t) = 54.92 nous pouvons conclure que :

(A) les deux variables covarient dans le même sens.
(B) les deux variables covarient dans des sens opposés.
(C) les deux variables covarient dans le même sens et la relation est faible.
(D) la valeur de 54.92 n'est pas importante, puisqu'elle est inférieure à la moyenne des
observations.
QCM corrigées 193
13. Afin d'analyser cette série chronologique et pour déterminer la tendance, on utilise
la méthode des Moindres Carrés Ordinaires. On estime « a » et « b » dans
l'équation de régression : yt = at + b et on trouve (a = 4.61) et :
(A) b = 61.53
(B) b = 37.87
(C) b = 97.79
(D) b = 171.24
(E) b = - 35.58
14. En calculant la corrélation (r) entre yt et t ; on trouve 0.97 ainsi :

(A) la relation entre yt et t est faible.
(B) la relation entre yt et t est très forte.
(C) la relation entre yt et t est très faible.
(D) les deux variables sont indépendantes.
15. En calculant le coefficient de détermination, on peut conclure que :

(A) les deux variables sont indépendantes.
(B) 2.00% de la variation du profit peut s'expliquer par une relation linéaire avec le temps.
(C) 4.00% de la variation du profit peut s'expliquer par une relation linéaire avec le temps.
(D) 94.09% de la variation du profit peut s'expliquer par une relation linéaire avec le
temps.
(E) 98.49% de la variation du profit peut s’expliquer par une relation linéaire avec le
temps.
16. Sachant que les coefficients saisonniers corrigés des trois premiers trimestres T1,
T2 et T3 sont respectivement : S'1 = 3.42 ; S'2 = -1.53 ; S'3 = 0.19 ; le coefficient
saisonnier corrigé (S'4) du 4ème trimestre est égal à
(A) -2.08
(B) 1.00
(C) 1.29
(D) 1.92
17. Supposant que yt = 4.61 t + 37.87 nous pouvons noter que la prévision des ventes
(en milliers de Dirhams) du 3ème trimestre de l'année 2021 est de :
(A) 51.89
(B) 106.83
(C) 107.02
(D) 107.21
QCM corrigées 194
Exercice 3 :
produits pendant l'année 2019 et 2020, comme illustrée dans le tableau suivant :
2019 2020
P2019 Q2019 P2020 Q2020
Produit de base 10 60 12 75
Source: exemple
o Pour les calculs intermédiaires, il faut prendre en considération deux décimales après la
virgule.
(A) 95.45% , soit une diminution des dépenses de 4.55%.
(B) 99.28% , soit une diminution des dépenses de 0.72%.
(C) 100.73% , soit une augmentation des dépenses de 0.73%.
(D) 149.90% , soit une augmentation des dépenses de 49.90%.
(E) 157.04% , soit une augmentation des dépenses de 57.04%.
19. L'indice des prix du produit de base à la date 2020, base 100 à la date 2019 est égal à :
(A) 83.33% , il représente un indice simple.
(B) 120.00% , il représente un indice simple.
(C) 150.00% , il représente un indice de valeur.
(D) 120.00% , il représente un indice synthétique.
(E) 83.33% , soit une augmentation des prix de 16.67 %.
20. Sachant que l'indice des prix de Laspeyres est égal à 156.50% et l'indice des prix de
Paasche est égal à 153.33% ; l'indice des prix de Fisher est égal à :
(A) 65.03% ; c'est un indice simple.
(B) 65.03% ; c'est un indice synthétique.
(C) 153.33% ; c'est un indice synthétique.
(D) 154.91% ; c'est un indice synthétique.
(E) 156.50% ; c'est une moyenne harmonique des indices des prix de Laspeyres et de
Paasche.
QCM corrigées 195
Série 1 corrigée
1. E
2. C
3. D
4. C
5. A
6. B
7. B
8. B
9. B
10. A
11. D
12. C
13. A
14. A
15. C
16. B
17. B
18. D
19. C
20. C
QCM corrigées 196
Série 2 corrigée
1. D
2. D
3. B
4. A
5. D
6. B
7. B
8. A
9. C
10. D
11. C
12. C
13. A
14. A
15. E
16. B
17. C
18. A
19. D
20. C
QCM corrigées 197
Série 3 corrigée
1. B
2. D
3. C
4. C
5. D
6. D
7. A
8. B
9. A
10. B
11. D
12. C
13. C
14. B
15. C
16. B
17. D
18. C
19. B
20. A
QCM corrigées 198
Série 4 corrigée
1. B
2. B
3. C
4. C
5. C
6. C
7. B
8. B
9. A
10. B
11. B
12. A
13. B
14. B
15. D
16. A
17. D
18. C
19. B
20. D
Glossaire 199
GLOSSAIRE
La statistique : est un ensemble de techniques qui a pour objet de décrire, numériquement

et graphiquement des populations ou des échantillons.
La statistique descriptive : l’art et la science de collecter, analyser, présenter et interpréter

des données.
Les statistiques : des résumés d’un ensemble de données sous forme de tableaux, de
graphiques, ou sous forme numérique.
Une campagne de mesures : la période de recueil des données brutes. Les données brutes
sont les données disponibles à la fin de la collecte des données.
Traitement des données : consiste à analyser, résumer, comparer, mesurer, croiser et

modéliser les données brutes pour créer de l’information.
Population : un ensemble d’éléments (au sens mathématique) considéré dans une étude
particulière.
Individus ou unités statistiques : les éléments de la population.
Taille de la population/Effectif total : le nombre d’individus ou d’unités statistiques

appartenant à la population.
Une variable statistique ou un caractère : une caractéristique des éléments à laquelle on

s’intéresse.
Modalités : les valeurs que peut prendre une variable statistique.
Effectif : nombre d’individus qui présentent une modalité de la variable statistique.
Echantillon : un sous-ensemble de la population.
Un recensement : un processus de collecte de données relatives à la population entière.
Une observation : un ensemble de mesures obtenues pour un élément.
Enquêtes d’échantillonnage : des enquêtes visant à collecter des données relatives à un

échantillon.
Glossaire 200
Inférence statistique : un processus d’utilisation des données d’un échantillon pour

estimer ou tester des hypothèses concernant les caractéristiques d’une population.
Variable qualitative : si ses modalités ne sont pas des nombres et s'expriment de façon
littérale ou par un codage sur lequel les opérations arithmétiques n'ont pas de sens. On
distingue deux types : une variable nominale, s’il n’est pas possible de classer ses modalités
suivant un ordre qui a du sens et une variable ordinale, s’il est possible de classer ses
modalités suivant un ordre qui a du sens.
Variable quantitative : si ses modalités sont des nombres et ses valeurs sont des nombres
sur lesquels des opérations arithmétiques ont un sens. On distingue deux types : une
variable discrète, si la valeur de ses modalités relève d’un comptage (si l’ensemble de ses
modalités est dénombrable) et une variable continue, si la valeur de ses modalités relève
d’une mesure (ne relève pas d’un comptage) et si l’ensemble de ses modalités est non
dénombrable.
Effectif : Le nombre d’individus représentant la modalité. L’effectif d’une modalité « i »

est noté ni . S’il y a k modalités de la variable discrète, nominale ou ordinale, les effectifs
sont donc notés : n1 , n2 ………………., nk
Effectif total : La somme des effectifs ou le nombre total d’individus :

k
n1 + n2 +…………….+ nk = ∑ ni = n
i=1
Fréquence : La fréquence associée à une modalité (fi), ou à un ensemble de modalités

regroupées en classes, indique la proportion d’individus présentant cette modalité (ou cet
ensemble de modalités) par rapport à l’ensemble des individus.
ni
La fréquence d’une modalité « i » : fi =
n
k
La somme des fréquences : ∑ fi = 1
i=1
Fréquence en pourcentage = fréquence relative *100.
Classes : Pour une variable quantitative continue, toutes les valeurs des modalités peuvent
appartenir à un intervalle réel. Ces valeurs sont regroupées dans des intervalles de valeurs
numériques appelés classes. Les classes sont notées : [ ei ; ei+1 [ sachant que ei est la borne
inférieure et ei+1 est la borne supérieure.
Amplitude de la classe : ai = ei+1 - ei

ei+1 + ei
Centre de la classe : xi =
2
Glossaire 201
Histogramme : il est formé d’un ensemble de rectangles dont la base est déterminée par les
extrémités de la classe et dont la surface doit être proportionnelle à l’effectif (ou à la
fréquence) de la classe.
Diagramme circulaire (ou à secteurs circulaires, ou en camembert) : diagramme

permettant de représenter la distribution d'une variable qualitative : les modalités sont
représentées par des portions de disque proportionnelles à leur effectif, ou à leur fréquence.
Diagramme en barres (ou en tuyaux d'orgue) : Diagramme représentant la distribution

d'une variable qualitative : les modalités sont placées en abscisse, formant des bases de
rectangles égales et équidistantes, et les effectifs (ou fréquences) en ordonnée, suivant une
échelle arithmétique.
Diagramme en bâtons : Diagramme représentant la distribution d'une variable quantitative

discrète : les valeurs sont placées en abscisse, les effectifs (ou fréquences) en ordonnée, au
moyen de segments verticaux.
Indicateurs : les nombres qui résument une base de données selon des règles et des
pratiques. On les appelle aussi des « paramètres » ou des « caractéristiques ».
Les indicateurs de tendance centrale et de position : Des indicateurs qui se situent au

milieu, comme la moyenne, ou qui indiquent où se positionne une série de données. Des
indicateurs qui représentent une valeur numérique, autour de laquelle les observations sont
réparties. Ceux de la tendance centrale mesurent par exemple le centre de la distribution
d’une série de données.
Moyenne arithmétique : un indicateur de tendance centrale qui concerne uniquement les

variables quantitatives. La moyenne d’une série statistique est définie par la somme des
valeurs divisée par l’effectif total.
Moyenne géométrique : la racine nième du produit des valeurs observées. Elle est
principalement utilisée pour calculer les coefficients multiplicateurs moyens dont sont
déduits les taux de variation.
Moyenne harmonique : Elle est égale à l'inverse de la moyenne arithmétique des inverses
des valeurs.
Moyenne quadratique : Elle est égale à la racine carrée de la moyenne arithmétique des
carrés des valeurs.
Le mode : la valeur de la variable la plus fréquemment observée. C’est la valeur pour

laquelle l’effectif est le plus élevé (ou la fréquence est la plus élevée). Le mode peut être
Glossaire 202
aussi défini comme la valeur qui domine les autres et qui lui confère le statut d’indicateur
de tendance centrale.
La médiane : un centre de position lorsque les données sont rangées par ordre croissant. Sa
détermination est réalisée de façon différenciée en fonction de la parité de la taille de
l’échantillon (n) (pair ou impair).
Quantiles (ou les percentiles) : des indicateurs de position. Si nous considérons une
variable quantitative discrète ou continue, dont les modalités sont classées en ordre
croissant, le quantile d'ordre α (0 ≤ α ≤ 1) noté qα est la valeur de la variable telle que α%,
c’est-à-dire une proportion α des individus ait une valeur du caractère ou de la modalité
inférieure ou égale à qα. En d’autres termes (100 - α)% des individus ont une valeur
supérieure ou égale à qα.
Quartiles : des indicateurs de position qui partagent les observations en 4 groupes

d’effectifs égaux. Les quartiles sont les 3 valeurs q25, q50, q75. Ceci dit, 25%, 50%, 75% des
individus ont une valeur de la variable inférieure à q25, q50, q75 respectivement. Les quartiles
sont aussi notés : Q1, Q2, Q3 (Q pour Quartile). Notons que Q2 est la médiane, qui est aussi
un indicateur de tendance centrale.
Déciles : des indicateurs de position qui partagent les observations en 10 groupes d’effectifs
égaux. Les déciles sont les 9 valeurs q10, q20,….. q90. Ceci dit, 10%, 20%,...90% des
individus ont une valeur de la variable inférieure à q10, q20,...q90 respectivement. Les déciles
sont aussi notés : D1, D2….D9 (D pour Décile).
Centiles : des indicateurs de position qui partagent les observations en 100 groupes
d’effectifs égaux. Les centiles sont les 99 valeurs q1, q2, q3….. q99. Ceci dit, 1%, 2%, 3%
….99%, des individus ont une valeur de la variable inférieure à q1, q2, q3….. q99
respectivement. Les centiles sont aussi notés : C1, C2….C99 (C pour Centile).
Boîte à pattes (Box plots, Boîte de Tukey, Boîte à moustaches) : est utile pour visualiser la
dispersion d’une série statistique, pour des comparaisons et pour détecter des valeurs
aberrantes. En obtenant les quartiles Q1, Q2, Q3 et en y ajoutant le minimum et le maximum
des observations, nous obtenons un résumé en 5 chiffres. Ces 5 chiffres (Q1, Q2, Q3, Min,
Max) seront utiles pour illustrer la Boîte-à-pattes.
Etendue : est la différence entre la plus grande valeur et la plus petite des valeurs
observées. Sa formule est la suivante : Etendue = X (max)-X (min).
Ecart interdécile (D9-D1) : un indicateur qui écarte les 10% des observations les plus
petites et les 10% les des observations les plus grandes des deux extrémités de la
distribution. C’est un indicateur de dispersion qui concerne 80% des observations centrales.
Un écart relatif peut aussi être calculé à partir de ces deux déciles, sous la forme de (D9/D1).
Glossaire 203
Ecart inter centile (C99-C1) : un indicateur qui écarte 1% des observations à gauche et à
droite. C’est un indicateur de dispersion et qui concerne les 98% des observations centrales.
Ecart Interquartile (EIQ) : un indicateur de dispersion, qui peut être visualisé dans la
boîte à pattes, et qui n’est pas dépendant des valeurs extrêmes. Sa formule est la suivante :
EIQ = Q3 -Q1.
Intervalle interquartile : l’intervalle [Q1 - Q3], il contient 50% des observations.
Ecart semi-interquartile : (Q3 -Q1)/2.
Ecart absolu moyen : la moyenne arithmétique des valeurs absolues des écarts à la
moyenne arithmétique. Il nous donne une vision sur la valeur moyenne dont les
observations s’écartent de la moyenne.
Ecart absolu médian : la moyenne arithmétique des valeurs absolues des écarts à la
médiane.
Variance : elle est basée sur la différence entre chaque observation et la moyenne
arithmétique (écart par rapport à la moyenne). Elle est souvent utile comme une mesure
pour comparer le degré de dispersion de plusieurs variables.
Ecart type : il correspond à la racine carrée de la variance, il est ainsi plus facilement
comparable et interprétable que la variance, puisqu’il est mesuré dans les mêmes unités que
les données.
Coefficient de variation (CV) : mesure l’écart type relatif à la moyenne. C’est un

indicateur utile pour comparer les dispersions des variables qui ont des écarts et des
moyennes différentes. Il est souvent calculé en pourcentage. Il permet de comparer les
dispersions de distribution qui ne sont pas exprimées dans la même unité.
Concentration : concerne l’intensité du groupement des données. Elle ne s’applique qu’à

des variables continues à valeurs positives et pour des ensembles statistiques dont chaque
élément est affecté d’un caractère susceptible d’addition. La concentration peut se
caractériser, soit par un procédé graphique (courbe de Lorenz) soit par le calcul (Indice de
Gini).
Courbe de Lorenz : Pour obtenir une représentation graphique mettant en évidence la

concentration, cette courbe porte en abscisse les fréquences cumulées et en ordonnée les
agrégats cumulés (qui varient de 0% à 100 %), elle relie les points successifs : fréquence
cumulée ~ agrégat cumulé.
Glossaire 204
Indice de Gini IG : constitue un indicateur, ou une mesure synthétique de la concentration

des données. Son interprétation est liée à la compréhension de sa construction à partir de la
courbe de Lorenz.
Aire de la surface de concentration) : surface située entre la courbe de Lorenz et la

bissectrice.
Analyse d’une série bivariée : consiste à étudier une série d'observations ou une série
statistique selon deux variables.
Croisement de variables statistiques : consiste à relever pour le même individu la valeur

prise par deux variables
Tableau de contingence : un tableau à double entrée ou à deux dimensions et avec deux

variables X et Y, tel que les m modalités de X sont désignées par X1, X2,…Xi…Xm et les n
modalités de Y sont désignées par Y1, Y2,…. Yj,…Yn. C’est un tableau avec m lignes et n
colonnes.
Effectifs d’intersection : effectif noté nij représentant le nombre d’individus qui représente
à la fois la modalité Xi et la modalité Yj.
Distribution observée conjointe du couple (X,Y) : Les nij, tel que i = 1…m et j = 1…n, et
qui peut être notée : {(xi, yj, nij , i=1…m, j=1…n)}.
Distribution marginale : dans un tableau de contingence, si on calcule le total des

colonnes, on obtient les effectifs n.1, n.2,…, n.j…, n.n qui constituent la distribution marginale
d’Y. De même, si on calcule le total des lignes, on obtient n1., n2.,…, ni.,…, nm et qui
constituent la distribution marginale de X.
Distribution conditionnelle : dans un tableau de contingence, si on fixe Xi et on garde
toutes les modalités d’Y, on obtient une distribution conditionnelle, qui est la distribution
de la variable Y, tel que la modalité de la variable X est égale à Xi.
De même, si on fixe Yj et on garde toutes les modalités de X, on obtient une distribution
conditionnelle, qui est la distribution de la variable X, tel que la modalité de la variable Y
est égale à Yj.
Indice de spécificité : un indice de spécificité d’un couple de modalités est égal au rapport
entre la fréquence conditionnelle ligne (colonne) et la fréquence marginale ligne (colonne)
correspondante. Il est applicable, peu importe le type des deux variables.
Covariance : peut servir à quantifier la variabilité conjointe de deux variables quantitatives.

Elle permet de savoir si les deux variables varient dans le même sens ou en sens inverse. Sa
Glossaire 205
valeur n’est pas importante lors de l’interprétation, vu que c’est son signe intéressant et
interprétable.
)
-
89: (4, 7) = &(4$ − 5 5)
4) (7$ − 7
%
$&+
Corrélation : une mesure de l’intensité du lien linéaire entre deux variables quantitatives.
Soit (X, Y) un couple de variables quantitatives, d’écarts types respectifs s xs y , la
corrélation ou le coefficient de corrélation linéaire du couple (X, Y) est défini par :
Cov ( x , y )
r=
s xs y
Coefficient de détermination : un coefficient qui nous permet d’en déduire si la qualité du
modèle est bonne, il le carré du coefficient de corrélation linéaire du couple (X,Y).
2
æ Cov( x , y ) ö
r =ç
2 ÷
ç s s ÷
è x y ø
Méthode des Moindres Carrés Ordinaires (MCO) : une procédure qui permet d’utiliser
les données de l’échantillon pour estimer l’équation de régression linéaire.
Méthode des moyennes de Mayer : elle consiste à diviser une série en deux groupes
égaux et calculer les points moyens ou de gravité des deux nuages de points, pour estimer
l’équation de régression linéaire.
Série chronologique : elle décrit l’évolution d’un phénomène dans le temps. Elle est aussi
nommée série temporelle ou chronique. Son premier caractère est le temps et le deuxième
est quantitatif.
Tendance : également appelée trend, mouvement de tendance générale ou composante

générale est une évolution durable, régulière et en général lente du phénomène étudié. C’est
une orientation générale qui exprime une tendance durable à la croissance ou à la
décroissance. La tendance est matérialisée par une courbe qui est souvent une droite et qui
résume le phénomène. Elle ajuste ainsi l’ensemble des points du nuage et lisse la série.
Fluctuations cycliques : appelées aussi fluctuations conjoncturelles, ou mouvement
cyclique sont les oscillations autour de la tendance, irrégulières en amplitude et en durée.
Mouvement saisonnier : appelé aussi mouvement périodique ou composante saisonnière
est périodique autour de la tendance, ses oscillations sont donc d’amplitudes similaires et la
périodicité inférieure ou égale à la période étudiée. C’est des variations qui résultent de
répétitions d’évènements plus au moins réguliers dont les causes peuvent être diverses.
Glossaire 206
Variations accidentelles : appelées aussi mouvement résiduel ou composante résiduelle,

sont des fluctuations ponctuelles de forte amplitude due à des facteurs exceptionnels ou
imprévisibles.
Indices : On distingue deux types d’indices : les indices simples portant sur une seule
grandeur et les indices synthétiques portant sur des grandeurs complexes de même nature.
Si les grandeurs sont de natures différentes, les indices sont ainsi nommés indices
composites. Les indices ont été conçus pour effectuer des comparaisons sur des variables
économiques mesurables. Ils synthétisent en un seul nombre les modifications affectant un
ensemble de variables.
Un indice synthétique : un indicateur de tendance centrale d’une distribution d’indices

simples. Les indices synthétiques sont souvent des moyennes d’indices simples, moyenne
arithmétique pour l’indice de Laspeyres, moyenne harmonique pour l’indice de Paasche
Variation absolue d’une Grandeur G de la date 0 à la date t : la différence entre la

valeur finale et la valeur initiale.
Variation relative : une variation relative d’une Grandeur G de la date 0 à la date t est le
rapport entre la variation absolue et la valeur initiale de cette grandeur. Le terme de
variation relative est synonyme au taux de variation et au taux de croissance qui peut
éventuellement être positif ou négatif.
Coefficient multiplicateur : quand une grandeur passe de la valeur G0 à la valeur Gt, on

note le coefficient multiplicateur :
|5
}=
|6
Un coefficient > 1 traduit une hausse, par contre un coefficient < 1 traduit une baisse.
Indice de base 1 : Un indice simple ou élémentaire de la grandeur simple G (variable), à la

date t, base 1 à la date 0, est le rapport noté :
|5
~4/6 (|) =
|6
La date 0 est appelée la date de référence et la date t, la date courante.
Indice de base 100 : un indice élémentaire de la grandeur simple G, à la date t, base 100 à
la date 0, est le rapport noté :
|5
~4/6 (|) = ( ) × -
|6
Glossaire 207
Un indice de la valeur : un indice de la valeur d’un panier de n produits à la date t, base

100 à la date 0 est égal à :
n
åP Q
i =1
i
t t
i
~4/6 (B) = n
× -
åP Q
i =1
i
o o
i
Cet indice n’est pas un indice de prix, il mesure à la fois l’évolution des prix et des
quantités consommées
Indice des prix de Laspeyres et de Paasche : dans un indice de prix, seuls les prix varient,
les quantités restent constantes (si les quantités sont celles de l’année de base, nous
calculons ainsi l’indice des prix de Laspeyres et si les quantités sont celles de l’année
courante t, nous calculons l’indice des prix de Paasche).
Indice des quantités de Laspeyres et de Paasche : Dans un indice de quantité, seules les
quantités varient, les prix restent fixes (Si les prix sont ceux de l’année de base, nous
calculons l’indice des quantités de Laspeyres et si les prix sont ceux de l’année courante t,
nous calculons l’indice des quantités de Paasche).
Indice des prix de Laspeyres : On appelle indice des prix de Laspeyres, année t, base 100
l’année 0, l’indice suivant :
n
åQ
i =1
o
i Pi t
Ä4/6 (Å) = n
× -
åQ
i =1
o
i Pio
Il est obtenu en fixant les quantités à l’année de base. L’indice des prix de Laspeyres est la
moyenne arithmétique pondérée des indices élémentaires de prix des biens composant le
panier. Les coefficients de pondération sont relatifs à l’année de base.
Indice des quantités de Laspeyres : On appelle indice des prix de Laspeyres, année t,
base 100 l’année 0, l’indice suivant :
n
åP
i =1
i
o
Qit
Ä4/6 (Ç) = n
× -
åP
i =1
i
o
Q o
i
Il est obtenu en fixant les prix à l’année de base. L’indice des quantités de Laspeyres est la
moyenne arithmétique pondérée des indices élémentaires de quantités des biens composant
Glossaire 208
le panier. Les coefficients de pondération sont relatifs à l’année de base.
Indice des prix Paasche : On appelle indice des prix de Paasche, année t, base 100 l’année
0, l’indice suivant :
n
åQ P
i =1
t
i i
t
Å4/6 (Å) = n
× -
åQ P
i =1
t
i i
o
Il est obtenu en fixant les quantités à l’année courante. L’indice des prix de Paasche est la
moyenne harmonique pondérée des indices élémentaires de prix des biens composant le
panier. Les coefficients de pondération sont relatifs à l’année courante.
Indice des quantités de Paasche : On appelle indice des quantités de Paasche, année t,
base 100 l’année 0, l’indice suivant :
n
åP Q
i =1
i
t t
i
Å4/6 (Ç) = n
× -
åP Q
i =1
i
t o
i
Il est obtenu en fixant les prix à l’année courante. L’indice des quantités de Paasche est la
moyenne harmonique pondérée des indices élémentaires de quantités des biens composant
le panier. Les coefficients de pondération sont relatifs à l’année courante.
Indice de Fisher : il est défini comme étant la moyenne géométrique des indices de
Laspeyres et de Paasche.
- Pour les prix : Ft / 0 ( P ) = Lt / o ( P ) ´ Pt / o ( P )

- Pour les quantités : Ft / 0 (Q ) = Lt / o (Q ) ´ Pt / o (Q )
L’indice de Fisher est toujours compris entre l’indice de Paasche et celui de Laspeyres,
puisqu’il est leur moyenne géométrique.
.
Statistique pour économistes et gestionnaires
Cet ouvrage est disponible gratuitement sur la plateforme Classroom avec le code : l4yyrnw sur
la plateforme Moodle de l’université Ibn Tofail et dans ResearchGate.

Statisticsbook IlhamELHARAOUI

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Statisticsbook IlhamELHARAOUI

Transféré par

Droits d'auteur :

Formats disponibles

Statistique pour Economistes et Gestionnaires

Avec exercices et QCM corrigés

Cover designed by Aya Amira Irgui

Trying to make it simple and enjoyable

Chapitre 1 : Introduction et concepts de base de la statistique descriptive 1

Chapitre 2 : Présentation des données sous forme de tableaux et de graphiques 11

Chapitre 3 : Indicateurs statistiques 32

Chapitre 4 : Statistique descriptive bivariée 81

Chapitre 5 : Régression linéaire simple 98

Chapitre 6 : Séries chronologiques 122

Chapitre 7 : Indices simples et synthétiques 156

Questions à Choix Multiples QCM corrigées 175

1. A quoi peut servir la statistique descriptive ?

1. A quoi peut servir la statistique descriptive ?

2. Définition de la statistique et des statistiques

3. Domaines d’application de la statistique

4. Etapes d’une étude statistique

4.1 Problématique et objectifs

4.2 Planning de l’étude

4.3 Collecte de données

4.4 Analyse des données

4.5 Présentation des résultats

4.6 Prise de décision

o Population : un ensemble d’éléments (au sens mathématique) considéré dans une

6. Variables qualitatives et variables quantitatives

Pour une variable qualitative, on distingue deux types :

Pour une variable quantitative, on distingue deux types :

Répartition des voitures par modèle

4. La variable statistique (caractère) : le modèle (qualitative nominale).

Répartition des étudiants selon l’option du BAC

Option du Bac Nombre d’étudiants

§ Les unités statistiques ou individus : étudiants.

1. Effectif, effectif total & fréquence

Pour présenter et résumer des données (qualitatives ou quantitatives) sous forme de

1. Effectif, effectif total & fréquence

La fréquence relative *100 = fréquence en pourcentage

2. Présentation des données qualitatives

Répartition des employés d’une entreprise X

Présentation des données sous forme de graphiques

§ Un diagramme à barres (à bandes/à tuyaux d’orgue) associe une bande verticale à

§ Un diagramme à secteurs circulaire (diagramme circulaire) est un graphique qui

Répartition des employés d’une entreprise X

Répartition des employés d’une entreprise X

Exemples de commentaires sur les données :

56; 0,75% 109; 1,45% 500; 6,65%

Répartition des employés d’une entreprise X

Appréciation d’un Fréquence Fréquence Fréquence

Présentation des données sous forme de graphiques

Répartition des consommateurs

Répartition des consommateurs

Diagrammes en barres multiples :

60" 45" Femmes&

Répartition des employés d’une entreprise X

Répartition des employés d’une entreprise X

Diagrammes en barres multiples :

Sciences Economiques Sciences Experimentales Sciences Mathématiques

Répartition des nouveaux étudiants inscrits

Diagrammes en barres multiples :

2021 2022 2023

Répartition des nouveaux étudiants inscrits

Données qualitatives Données quantitatives

Méthodes tabulaires Méthodes graphiques

1. Effectif 1. Diagramme en barres